Jak wydajnie przetwarzać Big Data? - NAWA

Używamy plików cookies, aby pomóc w personalizacji treści, dostosowywać i analizować reklamy oraz zapewnić bezpieczne korzystanie ze strony. Kontynuując, wyrażasz zgodę na gromadzenie przez nas informacji. Szczegóły znajdziesz w zakładce: Polityka prywatności.

Na to pytanie szuka odpowiedzi w swoich badaniach dr hab. inż. Robert Wrembel, prof. Politechniki Poznańskiej, stypendysta NAWA  w ramach Programu im. Bekkera.

Dr hab. inż. Robert Wrembel, prof. Politechniki Poznańskiej, laureat Programu im. Bekkera, w ramach stypendium NAWA zaangażowany był w projekt opracowania technik wydajnego przetwarzania dużych wolumenów danych różnorodnych z punktu widzenia modeli i struktur (tzw. big data). Dzięki tej pracy będzie można łatwiej i szybciej integrować i analizować duże zbiory danych. Badacz odbywał staż naukowy na Politechnice Katalońskiej w Hiszpanii (Universitat Politècnica de Catalunya – BarcelonaTech).

 

Czym zajmuje się dziedzina Data Science, która leży w zakresie Pana zainteresowań naukowych?

Dr hab. inż. Robert Wrembel, prof. Politechniki Poznańskiej: Prawie 30 lat temu nauka i biznes wprowadziły termin On Line Analytical Processing (OLAP) odnoszący się do podstawowych technik analizy danych gromadzonych w firmach. Techniki te przykładowo obejmowały analizy trendów sprzedaży w przeszłości i ich predykcję prostymi metodami matematycznymi na przyszłość. Z czasem, opracowano bardziej zaawansowane techniki analizy danych, m.in. eksploracji danych (ang. data mining), analizy szeregów czasowych, analizy w oknie przesuwnym. W konsekwencji powstał zbiór technologii do analizy danych zwany Business Intelligence (BI).

Kolejne rozszerzenia dotyczą stosowania algorytmów uczenia maszynowego (ang. machine learning - ML) w analizie danych. Algorytmy te aktualnie stosuje się na danych nie tylko prostych (o strukturze rekordów w tabeli), ale także na danych znacznie bardziej złożonych (np. tekstach, grafach). Algorytmy ML umożliwiają budowanie złożonych modeli reprezentujących trendy, modeli predykcji czy umożliwiających rozumienie tekstów (np. budowanie podsumowań, ocenę sentymentu). Złożone dane wymagają wstępnego ich przygotowania do przetwarzania algorytmami ML. To przetwarzanie, a następnie analiza danych, zazwyczaj są złożone (w zależności od dziedziny zastosowań i rodzaju danych) i jest realizowane w specjalnych architekturach obejmujących oprogramowanie i sprzęt komputerowy.

Świat Data Science nazywa te architektury przetwarzania jako Data Processing Pipelines (DPPs). Wprowadzony tu termin Data Science odnosi się zarówno do technik przygotowania danych do analizy, jak i samych technik analizy danych (np. wspomnianych algorytmów budowania modeli predykcji). Zatem, podsumowując, Data Science obejmuje zbiór technologii (oprogramowania, architektur przetwarzania danych, algorytmów) umożliwiających zaawansowaną analizę danych różnych typów w celu odkrywania nieoczywistych modeli i zależności między danymi.

 

Jakie badania prowadził Pan w ramach stypendium NAWA?

Projekt dotyczył opracowania technik wydajnego przetwarzania dużych wolumenów danych różnorodnych z punktu widzenia modeli i struktur (tzw. big data). Grupa naukowa, w której pracowałem, od lat zajmuje się właśnie tymi zagadnieniami i jest uznana w świecie.

W ramach projektu, w szczególności zajmowałem się opracowaniem: technik odkrywania tzw. metadanych ze źródeł, które takich danych bezpośrednio nie udostępniają; algorytmów optymalizacji procesów wstępnego przygotowania danych; uogólnionej architektury dla przetwarzania danych przez Data Science.

Każde z ww. zadań zostało zrealizowane, a jego wyniki zostały opublikowane. Ponadto, ze współpracownikami opublikowaliśmy dwa artykuły przeglądowe dotyczące aktualnego stanu technologii w obszarze inżynierii danych ze wskazaniem otwartych problemów badawczych.

 

W jaki sposób zastosowanie technologii inżynierii danych, czyli zaawansowanych technologii baz danych i technik zarządzania danymi, może usprawnić przetwarzanie danych?

Z przetwarzaniem danych wiążą się dwa podstawowe problemy. Po pierwsze, aktualnie przetwarza się dane o wielorakich strukturach - od prostych danych tabelarycznych do złożonych grafów; są to tzw. dane heterogeniczne. Aby możliwa była analiza tych danych, należy je zintegrować, tj. ujednolicić ich postać, usunąć błędy i dane zduplikowane. Są to podstawowe zadania technik Data Science. Niestety, automatycznie często tych zadań nie da się zrealizować, ze względu na trudność problemu. Z tego względu, problematyka integracji danych jest nadal jedną z ważniejszych w obszarze inżynierii danych. Opracowanie technik w pełni automatycznego integrowania danych o dowolnych strukturach znacznie skróciłoby czas, jaki naukowcy danych (ang. data scientists) poświęcają na integrowanie danych. Należy podkreślić (na podstawie dostępnych opracowań), że od około 50% do około 80% czasu w projekcie data science jest przeznaczanych na przygotowanie danych.

Proces integrowania, wstępnego przygotowania i analizy danych powinien być wspierany technologiami baz danych. Dzięki temu, możliwe będzie zagwarantowanie współdzielenia danych przez zespoły naukowców danych, zwiększenie wydajności przetwarzania - dzięki wykorzystaniu mechanizmów optymalizacyjnych w samej bazie danych, zapewnienie bezpieczeństwa danych - dzięki mechanizmowi archiwizowania i odtwarzania po awarii dostępnemu w każdym systemie zarządzania bazą danych, autoryzacja dostępu do danych. Niestety, naukowcy danych często nie wykorzystują dostępnych technologii inżynierii danych, co zmniejsza efektywność ich pracy. W ramach projektu podjęliśmy ten problem, opracowując nową architekturę przetwarzania danych dla Data Science.

Drugim problemem w obszarze przetwarzania danych jest sama wydajność procesów integrowania i analizy danych. Pomimo ponad 30 lat prac nad optymalizacją procesów integracji danych, problem ten jest nadal otwarty. Zapewnienie wydajności tych procesów jest kluczowe w architekturach integracji danych tradycyjnych (architektura data warehouse) i big data (architektura data lake). Procesy te muszą się wykonać w ściśle określonym oknie czasowym, w zastosowaniach typowych - około 8-godzinnym. W przeciwnym przypadku, dane albo w ogóle nie będą dostępne, albo będą dostępne dane zbyt stare. W ramach projektu zaproponowaliśmy pewne techniki, które mogą skrócić czas działania procesów integracji danych.

 

Jak stypendium NAWA wpłynęło na Pana rozwój naukowy?

Mierzalnym wynikiem naukowym jest siedem publikacji na konferencjach i w czasopismach międzynarodowych, które opublikowałem z ośmioma naukowcami z zagranicy. Najważniejsze są dla mnie dwie korzyści ze zrealizowanego projektu. Po pierwsze - zacieśnienie współpracy z zespołem ESSI. Po drugie - zidentyfikowanie tematyki wspólnych prac badawczych z zespołem ESSI. Gdyby nie pandemia, właśnie teraz realizowałbym te prace w czasie kolejnego pobytu w Barcelonie; prace będą kontynuowane po pandemii.

Ponadto, efektem dodatkowym pobytu w Barcelonie jest podniesienie mojego poziomu znajomości języka hiszpańskiego do C1 (potwierdzonego egzaminem i certyfikatem Universitat de Barcelona).

 

Jeśli miałby Pan zachęcić innych naukowców do udziału w Programie im. Bekkera, to jaka jest największa wartość z pobytu na stypendium NAWA?

Moim zdaniem granty NAWA, a w szczególności Program im. Bekkera, są doskonałym uzupełnieniem grantów NCN. Otrzymane stypendium umożliwiło mi zrealizowanie projektu naukowego w uznanej w świecie grupie naukowców; i co najważniejsze, zajmującej się dokładnie tymi samymi badaniami naukowymi co ja. Procedura aplikacyjna jest rozsądna i raczej standardowa (jak o inne granty krajowe); przygotowanie wniosku zajęło mi dwa tygodnie. Ogromną wartością grantów NAWA w Programie im. Bekkera jest możliwość finansowania pobytu zagranicznego. Stawki są takie, że umożliwiają normalne (czyli takie jak osób, z którymi współpracowałem) życie za granicą. Ponadto, procedura rozliczenia grantu jest bardzo czytelna i niezbiurokratyzowana. Zrealizowanie badań zgodnie z założonym planem, wsparte kilkoma dobrymi publikacjami, umożliwia rozliczenie grantu. Na koniec, cały zespół NAWA jest niezwykle pomocny i przyjazny. W moim przypadku, wszelkie pytania i wątpliwości były wyjaśniane błyskawicznie.

Dziękujemy za rozmowę.

 

robert wrembel portrait 2017 10 13 medium

Dr hab. inż. Robert Wrembel jest profesorem nadzwyczajnym Wydziału Informatyki Politechniki Poznańskiej. W latach 2008-2012 piastował na tej uczelni stanowisko prodziekana ds. kształcenia, a w latach 2012-2016 - prodziekana ds. współpracy z przemysłem. W latach 1998-2005 był wykładowcą w Centrum Edukacyjnym Oracle Polska. Odbywał zagraniczne staże naukowe m.in. w Universitat Politècnica de Catalunya (Hiszpania), Université Lyon 2 (Francja), Targit (Stany Zjednoczone), Universidad de Costa Rica (Kostaryka). Ukończył 2-miesięczny kurs przedsiębiorczości na Stanford University.

 

Jak dostać grant NAWA w ramach Programu im. Bekkera? 

Szczegółowe informacje o programie NAWA znajdują się TUTAJ

 

Zdjęcie: archwium prywatne dr. hab. inż. R. Wrembla, prof. PP.

Udostępnij