Duże dane (Big Data)

Nauka rozwijana w oparciu o intensywne wykorzystanie danych w naturalny sposób buduje efekt synergii z ekstremalno-skalowym przetwarzaniem obliczeniowym. Wzajemne oddziaływania obydwu obszarów warunkują przełomowe osiągnięcia w przyszłości. Z jednej strony podstawą jest zbieranie wielkich zbiorów danych i zarządzanie nimi,  a także ich analizowanie. Zaś po drugiej stronie dane takie (po analizie i ewentualnej redukcji) są niezbędne jako wielkości wejściowe do podlegających ekstremalnym wymaganiom (czas realizacji, w tym czas do rozwiązania) wielkoskalowych symulacji obliczeniowych. Koncepcja stworzenia w ramach Centrum Kompetencji infrastruktury systemów dla potrzeb wielkoskalowych danych uwzględnia zarówno nowego typu zoptymalizowane struktury przechowywania danych oraz ich udostępniania dla potrzeb analiz i przetwarzania, jak i opracowanie podstaw takich analiz i zasad przetwarzania dla wybranych obszarów tematycznych (np. dla danych bioinformatycznych, medycznych, meteorologicznych, kosmologicznych).

W perspektywie do roku 2018 spodziewane typowe zasoby danych wymagających intensywnego przetwarzania, zapewniające konkurencyjność oraz wartościowe wyniki,  osiągną skalę od kilku do kilkudziesięciu PetaBajtów. Dla przetwarzania danych tej skali, w ramach czasowych pozwalających uzyskać rezultaty o znaczeniu dla nauki, gospodarki oraz biznesu, barierę stanowią obecne  możliwości techniczne oraz dostępna wydajność i pojemność systemów składowania. Ponadto krytyczną funkcjonalnością wymaganą dla przetwarzania w tej skali jest dostępność danych dla wszystkich podsystemów przetwarzania w sposób maksymalnie zlokalizowany.

   
               
   

Analiza danych

Wymagania technologii masowego zbierania danych, gdzie dopływ nowych danych jest intensywny w czasie i cechuje się wielkimi rozmiarami zbiorów, narzucają też konieczność efektywnego procesu redukcji jako istotnego elementu analiz. O ile pojedyncze analizy takiego rodzaju mogą nie być nadmiernie obciążające, to ich wymagana równoczesność będzie prowadzić do krytycznych obciążeń kanałów komunikacji. Wyzwaniem jest też skala złożoności konfiguracji sprzętowych, które muszą zapewnić niezawodność procesów analizy Wielkoskalowych Danych i ich przetwarzania.

   

Przetwarzanie danych

Efektem racjonalizacji procesów obróbki wielkoskalowych danych będzie  łączna realizacja wszystkich etapów, prowadząca do opracowania nowych przepływów danych (workflows). Poziom obróbki danych, tak wysokowymiarowych, jak też czasoprzestrzennych, możliwy dziś do realizacji obejmuje zbiory o wielkości rzędu petabajtów. Szczególną pozycję zajmują pod tym względem zbiory danych tworzone na drodze czaso-przestrzennej akwizycji wizualnej, gdzie  procesy analizy i przetwarzania obejmują dane przetwarzane bezpośrednio w pamięci operacyjnej.

 Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Rozwoju Regionalnego