Analiza danych z roku na rok staje się coraz większym wyzwaniem. W 2025 roku do Internetu będzie podłączonych 80 miliardów urządzeń, co pozwoli wygenerować 180 bilionów gigabajtów nowych danych rocznie, wynika z najnowszego raportu IDC. Taka liczba danych może stanowić dla wielu firm poważny problem – wynika z obserwacji firmy TogetherData.

W większości firm już dziś ilość nieuporządkowanych danych osiąga niespotykany wcześniej poziom. Z badania sporządzonego przez Enterprise Strategy Group (ESG), wynika, że 47 proc. organizacji zadeklarowało, iż nieustrukturyzowane dane stanowią ponad połowę z posiadanych informacji. Co ciekawe aż 46 proc. badanych określiło dynamikę wzrostu liczby nieuporządkowanych danych na 20 proc. rocznie.

Większość organizacji agreguje zbierane przez siebie dane w kilkunastu albo nawet kilkudziesięciu różnych systemach, platformach, a nawet nośnikach pamięci masowej. To rozproszenie wprowadza niespotykany dotąd chaos. Wyszukiwanie informacji często trwa nie dni, a tygodnie, co oczywiście niesie ze sobą dodatkowe koszty. Z roku na rok liczba danych wzrasta, a problemy się powiększają – mówi Michał Grams, Prezes Zarządu TogetherData.

Z analizy przeprowadzonej przez firmę TogetherData wynika, iż największym problemem polskich firm w przypadku korzystania z dużych zbiorów danych jest brak umiejętności zarządzania, wykorzystywania pełnej wydajności, zabezpieczenia zbiorów oraz monetyzacji danych. Odnotowano, iż ponad połowa firm wciąż wykorzystuje technologię tzw. hurtowni danych, które gromadzą informacje w plikach i folderach, co znacznie wydłuża i komplikuje proces porządkowania danych.

Rozwiązaniem problemu strukturyzacji danych jest korzystanie z tzw. data lakes – jezior danych. Pozwala to na szybką oraz bardzo zaawansowaną analizę danych nie tylko archiwalnych, ale również tych, które generowane są w czasie rzeczywistym. Popyt na technologie jezior danych zaczyna rosnąć, z naszych obserwacji wynika, iż coraz więcej firm zaczyna się interesować tą technologią – dodaje Michał Grams.

Rok 2018 będzie należał do tzw. data lakes. W stosunku do ubiegłego roku aż o 27 proc. więcej firm ankietowanych przez firmę Synscrot uważa integrowanie danych w „jeziora danych” za istotne. Data lakes stanowią swoiste repozytorium, gdzie przechowywana jest ogromna ilość jeszcze nieprzetworzonych danych. W przeciwieństwie do hurtowni danych w „jeziorach” stosuję płaską niezhierarchizowaną strukturę.

 

Obecnie firmy dysponują zettabajtami danych, które zostały zgromadzone w stosunkowo szybkim tempie. Z szacunków IBM wynika, iż 90 procent z nich zostało wygenerowanych w ciągu ostatnich 3 lat. Opublikowane w tym roku badanie przeprowadzone przez firmę AtScale pokazało, iż pomimo postępów dokonanych w dziedzinie analityki danych, globalne przedsiębiorstwa wciąż nie osiągnęły dostatecznego poziomu dojrzałości w tej kwestii. Jedynie 12 procent spośród ponad 5 tys. firm biorących udział w badaniu osiągnęło wysoki poziom dojrzałości technologicznej w przypadku analizy dużych zbiorów danych.

źródło: TogetherData