Strona główna Newsy Aktualności Ile V jest w Big Data? Jakie są cechy Big Data? Ile V jest w Big Data? Jakie są cechy Big Data? 30 lipca 2015 Co to jest Big Data? Nie trudno znaleźć w Internecie jedną z kilku definicji, ale trudniej o faktyczne zrozumienie co kryje się za pojawiającymi się w niej determinantami. Volume, Variety, Velocity. Value – te cechy listowane są w powiazaniu z Big Data najczęściej. Jak można je odszyfrować i co więcej: jakie znaczenia mają dla biznesu? Czy 4V wyczerpują definicję Wielkich Danych? Czy rzeczywiście odróżniają Big Data od tego, co Big Data nie jest? Volume (Wielkość) Wielkość jest tym elementem, który przy definiowaniu Big Data pojawia się jako pierwszy. Przyjęło się, że gdy miarą wielkości są gigabajty to prawdopodobnie nie mamy do czynienia z terminem Big Data, a pojawia się ono gdy dotrzemy do poziomu tera – czy petabajtów. Wielkość to również główny katalizator bariery z powodu której tradycyjne systemy zarządzania relacyjnymi bazami danych (RDBMS czyli hurtownie danych, jakie znamy obecnie) nie radzą sobie z Big Data. Podłożem tego problemu jest powikłany związek kosztów, dostępności, czasu trwania zapytania i niezdolności do uporania się z nowymi źródłami nieustrukturyzowanych danych. Korporacjom duże ilości danych nie są obce. Już w latach 80-tych UPS rozpoczął gromadzenie informacji generowanych podczas procesów logistycznych związanych z obsługą przesyłek. Ich liczba sięgająca ponad 16 mln dziennie generuje ponad 16 PB danych. Amerykański potentat rynku retail Wal-Mart odnotowuje ponad milion transakcji na godzinę, generujących ponad 2,5 PB danych. Podobny poziom wielkości baz danych deklaruje 17% z ankietowanych przez Instytut Gartnera firm, a kolejne 22% określa wielkość swoich zasobów informacyjnych, jako będące na poziomie setek terabajtów. Co więc jest nowego w zarządzaniu terabajtami danych, skoro prawie 40% firm już to robi? Cóż, innowacyjne w Big Data jest podejście pozwalające na analizę tych wielkich wolumenów danych w połączeniu z nieustrukturyzowanymi źródłami. Variety (Różnorodność) Różnorodność jest terminem, którego używamy do określenia wielorakości formatów informacji. To równocześnie cecha, która nie pozwala na przechowywanie ich w strukturalnych bazach danych. Dotyczy to długiej listy obejmującej m.in.: dokumenty tekstowe, maile, wiadomości z kanałów social media, pliki video, audio czy graficzne i wszelkiego rodzaju dane końcowe generowane przez urządzenia IoT (internet of things) czyli sensory, tagi RFID, logi, zapisy sygnałów GPS, etc. Zaklasyfikowanie ich jako dane nieustrukturyzowane nie oznacza, że nie posiadają żadnej struktury. Niemniej nie pasują do żadnej tradycyjnej bazy danych, nie mogą być także elementem relacyjnego modelu danych. A przyrastają wykładniczo i wg niektórych źródeł stanowią obecnie ponad 90% wszystkich danych zgromadzonych przez biznes. Różnorodność to również termin, jakim określamy źródła danych, zarówno wewnątrz jak i poza organizacją. Co zmieniło się dzięki Big Data to świadomość, iż ich analiza może naświetlić nowe pola i perspektywy uprzednio przez biznes nie zauważone. Różnorodność rodzi dwa wyzwania. Pierwsze to efektywne i wydajne przechowanie i przetwarzania tych danych. Drugim jest skojarzenie i zestawienie informacji z różnorodnych źródeł tak by wszelkie posiadane dane dotyczące jednego zdarzenia mógł być spójnie wyciągnięte i przeanalizowane W końcu należy wspomnieć o powiązaniu pomiędzy wielkością a różnorodnością. Dane niestrukturalne – jak można się domyślić patrząc na ich źródła – przyrastają znaczenie szybciej niż dane strukturalne. Wg Instytutu Gertnera ich ilość podwaja się co 3 miesiące. Szanse biznesowe więc jakie niesie za sobą wykorzystanie różnorodności danych jest języczkiem u wagi inicjatyw związanych z Big Data. Jak wspomniano wyżej, firmy od dawna gromadzą wielkie ilości danych w celach analiz, jednak to możliwość zestawienia ich z insightami i wiedzą ukrytą w nieustrukturyzowanych danych otwiera nowy rozdział analityki biznesowej. Velocity (Szybkość) Analitycy, by określić status danych stosują m.in. terminy „data-at-rest” (dane nieaktywne) oraz „data-at-motion” (dane aktywne). Szybkość to cecha, którą przypisujemy tym drugim. Przykładem takich danych jest strumień odczytów z senosora umieszczonego w instalacji inteligentnego domu czy historia logów strony internetowej wraz z listą klików konkretnego jej usera. Nieprzerwane strumienie takich informacji należy przechwycić, zgromadzić i podać obróbce. Zachowanie ich spójności i kompletność to jedno z wyzwań. Zmatchowanie tych danych z odpowiednimi wydarzeniami w świetle ich różnorodności – to kolejne. Szybkość pozwala też określić prędkość reakcji czyli czy informacja przechwycona została w czasie pozwalającym na jej wykorzystanie czy też opóźnienie czyni ją bezużyteczną. Ten element ma charakter indywidualny w wymiarze danych. Czy zachowują swoją istotność analityczną permanentnie czy też „starzeją” się z perspektywy analityki i tracą swą wartość? Zrozumienie tego wymiary danych i Velocity w odniesieniu do zbiorów danych które firm przechowuje jest istotne dla ich analizy i pozwala uniknąć wielu błędów. Trzecim wymiarem szybkości w odniesieniu do danych jest prędkość z jaką musza być przechowywane i pobierane. To jeden z głównych determinantów magazynów NoSQL, zapytań doń i procesów analitycznych, z którymi firma musi się uporać. Coraz większa jest wśród odbiorców świadomość, iż każdorazowe odwiedziny na portalach o rozbudowanym contencie, jak strony www popularnych dzienników gospodarczych czy portale lifestylowe reklamy, związane są z obcowanie z zestawem reklam przygotowanych specjalnie dla unikalnego użytkownika. U jego podstaw leży dogłębna analiza aktualnie przeglądanych stron, historia poprzednich odwiedzin na danym portalu czy wybranych wizyt w innych adresach. Ta wydawałoby się bezużyteczna pulpa obserwacji przechowywana jest w NoSQL bazach danych i poddawana analizie by optymalnie dobrać zestaw komunikatów. Podobny mechanizm kryje się za rekomendacjami w portalach aukcyjnych czy rozbudowanych e-sklepach. Architektura przechwytywania, analiz i wdrażania efektów musi wspierać proces zachodzący w czasie rzeczywistym (w tym wypadku ułamki sekund) i wobec tysięcy nowych użytkowników na minutę. Real Time Big Data Analytics (RTBDA) – to obecnie największe wyzwania z jakim Big Data musi się uporać. Co jednak w tym wymiarze zmieniło się dzięki Big Data ? Strumień informacji zawsze płyną wartko, jednak zdolność do jego uchwycenia (choćby w częściowym wymiarze) i wykorzystania w czasie (prawie)rzeczywistym to narzędzie, które biznes może zastosować i stosuje. Wartość (Value) Choć wartość wymienia się jednym ciągiem obok powyższych trzech V, wpływ tej cechy na faktyczne odróżnienie Big Data od „prawie Big Data” jest najbardziej dyskusyjny. W przypadku obu bowiem wysiłek związany z przechowywaniem i przetwarzaniem danych jest celowo powiązany z ich wartością biznesową. Big Data jednak jest postrzegane jako ten zakres informacji który ma kluczowe znaczenie dla organizacji i tym samym wyróżniający się w relacji kosztów do zysków. Prawdą jest, że o ile uprzednio firmy posiadały i przetwarzały informacji dotyczące segmentów i grup klientów, obecnie ten sam a nawet większy zakres wiedzy w wymiarze pojedynczego klienta pozwala im na personalizowanie oferty skracającej i przyspieszającej proces dostarczenia wartości końcowemu odbiorcy. Innym wyróżnikiem w zakresie wartości Big Data może być fakt, iż ten typ informacji rzeczywisty potencjał ekonomiczny posiada tylko w powiazaniu ze swoim wolumenem. W świetle wiec relacji do kosztów utrzymania takich danych dopiero zmiany technologiczne i spadek cen storage’u umożliwia wyzwolenie potencjału Big Data. Plus kolejne V Do powyższej listy determinantów Big Data często dodaje się kolejne. Większość z nich związanych jest z najbardziej problematycznym elementem wartości. I podobnie jak on, mogą być użyte jako cecha zakresu informacji, ale nie jako unikalna cech wyróżniająca Big Data Veracity (Wiarygodność): Jakie jest pochodzenia naszych informacji? Czy ich źródło jest autentyczne i miarodajne? W świetle wartości danych i kosztów procesów z nimi związanych odpowiedź na te pytania jest fundamentalna. Variability (Zmienność): Zmienność w odniesieniu do Big Data określamy jako nieregularność w czasie, co w odniesiniu do wartości danych implikuje pytania o ich zgodność i dostępność czy jednolitość z wydarzeniem do którego się odnoszą. Gdzie leży granica faktycznej przekładalności wnioskowania a „szumu” generowanego przez wielkość analizowanych informacji? Viscosity (Lepkość): Termin ten jest często używany do określenia przesunięć w czasie danych w stosunku do zdarzeń do których się odnoszą i zestawiany jest z charakterystyką szybkości danych. Virality (Rozprzestrzenianie): Definiowana przez niektórych, jako właściwość z jaką dane się rozpowszechniają i zostają przypisane do innych zdarzeń czy użytkowników. Jak każda nowość i Big Data przechodzi okres kształtowania i definiowania, a z czasem uwspólni swoje postrzegania i wejdzie do nomenklatury biznesowej i technologicznej. Czy w jego definiowaniu zachowana zostanie powyższa lista cech czy też ulegnie ona zmianie – nie jest to istotne. Ważny jest biznesowy aspekt i korzyści jakie firmy mogą osiągnąć dzięki wykorzystaniu Big Data. Jest ono bowiem zawsze interesujące, ale bez biznesowych implikacji jest tylko interesujące. Zobacz też... 10 grudnia 2024 Beyond.pl wyróżniony przez Biuro Obsługi Inwestorów w Poznaniu 5 grudnia 2024 Beyond.pl dzieli się zrównoważonymi praktykami w podcaście „O technologii na głos” 30 października 2024 Beyond.pl ponownie nagrodzony za działania CSR w plebiscycie Złota Setka Wielkopolski