W wielu przypadkach nie zdajemy sobie sprawy jak często korzystamy z AI na co dzień, chociażby wyszukując informacje w internecie lub prosząc asystenta w naszych telefonach komórkowych o sprawdzenie pogody. 

Jeśli jednak dopiero stawiasz swoje pierwsze kroki w branży lub chciałbyś rozpocząć w niej swoją karierę, ten tekst jest dla ciebie. W tym artykule przedstawimy 5 pojęć związanych z zagadnieniami zarządzania danych, sztucznej inteligencji oraz uczenia maszynowego, które poszerzą twoją wiedzę oraz pozwolą jeszcze lepiej je zrozumieć.

Pierwszym zagadnieniem nad jakim chcemy się pochylić jest pojęcie algorytmu. Czym on jest? Definicję z pewnością znasz. To ciąg określonych czynności, które prowadzą do rozwiązania danego problemu w skończonej liczbie kroków. Wyróżniamy kilka rodzajów algorytmów, ale bardziej szczegółowo omówimy dwa z nich.

  • Pierwszym jest algorytm genetyczny (eng. genetic algorithm), który pozwala na znalezienie najlepszego rozwiązania problemów opierając się na założeniach doboru naturalnego i biologii ewolucyjnej. Do poszukiwania rozwiązań, algorytm genetyczny wykorzystuje techniki takie jak mutacja, dziedziczenie, selekcja i rekombinacja. Jest to algorytm, który bardzo przydaje się do przeszukiwania obszernych zbiorów danych.
  • Drugim, ciekawym rodzajem algorytmu, który jest algorytm YOLO (eng. You Only Look Once), za pomocą którego możliwa jest identyfikacja obrazów dynamicznych w czasie rzeczywistym. Jest to jedna z najpopularniejszych i najbardziej skutecznych metod wykrywania obiektów.

 

Przejdźmy teraz do tematyki danych i pojęcia jeziora danych (eng. data lake). Jest to depozytorium, przechowujące ogromne ilości nieprzetworzonych danych w ich oryginalnym formacie. To, czym wyróżnia się jezioro danych to zdecydowanie płaska architektura ich przechowywania. Każdy element znajdujący się w zbiorze ma przypisany unikalny identyfikator i jest oznaczony pewnym zbiorem metadanych. Gdy pojawia się zapytanie, repozytorium jest przeszukiwane z uwzględnieniem określonych informacji. Następnie, wyodrębniony zostaje pewien zestaw danych, który następnie zostaje poddany analizie, co z kolei ma doprowadzić do rozwiązania określonego problemu. Działanie jeziora danych jest zupełnie różne od hurtowni danych (eng. data warehouse), której głównym celem jest konsolidacja i centralizacja danych pochodzących z różnych źródeł. Używa się jej zazwyczaj do przeprowadzania analizy danych biznesowych, ponieważ umożliwia ona przedsiębiorstwom wyodrębnianie konkretnych danych, które następnie pomagają im w podejmowaniu decyzji. Istnieje jednak także mechanizm, dzięki któremu można z łatwością manipulować zebranymi danymi. Nazywa się go zatruwaniem danych (eng. data poisoning). Jest to sabotowane, celowe działanie, mające na celu zmanipulowanie zestawu danych w taki sposób, aby model oparty na uczeniu maszynowym dawał błędne przewidywania. Przykładem zatruwania danych może być, na przykład, rozpoznawanie spamu jako wiadomości, która ma trafić do skrzynki głównej.

Na koniec jeszcze jedno zagadnienie związane z uczeniem maszynowym. Deep learning to proces, w którym komputer uczy się niektórych zadań, które charakterystyczne są dla ludzkiego mózgu, np. rozpoznawania mowy czy obrazów. Urządzenie, zamiast typowego organizowania danych zbiera je, a następnie na ich podstawie prowadzi proces samodzielnego uczenia się.