IBM analizuje wydźwięk opinii podczas ŚDM

Już 26 lipca w Krakowie spotkają się pielgrzymi z całego świata. Uroczystości – również z udziałem Papieża Franciszka – potrwają do 31 lipca br. W tym czasie Polskę, a w szczególności Małopolskę, odwiedzą setki tysięcy osób, udających się na spotkania i pielgrzymki w ramach Światowych Dni Młodzieży. Jak młodzi goście z zagranicy widzą Kraków, Polskę i Polaków? Co najbardziej ich zaskakuje? A co najbardziej im się podoba? Co jest dla nich ważne?

By odpowiedzieć na te pytania, Laboratorium Oprogramowania IBM w Krakowie przeanalizuje posty w mediach społecznościowych, opinie uczestników i przy pomocy oprogramowania analitycznego wyciągnie z tego strumienia danych najważniejsze wnioski. Codziennie, od 26 lipca, zespół analityków IBM będzie podsumowywać informacje płynące z sieci.

Analiza wydźwięku opinii wykorzystuje zaawansowane algorytmy eksploracji danych oraz technologie przetwarzania języka naturalnego. Umożliwia analizę dużych ilości informacji w mediach społecznościowych, aby badać opinię publiczną. Analiza wydźwięku pozwala identyfikować oraz mierzyć pozytywne, negatywne i neutralne opinie udostępniane na forach publicznych takich jak Twitter, Facebook, blogi, tablice ogłoszeń w Internecie oraz w innych mediach społecznościowych. Analiza Światowych Dni Młodzieży (World Youth Days) obejmuje swoim zasięgiem dane z serwisów społecznościowych Twitter oraz Facebook. Więcej informacji dotyczących rozwiązań IBM Business Analytics znajduje się na: www.ibm.com/analytics

Skąd płyną dane?

By przeanalizować informacje na temat Światowych Dni Młodzieży organizowanych w Krakowie, skupiliśmy się na danych dostępnych na Twitterze i Facebooku. Posty będą agregowane przy pomocy udostępnionych przez serwisy społecznościowe publicznych API – zarówno Twitter, jak i Facebook (Graph Api) pozwalają na łatwe przetwarzanie interesujących nas informacji.

Do wyszukiwania i pobierania danych napisaliśmy prostą aplikację node.js z wykorzystaniem platformy IBM Cloud.

Przy użyciu wybranych narzędzi oraz zebranych danych, algorytmy mogą wykonać następujące akcje:

analizę danych geolokalizacyjnych (skąd piszą osoby zainteresowane Światowymi Dniami Młodzieży, które miejsca i atrakcje Krakowa są najbardziej popularne wśród pielgrzymów)
analizę tekstu (o czym piszą osoby zainteresowane ŚDM )
analizę wydźwięku (czy przeważa nastawienie pozytywnie, neutralnie, czy też negatywnie do ŚDM)
statystykę opisową (jak duże jest zainteresowanie ŚDM, w jakich językach piszą Polacy, które z języków, krajów, miast są najbardziej popularne)

Przykłady:

1. „Word Cloud” w kształcie lajkonika przy użyciu Jupyter Notebook

2. Tweety w różnych językach w czasie, z naniesionymi chmurami wyrażeń przy użyciu SPSS Modeler Plus Jupyter Notebook

Rysunek 1. „Word Cloud” w kształcie lajkonika przy użyciu Jupyter Notebook. Widać mocną sekcję hiszpańskojęzyczną (#jmj_es = Jornada Mundial de la Juventud), ogólny hashtag #wyd czy pielgrzymów z USA #wydusa

Rysunek 2. Tweets per język w czasie z naniesionymi chmurami wyrażeń przy użyciu SPSS Modeler plus Jupyter Notebook. Dokładnie widać na przykład moment ogłoszenia zawartości pakietu pielgrzyma, widzimy też, że coraz więcej tweetów pojawia się w języku polskim.

Jak to działa – opis techniczny

Dane w oryginalnym formacie (json) po pobraniu z serwisów społecznościowych, są zapisywane w bazie danych Cloudant (NoSQL Cloud DB). W kolejnym kroku dane w formacie json sa konwertowane do relacyjnej bazy danych (SQL) DashDB (Cloud Data Warehouse for Analytics). Zarówno Cloudant jak i DashDB są dostępne na platformie bluemix i łatwo integrowalne z naszą aplikacją. Na tym etapie nasze dane są już dostępne do dalszej analizy.

Platforma Bluemix oraz produkty z grupy IBM SPSS dostarczają nam szeroki zestaw narzędzi do analizy danych. W przypadku analizy danych dotyczących Światowych Dni Młodzieży zdecydowaliśmy się na użycie SPSS Modelera z Text Analytics, Apache Spark z Jupyter Notebooks oraz Node-RED na platformie Bluemix. Zamiast komponentu do analizy wydźwięku (Node-RED), możemy również użyć dedykowanego serwisu Watson Tone Analyzer. Jako język programowania wybraliśmy pythona, zarówno dla Jupyter Notebooks, jak i SPSS Modelera. Dodatkowo skorzystaliśmy z nastepujących bibliotek pythonowych i rozszerzeń do SPSS Modelera:

biblioteki pythonowe do wizualizacji: seaborn, plotly, wordcloud
rozszerzenia do SPSS Modelera: googleMaps

Pełny schemat analizy:

źródło: IBM

Kan

IBM analizuje wydźwięk opinii podczas ŚDM

Udostępnij ten artykuł na:

Podobne wpisy

LG Electronics prezetnuje nowe rozwiązania opracowane we współpracy z Google dla branży motoryzacyjnej

WhatsApp wprowadza tryb incognito z Meta AI: całkowicie poufny sposób komunikacji z AI

LG Electronics wprowadza energooszczędny wyświetlacz „LG E-Paper Display” do zastosowań komercyjnych

LG Electronics wprowadza Sports Playbook na telewizory LG Smart TV, zmieniając sposób oglądania sportu

Harman Kardon SoundSticks 5 Wi-Fi – ikoniczny design i nowoczesne strumieniowanie dźwięku

Pancerny smartfon może nas kosztować nawet 53% mniej, niż klasyczny telefon

Zostaw komentarz Anuluj pisanie odpowiedzi