Polityka obsługi "cookies" na stronach UW
Projekt realizowany przez Uniwersytet Warszawski
Strona głównaOfertaNauka & TechnikaText mining i web scrapping w R

Text mining i web scrapping w R

Dane kursu

Numer kursu: B/2797
Dziedzina wiedzy: Nauka & Technika
Liczba godzin: 30
Jednostki
odpowiedzialne:
Wydział Nauk Ekonomicznych
Autorzy kursu: mgr Piotr Ćwiakowski
mgr Wojciech Hardy
mgr Karol Partyka
Rodzaj zajęć: laboratoria

Grupy

Numer grupy:B/2797/1
Trymestr:III/2016/2017
Prowadzący:mgr Piotr Ćwiakowski
mgr Wojciech Hardy
mgr Karol Partyka
Cena:400.00 zł
Terminy: od 13-05-2017 do 24-06-2017
Lokalizacja:Ul.Długa
Zajęcia: zwiń
lp.datarozpoczęciezakończenieprzerwa
113-05-2017
sobota
10:0014:0015
220-05-2017
sobota
10:0014:0015
327-05-2017
sobota
10:0014:0015
403-06-2017
sobota
15:3019:3015
510-06-2017
sobota
15:3019:3015
624-06-2017
sobota
10:0014:0015

Opis kursu

Dane tekstowe, w tym wypowiedzi z serwisów społecznościowych (Facebook, Twitter), wiadomości SMS, wypowiedzi na forach są coraz częściej wykorzystywanym źródłem informacji. Umiejętność pozyskiwania, przetwarzania i analizy tych danych jest cenioną i pożądaną na rynku pracy umiejętnością – przydatną w analizach sentymentu, badaniach marketingowych, socjologicznych, konsumenckich – lub szerzej – społecznych.

Kurs prowadzony jest od podstaw. Wiedza teoretyczna wykładana jest w sposób intuicyjny i praktyczny. Na zajęciach Słuchacz poznaje i stosuje w praktyce techniki pozyskiwania informacji ze stron internetowych (web scraping) i wyciągania z nich wniosków (text mining). Oprócz tego Słuchacz uczy się programować w popularnym środowisku informatycznym R. Wcześniejsza znajomość języka R nie jest wymagana.

Szczegółowy harmonogram zajęć:

  1. Wprowadzenie do środowiska R:
    • podstawy języka R,
    • obiekty i typy danych w R,
    • składnia poleceń,
    • zaawansowane przetwarzanie danych (data.table).
  2. Operacje na danych tekstowych:
    • funkcje tekstowe,
    • działanie na wyrażeniach regularnych,
    • analiza wpisów z serwisów społecznościowych.
  3. Zaawansowane zastosowania analizy danych tekstowych w R:
    • zaawansowane reprezentacje tekstu,
    • wykrywanie Spamu,
    • analiza logów oraz ustrukturyzowanego tekstu,
    • rozpoznawanie wartości emocjonalnej tekstów (analiza sentymentu).
  4. Badanie podobieństwa tekstów:
    • zaawansowane miary podobieństwa tekstów,
    • rozpoznawanie opisów aukcyjnych,
    • tagowanie artykułów.
  5. Web scraping – zautomatyzowane pobieranie treści z sieci:
    • web scraping i nomenklatura,
    • netykieta,
    • struktura treści w sieci (podstawowe formaty).
  6. Web scraping – nawigowanie na stronach wymagających uwierzytelniania:
    • przeglądanie zawartości stron,
    • logowanie,
    • korzystanie z API.

 

Analizowane teksty w znaczącej części będą w języku angielskim.

Cel ogólny

Zapoznanie Słuchaczy z narzędziami statystycznymi i informatycznymi służącymi do pozyskiwania, obróbki i statystycznej analizy danych tekstowych. Kurs kładzie nacisk na nauczenie praktycznego wykorzystywania wymienionych metod, dlatego wszystkie zajęcia będą odbywały się w formie interaktywnych warsztatów, w sali komputerowej.

Cele szczegółowe

  • nauka programu R jako uniwersalnego środowiska do statystycznej analizy danych,
  • poznanie najlepszych pakietów do obsługi danych tekstowych (pakiet stringr, lubridate) i eksploracyjnej analizy danych (dplyr, tidyr),
  • poznanie zaawansowanych modeli text-miningowych w praktycznych zastosowaniach,
  • nabycie przez Słuchaczy umiejętności interpretacji wyników analizy text mining,
  • poznanie przez Słuchaczy algorytmów do pozyskiwania treści ze stron internetowych, m. in. serwisów społecznościowych - Facebook, Twitter.

Korzyści dla słuchacza

Słuchacz:

  • uzyskał umiejętności posługiwania się nowoczesnymi technikami do analizy danych nieustrukturyzowanych,
  • zna i potrafi budować zaawansowane modele text miningowe,
  • potrafi wykorzystać narzędzia informatyczne do pozyskiwania informacji ze stron internetowych i serwisów społecznościowych (web scraping).

Metody pracy

  • wykład (prezentacja zagadnień teoretycznych i ich przedstawienie w praktyce, w programie R),
  • praca własna Słuchaczy w laboratorium komputerowym (rozwiązywanie zadań pod kierunkiem Wykładowcy i wspólne analizowanie wyników).

Metody weryfikacji efektów kształcenia

Egzamin (dla chętnych), ciągła ocena nabytej wiedzy i umiejętności poprzez rozwiązywanie zadań podczas zajęć, ankiety.



do góry ↑