Switch branches/tags
Nothing to show
Find file History
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
..
Failed to load latest commit information.
README.md

README.md

Pakiet rvest, czyli web scrapingu wybrane przypadki

Bartosz Sękiewicz, HTA Consulting

Opis warsztatu

Celem warsztatu jest pokazanie z jakimi problemami możemy spotkać się podczas scrapowania stron www przy użyciu pakietu rvest. Warsztat pozwoli uczestnikom na uświadomienie sobie tego jak różnorodne mogą być strony internetowe (w kontekście ich konstrukcji). Dzięki poznaniu niuansów związanych z web scrapingiem możliwe będzie zaoszczędzenie w przyszłości sporej ilości czasu i nerwów. Z uwagi na ograniczoną ilość czasu pominiemy temat scrapowania stron obsługiwanych przez skrypty JS (wymaga to zastosowania dodatkowego oprogramowania jak PhantomJS, lub innego typu webscrapera jak RSelenium).

Plan warsztatu

Podczas spotkania postaramy się rozwiązać problemy z pobieraniem danych ze stron zaproponowanych przez uczestników. Skupimy się na trzech aspektach:

  1. piękno języka css, czyli wyciąganie informacji z kodu strony (m.in. tagi, klasy, id, rodzice i dzieci, sąsiedzi);
  2. komunikacja ze stronami oraz nawigacja po nich (m.in. formularze, POST i GET);
  3. API, czyli jak zaoszczędzić sobie czas (niestety nie zawsze jest to prawdziwe).

Wymagane pakiety

rvest (wystarczy zapoznanie się z opisem pakietu i jego zrozumienie, https://github.com/hadley/rvest)

Wymagane od uczestników umiejętności i wiedza

Podstawowa znajomość html, css. Mile widziana znajomość wyrażeń regularnych.

Wymagania wstępne do wykonania przed warsztatem

Przesłanie co najmniej trzech propozycji stron, którymi uczestnik byłby zainteresowany pod kątem web scrapingu. W zależności od przesłanych propozycji być może będzie konieczne założenie konta developerskiego dla wybranych serwisów (np. facebook, google).

Język warsztatu

polski