Switch branches/tags
Nothing to show
Find file History
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
..
Failed to load latest commit information.
README.md

README.md

Web scraping w R i nie tylko

Magdalena Mazurek, Koło Naukowe Data Science

Opis warsztatu

Celem warsztatu jest zaprezentowanie możliwości pakietu RSelenium. Przedstawienie krótko jego wad oraz zalet. Uczestnicy z warsztatów dowiedzą się jak scrapować informacje ze stron internetowych wykorzystujących javascript oraz czemu warto przy tym używać zewnętrznej aplikacji PhantomJS.

Plan warsztatu

Warsztaty rozpoczniemy od zaznajomienia uczestników z zasadą działania RSelenium oraz czym różni się od pakietu rvest. Zaczniemy od korzystania z RSelenium z użyciem klasycznej przeglądrki. W pierwszej kolejności zajmiemy się krótko scrapowaniem stron statycznych, niekorzystajacych z javascriptu jako prezentacja, że tradycyjne scrapowanie jest również możliwe, powiemy jednak czemu jest to nieefektywne. Następnie przejdziemy do części głównej, tj. scrapwowania stron korzystajacych z javascriptu, powiemy w tym miejscu czemu RSelenium jest możliwe do wykonywania tego. Na próbnej stronie pokażemy w jaki sposób korzystamy z pakietu. Na koniec powiemy o możliwości użycia aplikacji PhaontomJS.

Wymagane pakiety

RSelenium

Wymagane od uczestników umiejętności i wiedza

Podstawowa znajomość R i HTML.

Wymagania wstępne do wykonania przed warsztatem

Instalacja aplikacji PhantomJS, najnowszej wersji Java

Język warsztatu

polski