scrapeBook

Livro sobre Web Scraping em R.

Estrutura que pensamos até agora:

Abertura

Quem somos
Conteúdo
Quando usar web scraping
Quando não usar web scraping

Identify

Introdução
Encontrar o que você quer

Browse

Inspect
HTML
CSS

Replicate

Request (protocolo HTTP)
Response
Network
GET e POST
httr
JSON/XML

Parse

rvest
html node (css path e xpath)
httr
xml2

Validate

Event validation e view state (asp)
Páginas jsp
Hackear a URL
Evitar armadilhas (catpchas, etc)

Iterate

Armazenando dados
Tibble
Paralelização e distribuição ? Blacklist e barragem de requisição (IPs elásticos e proxys) ? Processo de bidding da amazon (EC2 spot)

Revalidate

Interatividade
- JS (V8, etc)
- Selenium, phantom
- RMouse
Captchas
- Modelos ad hoc
- Modelos keras
- decryptr