Livro sobre Web Scraping em R.
Estrutura que pensamos até agora:
- Abertura
- Quem somos
- Conteúdo
- Quando usar web scraping
- Quando não usar web scraping
- Identify
- Introdução
- Encontrar o que você quer
- Browse
- Inspect
- HTML
- CSS
- Replicate
- Request (protocolo HTTP)
- Response
- Network
- GET e POST
- httr
- JSON/XML
- Parse
- rvest
- html node (css path e xpath)
- httr
- xml2
- Validate
- Event validation e view state (asp)
- Páginas jsp
- Hackear a URL
- Evitar armadilhas (catpchas, etc)
- Iterate
- Armazenando dados
- Tibble
- Paralelização e distribuição ? Blacklist e barragem de requisição (IPs elásticos e proxys) ? Processo de bidding da amazon (EC2 spot)
- Revalidate
- Interatividade
- JS (V8, etc)
- Selenium, phantom
- RMouse
- Captchas
- Modelos ad hoc
- Modelos keras
- decryptr