Skip to content
Repositório do curso "Como revelar o que está escondido à vista de todos"
Jupyter Notebook
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
raspatribunais_stf Add files via upload Nov 22, 2019
raspatribunais_stj Add files via upload Nov 21, 2019
raspatribunais_tjgo
raspatribunais_tjsp Add files via upload Nov 21, 2019
D2HXHPZXQAAvXcI.jpg Add files via upload Nov 20, 2019
Monty-Python-foot.jpg Add files via upload Nov 20, 2019
README.md
quebra_captcha.ipynb
requirements.txt Add files via upload Nov 21, 2019

README.md

Coda2019

Repositório do curso "Como revelar o que está escondido à vista de todos"

A Associação Brasileira de Jornalismo Investigativo (Abraji) vai lançar no começo de 2020 a fase 2 do Publique-se. O banco de dados para pesquisas de processos judiciais nos quais políticos brasileiros aparecem como partes vai passar a incluir tribunais de todos os Estados brasileiros, incluindo os de primeira instância. Com base nessa experiência, será oferecido um workshop introdutório sobre a raspagem de dados no Judiciário brasileiro, com o uso de Python 3.

Vamos mostrar as limitações e possibilidades para automatizar pesquisas em tribunais e a coleta de informações processuais. Iremos também usar bibliotecas e módulos como requests, beautifulsoup, soupsieve e selenium webdriver para acessar a busca processual nos tribunais e a posterior geração de CSV com os resultados estruturados.

Por Juliana Fonteles e Reinaldo Chaves

O que é necessário instalar primeiro?

Python!

Python

Atenção: existe Python 2 e Python 3, usamos a versão 3 mais recente
Mas no Windows 10 descobri que a versão 3.7.5 é mais estável com selenium e instala as bibliotecas sem erro, recomendo esta versão no Windows

Link de Instalação do Python3

Lembre do PATH
 Ao instalar o Python sempre lembre de marcar a opção PATH: algo como, "Add Python 3 to PATH"
Repositório da aula
 O mais indicado depois a fazer é clicar no botão "Clone or download" e fazer o "Download ZIP" de todo material da aula
 Você pode descompactar o zip em uma pasta de sua preferência
 Abra o cmd ou terminal e entre nesta pasta, onde está o arquivo requirements.txt

Demais bibliotecas a serem utilizadas:

No cmd ou terminal digite
pip3 install -U -r requirements.txt

Também lembre

Lembre que, se você usar MacOS e Linux, terá ao mesmo tempo Python2 e Python3. Então deverá instalar com o pip3
Para instalar o pip3 no Ubuntu ou Debian Linux sudo apt-get install python3-pip
Para instalar no Fedora sudo yum install python3-pip

Chromedriver

O Chromedriver é o driver que vai permitir o selenium controlar o navegador Google Chrome
Baixe a versão correspondente ao seu sistema operacional e a sua versão do Chrome
Depois descompacte o arquivo chromedriver e salve numa pasta de sua escolha
Anote o local que salvou este arquivo - você vai usar isso nos programas com selenium

Você pode baixar aqui

Geckodriver

O geckodriver é o driver que vai permitir o selenium controlar o navegador Mozilla
Baixe a versão correspondente ao seu sistema operacional e a sua versão do Mozilla
Depois descompacte o arquivo geckodriver.exe e salve numa pasta de sua escolha
Anote o local que salvou este arquivo - você vai usar isso nos programas com selenium
O selenium funciona melhor em algumas ocasiões com o geckodriver

Você pode baixar aqui

Local de instalação do Chrome

Você também vai precisar saber onde está instalado seu navegador Chrome em sua máquina
No Windows devem estar em (C:\Program Files (x86)\Google\Chrome\Application\) ou (C:\Users\UserName\AppData\Local\Google\Chrome\Application)
No Mac deve estar em Users/<username>/Library/Application Support/Google/Chrome/Default
No Linux basta digitar no Terminal para saber: whereis google-chrome

Materiais de apoio

Você também está recebendo na camaradagem:

A apresentação da aula
Um guia jurídico rápido
Material sobre boas práticas de raspagem de dados
Material sobre o uso do Postman para entender o tráfego de um site
Aprenda mais com curso da Abraji

Avisos importantes

Situação em novembro de 2019: o raspador do STJ ainda está em melhorias, os dados precisam ser bem checados antes de publicar (como tudo no jornalismo...)

Situação em novembro de 2019: e o raspador do TJ-SP parou de funcionar porque o tribunal colocou um Recaptcha V3 - fica mais para didatismo esse exemplo

Mas antes disso a Abraji conseguiu atualizar a base do Ctrl+x para o TJ-SP. Veja mais

No time Toulouse!

Você já pode começar a estudar os códigos!
No cmd ou terminal vá onde está o arquivo requirements.txt e digiter: jupyter lab
Será aberto o Jupyter Lab, ambiente para você ver e executar scripts
Abra ou crie os arquivos que desejar e namastê!

Python

Dúvidas de raspagem?

Escreva no Fórum brasileiro de jornalismo de dados - ambiente para troca de informações da comunidade brasileira

Acesse aqui

Fun fact: as imagens são por causa do Monty Python’s Flying Circus, inspiração do Guido van Rossum

You can’t perform that action at this time.