Skip to content

turicas/transparencia-gov-br

develop
Switch branches/tags
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Scraper do Portal da Transparência do Governo Federal

Instalando

pyenv virtualenv 3.7.3 transparencia-gov-br
pyenv activate transparencia-gov-br
pip install -r requirements.txt

Rodando

Todos os spiders:

./run.sh

Apenas um spider:

./run.sh <nome-do-spider>

Nota: consule os nomes dos spiders disponíveis em transparenciagovbr/spiders/.

Pode ser interessante rodar algum script de extração fora de um spider (por limitações do scrapy). Veja os scripts disponíveis na pasta scripts e execute-os com o parâmetro --help para ver as opções disponíveis.

Importando no PostgreSQL

Antes, instale as dependências, rode os spiders e crie uma varíavel com a URI de conexão com o banco:

pip install psycopg2-binary tqdm
./run.sh
export POSTGRESQL_URI="postgres://usuario:senha@host:porta/banco"

Depois, execute o script para importar todas as tabelas:

./import-postgresql.sh

Ou apenas a tabela de um spider específico:

./import-postgresql.sh <nome-do-spider>

Nota: consule os nomes dos spiders disponíveis em transparenciagovbr/spiders/.

About

Scraper do Portal da Transparência do Governo Federal, em Python 3

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Sponsor this project

Packages

No packages published