Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Portal da transparência - São Paulo/SP #7

Closed
brunolellis opened this issue Apr 13, 2018 · 11 comments
Closed

Portal da transparência - São Paulo/SP #7

brunolellis opened this issue Apr 13, 2018 · 11 comments

Comments

@brunolellis
Copy link
Contributor

brunolellis commented Apr 13, 2018

A cidade de São Paulo disponibiliza os dados de compras e licitações no Portal da Transparência nos formatos csv, xls e ods desde 2005.
Link: http://transparencia.prefeitura.sp.gov.br/contas/Paginas/ComprasLicitacoes.aspx

Estou criando esta issue apenas para documentar e avaliar qual seria a melhor opção para armazenar um dado mais estruturado (comparando com os pdfs das demais cidades).

@Irio
Copy link
Contributor

Irio commented Apr 18, 2018

@brunolellis Esses arquivos apresentam as mesmas informações que o Diário Oficial? É atualizado com a mesma frequência?

@brunolellis
Copy link
Contributor Author

@Irio, olhando com mais detalhes, tenho a impressão que todas as licitações estão descritas no arquivo csv.
Não consegui descobrir a periodicidade de divulgação. Pelo nome do arquivo, creio que seja mensal: Extrato de Contrato - Janeiro_2016 a Março_2018.csv

Obs: não trabalho nessa área de órgãos públicos e nem tenho experiência nesta área, portanto posso estar completamente errado nas considerações.

@brunolellis
Copy link
Contributor Author

O download do pdf de cada DO pode ser bem mais trabalhoso, pois não existe (não encontrei) um pdf contendo todas as páginas do DO.

O que existe é 1 arquivo pdf para cada página do DO daquele dia. Ou seja, no dia 20/4/2018, o DO possui 142 páginas e, portanto, 142 pdfs. 😮

@w1pereira
Copy link

w1pereira commented Apr 28, 2018

Complementando a informação sobre o download do PDF ser restrito por página, encontrei um padrão na publicação dos arquivos, o que pode ajudar na coleta. Este padrão foi encontrado somente nos DO's publicados a partir de 30/01/2018.

ex.: diário oficial (cidade) do dia 27/04/2018

http://diariooficial.imprensaoficial.com.br/doflash/prototipo/ 2018 / Abril / 27 / cidade / pdf / pg_0001.pdf
http://diariooficial.imprensaoficial.com.br/doflash/prototipo/2018/Abril/27/cidade/pdf/pg_0002.pdf
http://diariooficial.imprensaoficial.com.br/doflash/prototipo/2018/Abril/27/cidade/pdf/pg_0003.pdf
...

Já o número de páginas pode ser coletado nesta página (pode ser que tenha em outra página da Imprensa Oficial, mas não encontrei):

http://diariooficial.imprensaoficial.com.br/nav_v4/index.asp?c=1&e= 20180427 &p=1

@alfakini alfakini mentioned this issue May 24, 2018
@alfakini
Copy link
Contributor

@Irio Você acha que é uma boa abordagem seguirmos pegando o diário oficial mas concatenar todas as páginas em um único PDF?

@JaTvoiRabotnik
Copy link

@williamcspereira , esse formato funcionava ano passado tambem. O fato que so da pra pegar diarios desse ano me faz concluir que a imprensa oficial anda deletando os PDFs.

@cuducos
Copy link
Contributor

cuducos commented Jul 26, 2018

Você acha que é uma boa abordagem seguirmos pegando o diário oficial mas concatenar todas as páginas em um único PDF?

Acho válido, @alfakini. Mas não necessário. Como uma Gazette (item do Scrapy) aceita uma lista de arquivos, acho que podemos guardar os originais (1 PDF por página) e só fazer o merge no processamento do pdftotext (quando transformamos PDF em texto puro).

@jvanz jvanz added this to the Capital cities milestone Jun 21, 2020
@nfraprado
Copy link
Contributor

I was surprised to see that São Paulo still didn't have a spider done. Is someone already working on that or is it free for grabs?

The census already has this Diário Oficial page mapped.

From what I understood from the discussion in this issue, there's also another page that shows a lot of information (although perhaps not all of it) already in the csv format. That said, accessing the page now, shows that its last update was on 2019, while the Diário Oficial one keeps being updated everyday, so it is my understanding that we still want to do a spider for the Diário Oficial page and parse the pdfs.

@ogecece
Copy link
Member

ogecece commented Nov 17, 2020

English

@nfraprado go for it :)

About the other page, right now we are focusing strictly on Gazettes. Don't worry about that for now.


Português

@nfraprado pode pegar :)

Sobre a outra página, no momento estamos focando apenas em Diários Oficiais. Não se preocupe com ela por enquanto.

@jvanz
Copy link
Collaborator

jvanz commented Nov 21, 2020

Can we close this issue?

@jvanz
Copy link
Collaborator

jvanz commented Nov 21, 2020

Oh... I just noticed the #380. Closing this one.

@jvanz jvanz closed this as completed Nov 21, 2020
@trevineju trevineju removed this from the Capitais | Capital Cities milestone Oct 10, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

10 participants