Mg Uberlândia [WIP] #37

juniorcarvalho · 2018-05-08T17:21:26Z

Raspagem inicial para Uberlândia-MG

Estou com dificuldade de pegar a data do diário:
https://pt.stackoverflow.com/questions/296567/scrapy-xpath-href-ou-span-dentro-da-div

Pagina inicial do diário: http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id=39

(PS: Este PR corrige o anterior onde fiz junto com mg_belohorizonte)

cuducos · 2018-05-08T17:58:10Z

Atualizando o papo que começou em outro PR (mas sobre Uberlândia), a Prefeitura disse que está de olho! Aguardemos resposta então : )

stefersonferreira · 2018-05-08T19:24:13Z

Pode fazer dessa forma abaixo, to preferindo usar o BeautifulSoup é bem mais simples e resolve perfeitamente.

from bs4 import BeautifulSoup
import scrapy

class MgUberlandia(scrapy.Spider):
name = 'mg_uberlandia'
start_urls = ['http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id=3077']

def parse(self, response):
	soup = BeautifulSoup(response.body_as_unicode())
	a = soup.find_all('a')

	for link in a:
		print(link.get('href'))

juniorcarvalho · 2018-05-08T21:14:52Z

@stefersonferreira consigo o mesmo resultado com o scrapy. O problema que não estou conseguindo pegar a 'data' que fica logo após a tag html (/a)

anapaulagomes · 2018-05-09T15:38:04Z

@juniorcarvalho , dá uma olhada na minha resposta lá no SO.

juniorcarvalho · 2018-05-10T21:45:37Z

Obrigado @anapaulagomes . Depois da uma olhada no código e me de seu feedback. :-)
Agora vou focar na extração dos dados do PDF.

anapaulagomes · 2018-05-13T08:10:37Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+    urls = [
+        'http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id=2649',
+        'http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id=2779',
+        'http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id=3035',


Até agora não consigo acessar o site da prefeitura de Uberlândia. :( Consegue me dizer o que cada página significa?

Cada uma é um ano.

Nesse caso, acho que seria interessante pegar os anos e os links dinamicamente ao invés de deixá-los hardcoded. Se não, quando chegar em 2019, você terá que mexer no código pra atualizar com o novo link. Isso acaba virando muito trabalho para os mantenedores.

Então...a falta de padronização da página que está matando. Por isto optei pelo hardcoded. Uma pena você não está conseguindo acesso para ver. Uma outra possibilidade seria utilizar o 'caminho xpath' tipo '//*[@id="home"]/table/tbody/tr/td[2]/table/tbody/tr[2]/td[1]/p[2]/span/span/a', mas ficaria hardcoded da mesma forma. Vou testar mais opções e ver o que consigo melhorar.

Por que vocês criou essa lista urls ao invés de utilizar apenas o start_urls?
Você faz uma requisição à URL que está dentro do start_urls e simplesmente ignora o seu conteúdo para então mandar as requisições da sua lista urls .

Use apenas o start_urls e faça o que precisa ser feito no parse, assim você economiza requisições.

Essa lista hard-coded de anos não é uma boa ideia, já que como a @anapaulagomes comentou, em 2019 você vai precisar fazer uma alteração novamente no código (considerando que eles apenas vão incluir um novo item na seção de Edições Anteriores).

Nessa URL você consegue obter todos os links necessários de todos os anos:

start_urls = ['http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id=39', ]

@juniorcarvalho , usar um seletor ('//*[@id="home"]/table/tbody/tr/td[2]/table/tbody/tr[2]/td[1]/p[2]/span/span/a') não é tornar o código hard-coded, já que se eles incluirem mais links, isso não iria mudar. Mas nesse seu caso, você realmente está deixando tudo específico demais, por isso parece ser algo hard-coded.

anapaulagomes · 2018-05-13T08:11:33Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+            try:
+                date = dt.datetime.strptime(dates[i], '%d/%m/%Y')
+            except:
+                date = None


Acho que a data é super relevante e não podemos correr o risco dela ser nula. Confere @Irio e @cuducos ?

anapaulagomes · 2018-05-13T08:13:21Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+        for v in variants:
+            url = response.xpath(v).extract()
+            if len(url) > 0:
+                for u in url:


Seria legal nomear as variáveis com nomes mais expressivos. v e u deixam mais difícil ler o código. :)

v de variants e u de url não ? me de uma dica!

O extract() retorna uma lista vazia caso não encontre nada, então não é necessário fazer a checagem do tamanho da lista.

for variant in variants: for url in response.xpath(variant).extract(): pass

Seja explícito no nome das suas variáveis. Nesse caso, como as utilizações de v estão a uma, duas linhas de distância do for, é fácil inferir o que elas significam, mas se o seu bloco tivesse algumas dezenas de linhas, ia ser ruim para entender o que aquela variável quer dizer.

Não tenha medo de digitar um pouco mais e ter uma variável com nome longo mas que seja explicito :-)

anapaulagomes · 2018-05-13T08:14:20Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+                    urls.append(u)
+        return urls
+
+    def list_dates(self, response):


Ficou bacana a implementação! 👍🏽

anapaulagomes · 2018-05-13T08:16:02Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+        variants = ['//p/span/text()',
+                    '//p/span/span/text()',
+                    '//p/text()'
+                    ]


Seria bom dar uma passada no black pra deixar o código bonitinho. Acho que aqui, por exemplo, ficaria assim:

variants = [ '//p/span/text()', '//p/span/span/text()', '//p/text()', ]

rennerocha · 2018-05-16T17:42:06Z

@juniorcarvalho , na página http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id=39 você consegue obter todos os links que você precisa.

Abra ela com o Developer Tools do Firefox (ou Inspector do Chrome):

Você vai perceber que todo o conteúdo (os links) que você precisa estão contidos dentro da <div id="home" class="colunaConteudo"></div>

No Scrapy você consegue buscar informações usando selectores em CSS (https://doc.scrapy.org/en/latest/topics/selectors.html#selectors)

Nesse caso, se você quiser obter o selector dessa div, você pode fazer:
selector = response.css('#home')

Dentro do Developer Tools você pode ver que os links que você quer, estão todos dentro de alguma <table>, então para obter todos os <a> que estão dentro de uma <table> dentro do <div id="home">, você pode fazer:
selector = response.css('#home table a')

Como te interessa apenas os hrefs:
urls = response.css('#home table a::attr(href)').extract()

Agora você tem a lista das URLs desta página. Algumas são links para download e outras são links para as outras páginas dos anos anteriores. Agora só fazer os requests das páginas de ano e retornar os items das páginas de download.

juniorcarvalho · 2018-05-17T17:59:18Z

@rennerocha @anapaulagomes obrigado pelas dicas! fiz as alterações.

rennerocha · 2018-05-17T18:23:07Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+
+    def parse(self, response):
+        urls = response.css(
+            "#home table[align*=right] td[style*=vertical-align] a::attr(href)"


Eu não gosto de definir seletores usando informações de alinhamento. Caso eles mudem levemente a página e comecem a usar uma classe para alinhamento ao invés do align (o que seria o certo, por sinal :-) ), seu spider quebra. Sempre prefira usar o id do elemento (que é menos provável que mude com o tempo) ou uma classe que tenha algum sentido semântico (nesse caso não existe).

Ao invés, você pode pegar todos os links dessa página e filtrar só os que te interessam:
urls = response.css('#home table a::attr(href)').extract()

Nesse caso você só quer as URLs do seguinte formato:
http://www.uberlandia.mg.gov.br/?pagina=Conteudo&id={ALGUM_NUMERO}

Porém existem URLs desse formato:
http://www.uberlandia.mg.gov.br/uploads/cms_b_arquivos/19147.pdf

Como o padrão é bem claro, você pode filtrar nessa lista só as que estão no formato que você quer. Uma ideia seria usar uma regex para filtrar isso (https://doc.scrapy.org/en/latest/topics/selectors.html#using-selectors-with-regular-expressions):
urls = response.css('#home table a::attr(href)').re('.*Conteudo.*')

Aqui você tem a lista de todas as URLs que você realmente quer trabalhar nesta página.

rennerocha · 2018-05-17T18:28:29Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+        urls = response.css(
+            "#home table[align*=right] td[style*=vertical-align] a::attr(href)"
+        ).extract()
+        urls = self.last_four_years(urls)


Eu não tentaria filtrar por data nesse momento. Você está pegando as 4 primeiras URLs, mas quem garante que elas realmente são dos últimos 4 anos?
Estamos vendo de fazer a filtragem por data de outra maneira (veja #39 e #23), então acho que não faz nenhum mal deixar o spider pegar tudo o que encontrar por enquanto.

rennerocha · 2018-05-17T18:33:46Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+            )
+        return items
+
+    def links_months(self, response):


Seletores muito específicos dentro de um HTML são ruins, já que qualquer pequena mudança na tela (por exemplo, um ser removido) faz com que ele pare de funcionar.

Abra o Developer Tools na página e dê uma analisada no HTML. Nesse caso por exemplo, dentro da div com id="home", os únicos links são aqueles que você precisa. Então ao invés de fazer essa função toda, você pode simplesmente pegar todas as tags a dentro da div:

response.css('#home a::attr(href)').extract()

Assim você pode excluir essa função inteira e você diminui a necessidade de manutenção futura.

rennerocha · 2018-05-17T18:41:53Z

processing/data_collection/gazette/spiders/mg_uberlandia.py

+                urls_return.append(url)
+        return urls_return
+
+    def list_dates(self, response):


O mesmo comentário que fiz no seu método links_months, vale para esse. Não use seletores tão específicos.

Assim você obtém os blocos de cada uma das edições:
edicoes = response.css('#home div')

Que seria isso por exemplo:

<div> <strong><a href="http://www.uberlandia.mg.gov.br/uploads/cms_b_arquivos/13792.pdf" target="_blank">Edição 4754</a></strong> - 21/10/2015</div>

Aqui você tem o link do download E a data da edição.

Você pode iterar nesses seletores e obter as informações que precisa:

for edicao in edicoes: url = edicao.css('a::attr(href)').extract_first() data = re.findall("\d{2}/\d{2}/\d{4}", edicao.extract()) # Ou edicao.re("\d{2}/\d{2}/\d{4}")

giovanisleite · 2018-05-30T01:17:54Z

Don't forget to update the cities.md

jvanz · 2019-12-06T21:56:22Z

@juniorcarvalho are you working on this? :)

rafaelhfreitas · 2019-12-09T11:57:47Z

@juniorcarvalho precisa de alguma ajuda com o trabalho ? Esse final de semana, fiz o fork para começar a implementação e fiz a parte inicial de buscar os links dos arquivos. A sua implementação já esta bem adiantada.

rafaelhfreitas · 2020-07-08T16:42:19Z

Boa tarde pessoal. estou retomando essa atividade.

Já fiz o levantamento das paginas que o spider deverá utilizar para fazer a raspagem.

https://www.uberlandia.mg.gov.br/prefeitura/orgaos-municipais/procuradoria-geral-do-municipio/diario-oficial-uberlandia/diario-oficial-anos-anteriores/

https://www.uberlandia.mg.gov.br/2020/07/?post_type=diariooficial

Mas estou em dúvida em como deixar a execução de forma que ele sempre busque o que foi incrementado no portal e não baixe todos os diários novamente.
Usando os demais como exemplo, eu percebi que os outros diários o método parse gera um objeto do tipo Gazette.
Preciso me preocupar com isso ? O Spider poder rodar qts vezes quizer ? Os dados armazenados serão apagados e recriados a cada nova execução ?

Dúvida já sanada.

http://jvanz.com/como-funciona-o-robozinho-do-serenata-que-baixa-os-diarios-oficiais.html#como-funciona-o-robozinho-do-serenata-que-baixa-os-diarios-oficiais

rafaelhfreitas · 2020-07-09T20:34:08Z

Boa tarde pessoal.

Precisando de ajuda na tarefa.

Seguinte estou usando o shell do scrapy para testar meus seletores que irei utilizar no spider.
Mas estou tendo problemas para pegar somente os elementos solicitados.
Pelo meu entendimento o response.css do scrapy é um seletor que trabalha em cima da classe de css dos elementos.
Mas quando utilizo ele, estou recebendo uma lista vazia.

Com xpath, consegui filtrar apenas os elementos a da pagina, mas havia outros elementos que não eram do diário e não consegui filtrar eles.

Vi que é possível aplicar uma expressão regular ao css.
Estou tentando utilizar response.css('li.a::href').re(r'https://www.uberlandia\w*')
mas estou recebendo um erro:

cuducos · 2020-07-09T20:48:42Z

//div/ul/li/a no xpath e li.a no seletor CSS querem dizer coisas diferentes. O primeiro diz todo nó a dentro de um nó li dentro de um nó ul dentro de um nó div. O segundo diz todo nó li com a classe a.

rafaelhfreitas · 2020-07-09T20:52:40Z

Consegui uma forma. Tava fazendo trabalho de iniciante mesmo.

rafaelhfreitas · 2020-07-09T20:54:59Z

//div/ul/li/a no xpath e li.a no seletor CSS querem dizer coisas diferentes. O primeiro diz todo nó a dentro de um nó li dentro de um nó ul dentro de um nó div. O segundo diz todo nó li com a classe a.

Obrigado pelo retorno, agora que vi aqui sua resposta Eduardo. Mas era coisa de noob mesmo, vlw pela explicação.

jaswdr · 2021-07-18T12:25:59Z

@rafaelhfreitas pensa em continuar essa PR ainda?

rafaelhfreitas · 2021-07-19T12:06:53Z

Bom dia.

Penso sim, até me inscrevi no curso que esta sendo oferecido agora em agosto para finalizar o spider.

rafaelhfreitas · 2021-10-07T23:28:37Z

Atividade retornada, já fiz um novo fork e estou vendo as aulas do @giuliocc na escola de dados para entregar a primeira contruibuição com o projeto !

rennerocha · 2022-06-28T01:59:23Z

Closing stale PR.

juniorcarvalho added 7 commits April 26, 2018 13:52

bh

4cde718

mg-belo-horizonte

23502b4

settings

0003f7e

mg_uberlandia initial

e8b43d8

mg_uberlandia-work in progress

06360e7

mg_uberlandia initial (WP)

21b1756

mg_uberlandia (WIP)

05b6479

final code scrapy mg_uberlandia

d50cf72

final code scrapy mg_uberlandia

e715a45

anapaulagomes reviewed May 13, 2018

View reviewed changes

refactored code

6933cf5

rennerocha reviewed May 17, 2018

View reviewed changes

alfakini mentioned this pull request May 24, 2018

Cities #48

Closed

Irio added the work in progress label May 31, 2018

jvanz changed the base branch from master to main August 12, 2020 01:47

rennerocha force-pushed the main branch from 3238838 to 62c25ad Compare April 28, 2022 03:58

rennerocha closed this Jun 28, 2022

Mg Uberlândia [WIP] #37

Mg Uberlândia [WIP] #37

Conversation

juniorcarvalho commented May 8, 2018

cuducos commented May 8, 2018

stefersonferreira commented May 8, 2018

juniorcarvalho commented May 8, 2018 • edited

anapaulagomes commented May 9, 2018

juniorcarvalho commented May 10, 2018

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

juniorcarvalho May 16, 2018 • edited

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

rennerocha commented May 16, 2018

juniorcarvalho commented May 17, 2018

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

giovanisleite commented May 30, 2018

jvanz commented Dec 6, 2019

rafaelhfreitas commented Dec 9, 2019

rafaelhfreitas commented Jul 8, 2020 • edited

rafaelhfreitas commented Jul 9, 2020 • edited

cuducos commented Jul 9, 2020

rafaelhfreitas commented Jul 9, 2020 • edited

rafaelhfreitas commented Jul 9, 2020

jaswdr commented Jul 18, 2021

rafaelhfreitas commented Jul 19, 2021

rafaelhfreitas commented Oct 7, 2021

rennerocha commented Jun 28, 2022

juniorcarvalho commented May 8, 2018 •

edited

juniorcarvalho May 16, 2018 •

edited

rafaelhfreitas commented Jul 8, 2020 •

edited

rafaelhfreitas commented Jul 9, 2020 •

edited

rafaelhfreitas commented Jul 9, 2020 •

edited