# Criando um rastreador de notícias com Python 3

Algumas páginas da web disponibilizam acesso aos seus dados por meio de APIs. O Twitter, por exemplo, disponibiliza uma API que possibilita coletar dados públicos da plataforma, tornando possível a criação de diversas aplicações utilizando esses dados <a href="https://github.com/twitterdev/search-tweets-python">[1]</a>. Por outro lado, grande parte dos *sites* na internet não fornecem esse tipo de serviço. Uma solução para isto são os **Web Crawlers**. Um *Web Crawler* pode ser definido como um vasculhador web automatizado, ou seja, ele é um programa que serve para navegar na internet de maneira sistemática. Outros nomes utilizados são *Web Scrapers*, *Scrapers*, *Crawlers* e *Spiders*. Eles são utilizados principalmente para coletar dados, rastrear links, entre outras aplicações <a href="https://pt.wikipedia.org/wiki/Rastreador_web">[2]</a>. Neste tutorial aprenderemos a criar um *Web Crawler* para buscar notícias site Campo Grande News. 

Se você conseguiu chegar até aqui e está lendo este *notebook* do *jupyter* localmente, é muito provável que voce já seguiu os passos descritos no *readme* deste repositório e está com o ambiente preparado para começar o trabalho. Então vamos lá!

## Importando os módulos que serão utilizados

**Links para a documentação dos módulos:**

- <a href="https://requests.readthedocs.io/pt_BR/latest/user/quickstart.html">Python Requests [3]</a>

- <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup [4]</a>



In [1]:
from bs4 import BeautifulSoup # módulo para ajudar a manipular código HTML e XML
import requests # módulo para realizar requisições HTTP com python

### Hello World do Web Crawling

Vamos iniciar com um exemplo básico. No código abaixo, estamos solicitando a página inicial do site de notícias Campo Grande News.

In [2]:
response = requests.get('https://www.campograndenews.com.br/')

In [6]:
print(response.text)

<!doctype html><html
lang="pt-br"><head> <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
            new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
            j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
            'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
            })(window,document,'script','dataLayer','GTM-N7LMFMJ');</script> <meta
charset="utf-8" /><meta
name="language" content="pt-BR" /><meta
name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no" /><meta
name="robots" content="index,follow" /><meta
name="format-detection" content="telephone=no" /><link
rel="dns-prefetch" href="//cdnjs.cloudflare.com" /><link
rel="dns-prefetch" href="//ajax.googleapis.com" /><link
rel="dns-prefetch" href="//www.googletagmanager.com" /><link
rel="dns-prefetch" href="//f088b146830a59b5.cdn.gocache.net" /><link
rel="preconnect" href="https//ajax.googleapis.com" 

Note que a resposta é um código HTML com o conteúdo da página inicial do site. O próximo passo consiste em filtrar as informações que desejamos. Aí entra o módulo <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a>. Primeiramente vamos acessar algumas informações básicas da página para conhecer as possibilidades.

In [8]:
# instancia um objeto que nos ajudará a buscar os dados que queremos no HTML retornado pelo servidor
soup = BeautifulSoup(response.text, 'html.parser')

In [16]:
print('Título da página:', soup.title.string, '\n')

Título da página: Campo Grande News - Conteúdo de Verdade 



In [18]:
# retorna uma lista com todas as âncoras da página
ancoras = soup.find_all('a')

# retorna uma lista com todos os títulos de nível 1
titulos_nivel1 = soup.find_all('h1')

# retorna uma lista com todos os títulos de nível 2
titulos_nivel2 = soup.find_all('h2')

Vamos verificar as informações retornadas:

In [30]:
for a in ancoras:
    print(a)

<a class="btn btn-link text-white px-0" data-target="#menuModal" data-toggle="modal" href="#">
<i class="custom material-icons">menu</i>
<span class="d-none d-md-inline-flex">Menu</span>
</a>
<a href="/">
<picture class="d-print-none">
<source media="(min-width: 769px)" srcset="//f088b146830a59b5.cdn.gocache.net/ui/images/logo-full.png"/>
<img alt="" class="img-fluid" src="//f088b146830a59b5.cdn.gocache.net/ui/images/logo.png"/>
</picture>
</a>
<a class="btn btn-link px-2 text-white" href="https://www.facebook.com/cgrnews" target="_blank"><i class="fab fa-facebook-square"></i></a>
<a class="btn btn-link px-2 text-white" href="https://twitter.com/cgrnews" target="_blank"><i class="fab fa-twitter"></i></a>
<a class="btn btn-link px-2 text-white" href="https://www.instagram.com/campograndenews/" target="_blank"><i class="fab fa-instagram"></i></a>
<a class="btn btn-link text-white px-0 d-print-none" data-content='&lt;i class="custom material-icons"&gt;clear&lt;/i&gt;' data-target="#Search

In [32]:
for h1 in titulos_nivel1:
    print(h1)

<h1 style="font-size: inherit; padding: 0; margin: 0"><a class="text-orange font-weight-bold" href="/ultimas-noticias">Últimas Notícias</a></h1>


In [33]:
for h2 in titulos_nivel2:
    print(h2)

<h2 class="h2-section ladob"><a href="/lado-b" target="_self">LADO-B</a></h2>
<h2 class="h2-column green icon-destaques">Destaques</h2>
<h2 class="h2-column green icon-ultimas"><a href="/ultimas-noticias">Últimas Notícias</a></h2>
<h2 class="h2-column green icon-enquete">Enquete</h2>
<h2 class="h2-column green icon-mais-lidas"><a href="/mais-lidas">Mais Lidas</a></h2>
<h2 class="h2-section colunistas header-custom-colunistas"><a href="/colunistas" target="_self">COLUNISTAS</a></h2>
<h2 class="h2-column green icon-cidade">Cidades</h2>
<h2 class="h2-column green icon-politica">Política</h2>
<h2 class="h2-column green icon-economia">Economia</h2>
<h2 class="h2-column green icon-esporte">Esporte</h2>
<h2 class="h2-column green icon-classificados"><a href="/classificados">Classificados</a></h2>


### Buscando notícias específicas no site Campo Grande News

Quando trabalhamos com *web crawling* uma ferramenta muito importante é o modo desenvolvedor dos navegadores. Todos os navegadores fornecem uma ferramenta que possibilita que você visualize as resposta das requisições para sites na internet. No Google Chrome o atalho para utilizar este recurso é o F12. Na aba *Network* é possível visualizar todo o fluxo de troca de arquivos entre o servidor que você solicitou a página e seu navegador. Abaixo tem um vídeo explicando um pouco sobre a ferramenta de desenvolvimento do Google Chrome.

In [39]:
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/wGmQGYM5wLM" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')

Realizando uma busca de teste por notícias de Incêndio no site Campo Grande News (com a aba *Network* da ferramenta de desenvolvimento do Chrome aberta), podemos perceber que a url utilizada na requisição é a seguinte: https://www.campograndenews.com.br/buscar?q=Inc%C3%AAndio. Com essa informação, podemos perceber que para buscar sobre qualquer tema no site, basta alterar o termo de pesquisa após o q=. Veja os exemplos abaixo:

In [40]:
termo_de_busca = 'futebol'
response = requests.get('https://www.campograndenews.com.br/buscar?q={}'.format(termo_de_busca))

In [51]:
soup = BeautifulSoup(response.text, 'html.parser')

In [43]:
print(soup.title.string)

"futebol" - Busca - Campo Grande News


Com o código acima pudemos verificar que o servidor respondeu nossa requisição de pesquisa sobre o termo. Agora vamos filtrar apenas os títulos, a data e o resumo das notícias encontradas. *O código abaixo foi construído após analisar a página retornada utilizando a ferramenta de desenvolvedor do Google Chrome. Na análise todas as tags de interesse foram identificadas.*

In [68]:
# retorna uma lista com todas as divs que possuem classe com nome Titulo, Data ou Resumo
divs = soup.find_all('div', {'class': ['Titulo', 'Data', 'Resumo']}) # filtra o conteúdo não desejado

'A lista da parceria virtual tem o Museu de Arte de São Paulo, fundado em 1947, a Pinacoteca do Estado de São Paulo, fundado em 1905, o Museu da Casa Brasileira, todos na capital paulista, o Museu Nacional do Rio de Janeiro, fundado em 1818, Museu de Arte Moderna, Museu Nacional de Belas Artes, o Instituto Inhotim, em Brumadinho (MG), maior museu a céu aberto do mundo, o Paço do Frevo, em Recife, e o Museu do '

Agora temos todos os dados desejados: título, data e resumo das notícias. Falta somente a cereja do bolo que é estruturar estes dados. Neste tutorial utilizaremos o módulo Pandas para estruturar os dados. Desta forma, futuramente será fácil persistir os dados em bases de dados SQL e NoSQL.

In [61]:
import pandas as pd

In [107]:
# percorre todos os dados e agrupa os dados de cada notícia [Titulo, Resumo, Data]
qtd_noticias = len(divs) / 3
noticias_estruturadas = list()

i = 0
while i <= qtd_noticias:
    # limpa as tags e deixa somente os textos
    titulo = divs[i].find('a').get_text()
    data = divs[i+1].get_text()
    resumo = divs[i+2].get_text()
    
    noticias_estruturadas.append([titulo, resumo, data])
    i += 3

Para fechar, vamos colocar os dados na estrutura de DataFrame do Pandas.

In [108]:
dados_estruturados = pd.DataFrame(noticias_estruturadas, columns=['Título', 'Resumo', 'Data de Publicação'])

In [109]:
dados_estruturados

Unnamed: 0,Título,Resumo,Data de Publicação
0,Veja nossas dicas para você viajar sem sair de...,A lista da parceria virtual tem o Museu de Art...,"Mar 28, 2020 09:01"
1,"Mãe se ""veste"" de professora e põe filho de un...","Na ""saída"", começa o treino de futebol.","Mar 27, 2020 15:58"
2,Desafio das embaixadinhas quer incentivar cria...,Direcionado as crianças que participavam das o...,"Mar 26, 2020 14:31"
3,"Com Olimpíada adiada e futebol parado, atleta ...","Revelada no extinto Águia Dourada, um dos t...","Mar 26, 2020 13:24"
4,Lotéricas são incluídas como atividades essenc...,"Loteria - Até agora, a Caixa anunciou a suspe...","Mar 26, 2020 10:06"
5,"Maior destino de turismo de MS, Bonito ""fecha""...","Locais públicos – Desde a semana passada, a p...","Mar 24, 2020 14:34"
6,"Maioria colabora e pontos que lotavam no ""domi...",Também achou um grupo de 7 jogando futebol no ...,"Mar 22, 2020 18:15"


Outras formas de acessar nossos dados:

In [97]:
# exibe todos os títulos
dados_estruturados['Título'].values.tolist()

['Veja nossas dicas para você viajar sem sair de casa',
 'Mãe se "veste" de professora e põe filho de uniforme para aula em casa',
 'Desafio das embaixadinhas quer incentivar crianças a se movimentarem em casa',
 'Com Olimpíada adiada e futebol parado, atleta de MS treina por videoconferência',
 'Lotéricas são incluídas como atividades essenciais e já podem reabrir as portas',
 'Maior destino de turismo de MS, Bonito "fecha" totalmente para turistas',
 'Maioria colabora e pontos que lotavam no "domingão" ficam quase vazios']

In [100]:
# exibe todos as datas
dados_estruturados['Data de Publicação'].values.tolist()

[' Mar 28, 2020  09:01',
 ' Mar 27, 2020  15:58',
 ' Mar 26, 2020  14:31',
 ' Mar 26, 2020  13:24',
 ' Mar 26, 2020  10:06',
 ' Mar 24, 2020  14:34',
 ' Mar 22, 2020  18:15']

In [101]:
# exibe todos os resumos
dados_estruturados['Resumo'].values.tolist()

['A lista da parceria virtual tem o Museu de Arte de São Paulo, fundado em 1947, a Pinacoteca do Estado de São Paulo, fundado em 1905, o Museu da Casa Brasileira, todos na capital paulista, o Museu Nacional do Rio de Janeiro, fundado em 1818, Museu de Arte Moderna, Museu Nacional de Belas Artes, o Instituto Inhotim, em Brumadinho (MG), maior museu a céu aberto do mundo, o Paço do Frevo, em Recife, e o Museu do ',
 'Na "saída", começa o treino de ',
 'Direcionado as crianças que participavam das oficinas de ',
 '   Revelada no extinto Águia Dourada, um dos times precursores do ',
 'Loteria\xa0 - Até agora, a Caixa anunciou a suspensão da Loteca, em virtude da suspensão dos campeonatos internacionais, nacionais e estaduais de ',
 'Locais públicos  – Desde a semana passada, a prefeitura fechou por 20 dias corridos todas as escolas da Rede Municipal de Ensino, Centro de Convivência de Idosos, Centros de Referência de Assistência Social, Centro de Multiplo Uso – CMU, Ginásio de Esportes, Qu

In [106]:
dados_estruturados[dados_estruturados['Título'] == 'Maioria colabora e pontos que lotavam no "domingão" ficam quase vazios'].values.tolist()

[['Maioria colabora e pontos que lotavam no "domingão" ficam quase vazios',
  'Também achou um grupo de 7 jogando ',
  ' Mar 22, 2020  18:15']]

In [110]:
dados_estruturados.to_dict(orient='records')

[{'Título': 'Veja nossas dicas para você viajar sem sair de casa',
  'Resumo': 'A lista da parceria virtual tem o Museu de Arte de São Paulo, fundado em 1947, a Pinacoteca do Estado de São Paulo, fundado em 1905, o Museu da Casa Brasileira, todos na capital paulista, o Museu Nacional do Rio de Janeiro, fundado em 1818, Museu de Arte Moderna, Museu Nacional de Belas Artes, o Instituto Inhotim, em Brumadinho (MG), maior museu a céu aberto do mundo, o Paço do Frevo, em Recife, e o Museu do Futebol, localizado no Estádio do Pacaembu, em São Paulo.  ',
  'Data de Publicação': ' Mar 28, 2020  09:01'},
 {'Título': 'Mãe se "veste" de professora e põe filho de uniforme para aula em casa',
  'Resumo': 'Na "saída", começa o treino de futebol. ',
  'Data de Publicação': ' Mar 27, 2020  15:58'},
 {'Título': 'Desafio das embaixadinhas quer incentivar crianças a se movimentarem em casa',
  'Resumo': 'Direcionado as crianças que participavam das oficinas de futebol, o desafio pode ser feito por todos 

Agora sim! Os dados estão estruturados e prontos para serem utilizados por outras aplicações. Para o escopo de nosso trabalho o objetivo era esse. Em trabalhos futuros vocês podem modelar um banco de dados para armazenar os dados, pensar em aplicativos, algoritmos de aprendizado de máquina ou outras aplicações que consumam esses dados e façam algo legal com eles.

# Referências

[1] Repositório no GitHub (search-tweets-python).

[2] Wikipédia (Rastreador web).

[3] Documentação Python Requests.

[4] Documentação Beautiful Sou

# Material Complementar

- https://medium.com/horadecodar/como-fazer-webscraping-com-python-e-beautiful-soup-28a65eee2efd
- https://www.digitalocean.com/community/tutorials/como-trabalhar-com-dados-da-web-usando-requests-e-beautiful-soup-com-python-3-pt
- https://www.digitalocean.com/community/tutorials/how-to-scrape-web-pages-with-beautiful-soup-and-python-3
