<a href="https://colab.research.google.com/github/filipecarbonera/projetos_web_scraping/blob/main/web_scraping_noticias.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Web Scrapping - Noticias**

Neste projeto, realizo o web scraping de noticias do site G1. Aqui o foco foi muito maior em compreender cada etapa macro do processo de raspagem, diferente do projeto anterior, onde acabei focando nas nuances de html (linguem menos conhecida por mim naquele momento).

Agradeço a Walisson Silva pelo rico conteúdo sobre Web Scraping. [Acesse aqui](https://www.youtube.com/playlist?list=PLg3ZPsW_sghSkRacynznQeEs-vminyTQk) a playlist do Youtube que usei como base para esse estudo.

## Exploração e aprendizado sobre o método.

In [1]:
#Importando a biblioteca requests para acessar o site desejado.
import requests

# Atribuindo o link do site a uma variável.
url = 'https://g1.globo.com/'

# Atribuindo à variável response a resposta da requisição da url.
response = requests.get(url)

# Apresentando as três partes da resposta obtida.
print('Status: ', response.status_code)
print('Headers: ', response.headers)
print('Content: ', response.content)

# Atribuindo o conteúdo obtido à uma variável.
content = response.content

Status:  200
Headers:  {'Date': 'Wed, 15 Dec 2021 02:58:34 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Content-Length': '142661', 'Connection': 'keep-alive', 'Show-Page-Version': '0', 'X-Request-Id': 'ce551c70-8262-4a64-a34f-d93f9384ff97', 'X-Mobile': 'desktop', 'Content-Security-Policy': 'upgrade-insecure-requests', 'X-Content-Type-Options': 'nosniff', 'X-XSS-Protection': '1; mode=block', 'Expires': 'Wed, 15 Dec 2021 02:58:36 GMT', 'Cache-Control': 'max-age=10', 'X-Served-From': 'Core, Show Services', 'X-BlopF': 'AC158107', 'Content-Encoding': 'gzip', 'Age': '2', 'Vary': 'X-Forwarded-Proto, Accept-Encoding, User-Agent', 'X-Bip': '272286077 asra04lx32ca02', 'Via': '2.0 CachOS', 'Accept-Ranges': 'bytes', 'X-Thanos': '0AB25045'}
Content:  b'<!DOCTYPE HTML><html lang="pt-br"> <head><meta charset="utf-8"><meta http-equiv="x-ua-compatible" content="ie=edge,chrome=1"><meta name="viewport" content="width=device-width, initial-scale=1"><script type="text/javascript" id="CDA_AAS">\n  win

In [2]:
# Importando a biblioteca de Web Scraping.
from bs4 import BeautifulSoup

# Criando o objeto da biblioteca de Web Scraping indicando se tratar de HTML.
site = BeautifulSoup(content, 'html.parser',)
print(site.prettify())

<!DOCTYPE HTML>
<html lang="pt-br">
 <head>
  <meta charset="utf-8"/>
  <meta content="ie=edge,chrome=1" http-equiv="x-ua-compatible"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <script id="CDA_AAS" type="text/javascript">
   window.cdaaas = window.cdaaas || {};
  window.cdaaas.SETTINGS = window.cdaaas.SETTINGS || {};
  window.cdaaas.PAGE_ANALYTICS_DATA = {"channel":"desktop","contentId":"ba3c5a72-7ed9-482e-be26-ee3d81c97bce","contentType":[],"serviceWorker":true};
  window.cdaaas.helpers = window.cdaaas.helpers || {};
  window.cdaaas.internals = {};
  window.HorizonClient = new Promise((resolve) => { window.cdaaas.internals.resolveHorizonPromise = resolve; });
  </script>
  <!-- Filers GCOM -->
  <link href="https://s.glbimg.com" rel="preconnect"/>
  <link href="https://s.glbimg.com" rel="dns-prefetch"/>
  <link href="https://s2.glbimg.com" rel="preconnect"/>
  <link href="https://s2.glbimg.com" rel="dns-prefetch"/>
  <link href="https://s3.glbimg.com" 

In [3]:
# Usando o método .find para buscar a primeira noticia que constar no site no momento do acesso e atribuindo o resultado em uma variável.
noticia = site.find('div', attrs={'class': 'feed-post-body'})
print(noticia.prettify())

<div class="feed-post-body">
 <div class="feed-post-header with-post-chapeu">
  <span class="feed-post-header-chapeu">
   Avaliação do governo
  </span>
 </div>
 <div class="feed-post-body-title gui-color-primary gui-color-hover ">
  <div class="_evt">
   <a class="feed-post-link gui-color-primary gui-color-hover" elementtiming="text-ssr" href="https://g1.globo.com/politica/noticia/2021/12/14/reprovacao-ao-governo-bolsonaro-chega-a-55percent-aponta-pesquisa-ipec-aprovacao-e-de-19percent.ghtml">
    Reprovação ao governo Bolsonaro chega a 55%, aponta pesquisa Ipec
   </a>
  </div>
 </div>
 <div class="feed-post-body-resumo" elementtiming="text-ssr">
  Aprovação da gestão do presidente é de 19%.
 </div>
 <div class="feed-media-wrapper">
  <a class="feed-post-figure-link gui-image-hover" href="https://g1.globo.com/politica/noticia/2021/12/14/reprovacao-ao-governo-bolsonaro-chega-a-55percent-aponta-pesquisa-ipec-aprovacao-e-de-19percent.ghtml">
   <div class="bstn-fd-item-cover bstn-fd-vid

In [4]:
# Buscando o titulo da noticia que acabei localizar.
noticia_titulo = noticia.find('a', attrs={'class': 'feed-post-link'})
print(noticia_titulo.text)

Reprovação ao governo Bolsonaro chega a 55%, aponta pesquisa Ipec


In [5]:
# Buscando o subtitulo da noticia que acabei de localizar.
noticia_subtitulo = noticia.find('div', attrs={'class': 'feed-post-body-resumo'})
print(noticia_subtitulo.text)

Aprovação da gestão do presidente é de 19%.


## Buscando os dados em série.

In [9]:
# Importando a biblioteca que permite transformar o conteúdo encontrado em arquivos e/ou tabelas.
import pandas as pd

# Criando a lista que irá conter todo o conteúdo buscado.
noticias_lista = []

# Buscando todas as noticias do site, as quais são identificadas pela classe "feed-post-body".
noticias = site.findAll('div', attrs={'class': 'feed-post-body'})

# Criando um laço de repetição para buscar titulo, subtitulo e link de cada noticia e atribuir os respectivos resultados a lista criada anteriormente.
for noticia in noticias:

  noticia_titulo = noticia.find('a', attrs={'class': 'feed-post-link'})
  #print(noticia_titulo.text)
  #print(noticia_titulo['href'])

  noticia_subtitulo = noticia.find('div', attrs={'class': 'feed-post-body-resumo'})
  if (noticia_subtitulo):
    #print(noticia_subtitulo.text)
    noticias_lista.append([noticia_titulo.text, noticia_subtitulo.text, noticia_titulo['href']])
  else:
      noticias_lista.append([noticia_titulo.text, '', noticia_titulo['href']])

# Mostrando a lista final, com todo o conteúdo buscado.
noticias_lista

[['Reprovação ao governo Bolsonaro chega a 55%, aponta pesquisa Ipec',
  'Aprovação da gestão do presidente é de 19%.',
  'https://g1.globo.com/politica/noticia/2021/12/14/reprovacao-ao-governo-bolsonaro-chega-a-55percent-aponta-pesquisa-ipec-aprovacao-e-de-19percent.ghtml'],
 ['TSE unifica horário de votação em todos os estados; veja como fica',
  'Votação no Acre será das 6h às 15h no horário local.',
  'https://g1.globo.com/politica/eleicoes/2022/noticia/2021/12/14/tse-decide-uniformizar-horario-de-votacao-nas-eleicoes-de-2022.ghtml'],
 ['Ainda sob efeito do ataque hacker, Brasil registra 141 mortes em 24 h',
  '',
  'https://g1.globo.com/saude/coronavirus/noticia/2021/12/14/brasil-ultrapassa-617-mil-mortos-por-covid-ataque-hacker-prejudica-balanco-pelo-5o-dia-sem-dados-de-5-estados.ghtml'],
 ['Vocalista e o sócio da boate Kiss são presos após decisão do STF',
  'Ministro Barroso derrubou habeas corpus dos 4 condenados pelo incêndio. ',
  'https://g1.globo.com/rs/rio-grande-do-sul/n

## Transformação dos dados.

In [7]:
# Transformando a lista em um dataframe, objeto da biblioteca pandas, que permite salvar o conteúdo em csv, por exemplo.
df_noticias = pd.DataFrame(noticias_lista, columns=['titulo', 'subtitulo', 'link'])
df_noticias

Unnamed: 0,titulo,subtitulo,link
0,"Reprovação ao governo Bolsonaro chega a 55%, a...",Aprovação da gestão do presidente é de 19%.,https://g1.globo.com/politica/noticia/2021/12/...
1,TSE unifica horário de votação em todos os est...,Votação no Acre será das 6h às 15h no horário ...,https://g1.globo.com/politica/eleicoes/2022/no...
2,"Ainda sob efeito do ataque hacker, Brasil regi...",,https://g1.globo.com/saude/coronavirus/noticia...
3,Vocalista e o sócio da boate Kiss são presos a...,Ministro Barroso derrubou habeas corpus dos 4 ...,https://g1.globo.com/rs/rio-grande-do-sul/noti...
4,Senado aprova indicação de Anastasia para mini...,Nome ainda passará pela Câmara. Katia Abreu e ...,https://g1.globo.com/politica/noticia/2021/12/...
5,PEC dos Precatórios: Câmara aprova em 1º turno...,,https://g1.globo.com/politica/noticia/2021/12/...
6,"'Desesperador', diz brasileiro em região de to...","Só em Kentucky, mais de 100 pessoas ainda estã...",https://g1.globo.com/jornal-nacional/noticia/2...
7,"Denúncia de influencer, resort alagado na Bahi...",,https://g1.globo.com/playlist/videos-para-assi...


In [10]:
# Criando um arquivo para viabilizar o download dos dados.
df_noticias.to_excel('noticias.xlsx', index=False)