# Web Scrape - G1 Globo.com

Objetivo: extrair a headline, descrição e link das principais notícias do portal G1 Globo afim de identificar padrões referentes à notícias verdadeiras.

In [1]:
import requests
from bs4 import BeautifulSoup

Criando listas vazias com os campos que queremos extrair do portal

In [2]:
title_list = []
link_list = []
summary_list = []

Desenvolvemos uma função para extrair os dados de forma iterativa por todas as páginas do portal. Importante salientar que cada portal de notícias possui uma estrutura única.

Portanto, para cada portal, desenvolvemos uma função diferente.

In [3]:
def ScrapeFakeNews(url):
    page = requests.get(url).text
    soup = BeautifulSoup(page,'html.parser')
    
    summaries = soup.find_all('div', {'class': 'type-materia'})
    titles = soup.find_all('div', {'class': 'type-materia'})
    links = soup.find_all('div', {'class': 'type-materia'})

    for title in titles:
        title_list.append(title.find('p', {'class': 'feed-post-body-title'}).get_text())
        
    for link in links:
        link_list.append(link.find('a' , {'class': 'feed-post-link'}).get('href'))

    for summary in summaries:
        summary_list.append(summary.get_text())

In [4]:
ScrapeFakeNews('http://g1.globo.com/politica/index/feed/pagina-1.html')

### Iteração com todas as páginas do website

In [5]:
from tqdm import tqdm
  
for x in tqdm(range(2,1836)):
    paginas = 'http://g1.globo.com/politica/index/feed/pagina-' + str(x) +'.html'
    
    try: 
        ScrapeFakeNews(paginas)
    except (RuntimeError, TypeError, NameError):
        break

100%|██████████| 1834/1834 [13:48<00:00,  2.21it/s]


### Criando o DataFrame baseado nos dados extraídos

In [6]:
import pandas as pd
import numpy as np

In [7]:
title_final = np.array(title_list)
url_final = np.array(link_list)
summary_final = np.array(summary_list)

In [8]:
g1 = pd.DataFrame(data=[title_final, url_final, summary_final])

In [9]:
g1_real = g1.T

In [10]:
g1_real.columns = ['title', 'url', 'summary']

### Extraindo o DataFrame para CSV

In [16]:
g1_real.to_csv('g1.csv')\