# Web Scrape - Jornalivre

Objetivo: extrair a headline, descrição e link das principais notícias do portal Jornalivre afim de identificar padrões referentes à Fake News.

fonte: https://www.issoenoticia.com.br/artigo/projeto-da-usp-lista-10-maiores-sites-de-falsas-noticias-no-brasil

In [None]:
import requests
from bs4 import BeautifulSoup

Criando listas vazias com os campos que queremos extrair do portal

In [2]:
title_list = []
link_list = []
summary_list = []
datepost_list = []

Desenvolvemos uma função para extrair os dados de forma iterativa por todas as páginas do portal. Importante salientar que cada portal de notícias possui uma estrutura única.

Portanto, para cada portal, desenvolvemos uma função diferente.

In [3]:
def ScrapeFakeNews(url):
    page = requests.get(url).text
    soup = BeautifulSoup(page,'html.parser')
    
    titles = soup.find_all('h1', {'class': 'entry-title'})
    summaries = soup.find_all('div', {'class': 'entry-summary'})
    datepost = soup.find_all('time', {'class': 'entry-date'})

    for title in titles:
        title_list.append(title.find('a').get_text())
        link_list.append(title.find('a').get('href'))

    for summary in summaries:
        summary_list.append(summary.find('p').get_text())

    for date in datepost:
        datepost_list.append(date.get('datetime'))

### Iteração com todas as páginas do website

In [5]:
from tqdm import tqdm
  
for x in tqdm(range(2,1513)):
    paginas = 'https://jornalivre.com/page/' + str(x) +'/'
    
    try: 
        ScrapeFakeNews(paginas)
    except (RuntimeError, TypeError, NameError):
        break

100%|██████████| 1511/1511 [34:25<00:00,  1.37s/it]


### Criando o DataFrame baseado nos dados extraídos

In [6]:
import pandas as pd
import numpy as np

In [8]:
title_final = np.array(title_list)
url_final = np.array(link_list)
summary_final = np.array(summary_list)
datepost_final = np.array(datepost_list)

In [9]:
jornalivre = pd.DataFrame(data=[title_final, url_final, datepost_final, summary_final])

In [10]:
jornalivre_real = jornalivre.T

In [11]:
jornalivre_real.columns = ['title', 'url', 'datepost', 'summary']

In [12]:
jornalivre_real.head()

Unnamed: 0,title,url,datepost,summary
0,Notícia de que Trump reconheceu Jerusalém como...,https://jornalivre.com/2017/12/09/noticia-de-q...,2017-12-07T11:48:31+00:00,"Segundo noticiou o Diário Nacional, a Vereador..."
1,Estudo do Ministério da Fazenda aponta: Brasil...,https://jornalivre.com/2017/12/08/estudo-do-mi...,2017-12-09T18:29:21+00:00,Um dos assuntos mais comentados desta semana f...
2,"Em entrevista, Meirelles expõe desmandos do go...",https://jornalivre.com/2017/12/08/em-entrevist...,2017-12-08T20:57:59+00:00,Informa o portal G1: Segundo a lenda de Robin ...
3,Marcelo Odebrecht volta pra casa em jatinho pa...,https://jornalivre.com/2017/12/05/marcelo-odeb...,2017-12-08T12:00:13+00:00,"Em uma entrevista concedida à Exame, o Ministr..."
4,Ex-secretário da Saúde deixa escapar que hemat...,https://jornalivre.com/2017/12/04/ex-secretari...,2017-12-06T18:03:17+00:00,"Diante da Reforma da Previdência, tucanos faze..."


### Extraindo o DataFrame para CSV

In [13]:
jornalivre_real.to_csv('jornalivre final.csv')