In [166]:
from glob import glob
import re
import pandas as pd
import numpy as np
import json
import pickle as pkl
from unidecode import unidecode

# Defining variables

In [202]:
PATH = '../*'

In [203]:
glob(PATH)

['..\\API Crawler', '..\\Apresentação 1º Semestre', '..\\Jupyter Notebook']

# Making FAKE NEWS DataFrame
## Loading JSON

In [136]:
with open('data/raw/boatos.json', 'r') as f:
    boatos = json.load(f)
    
for i, item in enumerate(boatos):
    boatos[i]['text'] = ' '.join(item['text'])    

## Making DataFrame

In [164]:
df_fake = pd.DataFrame(boatos)
df_fake['FAKE'] = True
df_fake.rename({'date': 'DATE', 'text': 'TEXT', 'title': 'TITLE'}, axis=1, inplace=True)
df_fake.head()

Unnamed: 0,DATE,TEXT,TITLE,FAKE
0,26/04/2019,“Seria cômica se não fosse nojenta a cena que ...,\nMaria do Rosário perde dentadura durante vot...,True
1,22/04/2019,FINALMENTE. #ProfessoraHeleyPresente Em reuniã...,\nBolsonaro condecorou professora Heley de Abr...,True
2,24/04/2019,"A audiência tem que ser grande!!! Hoje, às 22h...","\nHoje, às 22h, a TV Record vai entrevistar Bo...",True
3,25/04/2019,"IBANEIS ROCHA, GOVERNADOR DO DISTRITO FEDERAL ...","\nIbaneis Rocha, governador do DF, viaja bêbad...",True
4,21/04/2019,"PT MANDOU DINHEIRO PARA O NARCOTRÁFICO DO RIO,...",\nMarcelo Odebrecht diz que governo do PT deu ...,True


# Making LEGIT NEWS DataFrame
## Loading JSONs

In [118]:
with open('data/raw/g1.json', 'r') as f:
    g1 = json.load(f)
    
for i, item in enumerate(g1):
    g1[i]['text'] = ' '.join(item['text'])

with open('data/raw/elpais.json', 'r') as f:
    elpais = json.load(f)

for i, item in enumerate(elpais):
    elpais[i]['text'] = ' '.join(item['text'])

## Normalizing El Pais dates

In [119]:
month_dict = {
    'JAN': '01',
    'FEV': '02',
    'MAR': '03',
    'ABR': '04',
    'MAI': '05',
    'JUN': '06',
    'JUL': '07',
    'AGO': '08',
    'SET': '09',
    'SEP': '09',
    'OUT': '10',
    'NOV': '11',
    'DEZ': '12'
}

In [120]:
for i, item in enumerate(elpais):
    # Searching for dd/mmm/yyyy in the string
    matched = re.findall(r'\d+\s+[a-zA-Z]+\s+\d+', item['date'].strip())
    
    # If did not find anything, continues onto the next iteration
    if len(matched) == 0:
        continue
    
    date = matched[0]
    day = re.findall(r'\d+', date)[0]
    # Changing one digit days to two digits (e.g. 1/12/1999 to 01/12/1999)
    if len(day) == 1:
        date = date.replace(day + ' ', '0' + day + ' ')
    date = re.sub(r'\s+', ' ', date)
    date = re.sub(r'\s', '/', date)
    
    # Changing written month names to its numeric equivalent
    month = re.findall('[a-zA-Z]+', date)[0]
    if month in month_dict:
        date = re.sub(month, month_dict[month], date)
    
    elpais[i]['date'] = date

In [143]:
# Removing registers dated before 2013
for i, item in enumerate(elpais):
    if int(item['date'].split('/')[2]) < 2013:
        del elpais[i]

In [146]:
# Making sure the dates make sense
day = set()
month = set()
year = set()

for item in elpais:
    date = re.findall('\d+', item['date'])
    day.add(date[0])
    month.add(date[1])
    year.add(date[2])
    
print('Dias: ',len(day))
print('Meses', len(month))
print('Anos:', len(year), '-', year)

Dias:  31
Meses 12
Anos: 7 - {'2018', '2017', '2013', '2014', '2019', '2015', '2016'}


## Normalizing G1 dates

In [147]:
for i, item in enumerate(g1):
    matched = re.findall('\d+/\d+/\d+', g1[5]['date'].strip())
    if len(matched) == 0:
        continue
    g1[i]['date'] = matched[0]

## Making DataFrame

In [150]:
legit_news = elpais[:]
legit_news.extend(g1)

df_legit = pd.DataFrame(legit_news)
df_legit['FAKE'] = False
df_legit.rename({'date': 'DATE', 'text': 'TEXT', 'title': 'TITLE'}, axis=1, inplace=True)
df_legit.head()

Unnamed: 0,DATE,TEXT,TITLE,FAKE
0,04/06/2019,O atual mandato presidencial no Brasil começou...,Começam a soar os alarmes sobre a sustentabili...,False
1,02/06/2019,Poucas horas antes de milhares de manifestant...,"Corte ou contingenciamento, quem está certo na...",False
2,03/06/2019,Se o tamanho de uma figura pública se mede pel...,Trump insulta prefeito de Londres no início de...,False
3,26/05/2019,Um dos tantos fenômenos imparáveis trazidos pe...,O líder e eu (e ninguém no meio),False
4,03/06/2019,"Após semanas de audiências públicas, o projeto...",A reforma da Previdência pesará mais sobre os ...,False


# Cleaning texts

In [194]:
def clean_text(text):
    # Making sure we're dealing with strings and lowering the characters
    text = str(text).lower()
    
    # Stripping accents
    text = unidecode(text)
    
    # Removing characters that aren't alphabetic
    text = re.sub(r'[^a-zA-Z ]', ' ', text)
    
    # Removing extra spaces
    text = re.sub('\s+', ' ', text)
    
    # Removing words with length equal or lower than 2
    return ' '.join([token for token in text.split() if len(token) > 2])

## Cleaning and dumping Fake News DataFrame

In [196]:
df_fake['TEXT_CLEAN'] = df_fake['TEXT'].apply(clean_text)

In [200]:
pkl.dump(df_fake, open('data/processed/df_fake_clean.pkl', 'wb'))

## Cleaning and dumping Legit News Dataframe

In [197]:
df_legit['TEXT_CLEAN'] = df_legit['TEXT'].apply(clean_text)

In [201]:
pkl.dump(df_legit, open('data/processed/df_legit_clean.pkl', 'wb'))