# Pré-processamento de dados
## Importando bibliotecas

In [1]:
from itertools import product

import string

import pandas as pd
import numpy as np
import spacy
import nltk
from spacy.lang.pt.examples import sentences
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import ShuffleSplit, cross_validate

from src.data import preprocessing


nltk.download('rslp')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/douglas/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to /home/douglas/nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package punkt to /home/douglas/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Carregamento dos Dados

In [2]:
output_path = "../data/interim/news.csv"

df_corpus = pd.read_csv(output_path)
df_corpus

Unnamed: 0,text,label
0,JBS pagará R$ 650 mil de indenização por demis...,true
1,Motorista envolvido em morte de comissário já ...,true
2,Em propaganda partidária veiculada anteontem ...,true
3,PGR pede ao STF que reverta decisão do Legisla...,true
4,Como o Ocidente compreende mal a China. Apesar...,true
...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake
7198,Site divulga que viagem de Lula à Europa seria...,fake


In [3]:
df_corpus['clean_text'] = preprocessing.lower_case(df_corpus['text'])
df_corpus

Unnamed: 0,text,label,clean_text
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r$ 650 mil de indenização por demis...
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china. apesar...
...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear. diplomata d...
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua. . ...
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...


## Removendo termos específicos

### Removendo datas (Formato dd/mm/YYYY)

In [4]:
df_corpus['clean_text'] = preprocessing.remove_date(df_corpus.clean_text)
df_corpus

  size = text_series[text_series.str.contains(pattern)].size


Modificando 103 linhas contendo este padrão.


Unnamed: 0,text,label,clean_text
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r$ 650 mil de indenização por demis...
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china. apesar...
...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear. diplomata d...
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua. . ...
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...


### Removendo datas (Formato dd de mês de YYYY)

In [5]:
# Remove datas no formato dd de mês de YYYY
df_corpus['clean_text'] = preprocessing.remove_date(df_corpus.clean_text, style='diamesextensoano')
df_corpus

  size = text_series[text_series.str.contains(pattern)].size


Modificando 643 linhas contendo este padrão.


Unnamed: 0,text,label,clean_text
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r$ 650 mil de indenização por demis...
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china. apesar...
...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear. diplomata d...
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua. . ...
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...


### Dias da semana

In [6]:
# remove dias da semana
df_corpus['clean_text'] = df_corpus['clean_text'].apply(lambda c: preprocessing.remove_weekday(c))
df_corpus.sample(10)

Unnamed: 0,text,label,clean_text
5030,O Brasil vai implodir politicamente. E já tem ...,fake,o brasil vai implodir politicamente. e já tem ...
6481,"STF manda soltar ""homem da mala"". Edson Fachi...",fake,"stf manda soltar ""homem da mala"". edson fachi..."
106,Veja os principais trechos do julgamento do re...,true,veja os principais trechos do julgamento do re...
3695,Jornalista diz que José Mayer estaria assedian...,fake,jornalista diz que josé mayer estaria assedian...
4291,Rio 2016  Diplomata da Rússia de 60 anos usa ...,fake,rio 2016  diplomata da rússia de 60 anos usa ...
1925,Da negação aos detalhes da corrupção: o que Ma...,true,da negação aos detalhes da corrupção: o que ma...
4305,Reinaldo Azevedo pode ser demitido por causa d...,fake,reinaldo azevedo pode ser demitido por causa d...
6670,Impeachment vai tirar foro privilegiado de min...,fake,impeachment vai tirar foro privilegiado de min...
4274,Lady Gaga  Criada pelos ILLUMINATI para disse...,fake,lady gaga  criada pelos illuminati para disse...
6689,"Lula debocha do Ministério Público: ""Ninguém v...",fake,"lula debocha do ministério público: ""ninguém v..."


### Removendo "\n"

In [7]:
df_corpus['clean_text'] = preprocessing.remove_linebreaks(df_corpus.clean_text)
df_corpus

Modificando 577 linhas contendo este padrão.


Unnamed: 0,text,label,clean_text
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r$ 650 mil de indenização por demis...
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china. apesar...
...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear. diplomata d...
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua. . ...
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...


### Removendo "\t"

In [8]:
df_corpus['clean_text'] = preprocessing.remove_tabs(df_corpus.clean_text)
df_corpus

Modificando 3 linhas contendo este padrão.


Unnamed: 0,text,label,clean_text
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r$ 650 mil de indenização por demis...
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china. apesar...
...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear. diplomata d...
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua. . ...
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...


### Removendo símbolos

In [9]:
df_corpus['clean_text'] = preprocessing.symbol_remove(df_corpus.clean_text)
df_corpus

Modificando 51820 linhas contendo este padrão.


Unnamed: 0,text,label,clean_text
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r 650 mil de indenização por demiss...
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china apesar ...
...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear diplomata di...
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua o...
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...


## Tokenização

In [10]:
df_corpus['tokens'] = preprocessing.tokenize(df_corpus.clean_text)
df_corpus

Unnamed: 0,text,label,clean_text,tokens
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r 650 mil de indenização por demiss...,"[jbs, pagará, r, 650, mil, de, indenização, po..."
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...,"[motorista, envolvido, em, morte, de, comissár..."
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...,"[em, propaganda, partidária, veiculada, anteon..."
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...,"[pgr, pede, ao, stf, que, reverta, decisão, do..."
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china apesar ...,"[como, o, ocidente, compreende, mal, a, china,..."
...,...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear diplomata di...,"[coreia, anuncia, novo, teste, nuclear, diplom..."
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...,"[temer, vai, punir, sergio, reis, e, tiririca,..."
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua o...,"[wikileaks, diz, que, temer, era, espião, dos,..."
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...,"[site, divulga, que, viagem, de, lula, à, euro..."


## Removendo Stopwords

In [11]:
df_corpus['no_stopwords'] = preprocessing.stopwords_remove(df_corpus['tokens'])
df_corpus

Unnamed: 0,text,label,clean_text,tokens,no_stopwords
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r 650 mil de indenização por demiss...,"[jbs, pagará, r, 650, mil, de, indenização, po...","[jbs, pagará, r, 650, mil, indenização, demiss..."
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...,"[motorista, envolvido, em, morte, de, comissár...","[motorista, envolvido, morte, comissário, proc..."
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...,"[em, propaganda, partidária, veiculada, anteon...","[propaganda, partidária, veiculada, anteontem,..."
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...,"[pgr, pede, ao, stf, que, reverta, decisão, do...","[pgr, pede, stf, reverta, decisão, legislativo..."
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china apesar ...,"[como, o, ocidente, compreende, mal, a, china,...","[ocidente, compreende, mal, china, apesar, apo..."
...,...,...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear diplomata di...,"[coreia, anuncia, novo, teste, nuclear, diplom...","[coreia, anuncia, novo, teste, nuclear, diplom..."
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...,"[temer, vai, punir, sergio, reis, e, tiririca,...","[temer, vai, punir, sergio, reis, tiririca, tr..."
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua o...,"[wikileaks, diz, que, temer, era, espião, dos,...","[wikileaks, diz, temer, espião, eua, wikileaks..."
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...,"[site, divulga, que, viagem, de, lula, à, euro...","[site, divulga, viagem, lula, europa, tratamen..."


## Lematização

In [12]:
df_corpus['lemmatization_final_texts'] = preprocessing.lemmatization(df_corpus['no_stopwords'])
df_corpus

Unnamed: 0,text,label,clean_text,tokens,no_stopwords,lemmatization_final_texts
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r 650 mil de indenização por demiss...,"[jbs, pagará, r, 650, mil, de, indenização, po...","[jbs, pagará, r, 650, mil, indenização, demiss...","[jbs, pagar, r, 650, mil, indenização, demissã..."
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...,"[motorista, envolvido, em, morte, de, comissár...","[motorista, envolvido, morte, comissário, proc...","[motorista, envolver, morte, comissário, proce..."
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...,"[em, propaganda, partidária, veiculada, anteon...","[propaganda, partidária, veiculada, anteontem,...","[propaganda, partidário, veicular, anteontem, ..."
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...,"[pgr, pede, ao, stf, que, reverta, decisão, do...","[pgr, pede, stf, reverta, decisão, legislativo...","[pgr, pedir, stf, reverto, decisão, legislativ..."
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china apesar ...,"[como, o, ocidente, compreende, mal, a, china,...","[ocidente, compreende, mal, china, apesar, apo...","[ocidente, compreender, mal, China, apesar, ap..."
...,...,...,...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear diplomata di...,"[coreia, anuncia, novo, teste, nuclear, diplom...","[coreia, anuncia, novo, teste, nuclear, diplom...","[coreiar, anunciar, novo, teste, nuclear, dipl..."
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...,"[temer, vai, punir, sergio, reis, e, tiririca,...","[temer, vai, punir, sergio, reis, tiririca, tr...","[temer, ir, punir, sergio, reis, tiririco, tra..."
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua o...,"[wikileaks, diz, que, temer, era, espião, dos,...","[wikileaks, diz, temer, espião, eua, wikileaks...","[Wikileaks, dizer, temer, espião, EUA, Wikilea..."
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...,"[site, divulga, que, viagem, de, lula, à, euro...","[site, divulga, viagem, lula, europa, tratamen...","[site, divulgar, viagem, Lula, Europa, tratame..."


## Stemming

In [13]:
df_corpus['stemming_final_texts'] = preprocessing.stemming(df_corpus['no_stopwords'])
df_corpus

Unnamed: 0,text,label,clean_text,tokens,no_stopwords,lemmatization_final_texts,stemming_final_texts
0,JBS pagará R$ 650 mil de indenização por demis...,true,jbs pagará r 650 mil de indenização por demiss...,"[jbs, pagará, r, 650, mil, de, indenização, po...","[jbs, pagará, r, 650, mil, indenização, demiss...","[jbs, pagar, r, 650, mil, indenização, demissã...","[jb, pag, r, 650, mil, inden, demiss, mass, mt..."
1,Motorista envolvido em morte de comissário já ...,true,motorista envolvido em morte de comissário já ...,"[motorista, envolvido, em, morte, de, comissár...","[motorista, envolvido, morte, comissário, proc...","[motorista, envolver, morte, comissário, proce...","[motor, envolv, mort, comiss, process, prefeit..."
2,Em propaganda partidária veiculada anteontem ...,true,em propaganda partidária veiculada anteontem ...,"[em, propaganda, partidária, veiculada, anteon...","[propaganda, partidária, veiculada, anteontem,...","[propaganda, partidário, veicular, anteontem, ...","[propagand, partidár, veicul, anteont, televis..."
3,PGR pede ao STF que reverta decisão do Legisla...,true,pgr pede ao stf que reverta decisão do legisla...,"[pgr, pede, ao, stf, que, reverta, decisão, do...","[pgr, pede, stf, reverta, decisão, legislativo...","[pgr, pedir, stf, reverto, decisão, legislativ...","[pgr, ped, stf, revert, decis, legisl, potigu,..."
4,Como o Ocidente compreende mal a China. Apesar...,true,como o ocidente compreende mal a china apesar ...,"[como, o, ocidente, compreende, mal, a, china,...","[ocidente, compreende, mal, china, apesar, apo...","[ocidente, compreender, mal, China, apesar, ap...","[ocid, compreend, mal, chin, apes, apost, líd,..."
...,...,...,...,...,...,...,...
7195,Coreia anuncia novo teste nuclear. Diplomata d...,fake,coreia anuncia novo teste nuclear diplomata di...,"[coreia, anuncia, novo, teste, nuclear, diplom...","[coreia, anuncia, novo, teste, nuclear, diplom...","[coreiar, anunciar, novo, teste, nuclear, dipl...","[core, anunc, nov, test, nucle, diplomat, diz,..."
7196,Temer vai punir Sergio Reis e Tiririca por tra...,fake,temer vai punir sergio reis e tiririca por tra...,"[temer, vai, punir, sergio, reis, e, tiririca,...","[temer, vai, punir, sergio, reis, tiririca, tr...","[temer, ir, punir, sergio, reis, tiririco, tra...","[tem, vai, pun, sergi, reil, tirir, tra, sergi..."
7197,Wikileaks diz que Temer era espião dos EUA. . ...,fake,wikileaks diz que temer era espião dos eua o...,"[wikileaks, diz, que, temer, era, espião, dos,...","[wikileaks, diz, temer, espião, eua, wikileaks...","[Wikileaks, dizer, temer, espião, EUA, Wikilea...","[wikileak, diz, tem, espiã, eua, wikileak, por..."
7198,Site divulga que viagem de Lula à Europa seria...,fake,site divulga que viagem de lula à europa seria...,"[site, divulga, que, viagem, de, lula, à, euro...","[site, divulga, viagem, lula, europa, tratamen...","[site, divulgar, viagem, Lula, Europa, tratame...","[sit, divulg, viag, lul, europ, trat, possível..."


## Salvando dados pré-processados

In [14]:
df_corpus[
    ['text', 
     'label', 
     'lemmatization_final_texts',
     'stemming_final_texts']
].to_csv("../data/processed/textos_pre-processado.csv", index=False)