# Algoritmo Naive Bayes

In [1]:
import os, sys
import pandas as pd

from spacy.lang.pt import Portuguese

import nltk
from nltk.tokenize import word_tokenize

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

#### Importing helper

In [2]:
# Importing custom functions (temp)
current_dir = os.path.abspath('')
parent_dir = os.path.dirname(current_dir)
parent_dir = os.path.dirname(parent_dir)
sys.path.append(parent_dir)

from helpers.string_cleaner import StringCleaner as sc

### 1. Processamento Dataset

#### 1.1 Extrair dataset

In [3]:
true_ds = pd.read_csv('true.csv', sep=';')
fake_ds = pd.read_csv('fake.csv', sep=';')

In [4]:
true_ds['fake'] = 0
fake_ds['fake'] = 1

In [5]:
fake_df = pd.DataFrame(fake_ds)
true_df = pd.DataFrame(true_ds)

df = pd.concat([fake_df, true_ds])
df = df.drop('idx', axis=1)

pd.set_option('display.max_colwidth', None)

#### 1.2 Limpar o dataframe

**Observações**:
* Verificar a necessidade de adicionar as siglas dos estados brasileiros como stop words.
* Verificar a necessidade de remover o conteúdo entre colchetes e parênteses.
* Verificar a necessidade de remover formatação de datas e horários
* Verificar a necessidade de remover caracteres especiais, como: cedilha, acentos, etc.

In [6]:
# stop words using spaCy
nlp_pt = Portuguese()
stopwords = nlp_pt.Defaults.stop_words
nlp_pt.Defaults.stop_words.remove('sem')
nlp_pt.Defaults.stop_words.add('to')

def remove_stopwords(text):
    final_text = []
    for token in text.split():
      if token.lower() not in stopwords:
          final_text.append(token)
    return " ".join(final_text)

def denoise_text(text):
    text = sc.remove_url(text)
    text = sc.remove_special_characters(text)
    text = remove_stopwords(text)

    return text.lower()

df['full_text'] = df['full_text'].apply(denoise_text)

In [7]:
df.head(20)

Unnamed: 0,full_text,fake
0,katia abreu colocar expulsao moldura nao reclamar senadora katia abreu sem partido disse expulsao pmdb resultado acao cupula atual legenda oportunista amanha vou botar moldura dourada expulsao maos veio atestado conduta curriculo pessoas expulsaram nao servem pais servem pais beneficios proprios disse katia abreu ue expulsao tao curriculo choradeira katia sabemos motivo provavelmente katia nao pt partido ja deveria la absorvido pt gostava katia ficasse entrincheirada pmdb seja rebaixar resta katia ficar chorando pitangas cantos ate pt nao cadastrou katia abreu fileiras situacao patetica ex ministra agricultura dilma,1
1,dr ray peita bolsonaro chama conservador fake entrevista danilo gentili divide site avisando jair bolsonaro deveria abandonar pauta estatista discurso convincente liberais conservadores brasil livres amarras estatais pesquisas privatizacoes indice 50 facil revertido bolsonaro deveria falar direitistas focar petistas arrependidos recentemente disse pensaria 200 privatizar petrobras nao caia maos chineses deveria dito garanto privatizacao petrobras tambem garanto chineses nao irao compra la nao deixaria brechas jeito falou suposto medo venda chineses pretexto evitar privatizacao seja la adotar alternativas foquem reduzido diminuicao impostos venda estatais alem joao amoedo dr rey fazendo vicejar discurso candidatura esteja fase inicial complicado bolsonaro aparecam pessoas propondo visao economicamente direitista economia enfim 3240 dr rey espinafrando bolsonaro brechas nao reclamar aproveitem nao,1
2,reinaldo azevedo desmascarado policia federal ferrenho critico presidenciavel jair bolsonaro desmascarado grampo telefonico conversas irma aecio neves conversa debochavam juiz sergio moro operacao lava jato ficou clara intencao jornalista defesas tao ferrenhas tucanos colunas jovem pan amigo intimo familia neves alto tucanato propaganda psdbista inves jornalismo jornalista reinaldo azevedo conversa andrea neves irma senador afastado aecio neves interceptada policia federal assunto tratado sao acusacoes aecio contidas delacao odebrecht dialogo classificou reportagem revista trabalhava demitido nojenta referia edicao trouxe aecio capa titulo aecio reinaldo criticou tambem procurador republica rodrigo janot dizia janot atacava aecio supostas pretensoes candidatar governo minas gerais senado conversa divulgada colunista demitido esperar vitima ha agressao garantias profissao crime esteja sendo cometido sigilo conversa jornalista fonte pilares jornalismo escreveu gravacoes anexadas procuradoria republica conjunto audios anexados inquerito provocou afastamento aecio prisao irma poderemos reinaldo fazendo companhia amigo tucano cadeia,1
3,relatorio assustador bndes mostra dinheiro publico brasil jorrando paises comunistas relatorio intitulado bndes transformado robin hood avessas mostra bndes influenciado governo petista conseguiu beneficiar pequeno percentual empresas escolhidas dedo afundou instituicao dividas astronomicas autoria deputada cristiane brasil documento apresentado cpi bndes mostra pt apossou banco conceder beneficios paises comunistas trecho documento destaca existencia contratos secretos suspeitas pratica atos corrupcao criacao empresas fachada beneficiar paises cuba angola venezuela republica dominicana guatemala cristiane apontou gama irregularidades concessao creditos relatou nao houve respeito procedimentos propria instituicao tampouco leis regulamentam operacoes precisamos urgentemente derrubar sigilo desses contratos secretos desmascarar pilantragem feita dinheiro publico abaixo resumo documento texto oficial voce conferir site camara federal ha diversas suspeitas irregularidades area internacional sendo auditadas contratos cerca r 300 milhoes aprovados diretoria respectiva poucos paragrafos utilizacao termos genericos abstratos sem analise especifica obra sera realizada pedidos financiamento realizacao obras distintas paises diferentes sao aprovados praticamente mesma fundamentacao utilizacao mesmas expressoes sem indicativo nacoes obras serem realizadas sao distintas ocorre comparamos processos concessao financiamento obras realizadas guatemala republica dominicana tratem obras paises diversos fundamentacao concessao respectivos emprestimos praticamente mesma afirmando contrato produzira fomento ajudara pais exportar divisas sic servicos ressalte nenhum relatorios indicam serao beneficios sociais pais projeto nao ha mencao numero empregos serao gerados brasil efeito operacao tera parque industrial brasileiro detalhamento poderia adotado bndes melhorar transparencia governanca caso operacoes venezuela ha processo andamento tcu proposta aplicacao multa bndes pese seja pratica corriqueira banco decisoes finais financiamento sejam aprovadas administrativo tcu entendendo diretoria respectiva responsabilizada decisoes orgao controle aponta registro arquivos banco fundamentacoes decisoes critica classifica parecer oral financiamentos determinados relatorios decisoes diretoria constatou erros digitacao implicaram celebracao contratos valores financiamento inferiores pretendidos supostas falhas transcricao documentos culminou erro autorizacao prazo deferido financiamento corpo tecnico bndes demonstre alta capacidade falhas comprometem qualidade procedimento ha questione nao caso mera chancela decisoes previamente tomadas instancias superiores governos sucessivos pt favorecimento amigos rei brahma outro revisao dessas praticas aprimorara transparencia lisura instituicao,1
4,radialista americano fala pt vendem ilusao brasileiro so pensam divertir sitio radialista americano alex jones chorou falar criancas saude brasil jones citou microcefalia espalha mundo descaso crise politica brasileira esquerda nao so vendem ilusoes deveria chama los disse jones video radialista falou surto microcefalia nao conteve caiu lagrimas criancas nao amparo precisamos pessoas boas ajudar pessoas deixaram microcefalia crescer pais,1
5,willian waack continuara internado sirio libanes apresentador jornal globo ficara afastado funcoes indeterminado waack continuara internado hospital sirio libanes sao paulo submetido ultima feira procedimento cateterismo recebeu stents tubo metalico usado desobstruir arterias quadro considerado delicado rede globo sirio libanes nao manifestaram publicamente situacao waack jornalista apresentador carlos tramontina continuara substituindo willian comando jornal globo,1
6,problema cardiaco tira william waack jornal globo apresentador sera operado amanha waack ficara afastado temporariamente jornal globo apos submeter exames rotina medicos determinaram jornalista passe cateterismo procedimento utilizado diagnosticar tratar doencas cardiacas waack ja internado hospital sirio libanes fara cirurgia manha feira 20 carlos tramontina precisou convocado ultima hora comandara jornal globo proximos dias sirio nao emitiu nota saude ancora global,1
7,edir macedo podera disputar eleicoes presidenciais 2018 caso lula seja absolvido 2a instancia dificil acontecer eleicoes 2018 pesquisas preliminares apontam turno disputadissimo ex presidente petista deputado jair bolsonaro prever futuro politico pais nomes ja estao sendo confirmados concorrer cargo maximo planalto senadores paranaenses alvaro dias roberto requiao ex ministra marina silva ciro gomes ex governador ce atual governador sp geraldo alckmin tambem confirmaram pretendem concorrer proximas eleicoes presidenciais liderancas religiosas nao ficar ja articulam lancar proprio candidato bispo edir macedo dono igreja universal tv record nao descartou possibilidade colocar nome urnas eletronicas proximo ano bancada evangelica congresso reunido frequencia rede globo principal desafeto tv record nao escolheu nome apoiar indica familia marinho forte admiracao presidente stf ministra carmen lucia jose serra aecio neves joaquim barbosa nomes ventilados porem nao houve confirmacao,1
8,boechat lula alma honesta governo diabo lula direito alma honesta porem nao significa disse apresentador governo diabo partido diabo tesoureiro pt vaccari sr tentou isentar cana ze dirceu figura importante partido cana disse boechat confira,1
9,pt lula nao dinheiro sobreviver chama moro mentirosomesquinho conspirador partido trabalhadores soltou nota repudio decisao juiz sergio moro bloqueio patrimonios ex presidente r 606 partido alega lula pobre nao dinheiro basico abre aspas condenar ex presidente lula sem provas propagar mentiras contradizer propria sentenca juiz sergio moro decidiu vingar inocente bloquear bens lula moro decretou pena asfixia economica priva ex presidente casa meios subsistir ate defender falsas acusacoes decisao mesquinha tramada segredo longo 9 forca tarefa curitiba concluida apos forte reacao sociedade mundo juridico sentenca injusta caso triplex caso tipico retaliacao vale cumplicidade rede globo cometer arbitrariedades lider popular pais fecha aspas,1


#### 1.3 Aplicar tokenização

**Observações**:
* Testar tokenização posteriormente com NLP.

In [8]:
def tokenize_dataframe(dataframe):
    result = []

    for item in dataframe:
        tokenized_item = word_tokenize(item, language="portuguese")

        for token in tokenized_item:
            result.append(token)

    return result

# df_tokenized = tokenize_dataframe(df['full_text'])
# df_tokenized
# len(df_tokenized)
# counter = Counter(df_tokenized)
# counter = sorted (counter.values())
# counter

### 2. Aplicar Naive Bayes

#### 2.1 Dividindo o dataset e transformando em um array vetorizado

In [9]:
X_train, X_test, Y_train, Y_test = train_test_split(
    df['full_text'],
    df['fake'],
    random_state=0
)

In [10]:
vectorizer = CountVectorizer(ngram_range=(1,2)).fit(X_train)

In [11]:
X_train_vectorized = vectorizer.transform(X_train)

In [12]:
# X_train_vectorized.toarray().shape

#### 2.2 Criando um modelo de Naive Bayes e o treinando com o dataset

In [13]:
model = MultinomialNB(alpha=0.1)
model.fit(X_train_vectorized, Y_train)

MultinomialNB(alpha=0.1)

#### 2.3 Realizando uma predição

In [14]:
predictions = model.predict(vectorizer.transform(X_test))

In [15]:
print('Accuracy: ', 100 * sum(predictions == Y_test) / len(predictions), '%')

Accuracy:  82.62076624097723 %


#### 2.4 Testando o modelo

In [20]:
model.predict(vectorizer.transform(
    [
        "O Podemos decidiu  expulsar o deputado federal Carlos Gaguim do partido após a Polícia Federal fazer buscas a apreensões no gabinete dele na Câmara. Com isso, a legenda abre espaço para receber a senadora expulsa pelo PMDB, Katia Abreu. Por meio de nota, a legenda informou que o afastamento do parlamentar já era algo acordado entre os filiados da sigla.  “Ainda que o parlamentar tenha comunicado a conclusão de sua desfiliação para esta semana, diante dos fatos noticiados hoje, a Executiva Nacional do Podemos solicita o imediato cancelamento de sua filiação dos quadros do partido”. O partido, que no passado chegou a cogitar lançar o parlamentar como candidato ao Senado, diz que “apoia a investigação com a ampla apuração dos eventuais crimes cometidos e a consequente responsabilização dos envolvidos, para que todos sejam punidos com o máximo rigor da Lei, independentemente de posição ou cargo ocupado",
        "Vota e manda pra todos os Bolsonaristas que vc conhece, família, etc.  Peça que façam o mesmo (votar e repassar apenas pra Bolsonaristas).  Essa é uma enquete da jovem pan e o resultado vai ser divulgado a segunda feira.  Fizeram uma primeira e deu 91% Bolsonaro e 9 Lula.  Pessoas da esquerda reclamaram e a jovem pan resolveu fazer essa segunda.  A esquerda se mobilizou, divulgaram e o Lula cresceu bastante.  Nesse momento tá 64 Bolsonaro e 36 Lula.  Vamos nos mobilizar também e golear de novo.",
        "Justiça mandou devolver mais de 600 kg de cocaína para traficantes no Rio de Janeiro",
        "Justiça obrigou a devolução de mais de 550 kg de cocaína para traficantes no estado do Rio",
        "Professor de Geografia da Escola Estadual Camilo Dias faz apologia ao crime em sala de aula. Sem notar alunos gravaram ele falando coisas absurdas, uma mãe fez o seguinte relato Tô chocada, o professor é pago para dar aula de geografia e não a desmotivar  alunos de 15 anos estudar e trabalhar. Ele tá colocando na cabeça dos adolescentes que não é errado roubar e que é uma profissão.  Que traficante, prostituta e ladrão são cidadãos de bem, pais de família e que são profissionais relatou mãe qu pede providências das autoridades. E vc pais oq acham deste profissional de educação? Escute bem o que o professor fala para os alunos."
    ]
))

array([0, 1, 1, 0, 0])