<a href="https://colab.research.google.com/github/DaviRamos/NLP/blob/master/Textblob_Fake_News.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalação do TextBlob

In [1]:
!pip install textblob



** Baixando a base de dados**

In [2]:
!python -m textblob.download_corpora

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package conll2000 to /root/nltk_data...
[nltk_data]   Unzipping corpora/conll2000.zip.
[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.
Finished.


**Importando a Biblioteca**

In [0]:
from textblob import TextBlob
import pandas as pd

**Trabalhando com uma sentença de exemplo**

In [0]:
frase = TextBlob("Eleicoes no Brasil causa tumulto e serão anuladas")

In [5]:
type(frase)

textblob.blob.TextBlob

** tokens **

In [6]:
frase.tokens

WordList(['Eleicoes', 'no', 'Brasil', 'causa', 'tumulto', 'e', 'serão', 'anuladas'])

** Tokenização e Sentenças**

In [0]:
sentencas = TextBlob("O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar. "
                     "A polarização da população gera guerra civil."
                     "O Chaves se pronuncia e diz está indignado com tanta mentira.")

** Sentenças**

In [9]:
for i in sentencas.sentences:
    print (i)

O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar.
A polarização da população gera guerra civil.O Chaves se pronuncia e diz está indignado com tanta mentira.


** Tradução de Sentenças**

In [10]:
frase_ingles = TextBlob(u'O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar')
frase_ingles.translate(from_lang='pt', to='en')

TextBlob("The captain of america appears flying over São Paulo and says he will run for")

In [12]:
frase_ingles = TextBlob(u'A polarização da população gera guerra civil')
frase_ingles.translate(from_lang='pt', to='en')

TextBlob("The polarization of the population generates civil war")

In [13]:
frase_ingles = TextBlob(u'O Chaves se pronuncia e diz está indignado com tanta mentira.')
frase_ingles.translate(from_lang='pt', to='en')

TextBlob("The Chaves pronounces and says he is outraged by such a lie.")

** Classificando textos**

In [0]:
news = pd.read_csv('news.csv', sep=';', header=None)

In [15]:
news.values

array([['O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar',
        'verdadeiro'],
       ['A polarização da população gera guerra civil', 'fake_news'],
       ['O Chaves se pronuncia e diz está indignado com tanta mentira.',
        'verdadeiro'],
       ['Morte do precidenciavel X por acidente de aviao', 'verdadeiro'],
       ['Monumento de Brasilia é atacado por manifestantes e eleicoes seráo canceladas',
        'fake_news'],
       ['Novo presidente se diz confiante para governar o pais',
        'verdadeiro'],
       ['Jair Bolsonaro sobe no ranking de rejeicao no nordeste',
        'verdadeiro'],
       ['Haddad melhora nas pesquisas apos apoio de Lula', 'verdadeiro'],
       ['Disputa no segundo turno está cada vez mais acirrada entre os extremos',
        'verdadeiro'],
       ['Amoedo declara apoio ao PT', 'fake_news'],
       ['Manifestantes em Sao Paulo param avenida pedem intervençao militar!',
        'fake_news'],
       ['Padre Marcelo Rossi d

In [0]:
from textblob.classifiers import NaiveBayesClassifier
clf = NaiveBayesClassifier(news.values, format="csv")

In [17]:
clf.classify('Presidente Temmer declara apoio a candidato do PSDB')

'fake_news'

In [18]:
clf.classify('Disputa entre presidenciais sera mesmo no segundo turno')

'verdadeiro'

** Distribuicao das Probabilidades**

In [0]:
dist_prob = clf.prob_classify('Padre Marcelo Rossi se pronuncia e diz que irá se candidatar')

In [20]:
dist_prob.prob('fake_news')

0.8336538270304792

In [23]:
dist_prob.prob('verdadeiro')

0.1663461729695183

In [25]:
dist_prob.max()

'fake_news'

**Avaliando o classificador**

In [0]:
validacao = [
     ('O governo temmer propoe reforma trabalhista', 'verdadeiro'),
     ('Capitão america é visto em campanha eleitoral do partido NOVO', 'fake_news'),
     ("Lula é solto essa madrugada", 'fake_news'),
     ("Jair Bolsonaro melhora nas pesquisas após atentado.", 'verdadeiro')
]

** Acurácia**

In [27]:
clf.accuracy(validacao)

0.75

In [28]:
for i in validacao:
    print (i[0], clf.classify(i[0]))

O governo temmer propoe reforma trabalhista fake_news
Capitão america é visto em campanha eleitoral do partido NOVO fake_news
Lula é solto essa madrugada fake_news
Jair Bolsonaro melhora nas pesquisas após atentado. verdadeiro


** Features Mais informativas**

In [29]:
clf.show_informative_features()

Most Informative Features
            contains(de) = True           verdad : fake_n =      2.7 : 1.0
            contains(se) = True           verdad : fake_n =      2.1 : 1.0
           contains(diz) = True           verdad : fake_n =      2.1 : 1.0
         contains(apoio) = True           fake_n : verdad =      1.9 : 1.0
       contains(declara) = True           fake_n : verdad =      1.9 : 1.0
            contains(de) = False          fake_n : verdad =      1.6 : 1.0
           contains(que) = True           verdad : fake_n =      1.5 : 1.0
            contains(ao) = False          verdad : fake_n =      1.4 : 1.0
            contains(se) = False          fake_n : verdad =      1.3 : 1.0
           contains(diz) = False          fake_n : verdad =      1.3 : 1.0
