# Instalação do TextBlob

In [1]:
!pip install textblob



** Baixando a base de dados**

In [2]:
!python -m textblob.download_corpora

[nltk_data] Downloading package brown to
[nltk_data]     /home/68281455500/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     /home/68281455500/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/68281455500/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/68281455500/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to
[nltk_data]     /home/68281455500/nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to
[nltk_data]     /home/68281455500/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
Finished.


**Importando a Biblioteca**

In [3]:
from textblob import TextBlob
import pandas as pd

**Trabalhando com uma sentença de exemplo**

In [4]:
frase = TextBlob("Eleicoes no Brasil causa tumulto e serão anuladas")

In [5]:
type(frase)

textblob.blob.TextBlob

** tokens **

In [6]:
frase.tokens

WordList(['Eleicoes', 'no', 'Brasil', 'causa', 'tumulto', 'e', 'serão', 'anuladas'])

** Tokenização e Sentenças**

In [7]:
sentencas = TextBlob("O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar. "
                     "A polarização da população gera guerra civil."
                     "O Chaves se pronuncia e diz está indignado com tanta mentira.")

** Sentenças**

In [8]:
for i in sentencas.sentences:
    print (i)

O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar.
A polarização da população gera guerra civil.O Chaves se pronuncia e diz está indignado com tanta mentira.


** Tradução de Sentenças**

In [9]:
frase_ingles = TextBlob(u'O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar')
frase_ingles.translate(from_lang='pt', to='en')

TextBlob("Captain america flies over Sao Paulo and says he will apply")

In [10]:
frase_ingles = TextBlob(u'A polarização da população gera guerra civil')
frase_ingles.translate(from_lang='pt', to='en')

TextBlob("Population polarization breeds civil war")

In [11]:
frase_ingles = TextBlob(u'O Chaves se pronuncia e diz está indignado com tanta mentira.')
frase_ingles.translate(from_lang='pt', to='en')

TextBlob("Chaves pronounces and says he is outraged at such a lie.")

** Classificando textos**

In [12]:
news = pd.read_csv('news.csv', sep=';', header=None)

In [13]:
news.values

array([['O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar',
        'verdadeiro'],
       ['A polarização da população gera guerra civil', 'fake_news'],
       ['O Chaves se pronuncia e diz está indignado com tanta mentira.',
        'verdadeiro'],
       ['Morte do precidenciavel X por acidente de aviao', 'verdadeiro'],
       ['Monumento de Brasilia é atacado por manifestantes e eleicoes seráo canceladas',
        'fake_news'],
       ['Novo presidente se diz confiante para governar o pais',
        'verdadeiro'],
       ['Jair Bolsonaro sobe no ranking de rejeicao no nordeste',
        'verdadeiro'],
       ['Haddad melhora nas pesquisas apos apoio de Lula', 'verdadeiro'],
       ['Disputa no segundo turno está cada vez mais acirrada entre os extremos',
        'verdadeiro'],
       ['Amoedo declara apoio ao PT', 'fake_news'],
       ['Manifestantes em Sao Paulo param avenida pedem intervençao militar!',
        'fake_news'],
       ['Padre Marcelo Rossi d

In [14]:
from textblob.classifiers import NaiveBayesClassifier
clf = NaiveBayesClassifier(news.values, format="csv")

In [15]:
clf.classify('Presidente Temmer declara apoio a candidato do PSDB')

'fake_news'

In [16]:
clf.classify('Disputa entre presidenciais sera mesmo no segundo turno')

'verdadeiro'

** Distribuicao das Probabilidades**

In [22]:
dist_prob = clf.prob_classify('Padre Marcelo Rossi se pronuncia e diz que irá se candidatar')

In [23]:
dist_prob.prob('fake_news')

0.8336538270304833

In [24]:
dist_prob.prob('verdadeiro')

0.16634617296951668

In [25]:
dist_prob.max()

'fake_news'

**Avaliando o classificador**

In [26]:
validacao = [
     ('O governo temmer propoe reforma trabalhista', 'verdadeiro'),
     ('Capitão america é visto em campanha eleitoral do partido NOVO', 'fake_news'),
     ("Lula é solto essa madrugada", 'fake_news'),
     ("Jair Bolsonaro melhora nas pesquisas após atentado.", 'verdadeiro')
]

** Acurácia**

In [27]:
clf.accuracy(validacao)

0.75

In [29]:
for i in validacao:
    print (i[0],' - ', clf.classify(i[0]))

O governo temmer propoe reforma trabalhista  -  fake_news
Capitão america é visto em campanha eleitoral do partido NOVO  -  fake_news
Lula é solto essa madrugada  -  fake_news
Jair Bolsonaro melhora nas pesquisas após atentado.  -  verdadeiro


** Features Mais informativas**

In [None]:
clf.show_informative_features()