# Instalação do TextBlob

In [None]:
!pip install textblob



** Baixando a base de dados**

In [None]:
!python -m textblob.download_corpora

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package conll2000 to /root/nltk_data...
[nltk_data]   Unzipping corpora/conll2000.zip.
[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.
Finished.


**Importando a Biblioteca**

In [None]:
from textblob import TextBlob
import pandas as pd

**Trabalhando com uma sentença de exemplo**

In [None]:
frase = TextBlob("Eleicoes no Brasil causa tumulto e serão anuladas")

In [None]:
type(frase)

textblob.blob.TextBlob

** tokens **

In [None]:
frase.tokens

WordList(['Eleicoes', 'no', 'Brasil', 'causa', 'tumulto', 'e', 'serão', 'anuladas'])

** Tokenização e Sentenças**

In [None]:
sentencas = TextBlob("O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar. "
                     "A polarização da população gera guerra civil."
                     "O Chaves se pronuncia e diz está indignado com tanta mentira.")

** Sentenças**

In [None]:
for i in sentencas.sentences:
    print (i)

O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar.
A polarização da população gera guerra civil.O Chaves se pronuncia e diz está indignado com tanta mentira.


** Tradução de Sentenças**

In [None]:
frase_ingles = TextBlob(u'O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar')
frase_ingles.translate(from_lang='pt', to='en')

TextBlob("Captain america appears flying over São Paulo and says he will apply")

In [None]:
frase_ingles = TextBlob(u'A polarização da população gera guerra civil')
frase_ingles.translate(from_lang='pt', to='en')

TextBlob("The polarization of the population generates civil war")

In [None]:
frase_ingles = TextBlob(u'O Chaves se pronuncia e diz está indignado com tanta mentira.')
frase_ingles.translate(from_lang='pt', to='en')

TextBlob("Chaves speaks up and says he is outraged by so much lies.")

** Classificando textos**

In [13]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


In [14]:
news = pd.read_csv('/content/drive/My Drive/0. Business/2. Consultoria em Dados/2. IA, ML/0. Scripts, Exemplos, Cursos/Scripts exemplos/x. Diversos/Diversos Minerando Dados/news.csv', sep=';', header=None)

In [15]:
news.values

array([['O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar',
        'verdadeiro'],
       ['A polarização da população gera guerra civil', 'fake_news'],
       ['O Chaves se pronuncia e diz está indignado com tanta mentira.',
        'verdadeiro'],
       ['Morte do precidenciavel X por acidente de aviao', 'verdadeiro'],
       ['Monumento de Brasilia é atacado por manifestantes e eleicoes seráo canceladas',
        'fake_news'],
       ['Novo presidente se diz confiante para governar o pais',
        'verdadeiro'],
       ['Jair Bolsonaro sobe no ranking de rejeicao no nordeste',
        'verdadeiro'],
       ['Haddad melhora nas pesquisas apos apoio de Lula', 'verdadeiro'],
       ['Disputa no segundo turno está cada vez mais acirrada entre os extremos',
        'verdadeiro'],
       ['Amoedo declara apoio ao PT', 'fake_news'],
       ['Manifestantes em Sao Paulo param avenida pedem intervençao militar!',
        'fake_news'],
       ['Padre Marcelo Rossi d

In [16]:
from textblob.classifiers import NaiveBayesClassifier
clf = NaiveBayesClassifier(news.values, format="csv")

In [17]:
clf.classify('Presidente Temmer declara apoio a candidato do PSDB')

'fake_news'

In [18]:
clf.classify('Disputa entre presidenciais sera mesmo no segundo turno')

'verdadeiro'

In [20]:
clf.classify('Bolsonaro é presidente do Brasil')

'verdadeiro'

** Distribuicao das Probabilidades**

In [21]:
dist_prob = clf.prob_classify('Padre Marcelo Rossi se pronuncia e diz que irá se candidatar')

In [22]:
dist_prob.prob('fake_news')

0.8336538270304833

In [23]:
dist_prob.prob('verdadeiro')

0.16634617296951584

In [None]:
prob_dist.max()

**Avaliando o classificador**

In [25]:
validacao = [
     ('O governo temmer propoe reforma trabalhista', 'verdadeiro'),
     ('Capitão america é visto em campanha eleitoral do partido NOVO', 'fake_news'),
     ("Lula é solto essa madrugada", 'fake_news'),
     ("Jair Bolsonaro melhora nas pesquisas após atentado.", 'verdadeiro')
]

** Acurácia**

In [26]:
clf.accuracy(validacao)

0.75

In [27]:
for i in validacao:
    print (i[0], clf.classify(i[0]))

O governo temmer propoe reforma trabalhista fake_news
Capitão america é visto em campanha eleitoral do partido NOVO fake_news
Lula é solto essa madrugada fake_news
Jair Bolsonaro melhora nas pesquisas após atentado. verdadeiro


** Features Mais informativas**

In [28]:
clf.show_informative_features()

Most Informative Features
            contains(de) = True           verdad : fake_n =      2.7 : 1.0
           contains(diz) = True           verdad : fake_n =      2.1 : 1.0
            contains(se) = True           verdad : fake_n =      2.1 : 1.0
       contains(declara) = True           fake_n : verdad =      1.9 : 1.0
         contains(apoio) = True           fake_n : verdad =      1.9 : 1.0
            contains(de) = False          fake_n : verdad =      1.6 : 1.0
           contains(que) = True           verdad : fake_n =      1.5 : 1.0
            contains(ao) = False          verdad : fake_n =      1.4 : 1.0
           contains(diz) = False          fake_n : verdad =      1.3 : 1.0
            contains(se) = False          fake_n : verdad =      1.3 : 1.0
