## **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br

* Estudando a Biblioteca TextBlob
* Machine Learning

# ** Classificando documentos usando Textblob**

**Importando a Biblioteca**

In [1]:
from textblob import TextBlob
import pandas as pd

* Criando um modelo para classificar frases.
* Base de dados em português.

** Ler a base de dados de noticias**

In [2]:
news = pd.read_csv('news.csv', sep=';', header=None)

In [3]:
news.head()

Unnamed: 0,0,1
0,O capitão américa aparece sobrevoando São Paul...,verdadeiro
1,A polarização da população gera guerra civil,fake_news
2,O Chaves se pronuncia e diz está indignado com...,verdadeiro
3,Morte do precidenciavel X por acidente de aviao,verdadeiro
4,Monumento de Brasilia é atacado por manifestan...,fake_news


In [4]:
news.values

array([['O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar',
        'verdadeiro'],
       ['A polarização da população gera guerra civil', 'fake_news'],
       ['O Chaves se pronuncia e diz está indignado com tanta mentira.',
        'verdadeiro'],
       ['Morte do precidenciavel X por acidente de aviao', 'verdadeiro'],
       ['Monumento de Brasilia é atacado por manifestantes e eleicoes seráo canceladas',
        'fake_news'],
       ['Novo presidente se diz confiante para governar o pais',
        'verdadeiro'],
       ['Jair Bolsonaro sobe no ranking de rejeicao no nordeste',
        'verdadeiro'],
       ['Haddad melhora nas pesquisas apos apoio de Lula', 'verdadeiro'],
       ['Disputa no segundo turno está cada vez mais acirrada entre os extremos',
        'verdadeiro'],
       ['Amoedo declara apoio ao PT', 'fake_news'],
       ['Manifestantes em Sao Paulo param avenida pedem intervençao militar!',
        'fake_news'],
       ['Padre Marcelo Rossi d

**Importa o classificador NaiveBayes**

In [5]:
from textblob.classifiers import NaiveBayesClassifier

**Treina o classificador**

In [6]:
import nltk
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping corpora/biocreative_ppi.zip.
[nltk_data]    | Downloading package brown to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/brown.zip.
[nltk_data]    | Downloading package brown_tei to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/brown_tei.zip.
[nltk_data]    | Downloading package cess_cat to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cess_cat.zip.
[nltk_data]    | Downloading package cess_esp to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cess_esp.zip.
[nltk_data]    | Downloading package chat80 to /root/nltk_data...
[nltk_data]    |   Unzipp

False

In [9]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [10]:
clf = NaiveBayesClassifier(news.values, format="csv")

In [11]:
# modelagem do tipo bag of words
clf.extract_features('Chuva declara apoio aos baixinhos')

{'contains(13)': False,
 'contains(A)': False,
 'contains(Amoedo)': False,
 'contains(Bolsonaro)': False,
 'contains(Brasilia)': False,
 'contains(Chaves)': False,
 'contains(Corpus)': False,
 'contains(Disputa)': False,
 'contains(Ex)': False,
 'contains(Haddad)': False,
 'contains(Jair)': False,
 'contains(Lula)': False,
 'contains(Manifestantes)': False,
 'contains(Marcelo)': False,
 'contains(Monumento)': False,
 'contains(Morte)': False,
 'contains(Mourao)': False,
 'contains(NOVO)': False,
 'contains(Novo)': False,
 'contains(O)': False,
 'contains(PT)': False,
 'contains(Padre)': False,
 'contains(Paulo)': False,
 'contains(Presidente)': False,
 'contains(Rossi)': False,
 'contains(Sao)': False,
 'contains(São)': False,
 'contains(X)': False,
 'contains(a)': False,
 'contains(acidente)': False,
 'contains(acirrada)': False,
 'contains(adiantamento)': False,
 'contains(américa)': False,
 'contains(ao)': False,
 'contains(aparece)': False,
 'contains(apoio)': True,
 'contains(apos

In [12]:
clf.classify('Chuva declara apoio aos baixinhos')

'fake_news'

In [13]:
clf.classify('Presidente Temmer declara apoio a candidato do PSDB')

'fake_news'

In [14]:
clf.classify('Disputa entre presidenciais não será no segundo turno')

'verdadeiro'

** Distribuicao das Probabilidades**

In [15]:
dist_prob = clf.prob_classify('Padre Marcelo Rossi se pronuncia e diz que irá se candidatar')

In [16]:
dist_prob.prob('fake_news')

0.8336538270304833

In [17]:
dist_prob.prob('verdadeiro')

0.16634617296951668

In [18]:
dist_prob.max()

'fake_news'

**Avaliando o classificador usando um conjunto de validação**

In [19]:
validacao = [
     ('O governo temmer propoe reforma trabalhista', 'verdadeiro'),
     ('Capitão america é visto em campanha eleitoral do partido NOVO', 'fake_news'),
     ("Lula é solto essa madrugada", 'fake_news'),
     ("Jair Bolsonaro melhora nas pesquisas após atentado.", 'verdadeiro')
]

** Visualizando a Acurácia do Modelo**

In [20]:
clf.accuracy(validacao)

0.75

In [21]:
for i in validacao:
    print (i[0], clf.classify(i[0]))

O governo temmer propoe reforma trabalhista fake_news
Capitão america é visto em campanha eleitoral do partido NOVO fake_news
Lula é solto essa madrugada fake_news
Jair Bolsonaro melhora nas pesquisas após atentado. verdadeiro


In [22]:
# Features mais informativas
print (clf.show_informative_features(20))

Most Informative Features
            contains(de) = True           verdad : fake_n =      2.7 : 1.0
            contains(se) = True           verdad : fake_n =      2.1 : 1.0
           contains(diz) = True           verdad : fake_n =      2.1 : 1.0
         contains(apoio) = True           fake_n : verdad =      1.9 : 1.0
       contains(declara) = True           fake_n : verdad =      1.9 : 1.0
            contains(de) = False          fake_n : verdad =      1.6 : 1.0
           contains(que) = True           verdad : fake_n =      1.5 : 1.0
            contains(ao) = False          verdad : fake_n =      1.4 : 1.0
            contains(se) = False          fake_n : verdad =      1.3 : 1.0
           contains(diz) = False          fake_n : verdad =      1.3 : 1.0
            contains(no) = False          fake_n : verdad =      1.3 : 1.0
          contains(está) = False          fake_n : verdad =      1.3 : 1.0
             contains(O) = False          fake_n : verdad =      1.3 : 1.0

## **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br