## **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br

* Estudando a Biblioteca TextBlob
* Machine Learning

# ** Classificando documentos usando Textblob**

**Importando a Biblioteca**

In [1]:
from textblob import TextBlob

* Criando um modelo para classificar frases.
* Base de dados em português.

** Ler a base de dados de noticias**

In [2]:
import pandas as pd

In [4]:
news=pd.read_csv(r'C:\Users\Daniel\materiais_de_apoio\materiais_de_apoio\news.csv',sep=';',header=None)

In [5]:
news.head()

Unnamed: 0,0,1
0,O capitão américa aparece sobrevoando São Paul...,verdadeiro
1,A polarização da população gera guerra civil,fake_news
2,O Chaves se pronuncia e diz está indignado com...,verdadeiro
3,Morte do precidenciavel X por acidente de aviao,verdadeiro
4,Monumento de Brasilia é atacado por manifestan...,fake_news


In [7]:
news.values

array([['O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar',
        'verdadeiro'],
       ['A polarização da população gera guerra civil', 'fake_news'],
       ['O Chaves se pronuncia e diz está indignado com tanta mentira.',
        'verdadeiro'],
       ['Morte do precidenciavel X por acidente de aviao', 'verdadeiro'],
       ['Monumento de Brasilia é atacado por manifestantes e eleicoes seráo canceladas',
        'fake_news'],
       ['Novo presidente se diz confiante para governar o pais',
        'verdadeiro'],
       ['Jair Bolsonaro sobe no ranking de rejeicao no nordeste',
        'verdadeiro'],
       ['Haddad melhora nas pesquisas apos apoio de Lula', 'verdadeiro'],
       ['Disputa no segundo turno está cada vez mais acirrada entre os extremos',
        'verdadeiro'],
       ['Amoedo declara apoio ao PT', 'fake_news'],
       ['Manifestantes em Sao Paulo param avenida pedem intervençao militar!',
        'fake_news'],
       ['Padre Marcelo Rossi d

**Importa o classificador NaiveBayes**

In [8]:
from textblob.classifiers import NaiveBayesClassifier

**Treina o classificador**

In [9]:
clf=NaiveBayesClassifier(news.values,format='csv')

In [10]:
clf.classify('Chuva declara apoio aos baixinhos')

'fake_news'

In [11]:
clf.classify('Presidente Temmer declara apoio a candidato do PSDB')

'fake_news'

In [12]:
clf.classify('Disputa entre presidenciáveis será mesmo no segundo turno')

'verdadeiro'

** Distribuicao das Probabilidades**

In [13]:
dist_prob=clf.prob_classify('Padre Marcelo Rossi se pronuncia e diz que irá se candidatar')

In [14]:
dist_prob.prob('fake_news')

0.8336538270304833

In [15]:
dist_prob.prob('verdadeiro')

0.16634617296951584

In [16]:
dist_prob.max()

'fake_news'

**Avaliando o classificador usando um conjunto de validação**

In [17]:
validacao=[('O governo temmer propõe reforma trabalhista','verdadeiro'),('Capitão america é visto em campanha eleitoral do partido NOVO','fake_news'),('Lula é solto essa madrugada','fake_news'),('Jair Bolsonaro melhora nas pesquisas após atentado','verdadeiro')]

** Visualizando a Acurácia do Modelo**

In [18]:
clf.accuracy(validacao)

0.75

In [19]:
#Features mais informativas
print(clf.show_informative_features(20))

Most Informative Features
            contains(de) = True           verdad : fake_n =      2.7 : 1.0
            contains(se) = True           verdad : fake_n =      2.1 : 1.0
           contains(diz) = True           verdad : fake_n =      2.1 : 1.0
       contains(declara) = True           fake_n : verdad =      1.9 : 1.0
         contains(apoio) = True           fake_n : verdad =      1.9 : 1.0
            contains(de) = False          fake_n : verdad =      1.6 : 1.0
           contains(que) = True           verdad : fake_n =      1.5 : 1.0
            contains(ao) = False          verdad : fake_n =      1.4 : 1.0
           contains(diz) = False          fake_n : verdad =      1.3 : 1.0
            contains(se) = False          fake_n : verdad =      1.3 : 1.0
             contains(o) = False          fake_n : verdad =      1.3 : 1.0
             contains(O) = False          fake_n : verdad =      1.3 : 1.0
          contains(está) = False          fake_n : verdad =      1.3 : 1.0

## **Minerando Dados - A maior comunidade de Data Science do Brasil**
www.minerandodados.com.br