<a href="https://colab.research.google.com/github/brunatoloti/data-science-do-zero/blob/main/Minera%C3%A7%C3%A3o%20de%20Textos%20e%20NLP/mineracao_textos4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Trabalhando com a biblioteca TextBlob

##Classificando documentos

*   Criação de um modelo para classificar frases.
*   Uso de base de dados em português.

Importando as bibliotecas

In [None]:
from textblob import TextBlob
import pandas as pd
import nltk

In [None]:
nltk.download()

**Importando e lendo uma base de dados de notícias**

*   Base de dados disponibilizada no curso Data Science do Zero.
*   A base de dados possui uma coluna de classificação da notícia: notícia verdadeira ou fake news.

In [None]:
news = pd.read_csv('/content/drive/MyDrive/Curso Data Science do Zero/Mineração de Textos e NLP/dados/news.csv', sep=';', header=None)

In [None]:
news.head()

Unnamed: 0,0,1
0,O capitão américa aparece sobrevoando São Paul...,verdadeiro
1,A polarização da população gera guerra civil,fake_news
2,O Chaves se pronuncia e diz está indignado com...,verdadeiro
3,Morte do precidenciavel X por acidente de aviao,verdadeiro
4,Monumento de Brasilia é atacado por manifestan...,fake_news


**Importando o classificador NaiveBayes**

In [None]:
from textblob.classifiers import NaiveBayesClassifier

**Treinando o classificador**

*   O classificador NaiveBayes espera receber os dados de treino como uma lista de tuplas da forma (texto, classificação) ou um arquivo.

In [None]:
clf = NaiveBayesClassifier(news.values)

Fazendo uma modelagem do tipo bag of words com uma frase de exemplo usando o modelo treinado

In [None]:
clf.extract_features('Chuva declara apoio aos baixinhos')

{'contains(13)': False,
 'contains(A)': False,
 'contains(Amoedo)': False,
 'contains(Bolsonaro)': False,
 'contains(Brasilia)': False,
 'contains(Chaves)': False,
 'contains(Corpus)': False,
 'contains(Disputa)': False,
 'contains(Ex)': False,
 'contains(Haddad)': False,
 'contains(Jair)': False,
 'contains(Lula)': False,
 'contains(Manifestantes)': False,
 'contains(Marcelo)': False,
 'contains(Monumento)': False,
 'contains(Morte)': False,
 'contains(Mourao)': False,
 'contains(NOVO)': False,
 'contains(Novo)': False,
 'contains(O)': False,
 'contains(PT)': False,
 'contains(Padre)': False,
 'contains(Paulo)': False,
 'contains(Presidente)': False,
 'contains(Rossi)': False,
 'contains(Sao)': False,
 'contains(São)': False,
 'contains(X)': False,
 'contains(a)': False,
 'contains(acidente)': False,
 'contains(acirrada)': False,
 'contains(adiantamento)': False,
 'contains(américa)': False,
 'contains(ao)': False,
 'contains(aparece)': False,
 'contains(apoio)': True,
 'contains(apos

Fazendo uma classificação de fato da frase com o modelo treinado

In [None]:
clf.classify('Chuva declara apoio aos baixinhos')

'fake_news'

Fazendo uma classificação de fato com outra frase usando o modelo treinado

In [None]:
clf.classify('Presidente Temer declara apoio a candidato do PSDB')

'fake_news'

Fazendo uma classificação de fato com outra frase usando o modelo treinado

In [None]:
clf.classify('Disputa entre presidenciáveis será mesmo no segundo turno')

'verdadeiro'

**Distribuição das Probabilidades**

Como estamos trabalhando com um classificador probabilístico, podemos obter a probabilidade de cada frase/texto ser verdadeiro ou fake news, ou seja, a probabilidade da classificação.

Para isso, usamos o método *prob_classify()* do classificador e passamos a frase que queremos obter a probabilidade da classificação como parâmetro. Com isso, usamos o método *prob()* para obtermos a probabilidade em si de a frase ser classificada com cada uma das classes.

In [None]:
dist_prob = clf.prob_classify('Padre Marcelo Rossi se pronuncia e diz que irá se candidatar')

In [None]:
dist_prob.prob('fake_news')

0.8336538270304874

In [None]:
dist_prob.prob('verdadeiro')

0.16634617296951504

A probabilidade de a frase *Padre Marcelo Rossi se pronuncia e diz que irá se candidatar* ser da classe *fake_news* é de, aproximadamente, 83%, enquanto que de ser da classe *verdadeiro* é de, aproximadamente, 17%.

In [None]:
dist_prob.max()

'fake_news'

Com o método *max()*, aplicado à variável dist_prob, conseguimos ver qual a probabilidade máxima. Nos é retornado *fake_news*. De fato, é a classificação com maior probabilidade para essa frase.

**Avaliando o classificador usando um conjunto de validação de exemplo**

Como forma de exemplo e para fixação dos conceitos, usaremos aqui uma lista com algumas frases e suas classes como conjunto de validação. Num problema real, obviamente, esse conjunto seria bem maior, assim como a base de dados utilizada.

In [None]:
validation = [
    ('O governo Temer propõe reforma trabalhista', 'verdadeiro'),
    ('Capitão América é visto em campanha eleitoral do partido NOVO', 'fake_news'),
    ('Padre Marcelo Rossi é solto nessa madrugada', 'fake_news'),
    ('Urso melhora nas pesquisas após atentado', 'verdadeiro')
]

Visualizando a acurácia do modelo

In [None]:
clf.accuracy(validation)

1.0

In [None]:
for i in validation:
    print(f'{i[0]} - {clf.classify(i[0])}')

O governo Temer propõe reforma trabalhista - verdadeiro
Capitão América é visto em campanha eleitoral do partido NOVO - fake_news
Padre Marcelo Rossi é solto nessa madrugada - fake_news
Urso melhora nas pesquisas após atentado - verdadeiro


Conseguimos ver que o modelo conseguiu acertar todas as classificações da validação, neste caso. Poderia não ter ocorrido isso, dado que tanto a base de dados aqui utilizada quanto o conjunto de validação utilizado são pequenos.

**Imprimindo as features mais informativas para o classificador**

Aqui, neste exemplo, temos as features mais informativas para o classificador. Óbviamente, com uma base de dados maior, o modelo seria bem melhor e teria informações mais precisas para o classificador.

In [None]:
clf.show_informative_features(20)

Most Informative Features
            contains(de) = True           verdad : fake_n =      2.7 : 1.0
            contains(se) = True           verdad : fake_n =      2.1 : 1.0
           contains(diz) = True           verdad : fake_n =      2.1 : 1.0
         contains(apoio) = True           fake_n : verdad =      1.9 : 1.0
       contains(declara) = True           fake_n : verdad =      1.9 : 1.0
            contains(de) = False          fake_n : verdad =      1.6 : 1.0
           contains(que) = True           verdad : fake_n =      1.5 : 1.0
            contains(ao) = False          verdad : fake_n =      1.4 : 1.0
            contains(se) = False          fake_n : verdad =      1.3 : 1.0
           contains(diz) = False          fake_n : verdad =      1.3 : 1.0
            contains(no) = False          fake_n : verdad =      1.3 : 1.0
             contains(o) = False          fake_n : verdad =      1.3 : 1.0
          contains(está) = False          fake_n : verdad =      1.3 : 1.0