<a href="https://colab.research.google.com/github/saulomaia/datascience/blob/master/nlp_nltk/news_sorter.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Classificador de Notícias**

<p align="center"><img src="https://raw.githubusercontent.com/saulomaia/datascience/master/images/news_sorter.png" height="450px"></p>

## **Biblioteca TextBlob**

A biblioteca TextBlob é uma extensão da biblioteca NLTK para trabalharmos com NLP, ou seja, a própria NLTK já é uma biblioteca muito poderosa e a TextBlob veio para agregar soluções e serviços de NLP usando como base a NLTK. Possui uma fácil usabilidade, o que permite termos uma interface muito mais amigável por meio de uma API. Além de tudo isso, há para a biblioteca, uma documentação muito rica e uma maior integracão com outros serviços e produtos.

Tarefas de NLP que são possíveis de serem realizadas através da TextBlob:

1.   Tokenization
2.   Noun Phrase Extraction
3.   POS-Tagging
4.   Words inflection and lemmatization
5.   N-grams
6.   Sentiment Analysis




### Instalação

In [1]:
!pip install textblob



### Baixando as bases de dados utilizadas pela NLTK

In [2]:
!python -m textblob.download_corpora

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package conll2000 to /root/nltk_data...
[nltk_data]   Unzipping corpora/conll2000.zip.
[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.
Finished.


### Utilizando a biblioteca

In [3]:
from textblob import TextBlob

In [7]:
frases = TextBlob("Python é um ótima liguagem para Data Science.")

In [8]:
frases.tokens

WordList(['Python', 'é', 'um', 'ótima', 'liguagem', 'para', 'Data', 'Science', '.'])

**Detectando sentenças**

In [9]:
frases.sentences

[Sentence("Python é um ótima liguagem para Data Science.")]

**A biblioteca TextBlob tem um recurso interessante de tradução de sentenças.**

A blbioteca utiliza a API do Google Translate para realizar a tradução das sentenças, além de detectar automaticamente o idioma utilizado e fazer a correção de uma determinada frase.

In [11]:
frases.detect_language()

'pt'

In [10]:
frases.translate(to="en")

TextBlob("Python is a great language for Data Science.")

In [15]:
frase = TextBlob("I havv othyr idea, ok !! comi on")
frase.correct()

TextBlob("I have other idea, ok !! come on")

## **Classificação de Notícias**

Quantas vezes você já foi impactado por alguma **notícia duvidosa?** E quantas vezes, mesmo sem confirmar a veracidade dos fatos, **repassou ela aos seus contatos?** Pois bem, é assim que as fake news se espalham e estão cada vez mais presentes no dia a dia da informação.

Principalmente com o estabelecimento das redes sociais, as notícias falsas têm sido amplamente disseminadas. Notícias enganosas, juntamente com o grande número de usuários com o poder de compartilhá-las sem o devido conhecimento para verificar suas fontes e veracidade, levaram a população à uma série de tomadas de decisões errôneas e que não refletem suas reais intenções, seja no âmbito político, social ou até mesmo da sáude.

Na política, por exemplo, notícias falsas já são bem conhecidas. Dados mostram que no ano de 2016, 33 das [50 notícias falsas mais disseminadas no Facebook eram sobre a política dos Estados Unidos](https://www.buzzfeednews.com/article/craigsilverman/top-fake-news-of-2016#.nl712lkw2), e grande parte delas envolveu os candidatos à presidência.

Uma das formas mais promissoras de combate à disseminação de notícias falsas é a automatização na detecção desse conteúdo, ou seja, a capacidade de classificar o conteúdo como verdadeiro ou não sem a interação de um humano. Diversos esforços na tentativa de construir algoritmos capazes de fazer essa classificação já existem, alguns por parte de vários pesquisadores e outros até por parte de empresas como Google e Facebook. O uso de algoritmos de aprendizado
de máquina e mais especificamente o uso de aprendizado profundo se mostram promissores devido a capacidade de reconhecer padrões semânticos de que escapam ao leitor comum, que podem indicar se a notícia é verdadeira ou não. Além disso o avanço de técnicas de processamento de linguagem natural e de algoritmos para a criação de palavras vetorizadas contribui para uma melhor performance de redes neurais sobre tarefas relacionadas com texto.

O objetivo desse projeto é explorar a biblioteca TextBlob e usar machine learning usando o classificador Naive Bayes para classificar as frases para uma base de dados de notícias em português. 



In [18]:
from textblob import TextBlob
import pandas as pd

In [21]:
# url do dataset
dataset_path = "https://raw.githubusercontent.com/saulomaia/datascience/master/nlp_nltk/news.csv"

# importar o csv para um dataframe
news = pd.read_csv(dataset_path, sep=";", header=None)

# ver as 5 primeiras entradas
news.head()

Unnamed: 0,0,1
0,O capitão américa aparece sobrevoando São Paul...,verdadeiro
1,A polarização da população gera guerra civil,fake_news
2,O Chaves se pronuncia e diz está indignado com...,verdadeiro
3,Morte do precidenciavel X por acidente de aviao,verdadeiro
4,Monumento de Brasilia é atacado por manifestan...,fake_news


A base de dados, pequene e de exemplo, é composta por algumas frases de exemplo, e por sua respectiva classificação: verdadeira ou fake news, simulando uma base de dados verdadeira classificada entre verdadeira e fake news.

In [23]:
# mostrando o formato dos dados
news.values

array([['O capitão américa aparece sobrevoando São Paulo e diz que irá se candidatar',
        'verdadeiro'],
       ['A polarização da população gera guerra civil', 'fake_news'],
       ['O Chaves se pronuncia e diz está indignado com tanta mentira.',
        'verdadeiro'],
       ['Morte do precidenciavel X por acidente de aviao', 'verdadeiro'],
       ['Monumento de Brasilia é atacado por manifestantes e eleicoes seráo canceladas',
        'fake_news'],
       ['Novo presidente se diz confiante para governar o pais',
        'verdadeiro'],
       ['Jair Bolsonaro sobe no ranking de rejeicao no nordeste',
        'verdadeiro'],
       ['Haddad melhora nas pesquisas apos apoio de Lula', 'verdadeiro'],
       ['Disputa no segundo turno está cada vez mais acirrada entre os extremos',
        'verdadeiro'],
       ['Amoedo declara apoio ao PT', 'fake_news'],
       ['Manifestantes em Sao Paulo param avenida pedem intervençao militar!',
        'fake_news'],
       ['Padre Marcelo Rossi d

**Importando o classificador Naive Bayes**

In [24]:
from textblob.classifiers import NaiveBayesClassifier

**Treinando o classificador**

In [25]:
clf = NaiveBayesClassifier(news.values, format="csv")

Agora é possível passar uma frase de exemplo e extrair features para visualizar como que seria o formato bag of words, ou seja, dado a frase de teste, se consegue verificar qual(is) palavra(s) da mesma, contém na base de dados utilizadas para treino do classificador.

In [27]:
# modelagem do tipo bag of words
clf.extract_features("Xuxa declara apoio aos baixinhos")

{'contains(13)': False,
 'contains(A)': False,
 'contains(Amoedo)': False,
 'contains(Bolsonaro)': False,
 'contains(Brasilia)': False,
 'contains(Chaves)': False,
 'contains(Corpus)': False,
 'contains(Disputa)': False,
 'contains(Ex)': False,
 'contains(Haddad)': False,
 'contains(Jair)': False,
 'contains(Lula)': False,
 'contains(Manifestantes)': False,
 'contains(Marcelo)': False,
 'contains(Monumento)': False,
 'contains(Morte)': False,
 'contains(Mourao)': False,
 'contains(NOVO)': False,
 'contains(Novo)': False,
 'contains(O)': False,
 'contains(PT)': False,
 'contains(Padre)': False,
 'contains(Paulo)': False,
 'contains(Presidente)': False,
 'contains(Rossi)': False,
 'contains(Sao)': False,
 'contains(São)': False,
 'contains(X)': False,
 'contains(a)': False,
 'contains(acidente)': False,
 'contains(acirrada)': False,
 'contains(adiantamento)': False,
 'contains(américa)': False,
 'contains(ao)': False,
 'contains(aparece)': False,
 'contains(apoio)': True,
 'contains(apos

**Classificando efetivamente uma frase de teste**

In [28]:
clf.classify("Xuxa declara apoio aos baixinhos")

'fake_news'

In [29]:
clf.classify("Presidente Temmer declara apoio a candidato do PSDB")

'fake_news'

In [30]:
clf.classify("Disputa entre presidenciais sera mesmo no segundo turno")

'verdadeiro'

**Distribuição das Probabilidades**

Como estamos trabalhando com um classificador "probabilístico", nada mais útil do que visualizar as propabilidades de cada exemplo.

Utlizando o método "prob_classify", vamos definir uma frase de exemplo e verificar a probabilidade dessa instância ser de uma determinada classse: verdadeira ou fake_news.

In [31]:
dist_prob = clf.prob_classify("Padre Marcelo Rossi se pronuncia e diz que irá se candidatar")

In [32]:
dist_prob.prob("fake_news")

0.8336538270304833

In [33]:
dist_prob.prob("verdadeiro")

0.16634617296951668

In [35]:
dist_prob.max()

'fake_news'

**Avaliando o classificador usando um conjunto de validação**

In [36]:
validacao = [
     ('O governo temmer propoe reforma trabalhista', 'verdadeiro'),
     ('Capitão america é visto em campanha eleitoral do partido NOVO', 'fake_news'),
     ("Lula é solto essa madrugada", 'fake_news'),
     ("Jair Bolsonaro melhora nas pesquisas após atentado.", 'verdadeiro')
]

**Visualizando a acurácia do modelo**

In [37]:
clf.accuracy(validacao)

0.75

**Visualizando qual classe o modelo atribuiu a cada sentença da lista de validação**

In [38]:
for i in validacao:
    print (i[0], clf.classify(i[0]))

O governo temmer propoe reforma trabalhista fake_news
Capitão america é visto em campanha eleitoral do partido NOVO fake_news
Lula é solto essa madrugada fake_news
Jair Bolsonaro melhora nas pesquisas após atentado. verdadeiro


In [41]:
# Features mais informativas para termos a noção como melhorar nossos dados
print(clf.show_informative_features(20))

Most Informative Features
            contains(de) = True           verdad : fake_n =      2.7 : 1.0
            contains(se) = True           verdad : fake_n =      2.1 : 1.0
           contains(diz) = True           verdad : fake_n =      2.1 : 1.0
       contains(declara) = True           fake_n : verdad =      1.9 : 1.0
         contains(apoio) = True           fake_n : verdad =      1.9 : 1.0
            contains(de) = False          fake_n : verdad =      1.6 : 1.0
           contains(que) = True           verdad : fake_n =      1.5 : 1.0
            contains(ao) = False          verdad : fake_n =      1.4 : 1.0
            contains(se) = False          fake_n : verdad =      1.3 : 1.0
           contains(diz) = False          fake_n : verdad =      1.3 : 1.0
            contains(no) = False          fake_n : verdad =      1.3 : 1.0
          contains(está) = False          fake_n : verdad =      1.3 : 1.0
             contains(o) = False          fake_n : verdad =      1.3 : 1.0

Tabela das features mais importantes.

**Por exemplo:**

caso a sentença tenha a palavra "apoio", essa feature me dá o peso de 1.9 vezes de ser uma classificação fake news, somente por ter a palavra "apoio".

Caso contrário, ou seja, a sentença não cotenha a palavra "apoio", a mesma tem somente 1.2 vezes de ser classificada como uma sentença verdadeira.