# O dataset


O dataset foi criado com base em notícias em portais que são conhecidos, ou seja, não há tendência de distribuição de notícias falsas e outros portais que são conhecidos em divulgar notícias falsas.

Os portais com notícias confiáveis foram:

    g1.globo.com
    hojeemdia.com.br
    
Os portais não confiáveis foram retirados de um estudo feito por alunos da USP onde levaram em consideração alguns pontos (https://www.issoenoticia.com.br/artigo/projeto-da-usp-lista-10-maiores-sites-de-falsas-noticias-no-brasil). Escolhemos os dois que tem mais compatilhamentos:

    jornalivre.com.br
    ceticismopolitico.com.br
    diariodobrasil.org
   
**Conforme vamos ver em breve, o dataset é constituido por aproximadamente 50000 dados de reviews do IMDB, sendo 25000 dados para treino. Estes já foram pré processados e separados em reviews positivos (nota >=7) e negativos (<5).**

## O conjunto de dados

Os dados estão estruturados da seguinte forma:
- id: um identificador do review
- sentimento: a classificação do review, sendo 0 negativo ou 1 positivo
- review: o review em si
        
## Desenvolvimento do DataSet


In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [2]:
jornalivre = pd.read_csv('data/jornalivre.csv', sep=',')
diariodobrasil = pd.read_csv('data/diariodobrasil.csv', sep=',')
ceticismopolitico = pd.read_csv('data/ceticismopolitico.csv', sep=',')
g1 = pd.read_csv('data/g1.csv', sep=',')
hojeemdia = pd.read_csv('data/hojeemdia.csv', sep=',')

In [3]:
print(jornalivre.columns)
print(diariodobrasil.columns)
print(ceticismopolitico.columns)
print(g1.columns)
print(hojeemdia.columns)

Index(['Unnamed: 0', 'title', 'url', 'datepost', 'summary'], dtype='object')
Index(['Unnamed: 0', 'title', 'url', 'date', 'summary'], dtype='object')
Index(['Unnamed: 0', 'title', 'url', 'date', 'summary'], dtype='object')
Index(['Unnamed: 0', 'title', 'url', 'summary'], dtype='object')
Index(['Unnamed: 0', 'title', 'url', 'date', 'excerpt'], dtype='object')


Vamos manter somente as colunas: title, url e summary.

In [4]:
jornalivre = jornalivre.drop(['Unnamed: 0', 'datepost'], axis=1)
diariodobrasil = diariodobrasil.drop(['Unnamed: 0', 'date'], axis=1)
ceticismopolitico = ceticismopolitico.drop(['Unnamed: 0', 'date'], axis=1)
g1 = g1.drop(['Unnamed: 0'], axis=1)
hojeemdia = hojeemdia.drop(['Unnamed: 0', 'date'], axis=1)

In [5]:
print(jornalivre.columns)
print(diariodobrasil.columns)
print(ceticismopolitico.columns)
print(g1.columns)
print(hojeemdia.columns)

Index(['title', 'url', 'summary'], dtype='object')
Index(['title', 'url', 'summary'], dtype='object')
Index(['title', 'url', 'summary'], dtype='object')
Index(['title', 'url', 'summary'], dtype='object')
Index(['title', 'url', 'excerpt'], dtype='object')


Agora, iremos ajustar o nome da coluna 'excerpt'da última tabela.

In [6]:
hojeemdia=hojeemdia.rename(columns = {'excerpt':'summary'})

In [7]:
print(jornalivre.columns)
print(diariodobrasil.columns)
print(ceticismopolitico.columns)
print(g1.columns)
print(hojeemdia.columns)

Index(['title', 'url', 'summary'], dtype='object')
Index(['title', 'url', 'summary'], dtype='object')
Index(['title', 'url', 'summary'], dtype='object')
Index(['title', 'url', 'summary'], dtype='object')
Index(['title', 'url', 'summary'], dtype='object')


Vamos criar um label para identificar qual veículo o texto faz parte. Mesmo que pela url é possível identificar, esta prática facilita a análise.

In [8]:
jornalivre['veículo'] = 'jornalivre'
diariodobrasil['veículo'] = 'diariodobrasil'
ceticismopolitico['veículo'] = 'ceticismopolitico'
g1['veículo'] = 'g1'
hojeemdia['veículo'] = 'hojeemdia'

### Criando o DataSet FakeNews

In [9]:
fakenews = pd.concat([jornalivre, diariodobrasil, ceticismopolitico])

In [10]:
fakenews.shape

(26679, 4)

In [11]:
fakenews.head(5)

Unnamed: 0,title,url,summary,veículo
0,Notícia de que Trump reconheceu Jerusalém como...,https://jornalivre.com/2017/12/09/noticia-de-q...,"Segundo noticiou o Diário Nacional, a Vereador...",jornalivre
1,Estudo do Ministério da Fazenda aponta: Brasil...,https://jornalivre.com/2017/12/08/estudo-do-mi...,Um dos assuntos mais comentados desta semana f...,jornalivre
2,"Em entrevista, Meirelles expõe desmandos do go...",https://jornalivre.com/2017/12/08/em-entrevist...,Informa o portal G1: Segundo a lenda de Robin ...,jornalivre
3,Marcelo Odebrecht volta pra casa em jatinho pa...,https://jornalivre.com/2017/12/05/marcelo-odeb...,"Em uma entrevista concedida à Exame, o Ministr...",jornalivre
4,Ex-secretário da Saúde deixa escapar que hemat...,https://jornalivre.com/2017/12/04/ex-secretari...,"Diante da Reforma da Previdência, tucanos faze...",jornalivre


In [12]:
fakenews.tail(5)

Unnamed: 0,title,url,summary,veículo
6730,Como identificar um esquerdista desonesto só p...,https://ceticismopolitico.com/2010/11/02/como-...,O vídeo acima mostra o trailer de um ótimo fil...,ceticismopolitico
6731,A arquitetura de uma ditadura pelo controle “s...,https://ceticismopolitico.com/2010/10/28/a-arq...,A forma pela qual o PT está implementando a di...,ceticismopolitico
6732,A maior de todas as lições aprendidas nas elei...,https://ceticismopolitico.com/2010/10/20/a-mai...,Eu nunca acreditei que Serra poderia vencer es...,ceticismopolitico
6733,"Como os tontons maCUTs se organizam, e como de...",https://ceticismopolitico.com/2010/10/18/como-...,"Em sequência ao post de ontem, onde citei a pa...",ceticismopolitico
6734,"Enfim, o que é a esquerda?",https://ceticismopolitico.com/2010/10/16/enfim...,Várias vezes neo ateus se opõem ao que escrevo...,ceticismopolitico


Levando em consideração que todas essas notícias há indícios de FakeNews, iremos criar um label 'target' com valor 1, dizendo que estas ocorrências são fakenews.

In [13]:
fakenews['target'] = 1

In [14]:
fakenews.head(10)

Unnamed: 0,title,url,summary,veículo,target
0,Notícia de que Trump reconheceu Jerusalém como...,https://jornalivre.com/2017/12/09/noticia-de-q...,"Segundo noticiou o Diário Nacional, a Vereador...",jornalivre,1
1,Estudo do Ministério da Fazenda aponta: Brasil...,https://jornalivre.com/2017/12/08/estudo-do-mi...,Um dos assuntos mais comentados desta semana f...,jornalivre,1
2,"Em entrevista, Meirelles expõe desmandos do go...",https://jornalivre.com/2017/12/08/em-entrevist...,Informa o portal G1: Segundo a lenda de Robin ...,jornalivre,1
3,Marcelo Odebrecht volta pra casa em jatinho pa...,https://jornalivre.com/2017/12/05/marcelo-odeb...,"Em uma entrevista concedida à Exame, o Ministr...",jornalivre,1
4,Ex-secretário da Saúde deixa escapar que hemat...,https://jornalivre.com/2017/12/04/ex-secretari...,"Diante da Reforma da Previdência, tucanos faze...",jornalivre,1
5,ESCÂNDALO: Vereadora do PSOL monta mega-esquem...,https://jornalivre.com/2017/12/07/escandalo-ve...,A inflação é um imposto invisível. Quando o go...,jornalivre,1
6,Notícia de que Trump reconheceu Jerusalém como...,https://jornalivre.com/2017/12/09/noticia-de-q...,Além de manterem bloqueados os bens de Aldemir...,jornalivre,1
7,Estudo do Ministério da Fazenda aponta: Brasil...,https://jornalivre.com/2017/12/08/estudo-do-mi...,Informa a Veja: A antropóloga e historiadora M...,jornalivre,1
8,"Em entrevista, Meirelles expõe desmandos do go...",https://jornalivre.com/2017/12/08/em-entrevist...,O senador Telmário Mota é mesmo um brigão. Em ...,jornalivre,1
9,PSDB tenta engambelar eleitores com posicionam...,https://jornalivre.com/2017/12/06/psdb-tenta-e...,Preso desde 2015 em caráter preventivo e com u...,jornalivre,1


## DataSet de RealNews

In [15]:
realnews = pd.concat([g1, hojeemdia])

In [16]:
realnews.shape

(28307, 4)

In [17]:
realnews.head()

Unnamed: 0,title,url,summary,veículo
0,Maia diz que plenário da Câmara começará a deb...,https://g1.globo.com/politica/noticia/maia-diz...,Maia diz que plenário da Câmara começará a deb...,g1
1,Marun toma posse como ministro da Secretaria d...,https://g1.globo.com/politica/noticia/marun-to...,Marun toma posse como ministro da Secretaria d...,g1
2,General do Exército que fez críticas ao govern...,https://g1.globo.com/politica/noticia/general-...,General do Exército que fez críticas ao govern...,g1
3,Reforma da Previdência: favorável a fechar que...,https://g1.globo.com/politica/noticia/reforma-...,Reforma da Previdência: favorável a fechar que...,g1
4,Alckmin usa discurso para iniciar polarização ...,http://g1.globo.com/politica/blog/blog-do-cama...,Alckmin usa discurso para iniciar polarização ...,g1


In [18]:
realnews.tail()

Unnamed: 0,title,url,summary,veículo
9995,Reale Jr diz que decisão de Maranhão é 'tiro n...,/primeiro-plano/pol%C3%ADtica/reale-jr-diz-que...,Reale Jr diz que decisão de Maranhão é 'tiro n...,hojeemdia
9996,Seis partidos pedirão cassação de Maranhão no ...,/primeiro-plano/pol%C3%ADtica/seis-partidos-pe...,Seis partidos pedirão cassação de Maranhão no ...,hojeemdia
9997,"Cunha: decisão de Maranhão é absurda, irrespon...",/primeiro-plano/pol%C3%ADtica/cunha-decis%C3%A...,"Cunha: decisão de Maranhão é absurda, irrespon...",hojeemdia
9998,Governistas do Senado comemoram decisão de Mar...,/primeiro-plano/pol%C3%ADtica/governistas-do-s...,Governistas do Senado comemoram decisão de Mar...,hojeemdia
9999,Decisão de Maranhão cria ainda mais tumulto na...,/primeiro-plano/pol%C3%ADtica/decis%C3%A3o-de-...,Decisão de Maranhão cria ainda mais tumulto na...,hojeemdia


Criando o label 'target' = 0, significando que estas notícias são verdadeiras

In [19]:
realnews['target'] = 0

In [20]:
realnews.head()

Unnamed: 0,title,url,summary,veículo,target
0,Maia diz que plenário da Câmara começará a deb...,https://g1.globo.com/politica/noticia/maia-diz...,Maia diz que plenário da Câmara começará a deb...,g1,0
1,Marun toma posse como ministro da Secretaria d...,https://g1.globo.com/politica/noticia/marun-to...,Marun toma posse como ministro da Secretaria d...,g1,0
2,General do Exército que fez críticas ao govern...,https://g1.globo.com/politica/noticia/general-...,General do Exército que fez críticas ao govern...,g1,0
3,Reforma da Previdência: favorável a fechar que...,https://g1.globo.com/politica/noticia/reforma-...,Reforma da Previdência: favorável a fechar que...,g1,0
4,Alckmin usa discurso para iniciar polarização ...,http://g1.globo.com/politica/blog/blog-do-cama...,Alckmin usa discurso para iniciar polarização ...,g1,0


Agora vamos juntar as duas bases

In [21]:
news = pd.concat([fakenews,  realnews])

In [22]:
news.reset_index(drop=True)

Unnamed: 0,title,url,summary,veículo,target
0,Notícia de que Trump reconheceu Jerusalém como...,https://jornalivre.com/2017/12/09/noticia-de-q...,"Segundo noticiou o Diário Nacional, a Vereador...",jornalivre,1
1,Estudo do Ministério da Fazenda aponta: Brasil...,https://jornalivre.com/2017/12/08/estudo-do-mi...,Um dos assuntos mais comentados desta semana f...,jornalivre,1
2,"Em entrevista, Meirelles expõe desmandos do go...",https://jornalivre.com/2017/12/08/em-entrevist...,Informa o portal G1: Segundo a lenda de Robin ...,jornalivre,1
3,Marcelo Odebrecht volta pra casa em jatinho pa...,https://jornalivre.com/2017/12/05/marcelo-odeb...,"Em uma entrevista concedida à Exame, o Ministr...",jornalivre,1
4,Ex-secretário da Saúde deixa escapar que hemat...,https://jornalivre.com/2017/12/04/ex-secretari...,"Diante da Reforma da Previdência, tucanos faze...",jornalivre,1
5,ESCÂNDALO: Vereadora do PSOL monta mega-esquem...,https://jornalivre.com/2017/12/07/escandalo-ve...,A inflação é um imposto invisível. Quando o go...,jornalivre,1
6,Notícia de que Trump reconheceu Jerusalém como...,https://jornalivre.com/2017/12/09/noticia-de-q...,Além de manterem bloqueados os bens de Aldemir...,jornalivre,1
7,Estudo do Ministério da Fazenda aponta: Brasil...,https://jornalivre.com/2017/12/08/estudo-do-mi...,Informa a Veja: A antropóloga e historiadora M...,jornalivre,1
8,"Em entrevista, Meirelles expõe desmandos do go...",https://jornalivre.com/2017/12/08/em-entrevist...,O senador Telmário Mota é mesmo um brigão. Em ...,jornalivre,1
9,PSDB tenta engambelar eleitores com posicionam...,https://jornalivre.com/2017/12/06/psdb-tenta-e...,Preso desde 2015 em caráter preventivo e com u...,jornalivre,1


# Pré processamento

- Para melhor controle, faremos o pré processamento novamente dos dados para garantir que as tags HTML, espaços em branco e etc.

In [23]:
from nltk.stem import WordNetLemmatizer
import unicodedata
from nltk.corpus import stopwords
import nltk
from collections import Counter
import re
from bs4 import BeautifulSoup
from tqdm import tqdm

In [24]:
wordnet_lemmatizer = WordNetLemmatizer()

In [25]:
def review_to_words( raw_review ):
    # Function to convert a raw review to a string of words
    # The input is a single string (a raw movie review), and 
    # the output is a single string (a preprocessed movie review)
    #
    # 1. Remove HTML
    review_text = BeautifulSoup(raw_review, "html5lib").get_text()
    #
    # 2. Remove non-letters        
    letters_only = re.sub("\W+", " ", review_text) 
    #
    # 3. Convert to lower case, split into individual words
    words = letters_only.lower().strip().split()  
    
    # 3.a remove accents from words
    words_2 = []
    for word in words:
        nfkd_form = unicodedata.normalize('NFKD', word)
        only_ascii = nfkd_form.encode('ASCII', 'ignore')
        word = only_ascii.decode('utf-8')
        words_2.append(word)
    
    #
    # 4. In Python, searching a set is much faster than searching
    #   a list, so convert the stop words to a set
    stops = set(stopwords.words("portuguese"))                  
    # 
    # 5. Remove stop words
    meaningful_words = [w for w in words_2 if not w in stops]   
    #
    # 6. Apply Lemma
    lemma = [wordnet_lemmatizer.lemmatize(t) for t in meaningful_words]
    # 7. Join the words back into one string separated by space, 
    # and return the result.
    return( " ".join( lemma ))   

### Vamos juntar a coluna 'title' e 'summary' para começar a análise das palavras

In [26]:
news['title_summary'] = news['title'] + str(" ") + news['summary']

In [27]:
news.reset_index(drop=True)

Unnamed: 0,title,url,summary,veículo,target,title_summary
0,Notícia de que Trump reconheceu Jerusalém como...,https://jornalivre.com/2017/12/09/noticia-de-q...,"Segundo noticiou o Diário Nacional, a Vereador...",jornalivre,1,Notícia de que Trump reconheceu Jerusalém como...
1,Estudo do Ministério da Fazenda aponta: Brasil...,https://jornalivre.com/2017/12/08/estudo-do-mi...,Um dos assuntos mais comentados desta semana f...,jornalivre,1,Estudo do Ministério da Fazenda aponta: Brasil...
2,"Em entrevista, Meirelles expõe desmandos do go...",https://jornalivre.com/2017/12/08/em-entrevist...,Informa o portal G1: Segundo a lenda de Robin ...,jornalivre,1,"Em entrevista, Meirelles expõe desmandos do go..."
3,Marcelo Odebrecht volta pra casa em jatinho pa...,https://jornalivre.com/2017/12/05/marcelo-odeb...,"Em uma entrevista concedida à Exame, o Ministr...",jornalivre,1,Marcelo Odebrecht volta pra casa em jatinho pa...
4,Ex-secretário da Saúde deixa escapar que hemat...,https://jornalivre.com/2017/12/04/ex-secretari...,"Diante da Reforma da Previdência, tucanos faze...",jornalivre,1,Ex-secretário da Saúde deixa escapar que hemat...
5,ESCÂNDALO: Vereadora do PSOL monta mega-esquem...,https://jornalivre.com/2017/12/07/escandalo-ve...,A inflação é um imposto invisível. Quando o go...,jornalivre,1,ESCÂNDALO: Vereadora do PSOL monta mega-esquem...
6,Notícia de que Trump reconheceu Jerusalém como...,https://jornalivre.com/2017/12/09/noticia-de-q...,Além de manterem bloqueados os bens de Aldemir...,jornalivre,1,Notícia de que Trump reconheceu Jerusalém como...
7,Estudo do Ministério da Fazenda aponta: Brasil...,https://jornalivre.com/2017/12/08/estudo-do-mi...,Informa a Veja: A antropóloga e historiadora M...,jornalivre,1,Estudo do Ministério da Fazenda aponta: Brasil...
8,"Em entrevista, Meirelles expõe desmandos do go...",https://jornalivre.com/2017/12/08/em-entrevist...,O senador Telmário Mota é mesmo um brigão. Em ...,jornalivre,1,"Em entrevista, Meirelles expõe desmandos do go..."
9,PSDB tenta engambelar eleitores com posicionam...,https://jornalivre.com/2017/12/06/psdb-tenta-e...,Preso desde 2015 em caráter preventivo e com u...,jornalivre,1,PSDB tenta engambelar eleitores com posicionam...


In [28]:
news['title_summary'].astype(str)

0       Notícia de que Trump reconheceu Jerusalém como...
1       Estudo do Ministério da Fazenda aponta: Brasil...
2       Em entrevista, Meirelles expõe desmandos do go...
3       Marcelo Odebrecht volta pra casa em jatinho pa...
4       Ex-secretário da Saúde deixa escapar que hemat...
5       ESCÂNDALO: Vereadora do PSOL monta mega-esquem...
6       Notícia de que Trump reconheceu Jerusalém como...
7       Estudo do Ministério da Fazenda aponta: Brasil...
8       Em entrevista, Meirelles expõe desmandos do go...
9       PSDB tenta engambelar eleitores com posicionam...
10      Após Dilma entregar inflação na estratosfera, ...
11      Defesa de Lula leva mais uma surra no TRF-4 O ...
12      Notícia de que Trump reconheceu Jerusalém como...
13      Estudo do Ministério da Fazenda aponta: Brasil...
14      Em entrevista, Meirelles expõe desmandos do go...
15      Marcelo Odebrecht volta pra casa em jatinho pa...
16      Ex-secretário da Saúde deixa escapar que hemat...
17      Antrop

## Divisão das bases

Agora, como iremos treinar nossa base em um modelo supervisionado, precisamos quebrar a nossa base em treino e teste. A base já está balanceada, ou seja, não há necessidade de fazer este tipo de tratamento.

In [29]:
news = news.dropna(axis=0, how='any')
news.reset_index(drop=True)
news = news.sample(n=len(news))

In [30]:
y = news['target']

In [31]:
news.isnull().sum()

title            0
url              0
summary          0
veículo          0
target           0
title_summary    0
dtype: int64

In [32]:
news_train, news_test, y_train, y_test = train_test_split(news, y, test_size=0.33, random_state=42)

Iremos rodar a função review_to_words no dataset completo

In [33]:
#Get the number of reviews based on the dataframe column size
num_news = news_train["title_summary"].size

# Initialize an empty list to hold the clean reviews
clean_train_news = []

# Loop over each review; create an index i that goes from 0 to the length
# of the movie review list 
for i in tqdm(range( 0, num_news ), total= num_news):
    # Call our function for each one, and add the result to the list of
    #clean reviews
    clean_train_news.append( review_to_words( str(news_train["title_summary"].iloc[i]) ) )

100%|██████████| 31760/31760 [01:46<00:00, 298.41it/s]


In [34]:
clean_train_news[0:2]

['moro elogia projeto abuso autoridade aprovado senado moro elogia projeto abuso autoridade aprovado senadoha 7 me cristiana lobo',
 'ministro justica diz juizes querem ter 20 minutos gloria ministro justica diz juizes querem ter 20 minutos gloria eugenio aragao criticou decisao barrou nomeacao governo visao ministro pais passando periodo psicose coletiva ha 2 ano politica']

### Modelo Bag of Words com Tf-Idf

Usando o modelo gensim

In [35]:
from gensim.corpora.dictionary import Dictionary
from collections import defaultdict
import itertools


docs = [doc.split() for doc in clean_train_news]

In [36]:
dictionary = Dictionary(docs)

In [37]:
corpus = [dictionary.doc2bow(doc) for doc in docs]

Usaremos a library do sciki-learn para desenvolver o modelo

In [38]:
from sklearn.feature_extraction.text import CountVectorizer

In [39]:
vectorizer = CountVectorizer(analyzer = "word",   \
                             tokenizer = None,    \
                             preprocessor = None, \
                             stop_words = None,   \
                             max_features = 5000)  

In [40]:
train_data = vectorizer.fit(clean_train_news)

In [41]:
train_data.vocabulary_

{'tona': 4678,
 'economia': 1657,
 'sabiam': 4280,
 'atividades': 503,
 'salarios': 4297,
 'casos': 804,
 'textos': 4643,
 'dessas': 1472,
 'critica': 1248,
 'humanas': 2388,
 'feia': 2073,
 'inacreditavel': 2474,
 'gosto': 2287,
 'inacio': 2473,
 'aprovacao': 407,
 'irma': 2626,
 'fenomeno': 2087,
 'comite': 1007,
 'privada': 3821,
 'cruel': 1258,
 'arrogante': 437,
 'reducao': 4076,
 'villa': 4915,
 'janeiro': 2654,
 'focado': 2147,
 'aplica': 369,
 'existencia': 1961,
 'revoltados': 4216,
 'seguintes': 4338,
 'valor': 4834,
 'totalitarismo': 4698,
 'desembargador': 1452,
 'suplicy': 4518,
 'tornaram': 4686,
 'inevitavel': 2518,
 'entendeu': 1763,
 'sentiu': 4374,
 'modelos': 3111,
 'pgr': 3616,
 'digo': 1536,
 'especifico': 1845,
 'pmdb': 3644,
 'nacional': 3188,
 'agentes': 208,
 'vermelho': 4893,
 'pontos': 3676,
 'lewandowski': 2811,
 'enganar': 1745,
 'aviso': 569,
 'margem': 2964,
 'honestidade': 2372,
 'desta': 1474,
 'racismo': 3992,
 'juca': 2698,
 'solto': 4477,
 'procurado

In [42]:
len(train_data.vocabulary_)

5000

In [43]:
# fit_transform() does two functions: First, it fits the model
# and learns the vocabulary; second, it transforms our training data
# into feature vectors. The input to fit_transform should be a list of 
# strings.
train_data_features = vectorizer.fit_transform(clean_train_news)

# Numpy arrays are easy to work with, so convert the result to an 
# array
train_data_features = train_data_features.toarray()

In [44]:
train_data_features.shape

(31760, 5000)

### Ordenando as palavras no dataset completo

In [45]:
# Create the defaultdict: total_word_count
total_word_count = defaultdict(int)
for word_id, word_count in itertools.chain.from_iterable(corpus):
    total_word_count[word_id] += word_count

# Create a sorted list from the defaultdict: sorted_word_count
sorted_word_count = sorted(total_word_count.items(), key=lambda w: w[1], reverse=True) 

# Print the top 5 words across all documents alongside the count
for word_id, word_count in sorted_word_count[:5]:
    print(dictionary.get(word_id), word_count)


nao 36043
ha 13381
diz 11913
contra 10390
politica 10339


##### Agora, iremos desenvolver as pontuações e pesos para cara word afim de normalizar a contagem de cada uma delas.

Primeiro, com o modelo gensim

In [46]:
from gensim.models.tfidfmodel import TfidfModel

In [47]:
tfidf = TfidfModel(corpus)

In [48]:
doc = corpus[0]
tfidf_weights = tfidf[doc]
sorted_tfidf_weights = sorted(tfidf_weights, key=lambda w: w[1], reverse=True)

# Print the top 5 weighted words
for term_id, weight in sorted_tfidf_weights[:5]:
    print(dictionary.get(term_id), weight)

elogia 0.5088339957508835
autoridade 0.3885133389627161
abuso 0.3857701622995602
aprovado 0.37537846608534314
senadoha 0.28045374119674116


Agora, com scikit-learn

In [49]:
from sklearn.feature_extraction.text import TfidfVectorizer 
# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = TfidfVectorizer(analyzer = "word", \
                             tokenizer = None,    \
                             preprocessor = None, \
                             stop_words = None,   \
                             max_features = 5000)  



tfidf_train_vocab = tfidf_vectorizer.fit(clean_train_news)
tfidf_train_vocab.vocabulary_

{'tona': 4678,
 'economia': 1657,
 'sabiam': 4280,
 'atividades': 503,
 'salarios': 4297,
 'casos': 804,
 'textos': 4643,
 'dessas': 1472,
 'critica': 1248,
 'humanas': 2388,
 'feia': 2073,
 'inacreditavel': 2474,
 'gosto': 2287,
 'inacio': 2473,
 'aprovacao': 407,
 'irma': 2626,
 'fenomeno': 2087,
 'comite': 1007,
 'privada': 3821,
 'cruel': 1258,
 'arrogante': 437,
 'reducao': 4076,
 'villa': 4915,
 'janeiro': 2654,
 'focado': 2147,
 'aplica': 369,
 'existencia': 1961,
 'revoltados': 4216,
 'seguintes': 4338,
 'valor': 4834,
 'totalitarismo': 4698,
 'desembargador': 1452,
 'suplicy': 4518,
 'tornaram': 4686,
 'inevitavel': 2518,
 'entendeu': 1763,
 'sentiu': 4374,
 'modelos': 3111,
 'pgr': 3616,
 'digo': 1536,
 'especifico': 1845,
 'pmdb': 3644,
 'nacional': 3188,
 'agentes': 208,
 'vermelho': 4893,
 'pontos': 3676,
 'lewandowski': 2811,
 'enganar': 1745,
 'aviso': 569,
 'margem': 2964,
 'honestidade': 2372,
 'desta': 1474,
 'racismo': 3992,
 'juca': 2698,
 'solto': 4477,
 'procurado

In [50]:
train_data_features = tfidf_vectorizer.fit_transform(clean_train_news)

# Numpy arrays are easy to work with, so convert the result to an 
# array
train_data_features = train_data_features.toarray()

In [51]:
train_data_features.shape

(31760, 5000)

# Analisando o teor das notícias (é fake ou não é???)

Para a primeira análise, decidimos usar Random Forest. Usaremos 100 árvores e 5000 top words, afim de otimizar o processo.

In [52]:
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
import matplotlib.pyplot as plt

In [53]:
# Initialize a Random Forest classifier with 100 trees
forest = RandomForestClassifier(n_estimators = 100) 

# Fit the forest to the training set, using the bag of words as 
# features and the status of news labels as the response variable
#
# This may take a few minutes to run
forest = forest.fit(train_data_features, news_train["target"] )

In [54]:
# Read the test data

# Verify that there are 25,000 rows and 2 columns
print(news_test.shape)
print(news_test.columns)

# Create an empty list and append the clean news one by one
num_news_test = len(news_test["title_summary"])
clean_test_news = [] 

for i in tqdm(range(0,num_news_test), total=num_news_test):
    clean_test_news.append( review_to_words( str(news_test["title_summary"].iloc[i]) ) )

# Get a bag of words for the test set, and convert to a numpy array
test_data_features = tfidf_vectorizer.transform(clean_test_news)
test_data_features = test_data_features.toarray()

# Use the random forest to make classification label predictions
result = forest.predict(test_data_features)

# Copy the results to a pandas dataframe with an "id" column and
# a "predict" column
output = pd.DataFrame( data={"site":news_test["veículo"], "title_summary":news_test["title_summary"], "target":news_test['target'], "target_predict":result} )
output

  0%|          | 33/15644 [00:00<00:47, 326.47it/s]

(15644, 6)
Index(['title', 'url', 'summary', 'veículo', 'target', 'title_summary'], dtype='object')


100%|██████████| 15644/15644 [00:50<00:00, 312.48it/s]


Unnamed: 0,site,target,target_predict,title_summary
9218,hojeemdia,0,0,"Com sinal verde de Temer, Dilma e Lula serão c..."
6,diariodobrasil,1,0,Se Temer for cassado FHC tem grandes chances ...
7377,g1,0,0,Osmar Serraglio já presidiu CCJ da Câmara e es...
2138,jornalivre,1,1,"Em entrevista, Meirelles expõe desmandos do go..."
6200,g1,0,0,Odebrecht cita R$ 20 milhões a Cunha por ajuda...
6392,g1,0,0,Previdência: governo fez cálculo pragmático pa...
4649,ceticismopolitico,1,1,"Na Bolívia bolivariana, tiranetes morrem de me..."
3342,g1,0,0,Proposta pelo fim de guerra fiscal vai incenti...
9940,hojeemdia,0,0,Renan se reaproxima do vice na reta decisiva d...
2245,jornalivre,1,1,Estudo do Ministério da Fazenda aponta: Brasil...


In [55]:
accuracy = metrics.accuracy_score(y_test, result)
accuracy

0.98331628739452825

# Replicando o modelo na base do twitter

Decidimos filtrar a base com pessoas que retweetaram links diretos das notícias pela dificuldade em extrair os links dos próprios tweets.

## Importação da base 

In [62]:
base_twitter = pd.read_csv('data/metadescription.csv', sep=',')

Tratamento da base com as colunas que interessam para o modelo

In [63]:
base_twitter.columns

Index(['Unnamed: 0', 'Title', 'Meta title', 'Meta description'], dtype='object')

In [65]:
base_twitter['title_summary'] = base_twitter['Title'] + base_twitter['Meta title'] + base_twitter['Meta description']

In [69]:
base_twitter = base_twitter.drop('Unnamed: 0', axis=1)

In [70]:
base_twitter.head()

Unnamed: 0,Title,Meta title,Meta description,title_summary
0,JM Cunha Santos: Mulher condenada por matar cã...,Mulher condenada por matar cães e gatos tem pe...,POR JUSSARA SOARES O GLOBO ...,JM Cunha Santos: Mulher condenada por matar cã...
1,"Cem anos depois, a Rússia ainda debate o comun...","Cem anos depois, a Rússia ainda debate o comun...","A Rússia deixou de comemorar o 7 de novembro, ...","Cem anos depois, a Rússia ainda debate o comun..."
2,Motociclista é encontrado morto em rodovia de ...,Motociclista é encontrado morto em rodovia de ...,"Segundo a polícia, as causas da morte do motoc...",Motociclista é encontrado morto em rodovia de ...
3,"Sem Cueva, Dorival Junior faz mistério em esca...","Sem Cueva, Dorival Junior faz mistério em esca...",...,"Sem Cueva, Dorival Junior faz mistério em esca..."
4,Ex-governador de Mato Grosso do Sul é alvo de ...,Ex-governador de Mato Grosso do Sul é alvo de ...,A investida tem como objetivo desbaratar uma s...,Ex-governador de Mato Grosso do Sul é alvo de ...


#### Usando o modelo na base

In [72]:
# Read the twitter data

# Verify that there are 25,000 rows and 2 columns
print(base_twitter.shape)
print(base_twitter.columns)

# Create an empty list and append the clean news one by one
num_news_twitter = len(base_twitter["title_summary"])
clean_news_twitter = [] 

for i in tqdm(range(0,num_news_twitter), total=num_news_twitter):
    clean_news_twitter.append( review_to_words( str(base_twitter["title_summary"].iloc[i]) ) )

# Get a bag of words for the test set, and convert to a numpy array
test_data_features = tfidf_vectorizer.transform(clean_news_twitter)
test_data_features = test_data_features.toarray()

# Use the random forest to make classification label predictions
result = forest.predict(test_data_features)

# Copy the results to a pandas dataframe with an "id" column and
# a "predict" column
output = pd.DataFrame( data={"title_summary":base_twitter["title_summary"], "target_predict":result} )
output

  5%|▌         | 30/599 [00:00<00:01, 297.65it/s]

(599, 4)
Index(['Title', 'Meta title', 'Meta description', 'title_summary'], dtype='object')


100%|██████████| 599/599 [00:02<00:00, 295.31it/s]


Unnamed: 0,target_predict,title_summary
0,0,JM Cunha Santos: Mulher condenada por matar cã...
1,0,"Cem anos depois, a Rússia ainda debate o comun..."
2,0,Motociclista é encontrado morto em rodovia de ...
3,0,"Sem Cueva, Dorival Junior faz mistério em esca..."
4,0,Ex-governador de Mato Grosso do Sul é alvo de ...
5,0,Runtime ErrorPágina sem meta titlePágina sem m...
6,0,"\r\nArtigo: 'A coragem é viral', diz ativista ..."
7,0,
8,0,\r\nAs Minhas Receitas: Caldeirada de Borrego ...
9,0,\r\nFinanças rejeita criação de cargos em secr...


In [79]:
output['target_predict'].value_counts()

0    533
1     66
Name: target_predict, dtype: int64

# Conclusão

De uma amostra de 599 links, temos 11,02% de FakeNews

In [91]:
fakenews_predict = output.filter(output['target_predict'] == 1)

In [94]:
fakenews_mask = output['target_predict'] == 1

In [99]:
output[~fakenews_mask].head()

Unnamed: 0,target_predict,title_summary
0,0,JM Cunha Santos: Mulher condenada por matar cã...
1,0,"Cem anos depois, a Rússia ainda debate o comun..."
2,0,Motociclista é encontrado morto em rodovia de ...
3,0,"Sem Cueva, Dorival Junior faz mistério em esca..."
4,0,Ex-governador de Mato Grosso do Sul é alvo de ...


In [105]:
output[fakenews_mask].head()

Unnamed: 0,target_predict,title_summary
15,1,Lojas demoram até 70 dias para entregar móveis...
19,1,Carolina Ferraz abre processo trabalhista cont...
21,1,Blog do EsmaelRio de Janeiro governado da cade...
44,1,\r\nJustiça determina que Marinha aceite inscr...
55,1,"Graças a Messi, a Argentina chegou.E o Brasil ..."
