# Processamento de Linguagem Natural para análise de fake news (BR)
FACTCK.BR é um dataset com 9 colunas e 1309 linhas construído e disponibilizado por João Moreno e Graça Bressan. 

Os dados foram coletados a partir do ClaimReview, um esquema de dados estruturado usado por agências de verificação de fatos para compartilhar seus resultados nos mecanismos de pesquisa, permitindo a coleta de dados em tempo real.

Este dataset foi publicado na WebMedia '19, Simpósio Brasileiro de Mídia e Web, 29 de outubro - 1º de novembro, 2019, Rio de Janeiro, Brasil. Artigo completo: https://doi.org/10.1145/3323503.3361698

### Dicionário dos dados
- URL	- Check article web address
- Author - Initiative id.
- datePublished - Check publication date
- claimReviewed - Claim analyzed (content of the alleged fake news)
- reviewBody - Check text
- Title - Title of the article
- ratingValue	- Numerical classification (1 for false and X for True | to find mas value of X, check best rating feature)
- bestRating- Lenght of the scale
- alternativeName	- Text label

#### Basic Data Cleaning

In [1]:
# importando libs necessarias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# lendo o arquivo csv dentro de um dataframe
data_news = pd.read_csv('FACTCKBR.csv', sep='\t', header=0)
data_news.head(10)

Unnamed: 0,URL,Author,datePublished,claimReviewed,reviewBody,title,ratingValue,bestRating,alternativeName
0,https://aosfatos.org/noticias/governo-bolsonar...,https:www.aosfatos.org,2019-07-22,Espaço dedicado para os eleitores do Bolsonaro...,Publicações que circulam nas redes sociais vej...,Governo Bolsonaro não suspendeu distribuição d...,1.0,5,falso
1,https://aosfatos.org/noticias/nao-e-miriam-lei...,https:www.aosfatos.org,2019-07-22,Vos apresento a funcionária protegida pela Glo...,Uma foto de um treinamento de defesa contra as...,Não é Miriam Leitão quem segura fuzil ao lado ...,1.0,5,falso
2,https://aosfatos.org/noticias/nao-e-verdade-qu...,https:www.aosfatos.org,2019-07-22,Você sabia que Benedita da Silva já foi embaix...,falsa a informação de que a deputada federal ...,Não é verdade que Benedita da Silva foi embaix...,1.0,5,falso
3,https://aosfatos.org/noticias/nao-e-de-mulher-...,https:www.aosfatos.org,2019-07-18,QUEM A MULHER QUE EMPURROU O PADRE MARCELO ROSSI,Modificada digitalmente para incluir o filtro ...,Não é de mulher que empurrou padre Marcelo Ros...,1.0,5,falso
4,https://aosfatos.org/noticias/e-falso-que-refo...,https:www.aosfatos.org,2019-07-17,As crueldades da Reforma da PrevidênciaPessoas...,Uma publicação que circula nas redes sociais a...,É falso que reforma tira de pessoas com defici...,1.0,5,falso
5,https://aosfatos.org/noticias/reforma-da-previ...,https:www.aosfatos.org,2019-07-17,"Aprovada a redução do PIS de R$ 998,00 para R$...",Não é verdade que o texto da reforma da Previd...,Reforma da Previdência não diminuiu abono sala...,1.0,5,falso
6,https://aosfatos.org/noticias/e-falso-que-bols...,https:www.aosfatos.org,2019-07-16,Câncer no seio não precisa mais fazer cirurgia...,Não é verdade que o governo Bolsonaro vai auto...,É falso que Bolsonaro importará tecnologia que...,1.0,5,falso
7,https://aosfatos.org/noticias/zelia-cardoso-na...,https:www.aosfatos.org,2019-07-16,"Vc sabia que a Zélia Cardoso, antes de ser min...","Não é verdade que a ex-ministra da Economia, F...",Zélia Cardoso não foi embaixadora do Brasil no...,1.0,5,falso
8,https://aosfatos.org/noticias/nao-e-verdade-qu...,https:www.aosfatos.org,2019-07-16,Achado petróleo no mato grosso para 80 anos de...,Circula como se fosse recente um vídeo gravado...,Não é verdade que governo Bolsonaro descobriu ...,1.0,5,falso
9,https://aosfatos.org/noticias/e-falso-que-pt-n...,https:www.aosfatos.org,2019-07-15,"Só para lembrar, o PT nomeou embaixador nos EU...",Não é verdade que o ex-senador Aloysio Nunes f...,É falso que PT nomeou Aloysio Nunes embaixador...,1.0,5,falso


In [3]:
# o data set possui 1313 linhas e 9 colunas
data_news.shape

(1313, 9)

In [4]:
# checando quais features são categóricas e quais são numéricas
categorical_attributes = list(data_news.select_dtypes(include=['object']).columns)
numerical_attributes = list(data_news.select_dtypes(include=['float64', 'int64']).columns)
print('categorical_attributes:', categorical_attributes)
print('numerical_attributes:', numerical_attributes)

categorical_attributes: ['URL', 'Author', 'datePublished', 'claimReviewed', 'reviewBody', 'title', 'alternativeName']
numerical_attributes: ['ratingValue', 'bestRating']


In [5]:
# checando total de categorias e quantas news estão em cada uma delas
data_news.groupby('alternativeName').count()

Unnamed: 0_level_0,URL,Author,datePublished,claimReviewed,reviewBody,title,ratingValue,bestRating
alternativeName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Ainda é cedo para dizer,6,6,6,6,6,6,6,6
De olho,3,3,3,3,3,3,3,3
Discutível,12,12,12,12,12,12,12,12
Distorcido,25,25,25,25,25,25,25,25
Exagerado,87,87,87,87,87,87,87,87
Falso,615,615,615,613,615,615,615,615
Impossível provar,20,20,20,20,20,20,20,20
Sem contexto,42,42,42,42,42,42,42,42
Subestimado,6,6,6,6,6,6,6,6
Verdadeiro,119,119,119,118,119,119,119,119


In [6]:
# creating new column True/Fake with a bonomial 0 - 1 label
# Fake = 0 (rating value from 1-3) | True = 1 (rating value 4+)
data_news['True/Fake'] = [1 if x == 'Verdadeiro' or x == 'verdadeiro'
                          else 0 for x in data_news['alternativeName']]

In [7]:
data_news.head()

Unnamed: 0,URL,Author,datePublished,claimReviewed,reviewBody,title,ratingValue,bestRating,alternativeName,True/Fake
0,https://aosfatos.org/noticias/governo-bolsonar...,https:www.aosfatos.org,2019-07-22,Espaço dedicado para os eleitores do Bolsonaro...,Publicações que circulam nas redes sociais vej...,Governo Bolsonaro não suspendeu distribuição d...,1.0,5,falso,0
1,https://aosfatos.org/noticias/nao-e-miriam-lei...,https:www.aosfatos.org,2019-07-22,Vos apresento a funcionária protegida pela Glo...,Uma foto de um treinamento de defesa contra as...,Não é Miriam Leitão quem segura fuzil ao lado ...,1.0,5,falso,0
2,https://aosfatos.org/noticias/nao-e-verdade-qu...,https:www.aosfatos.org,2019-07-22,Você sabia que Benedita da Silva já foi embaix...,falsa a informação de que a deputada federal ...,Não é verdade que Benedita da Silva foi embaix...,1.0,5,falso,0
3,https://aosfatos.org/noticias/nao-e-de-mulher-...,https:www.aosfatos.org,2019-07-18,QUEM A MULHER QUE EMPURROU O PADRE MARCELO ROSSI,Modificada digitalmente para incluir o filtro ...,Não é de mulher que empurrou padre Marcelo Ros...,1.0,5,falso,0
4,https://aosfatos.org/noticias/e-falso-que-refo...,https:www.aosfatos.org,2019-07-17,As crueldades da Reforma da PrevidênciaPessoas...,Uma publicação que circula nas redes sociais a...,É falso que reforma tira de pessoas com defici...,1.0,5,falso,0


In [8]:
# there are more fake news than true news in this dataset
data_news['True/Fake'].value_counts()

0    1193
1     120
Name: True/Fake, dtype: int64

In [9]:
# to level up, I decided to drop the rows that had labels such as no context, distorced, etc

In [9]:
index_exagero = data_news[data_news['alternativeName'] == 'Impossível provar'].index

In [10]:
data_news.drop(index_exagero, inplace=True)

In [11]:
index_provas = data_news[data_news['alternativeName'] == 'Discutível'].index

In [12]:
data_news.drop(index_provas, inplace=True)

In [13]:
index_distorcido = data_news[data_news['alternativeName'] == 'Exagerado'].index

In [14]:
data_news.drop(index_distorcido, inplace=True)

In [15]:
# new set of fake and true news
data_news['True/Fake'].value_counts()

0    1074
1     120
Name: True/Fake, dtype: int64

In [16]:
# How much of your data is missing?
data_news.isnull().sum().sort_values(ascending=False).head()

claimReviewed      13
reviewBody         12
alternativeName     4
ratingValue         4
True/Fake           0
dtype: int64

In [17]:
# dropping missing values 
data_news.dropna(inplace=True)

In [18]:
# checking if it worked
data_news.isnull().sum().sort_values(ascending=False).head()

True/Fake          0
alternativeName    0
bestRating         0
ratingValue        0
title              0
dtype: int64

In [19]:
# new set of fake and true news, seems balanced
data_news['True/Fake'].value_counts()

0    1057
1     119
Name: True/Fake, dtype: int64

### Text processing

In [20]:
data_news.dtypes

URL                 object
Author              object
datePublished       object
claimReviewed       object
reviewBody          object
title               object
ratingValue        float64
bestRating           int64
alternativeName     object
True/Fake            int64
dtype: object

In [21]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\leticiag\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [22]:
# importing libs
from nltk.corpus import stopwords
import string

In [23]:
# build function to process text
def process_text(s):

    # Check each string for punctuation
    no_punc = [char for char in s if char not in string.punctuation]

    # Join the characters again 
    no_punc = ''.join(no_punc)
    
    # Convert string to lowercase and remove stopwords
    clean_string = [word for word in no_punc.split() if word.lower() not in stopwords.words('portuguese')]
    return clean_string

In [24]:
# Tokenize article so words can be represented by numbers
# run the process_text on the column that contains the title of the fake articles --> claimReviewed
data_news['Clean Text'] = data_news['claimReviewed'].apply(process_text)

In [25]:
data_news.sample(5)

Unnamed: 0,URL,Author,datePublished,claimReviewed,reviewBody,title,ratingValue,bestRating,alternativeName,True/Fake,Clean Text
222,https://aosfatos.org/noticias/termo-black-frid...,https:www.aosfatos.org,2018-11-26,Termo black friday tem origem na escravidão,"Na verdade, o termo surgiu em 24 de setembro d...",Termo ‘black friday’ não tem nada a ver com es...,1.0,5,falso,0,"[Termo, black, friday, origem, escravidão]"
856,https://piaui.folha.uol.com.br/lupa/2019/06/07...,https:piaui.folha.uol.com.brlupa,2019-06-07 16:31:38,Esta é uma rua na Venezuela. Isso é dinheiro n...,Empty,#Verificamos: falso que dinheiro tenha sido d...,4.0,6,Falso,0,"[rua, Venezuela, dinheiro, sarjeta, inútil, Be..."
791,https://piaui.folha.uol.com.br/lupa/2019/07/16...,https:piaui.folha.uol.com.brlupa,2019-07-16 20:05:23,Isso aconteceu no #Brasil durante uma missa em...,Empty,#Verificamos: falso que padre Marcelo foi ata...,4.0,6,Falso,0,"[aconteceu, Brasil, durante, missa, Cachoeira,..."
745,https://apublica.org/2016/06/truco-verdades-e-...,https:apublica.org,2016-06-03,Não adianta vir aqui dizer que essa vitória é ...,A deputada federal Jandira Feghali PCdoB-RJ af...,Verdades e mentiras sobre o pacotão de reajust...,7.0,8,Sem contexto,0,"[adianta, vir, aqui, dizer, vitória, governo, ..."
1216,https://piaui.folha.uol.com.br/lupa/2018/10/07...,https:piaui.folha.uol.com.brlupa,2018-10-07 16:47:24,Eleitora do PT dá tapa na aeromoça por conta d...,Empty,#Verificamos: Mulher não foi expulsa de voo co...,4.0,6,Falso,0,"[Eleitora, PT, dá, tapa, aeromoça, conta, pass..."


#### Vectorization
Convert the collection of text documents to a matrix of token counts.

In [26]:
from sklearn.feature_extraction.text import CountVectorizer

In [27]:
# Bag-of-Words (bow) transform the entire DataFrame of text
# transforming tokens into useful features
bow_transformer = CountVectorizer(analyzer=process_text).fit(data_news['Clean Text'])
print(f'Total vocabulary words: {len(bow_transformer.vocabulary_)}') 

Total vocabulary words: 1157


In [29]:
news_bow = bow_transformer.transform(data_news['Clean Text'])

In [30]:
# printing out the shape of our Matrix
print(f'Shape of Sparse Matrix: {news_bow.shape}')
print(f'Amount of Non-Zero occurences: {news_bow.nnz}')

Shape of Sparse Matrix: (1176, 1157)
Amount of Non-Zero occurences: 1176


In [31]:
# checking out sparsity
sparsity = (100.0 * news_bow.nnz / (news_bow.shape[0] * news_bow.shape[1]))
print(f'sparsity: {round(sparsity)}')

sparsity: 0


In [32]:
# extracting text with Transformer
from sklearn.feature_extraction.text import TfidfTransformer

In [33]:
# checking new shape
tfidf_transformer = TfidfTransformer().fit(news_bow)
news_tfidf = tfidf_transformer.transform(news_bow)
print(news_tfidf.shape)

(1176, 1157)


#### Build and train the model

In [34]:
# importing algorithm
from sklearn.naive_bayes import MultinomialNB

In [35]:
fakenews_detect_model = MultinomialNB().fit(news_tfidf, data_news['True/Fake'])

In [36]:
# Model Evaluation
predictions = fakenews_detect_model.predict(news_tfidf)
print(predictions)

[0 0 0 ... 0 0 0]


In [65]:
# importing metrics to check preditions
from sklearn.metrics import classification_report
print (classification_report(data_news['True/Fake'], predictions, zero_division=1,))

              precision    recall  f1-score   support

           0       0.90      1.00      0.95      1057
           1       1.00      0.00      0.00       119

    accuracy                           0.90      1176
   macro avg       0.95      0.50      0.47      1176
weighted avg       0.91      0.90      0.85      1176



#### Build pipeline

In [58]:
# importing train_test_split to split the data and train the model
from sklearn.model_selection import train_test_split

news_train, news_test, text_train, text_test = train_test_split(data_news['claimReviewed'], data_news['True/Fake'], test_size=0.3)

In [59]:
# building pipeline
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('bow', CountVectorizer(analyzer=process_text)),  
    ('tfidf', TfidfTransformer()),  
    ('classifier', MultinomialNB(alpha=1.5)),  
])
pipeline.fit(news_train, text_train)

Pipeline(memory=None,
         steps=[('bow',
                 CountVectorizer(analyzer=<function process_text at 0x000000E57CEBDB80>,
                                 binary=False, decode_error='strict',
                                 dtype=<class 'numpy.int64'>, encoding='utf-8',
                                 input='content', lowercase=True, max_df=1.0,
                                 max_features=None, min_df=1,
                                 ngram_range=(1, 1), preprocessor=None,
                                 stop_words=None, strip_accents=None,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=None, vocabulary=None)),
                ('tfidf',
                 TfidfTransformer(norm='l2', smooth_idf=True,
                                  sublinear_tf=False, use_idf=True)),
                ('classifier',
                 MultinomialNB(alpha=1.5, class_prior=None, fit_prior=True))],
         verbose=False)

In [79]:
# predicting news on test dataset
prediction = pipeline.predict(news_test)

#### Evaluating the model

In [80]:
from sklearn.metrics import accuracy_score
print(accuracy_score(text_test, prediction))

0.9065155807365439


In [81]:
# printing out classification report
print(classification_report(text_test, prediction, zero_division=0))

              precision    recall  f1-score   support

           0       0.91      1.00      0.95       320
           1       0.00      0.00      0.00        33

    accuracy                           0.91       353
   macro avg       0.45      0.50      0.48       353
weighted avg       0.82      0.91      0.86       353



- Since the dataset is unbalanced (more fake news than true news), accuracy **is not a good metric to evaluate the performance of our model.** 
- Analysing the classification report, we can see that our model nicely predicts fake news (labeled 0), but failed to predict true news(labeled 1). 