# **Python na Investigação de Fake News: Criando um Detector de notícias falsas com Machine Learning**

Este projeto tem o objetivo de criar um Modelo básico em Python para detectar *Fake News* usando bibliotecas como *scikit-learn* e *pandas*. Além disso, tem o objetivo de explorar o Processamento de Dados textuais e treinar  um Modelo de Aprendizado de Máquina para ajudar na Identificação de Desinformação.

## **Fazendo as Instalações e Importações das Bibliotecas**

In [None]:
!pip install datasets
import pandas as pd
import pandas as pd
from datasets import load_dataset
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report



## **Carregando o Dataset**

Para este Projeto, foi utilizado um banco de dados já disponíveis no Kaggle, é possível acessar pelo link abaixo:
https://huggingface.co/datasets/ErfanMoosaviMonazzah/fake-news-detection-dataset-English?row=6

In [None]:
splits = {'train': 'train.tsv', 'validation': 'validation.tsv', 'test': 'test.tsv'}
df = pd.read_csv("hf://datasets/ErfanMoosaviMonazzah/fake-news-detection-dataset-English/" + splits["train"], sep="\t")
dataset = load_dataset("ErfanMoosaviMonazzah/fake-news-detection-dataset-English")

print(df)

       Unnamed: 0                                              title  \
0            2619  Ex-CIA head says Trump remarks on Russia inter...   
1           16043  YOU WON’T BELIEVE HIS PUNISHMENT! HISPANIC STO...   
2             876  Federal Reserve governor Powell's policy views...   
3           19963  SCOUNDREL HILLARY SUPPORTER STARTS “TrumpLeaks...   
4           10783  NANCY PELOSI ARROGANTLY DISMISSES Questions on...   
...           ...                                                ...   
29995        6880  U.S. aerospace industry urges Trump to help Ex...   
29996       17818  Highlights: Hong Kong leader Carrie Lam delive...   
29997        5689  Obama Literally LAUGHS At Claims That Brexit M...   
29998       15805  Syrian army takes full control of Deir al-Zor ...   
29999        8143  U.S., Israel sign $38 billion military aid pac...   

                                                    text          subject  \
0      Former CIA director John Brennan on Friday cri...  

## **Convertendo o conjunto de Treino para um DataFrame**

In [None]:
df_train = dataset['train'].to_pandas()
df_validation = dataset['validation'].to_pandas()
df_test = dataset['test'].to_pandas()

print(df_train.head())

   Unnamed: 0                                              title  \
0        2619  Ex-CIA head says Trump remarks on Russia inter...   
1       16043  YOU WON’T BELIEVE HIS PUNISHMENT! HISPANIC STO...   
2         876  Federal Reserve governor Powell's policy views...   
3       19963  SCOUNDREL HILLARY SUPPORTER STARTS “TrumpLeaks...   
4       10783  NANCY PELOSI ARROGANTLY DISMISSES Questions on...   

                                                text          subject  \
0  Former CIA director John Brennan on Friday cri...     politicsNews   
1  How did this man come to OWN this store? There...  Government News   
2  President Donald Trump on Thursday tapped Fede...     politicsNews   
3  Hillary Clinton ally David Brock is offering t...        left-news   
4  Pleading ignorance is a perfect ploy for Nancy...         politics   

                date  label  
0     July 22, 2017       1  
1       Jun 19, 2017      0  
2  November 2, 2017       1  
3       Sep 17, 2016      0  
4 

## **Separando Features, Rótulos; Dividindo Dados e Vetorizando**

In [None]:
X = df_combined['text']
y = df_combined['label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Vetorização do texto usando TF-IDF
vectorizer = TfidfVectorizer(stop_words='english', max_df=0.7)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

## **Treinando o Modelo usando Naive Bayes**

O Naive Bayes é um algoritmo de classificação de dados que utiliza uma técnica para gerar uma tabela de probabilidades

In [None]:
model = MultinomialNB()
model.fit(X_train_tfidf, y_train)

y_pred = model.predict(X_test_tfidf)

## **Avaliando o Modelo**

In [None]:
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy * 100:.2f}%")
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

Acurácia do modelo: 92.46%

Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.93      0.93      0.93      3765
           1       0.92      0.92      0.92      3435

    accuracy                           0.92      7200
   macro avg       0.92      0.92      0.92      7200
weighted avg       0.92      0.92      0.92      7200



# **Testando com uma notícia**
Nesta parte, utilizei o título desta notícia do *New York Times* para testar:
https://www.nytimes.com/2025/01/08/world/middleeast/israel-strike-west-bank.html

In [None]:
news = ["Israeli Strike in West Bank Kills 3, Including Children"]
news_tfidf = vectorizer.transform(news)
prediction = model.predict(news_tfidf)
print(f"Predição para a notícia: {'Real' if prediction[0] == 1 else 'Fake'}")

Predição para a notícia: Real
