# O que são Fake News?

Bom, podemos dizer que fake news é como se fosse contar uma mentira com algum objetivo, nada mais que uma calúnia, um boato ou uma difamação. Isso geralmente é feito para promover ou impor certas ideias e muitas vezes é alcançado com agendas políticas. Tais notícias podem podem acabar sendo viralizadas por algoritmos, e os usuários podem acabar em uma bolha de filtro.

# O que é TfidfVectorizer?

TF-IDF significa Frequency Inverse Document Frequency of records. Pode ser definido como o cálculo da relevância de uma palavra em uma série ou corpus para um texto. O significado aumenta proporcionalmente ao número de vezes que uma palavra aparece no texto, mas é compensado pela frequência da palavra no corpus (conjunto de dados).

O TfidfVectorizer converte uma coleção de documentos brutos em uma matriz de recursos TF-IDF.

# O que é um PassiveAggressiveClassifier?

O Classificador Agressivo Passivo(PassiveAggressiveClassifier) pertence à categoria de algoritmos de aprendizado online. Ele funciona respondendo como passivo para classificações corretas e respondendo como agressivo para qualquer erro de cálculo.

# Importações

In [1]:
import numpy as np
import pandas as pd
import itertools
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

# Leitura dos dados e pegando os labels

In [2]:
df = pd.read_csv("data/news.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,title,text,label
0,8476,You Can Smell Hillary’s Fear,"Daniel Greenfield, a Shillman Journalism Fello...",FAKE
1,10294,Watch The Exact Moment Paul Ryan Committed Pol...,Google Pinterest Digg Linkedin Reddit Stumbleu...,FAKE
2,3608,Kerry to go to Paris in gesture of sympathy,U.S. Secretary of State John F. Kerry said Mon...,REAL
3,10142,Bernie supporters on Twitter erupt in anger ag...,"— Kaydee King (@KaydeeKing) November 9, 2016 T...",FAKE
4,875,The Battle of New York: Why This Primary Matters,It's primary day in New York and front-runners...,REAL


In [3]:
labels = df.label
labels.head()

0    FAKE
1    FAKE
2    REAL
3    FAKE
4    REAL
Name: label, dtype: object

# Separando os dados de testes e de treino

In [4]:
x_train, x_test, y_train, y_test = train_test_split(df['text'], labels, test_size=0.2, random_state=7)

# Inicializando o TfidfVectorizer
Bom, vamos inicializar um TfidfVectorizer com a palavra de parada do idioma inglês e uma frequência máxima do documento de 0,7 (os termos com maior frequência que 70% do documento serão descartados). Palavras de parada são as palavras mais comuns em um idioma que devem ser filtradas antes de processar os dados do idioma natural. E um TfidfVectorizer transforma uma coleção de documentos brutos em uma matriz de recursos TF-IDF.

In [5]:
tfidf_vectorizer = TfidfVectorizer(stop_words='english', max_df=0.7)

# ajuste dos dados
tfidf_train = tfidf_vectorizer.fit_transform(x_train)
tfidf_test = tfidf_vectorizer.transform(x_test)

# Inicializando o PassiveAggressiveClassifier

Em seguida, vamos prever no conjunto de teste do TfidfVectorizer e calcular a precisão com precision_score() do sklearn.metrics.

In [6]:
pac = PassiveAggressiveClassifier(max_iter=50)
pac.fit(tfidf_train, y_train)

y_pred = pac.predict(tfidf_test)
score = accuracy_score(y_test, y_pred)
print(f"Precissão: {round(score * 100, 2)}%")

Precissão: 92.82%


In [7]:
confusion_matrix(y_test, y_pred)

array([[590,  48],
       [ 43, 586]])

# Referencias

- https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.PassiveAggressiveClassifier.html
- https://descomplica.com.br/artigo/fake-news-significado-conceito-e-exemplos/66h/
- https://data-flair.training/blogs/advanced-python-project-detecting-fake-news/
- https://acervolima.com/compreendendo-tf-idf-termo-frequencia-frequencia-inversa-de-documento/
- https://thecleverprogrammer.com/2021/02/10/passive-aggressive-classifier-in-machine-learning/