In [1]:
# Import necessary libraries
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split

In [2]:
# Load the dataset
data = pd.read_csv('modified_data.csv')
data

Unnamed: 0,id,category,topic,source,headline,text,link
0,1,Fake,Education,El Ruinaversal,"RAE INCLUIR� LA PALABRA ""LADY"" EN EL DICCIONAR...","RAE INCLUIR� LA PALABRA ""LADY"" EN EL DICCIONAR...",http://www.elruinaversal.com/2017/06/10/rae-in...
1,2,Fake,Education,Hay noticia,"La palabra ""haiga"", aceptada por la RAE","La palabra ""haiga"", aceptada por la RAE La Rea...",https://haynoticia.es/la-palabra-haiga-aceptad...
2,3,Fake,Education,El Ruinaversal,YORDI ROSADO ESCRIBIR� Y DISE�AR� LOS NUEVOS L...,YORDI ROSADO ESCRIBIR� Y DISE�AR� LOS NUEVOS L...,http://www.elruinaversal.com/2018/05/06/yordi-...
3,4,True,Education,EL UNIVERSAL,UNAM capacitar� a maestros para aprobar prueba...,UNAM capacitar� a maestros para aprobar prueba...,http://www.eluniversal.com.mx/articulo/nacion/...
4,5,Fake,Education,Lamula,pretenden aprobar libros escolares con conteni...,Alerta: pretenden aprobar libros escolares con...,https://redaccion.lamula.pe/2018/06/19/memoria...
...,...,...,...,...,...,...,...
1243,568,True,Covid-19,El Financiero,Encuentran nueva variante de COVID en M�xico: ...,El Instituto de Diagn�stico y Referencia Epide...,https://www.elfinanciero.com.mx/salud/encuentr...
1244,569,False,Sociedad,diariogol,El m�vil de m�s de 60.000 euros de la princesa...,La hija del rey Felipe y de la reina Letizia y...,https://www.diariogol.com/gossip/el-movil-de-m...
1245,570,False,Pol�tica,AFPFactual,,"Evidentemente, Barak Obama ha sido arrestado e...","Perma | Obama, Biden y la directora de la CIA,..."
1246,571,True,Covid-19,Redacci�n M�dica,Covid: las vacunas puestas en Espa�a no alcanz...,El Ministerio de Sanidad ha actualizado los da...,https://www.redaccionmedica.com/secciones/sani...


In [3]:
# replace 'false' with 'fake'
data['category'] = data['category'].replace('False', 'Fake')
data

Unnamed: 0,id,category,topic,source,headline,text,link
0,1,Fake,Education,El Ruinaversal,"RAE INCLUIR� LA PALABRA ""LADY"" EN EL DICCIONAR...","RAE INCLUIR� LA PALABRA ""LADY"" EN EL DICCIONAR...",http://www.elruinaversal.com/2017/06/10/rae-in...
1,2,Fake,Education,Hay noticia,"La palabra ""haiga"", aceptada por la RAE","La palabra ""haiga"", aceptada por la RAE La Rea...",https://haynoticia.es/la-palabra-haiga-aceptad...
2,3,Fake,Education,El Ruinaversal,YORDI ROSADO ESCRIBIR� Y DISE�AR� LOS NUEVOS L...,YORDI ROSADO ESCRIBIR� Y DISE�AR� LOS NUEVOS L...,http://www.elruinaversal.com/2018/05/06/yordi-...
3,4,True,Education,EL UNIVERSAL,UNAM capacitar� a maestros para aprobar prueba...,UNAM capacitar� a maestros para aprobar prueba...,http://www.eluniversal.com.mx/articulo/nacion/...
4,5,Fake,Education,Lamula,pretenden aprobar libros escolares con conteni...,Alerta: pretenden aprobar libros escolares con...,https://redaccion.lamula.pe/2018/06/19/memoria...
...,...,...,...,...,...,...,...
1243,568,True,Covid-19,El Financiero,Encuentran nueva variante de COVID en M�xico: ...,El Instituto de Diagn�stico y Referencia Epide...,https://www.elfinanciero.com.mx/salud/encuentr...
1244,569,Fake,Sociedad,diariogol,El m�vil de m�s de 60.000 euros de la princesa...,La hija del rey Felipe y de la reina Letizia y...,https://www.diariogol.com/gossip/el-movil-de-m...
1245,570,Fake,Pol�tica,AFPFactual,,"Evidentemente, Barak Obama ha sido arrestado e...","Perma | Obama, Biden y la directora de la CIA,..."
1246,571,True,Covid-19,Redacci�n M�dica,Covid: las vacunas puestas en Espa�a no alcanz...,El Ministerio de Sanidad ha actualizado los da...,https://www.redaccionmedica.com/secciones/sani...


In [4]:
# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(data['text'], data['category'], test_size=0.2, random_state=42)

In [5]:
# Convert text into vectors using TF-IDF vectorizer
vectorizer = TfidfVectorizer(max_features=5000)
X_train_vectors = vectorizer.fit_transform(X_train)
X_test_vectors = vectorizer.transform(X_test)

In [6]:
# Train the random forest classifier
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train_vectors, y_train)

In [7]:
# Make predictions on the test data
y_pred = rf.predict(X_test_vectors)

In [8]:
# Evaluate the model's accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: {:.2f}%".format(accuracy * 100))

Accuracy: 75.20%


In [9]:
# Print the confusion matrix
cm = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:\n", cm)

Confusion Matrix:
 [[91 25]
 [37 97]]


In [None]:
# Filter the dataset to get only the rows with 'real' label
real_news = data[data['category'] == 'True']
real_news

Unnamed: 0,id,category,topic,source,headline,text,link
3,4,True,Education,EL UNIVERSAL,UNAM capacitar� a maestros para aprobar prueba...,UNAM capacitar� a maestros para aprobar prueba...,http://www.eluniversal.com.mx/articulo/nacion/...
5,6,True,Education,Heraldo,Un paso m�s cerca de hacer los ex�menes 'online',Un paso m�s cerca de hacer los ex�menes 'onlin...,https://www.heraldo.es/noticias/suplementos/he...
7,8,True,Education,Excelsior,Ni�o de *NUMBER* a�os se prepara para entrar a...,Ni�o de *NUMBER* a�os se prepara para entrar a...,https://www.excelsior.com.mx/trending/nino-de-...
8,9,True,Education,El pa�s,*NUMBER* palabras que cre�amos inaceptables y ...,*NUMBER* palabras que cre�amos inaceptables y ...,https://elpais.com/elpais/2018/03/28/icon/1522...
10,11,True,Education,Excelsior,La UNAM limpia aulas de alumnos rezagados,La UNAM limpia aulas de alumnos rezagados\nA p...,https://www.excelsior.com.mx/nacional/2015/09/...
...,...,...,...,...,...,...,...
1237,562,True,Sociedad,El Pa�s,Detenidos seis menores por supuestos abusos a ...,Seis menores han sido detenidos en C�diz acusa...,https://elpais.com/politica/2017/09/12/actuali...
1238,563,True,Sociedad,El Comercio,La falsa noticia de la empleada que defeca en ...,Muchos quisieron creer que fuera verdad al con...,https://www.elcomercio.es/sociedad/201604/30/f...
1242,567,True,Sociedad,El Tiempo,Las razones detr�s del aumento de suicidios en...,"Durante los �ltimos cuatro a�os, la ciudad no ...",https://www.eltiempo.com/colombia/medellin/raz...
1243,568,True,Covid-19,El Financiero,Encuentran nueva variante de COVID en M�xico: ...,El Instituto de Diagn�stico y Referencia Epide...,https://www.elfinanciero.com.mx/salud/encuentr...


In [None]:
# Save the filtered dataset to a new CSV file
real_news.to_csv('real_news.csv', index=False)