In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Cargar los conjuntos de datos
verificat = pd.read_csv("datos_iniciales/verificat.csv")
newtral = pd.read_csv("datos_iniciales/noticias_newtral.csv")
efe = pd.read_csv("datos_iniciales/noticias_efe.csv")
meneame = pd.read_csv("datos_iniciales/noticias_meneame.csv")

# Filtrar datos irrelevantes en el dataset de Newtral
newtral = newtral[~newtral["Contenido"].str.contains("Este vídeo|Esta imagen", na=False)]

In [2]:


# Limpieza de texto en el contenido de Newtral
newtral['Contenido'] = newtral['Contenido'].str.replace(r'He leído y acepto laPolítica de privacidad\*', '', regex=True)
newtral['Contenido'] = newtral['Contenido'].str.replace(r'Δ|Interesa\n|\n|\s{2,}', '', regex=True)

# Filtrar noticias de Menéame con menos de 60 meneos
meneame = meneame[meneame['Meneos'] >= 60]

# Renombrar columnas para unificar los datasets
efe = efe.rename(columns={'Título': 'Título', 'Fecha': 'Fecha', 'Contenido': 'Contenido', 'URL': 'URL'})
meneame = meneame[['Título', 'Fecha', 'Contenido', 'URL']]
newtral = newtral.rename(columns={'Titular': 'Título'})[['Título', 'Fecha', 'Contenido']]
verificat = verificat.rename(columns={'Titular': 'Título'})[['Título', 'Fecha', 'Contenido']]

# Agregar columna de fuente para identificar el origen de los datos
efe['Fuente'] = 'EFE'
meneame['Fuente'] = 'Meneame'
newtral['Fuente'] = 'Newtral'
verificat['Fuente'] = 'Verificat'

# Combinar todos los datasets en uno unificado
datasets = [efe, meneame, newtral, verificat]
unified_dataset = pd.concat(datasets, ignore_index=True)

# Asignar índices únicos y establecer el nuevo índice
unified_dataset["Numero"] = range(1, len(unified_dataset) + 1)
unified_dataset = unified_dataset.set_index(["Numero"])

# Copiar el dataset para análisis posterior
data = unified_dataset.copy()



In [None]:

# Visualizar el número de noticias por fuente
medio_counts = data['Fuente'].value_counts()
plt.figure(figsize=(10, 6))
medio_counts.plot(kind='bar')
plt.xlabel('Fuente')
plt.ylabel('Número de noticias')
plt.title('Reparto de noticias por Fuente')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Calcular el recuento de palabras en las noticias
data['word_count'] = data['Contenido'].apply(lambda x: len(str(x).split()))

# Crear histograma del recuento de palabras
plt.figure(figsize=(10, 6))
plt.hist(data['word_count'], bins=40, edgecolor='black')
plt.xlabel('Número de palabras en el contenido')
plt.ylabel('Frecuencia')
plt.title('Histograma del recuento de palabras en el contenido')
plt.tight_layout()
plt.show()

# Filtrar noticias con menos de 2500 palabras
data = data[data['word_count'] < 2500]

# Cargar y procesar datasets adicionales
fake_tweets = pd.read_csv("tweets_falsos/tweets_falsos_156.csv").drop_duplicates().dropna()
fake_news = pd.read_csv("noticias_falsas_cleaned.csv").drop_duplicates().dropna()

# Visualizar distribución de palabras en noticias falsas
plt.figure(figsize=(10, 6))
plt.hist(fake_news['Palabras'], bins=40, edgecolor='black')
plt.xlabel('Número de palabras en el contenido')
plt.ylabel('Frecuencia')
plt.title('Histograma del recuento de palabras en noticias falsas')
plt.tight_layout()
plt.show()

# Visualizar distribución de palabras en tweets falsos
fake_tweets['word_count'] = fake_tweets['Tweet'].apply(lambda x: len(str(x).split()))
plt.figure(figsize=(10, 6))
plt.hist(fake_tweets['word_count'], bins=40, edgecolor='black')
plt.xlabel('Número de palabras en los tweets')
plt.ylabel('Frecuencia')
plt.title('Histograma del recuento de palabras en tweets falsos')
plt.tight_layout()
plt.show()