# Análisis de Sentimiento y Engagement en Noticias
Este cuaderno tiene como objetivo preprocesar datos de redes sociales para el análisis de sentimiento, explorando las interacciones de noticias de diferentes fuentes.

In [None]:
# Importar librerias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re
from textblob import TextBlob


## 1. Carga de Datos

Participación en las noticias globales en las redes sociales
Información de CNN, BBC, Al Jazeera, Reuters
Última actualización: hace 10 meses (versión 1)

Acerca de este conjunto de datos
Este conjunto de datos integral ofrece un análisis profundo de las métricas de participación en las redes sociales de casi 4000 publicaciones de cuatro de los principales canales de noticias del mundo: CNN, BBC, Al Jazeera y Reuters. La colección, seleccionada para brindar una visión integral de la interacción de las noticias globales en las redes sociales, se destaca por su meticuloso ensamblaje y su amplio espectro de contenido.

Descripción general del conjunto de datos:
Este conjunto de datos, que abarca varios eventos, temas y narrativas globales, es una instantánea de cómo se consumen las noticias y cómo se interactúa con ellas en las plataformas de redes sociales. Sirve como un recurso valioso para analizar tendencias, patrones de participación y la difusión de información a través de las fronteras internacionales.

Aplicaciones de la ciencia de datos:
Ideal para investigadores y entusiastas en los campos de la ciencia de datos, los estudios de medios y el análisis social, este conjunto de datos abre las puertas a numerosas exploraciones, como el análisis de la interacción, la previsión de tendencias, la optimización de la estrategia de contenido y el estudio del flujo de información en espacios digitales. También tiene potencial para proyectos de aprendizaje automático que apuntan a predecir la interacción o clasificar el contenido en función de métricas de interacción.

Descriptores de columnas:
Cada registro del conjunto de datos se detalla con las siguientes columnas:

texto: el título o el contenido principal de la publicación.
me gusta: la cantidad de me gusta que ha obtenido cada publicación.
comentarios: la cantidad de comentarios que dejaron los espectadores.
compartidos: la cantidad de veces que se compartió la publicación.
Datos extraídos éticamente:
La recopilación de este conjunto de datos se realizó teniendo en cuenta los estándares éticos más altos, lo que garantiza el cumplimiento de las leyes de privacidad de datos y las políticas de la plataforma. Al anonimizar los datos cuando sea necesario y centrarse únicamente en la información disponible públicamente, respeta tanto la privacidad individual como los derechos de propiedad intelectual.

Queremos agradecer especialmente a la plataforma de Facebook y a los canales de noticias respectivos por su apertura y la gran cantidad de datos públicos que brindan. Este conjunto de datos no solo celebra el vibrante intercambio en las redes sociales, sino que también subraya la importancia del uso y el intercambio responsable de datos para fomentar la comprensión y la innovación.

Cargaremos los datos de cuatro archivos CSV correspondientes a diferentes fuentes de noticias: `al_jazeera.csv`, `bbc.csv`, `cnn.csv` y `reuters.csv`. Estos contienen las siguientes columnas:
- `text`: Contenido de la noticia compartida.
- `likes`: Cantidad de 'me gusta'.
- `comments`: Número de comentarios.
- `shares`: Número de veces compartido.

Fuente: https://www.kaggle.com/code/helizain/an-lisis-sentimiental-del-engagement-de-noticias/notebook

In [None]:
# Lista de archivos
files = ['al_jazeera.csv', 'bbc.csv', 'cnn.csv', 'reuters.csv']

# Cargar los archivos en un diccionario de DataFrames
dfs = {file: pd.read_csv("./data/"+file) for file in files}

# Mostrar las primeras filas de cada archivo
for name, df in dfs.items():
    print(f"\n{name}:")
    display(df.head())

## 2. Exploración y Estadísticas Descriptivas
Vamos a analizar la estructura y características de los datos, identificando valores faltantes y distribuciones de interacciones.

In [None]:
# Verificar valores nulos en cada archivo
for name, df in dfs.items():
    print(f"\nValores nulos en {name}:")
    print(df.isnull().sum())

## 3. Visualización de Datos
Generaremos gráficos para entender el comportamiento de los likes, comentarios y compartidos.

In [None]:
for name, df in dfs.items():
    plt.figure(figsize=(10, 5))
    sns.boxplot(data=df[['likes', 'comments', 'shares']])
    plt.title(f'Distribución de interacciones en {name}')
    plt.show()

## 4. Procesamiento de Texto
Limpieza de datos textuales mediante eliminación de caracteres especiales y conversión a minúsculas.

In [None]:
# Función para limpiar el texto
def clean_text(text):
    text = text.lower()
    text = re.sub(r'[^a-zA-Z0-9\s]', '', text)
    return text

for name, df in dfs.items():
    df['clean_text'] = df['text'].apply(clean_text)
    print(f"\nTexto procesado en {name}:")
    display(df[['text', 'clean_text']].head())

## 5. Análisis de Sentimiento
Usaremos la biblioteca `TextBlob` para asignar una puntuación de sentimiento a cada texto.

In [None]:
# Análisis de sentimiento
for name, df in dfs.items():
    df['sentiment'] = df['clean_text'].apply(lambda x: TextBlob(x).sentiment.polarity)
    print(f"\nAnálisis de sentimiento en {name}:")
    display(df[['clean_text', 'sentiment']].head())

## 6. Conclusiones
Tras el análisis, hemos identificado patrones en el engagement de noticias de diferentes fuentes y cómo el sentimiento del texto puede influir en la interacción del público. Este estudio puede servir como base para modelos predictivos o de recomendación en el futuro.