# Introducción

A lo largo de este proyecto, utilizaremos el dataset entregado por el profesor para realizar nuestro análisis de los datos de algunas de las redes sociales más famosas, con el objetivo de sacar conclusiones para mejorar nuestra **RED SOCIAL**.

# 1. Importación de librerías y carga del dataset

En primer lugar, importaremos las librerías que emplearemos en el proyecto, además de cargar el ya comentado dataset.

In [None]:
# Importamos las librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Cargamos el dataset de las redes sociales
redSocialOriginal = pd.read_csv('Social Media Engagement Dataset.csv')

print(f"Dataset cargado: {redSocialOriginal.shape}")

# 2. Primer vistazo al dataset

En segundo lugar, mostraremos el dataset por encima para ver que nos encontramos.

In [None]:
# Mostramos las primeras filas
redSocialOriginal.head()

In [None]:
# Mostramos el nombre de las columnas
redSocialOriginal.columns

In [None]:
# Mostramos información del conjunto de datos
redSocialOriginal.info()

In [None]:
# Mostramos la descripción de los datos
redSocialOriginal.describe()

# 3. Preproceso

Seguidamente, vamos a realizarle un par de modificaciones previas al dataset para obtener mejores resultados en el futuro.

#### 3.1 Copia

In [None]:
# Creamos una copia para evitar dañar el dataset original
redSocial = redSocialOriginal.copy()

#### 3.2 Columnas innecesarias

In [None]:
# Eliminamos columnas innecesarias

redSocial = redSocial.drop(columns=["post_id"])
# Es el id técnico, el cual no es necesario pues ya tenemos el propio id generado por matplotlib

redSocial = redSocial.drop(columns=["user_id"])
# Como no vamos a hacer análisis a nivel usuario, sino a nivel general, tampoco necesitamos este id

#### 3.3 Renombrar columnas

In [None]:
# Renombramos todas las columnas en español
redSocial = redSocial.rename(columns={
    "likes_count": "likes",
    "text_content": "contenido_texto",
    "platform": "plataforma",
    "timestamp": "fecha",
    "day_of_week": "dia_semana",
    "mentions": "menciones",
    "keywords": "palabras_clave",
    "impressions": "visualizaciones",
    "engagement_rate": "tasa_compromiso",
    "brand_name": "nombre_marca",
    "product_name": "nombre_producto",
    "campaign_name": "nombre_campania",
    "campaign_phase": "fase_campania",
    "location": "ubicacion",
    "comments_count": "comentarios",
    "language": "idioma",
    "shares_count": "compartidos",
    "emotion_type": "emocion",
    "topic_category": "categoria_tema",
    "sentiment_score": "puntaje_sentimiento",
    "sentiment_label": "etiqueta_sentimiento"
})

#### 3.4 Creación de nuevas columnas

In [None]:
# Primero, convertimos la columna de fecha a tipo datetime
redSocial["fecha"] = pd.to_datetime(redSocial["fecha"])

# Ahora, cogemos sus componentes para convertirlos en nuevas columnas, que nos servirán para análisis temporales más concretos
redSocial["Año"] = redSocial["fecha"].dt.year
redSocial["Mes"] = redSocial["fecha"].dt.month
redSocial["Dia"] = redSocial["fecha"].dt.day
redSocial["Hora"] = redSocial["fecha"].dt.hour
redSocial["Nombre Mes"] = redSocial["fecha"].dt.month_name()

In [None]:
# La siguiente columna nos servirá para comparaciones más sencillas con las interacciones en las publicaciones
redSocial["interacciones_totales"] = (
    redSocial["likes"] +
    redSocial["compartidos"] +
    redSocial["comentarios"]
)

# 4. Limpieza de datos

Antes de realizar cualquier ejercicio, deberemos asegurarnos de que los datos están listos para ser manejados, con el fin de evitar errores. Para ello, procederemos con una limpieza completa de los datos que consideremos corruptos.

#### 4.1 Valores nulos

Primero, comprobaremos si existen valores nulos en el dataset.

In [None]:
redSocial.isna().sum()

Como hemos podido comprobar, únicamente hay valores nulos en la columna *menciones*.
Como esta columna no influye en las métricas principales, hemos decidido reemplazar los valores nulos por una cadena vacía para no perder registros y mantener los datos completos.

In [None]:
redSocial["menciones"] = redSocial["menciones"].fillna("")
redSocial.isna().sum()

#### 4.2 Valores duplicados

También comprobaremos si es que existe algún valor duplicado.

In [None]:
redSocial.duplicated().sum()

En este caso, no hemos detectado registros duplicados en dataset, por lo que no necesitamos aplicar ningún tratamiento adicional.