# Introducción

A lo largo de este proyecto, utilizaremos el dataset entregado por el profesor para realizar nuestro análisis de los datos de algunas de las redes sociales más famosas, con el objetivo de sacar conclusiones para mejorar nuestra **RED SOCIAL**.

# 1. Importación de librerías y carga del dataset

En primer lugar, importaremos las librerías que emplearemos en el proyecto, además de cargar el ya comentado dataset.

In [1]:
# Importamos las librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Cargamos el dataset de las redes sociales
redSocialOriginal = pd.read_csv('Social Media Engagement Dataset.csv')

print(f"Dataset cargado: {redSocialOriginal.shape}")

Dataset cargado: (12000, 28)


# 2. Primer vistazo al dataset

En segundo lugar, mostraremos el dataset por encima para ver que nos encontramos.

In [2]:
# Mostramos las primeras filas
redSocialOriginal.head()

Unnamed: 0,post_id,timestamp,day_of_week,platform,user_id,location,language,text_content,hashtags,mentions,...,comments_count,impressions,engagement_rate,brand_name,product_name,campaign_name,campaign_phase,user_past_sentiment_avg,user_engagement_growth,buzz_change_rate
0,kcqbs6hxybia,2024-12-09 11:26:15,Monday,Instagram,user_52nwb0a6,"Melbourne, Australia",pt,Just tried the Chromebook from Google. Best pu...,#Food,,...,701,18991,0.19319,Google,Chromebook,BlackFriday,Launch,0.0953,-0.3672,19.1
1,vkmervg4ioos,2024-07-28 19:59:26,Sunday,Twitter,user_ucryct98,"Tokyo, Japan",ru,Just saw an ad for Microsoft Surface Laptop du...,"#MustHave, #Food","@CustomerService, @BrandCEO",...,359,52764,0.05086,Microsoft,Surface Laptop,PowerRelease,Post-Launch,0.1369,-0.451,-42.6
2,memhx4o1x6yu,2024-11-23 14:00:12,Saturday,Reddit,user_7rrev126,"Beijing, China",ru,What's your opinion about Nike's Epic React? ...,"#Promo, #Food, #Trending",,...,643,8887,0.45425,Nike,Epic React,BlackFriday,Post-Launch,0.2855,-0.4112,17.4
3,bhyo6piijqt9,2024-09-16 04:35:25,Monday,YouTube,user_4mxuq0ax,"Lagos, Nigeria",en,Bummed out with my new Diet Pepsi from Pepsi! ...,"#Reviews, #Sustainable","@StyleGuide, @BrandSupport",...,743,6696,0.42293,Pepsi,Diet Pepsi,LaunchWave,Launch,-0.2094,-0.0167,-5.5
4,c9dkiomowakt,2024-09-05 21:03:01,Thursday,Twitter,user_l1vpox2k,"Berlin, Germany",hi,Just tried the Corolla from Toyota. Absolutely...,"#Health, #Travel","@BrandSupport, @InfluencerName",...,703,47315,0.08773,Toyota,Corolla,LocalTouchpoints,Launch,0.6867,0.0807,38.8


In [3]:
# Mostramos el nombre de las columnas
redSocialOriginal.columns

Index(['post_id', 'timestamp', 'day_of_week', 'platform', 'user_id',
       'location', 'language', 'text_content', 'hashtags', 'mentions',
       'keywords', 'topic_category', 'sentiment_score', 'sentiment_label',
       'emotion_type', 'toxicity_score', 'likes_count', 'shares_count',
       'comments_count', 'impressions', 'engagement_rate', 'brand_name',
       'product_name', 'campaign_name', 'campaign_phase',
       'user_past_sentiment_avg', 'user_engagement_growth',
       'buzz_change_rate'],
      dtype='object')

In [4]:
# Mostramos información del conjunto de datos
redSocialOriginal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12000 entries, 0 to 11999
Data columns (total 28 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   post_id                  12000 non-null  object 
 1   timestamp                12000 non-null  object 
 2   day_of_week              12000 non-null  object 
 3   platform                 12000 non-null  object 
 4   user_id                  12000 non-null  object 
 5   location                 12000 non-null  object 
 6   language                 12000 non-null  object 
 7   text_content             12000 non-null  object 
 8   hashtags                 12000 non-null  object 
 9   mentions                 8059 non-null   object 
 10  keywords                 12000 non-null  object 
 11  topic_category           12000 non-null  object 
 12  sentiment_score          12000 non-null  float64
 13  sentiment_label          12000 non-null  object 
 14  emotion_type          

In [5]:
# Mostramos la descripción de los datos
redSocialOriginal.describe()

Unnamed: 0,sentiment_score,toxicity_score,likes_count,shares_count,comments_count,impressions,engagement_rate,user_past_sentiment_avg,user_engagement_growth,buzz_change_rate
count,12000.0,12000.0,12000.0,12000.0,12000.0,12000.0,12000.0,12000.0,12000.0,12000.0
mean,0.000553,0.503868,2490.72025,1007.167167,504.34575,49811.3385,0.278137,0.001472,0.000998,0.729692
std,0.583563,0.288198,1441.53253,575.072282,288.68416,28930.289451,1.149206,0.576627,0.28994,57.787219
min,-0.9998,0.0,0.0,0.0,0.0,130.0,0.00188,-0.9996,-0.4999,-99.9
25%,-0.5032,0.2514,1236.0,510.0,253.0,24716.5,0.0491,-0.495975,-0.2484,-48.7
50%,-0.0062,0.50595,2496.0,1018.0,503.0,49674.0,0.080605,0.00195,0.0028,0.9
75%,0.513525,0.7562,3723.25,1501.0,755.0,74815.0,0.163123,0.501725,0.2507,50.1
max,0.9999,0.9999,5000.0,2000.0,1000.0,99997.0,32.21171,0.9994,0.4999,99.9


# 3. Preproceso

Seguidamente, vamos a realizarle un par de modificaciones previas al dataset para obtener mejores resultados en el futuro.

#### 3.1 Copia

In [None]:
# Creamos una copia para evitar dañar el dataset original
redSocial = redSocialOriginal.copy()

#### 3.2 Columnas innecesarias

In [None]:
# Eliminamos columnas innecesarias

redSocial = redSocial.drop(columns=["post_id"])
# Es el id técnico, el cual no es necesario pues ya tenemos el propio id generado por matplotlib

redSocial = redSocial.drop(columns=["user_id"])
# Como no vamos a hacer análisis a nivel usuario, sino a nivel general, tampoco necesitamos este id

#### 3.3 Renombrar columnas

In [None]:
# Renombramos todas las columnas en español
redSocial = redSocial.rename(columns={
    "likes_count": "likes",
    "text_content": "contenido_texto",
    "platform": "plataforma",
    "timestamp": "fecha",
    "day_of_week": "dia_semana",
    "mentions": "menciones",
    "keywords": "palabras_clave",
    "impressions": "visualizaciones",
    "engagement_rate": "tasa_compromiso",
    "brand_name": "nombre_marca",
    "product_name": "nombre_producto",
    "campaign_name": "nombre_campania",
    "campaign_phase": "fase_campania",
    "location": "ubicacion",
    "comments_count": "comentarios",
    "language": "idioma",
    "shares_count": "compartidos",
    "emotion_type": "emocion",
    "topic_category": "categoria_tema",
    "sentiment_score": "puntaje_sentimiento",
    "sentiment_label": "etiqueta_sentimiento"
})

#### 3.4 Creación de nuevas columnas

In [None]:
# Primero, convertimos la columna de fecha a tipo datetime
redSocial["fecha"] = pd.to_datetime(redSocial["fecha"])

# Ahora, cogemos sus componentes para convertirlos en nuevas columnas, que nos servirán para análisis temporales más concretos
redSocial["Año"] = redSocial["fecha"].dt.year
redSocial["Mes"] = redSocial["fecha"].dt.month
redSocial["Dia"] = redSocial["fecha"].dt.day
redSocial["Hora"] = redSocial["fecha"].dt.hour
redSocial["Nombre Mes"] = redSocial["fecha"].dt.month_name()

In [None]:
# La siguiente columna nos servirá para comparaciones más sencillas con las interacciones en las publicaciones
redSocial["interacciones_totales"] = (
    redSocial["likes"] +
    redSocial["compartidos"] +
    redSocial["comentarios"]
)

# 4. Limpieza de datos

Antes de realizar cualquier ejercicio, deberemos asegurarnos de que los datos están listos para ser manejados, con el fin de evitar errores. Para ello, procederemos con una limpieza completa de los datos que consideremos corruptos.

#### 4.1 Valores nulos

Primero, comprobaremos si existen valores nulos en el dataset.

In [None]:
redSocial.isna().sum()

Como hemos podido comprobar, únicamente hay valores nulos en la columna *menciones*.
Como esta columna no influye en las métricas principales, hemos decidido reemplazar los valores nulos por una cadena vacía para no perder registros y mantener los datos completos.

In [None]:
redSocial["menciones"] = redSocial["menciones"].fillna("")
redSocial.isna().sum()

#### 4.2 Valores duplicados

También comprobaremos si es que existe algún valor duplicado.

In [None]:
redSocial.duplicated().sum()

En este caso, no hemos detectado registros duplicados en dataset, por lo que no necesitamos aplicar ningún tratamiento adicional.