## data_cleaning

In [7]:
import pandas as pd

# 1. Cargar datos
df = pd.read_csv("../data/raw/video.csv")

# 2. Vista previa
print(df.head())

# 3. Convertir columnas numéricas
df["viewCount"] = pd.to_numeric(df["viewCount"], errors="coerce")
df["likeCount"] = pd.to_numeric(df["likeCount"], errors="coerce")
df["commentCount"] = pd.to_numeric(df["commentCount"], errors="coerce")

# 4. Convertir fecha
df["publishedAt"] = pd.to_datetime(df["publishedAt"], errors="coerce")

# 5. Eliminar duplicados por ID de video
df.drop_duplicates(subset="Unnamed: 0", inplace=True)

# 6. Limpiar textos (quitar espacios extras)
df["title"] = df["title"].str.strip()

# 7. Calcular Engagement Rate
df["engagement_rate"] = ((df["likeCount"] + df["commentCount"]) / df["viewCount"]) * 100

# 8. Ordenar por mayor engagement
df = df.sort_values(by="engagement_rate", ascending=False)

# 9. Guardar dataset procesado
df.to_csv("../data/processed/final_dataset.csv", index=False)

print("✅ Limpieza y transformación completada. Archivo guardado en data/processed/final_dataset.csv")


   Unnamed: 0                                           title publishedAt  \
0           0  POR FIN UNA BUENA SERIE EN NETFLIX - INDOMABLE  2025-08-17   
1           1                RIESGO EN EL AÍRE EN PRIME VIDEO  2025-08-16   
2           2               ¿POR QUÉ MEGAMENTE ES UN CLÁSICO?  2025-08-15   
3           3                    TOGETHER MUY RARA e INCOMODA  2025-08-13   
4           4                               LOS TIPOS MALOS 2  2025-08-12   

   viewCount  likeCount  commentCount Month  
0      46528       3511           720   Aug  
1      72834       4252          1053   Aug  
2      73864       6681           858   Aug  
3      74048       4864           543   Aug  
4      81777       6073           687   Aug  
✅ Limpieza y transformación completada. Archivo guardado en data/processed/final_dataset.csv


## 🔗 Unificación de datos para análisis posterior

In [8]:
# Cargar datasets
df_youtube = pd.read_csv("../data/processed/final_dataset.csv")
df_trends = pd.read_csv("../data/raw/trends.csv")

# Asegurar formato de fecha
df_youtube["publishedAt"] = pd.to_datetime(df_youtube["publishedAt"]).dt.date
df_trends["date"] = pd.to_datetime(df_trends["date"]).dt.date

# Unir datasets por fecha
df_merge = pd.merge(df_youtube, df_trends, left_on="publishedAt", right_on="date", how="left")

# Guardar dataset final
df_merge.to_csv("../data/processed/final_dataset.csv", index=False)
print("✅ Dataset combinado guardado en data/processed/youtube_trends_dataset.csv")

✅ Dataset combinado guardado en data/processed/youtube_trends_dataset.csv


In [1]:

import pandas as pd
from textblob import TextBlob

In [None]:
# 1. Cargar dataset combinado (YouTube + Google Trends)
df = pd.read_csv("../data/processed/videos.csv")

# 2. Función para clasificar sentimiento
def get_sentiment(text):
    analysis = TextBlob(str(text))
    polarity = analysis.sentiment.polarity
    if polarity > 0:
        return "Positivo"
    elif polarity < 0:
        return "Negativo"
    else:
        return "Neutro"

# 3. Aplicar análisis sobre títulos
df["sentiment"] = df["title"].apply(get_sentiment)

# 4. Guardar dataset enriquecido
output_path = "../data/processed/youtube_trends_sentiment.csv"
df.to_csv(output_path, index=False)

print("✅ Análisis de sentimiento completado.")
print(f"Archivo guardado en: {output_path}")

# 5. Vista previa
print(df[["title", "sentiment"]].head(10))