In [1]:
#Librerias import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [3]:
import pandas as pd

sns.set_theme(style="whitegrid")
notebook_dir = os.getcwd() # Directorio donde está el notebook
project_root = os.path.dirname(notebook_dir) # Asumimos que 'notebooks' está en la raíz
processed_data_path = os.path.join(project_root, 'data', 'processed', 'netflix_viewing_enriched.csv')

print(f"Cargando datos desde: {processed_data_path}")

try:
    df = pd.read_csv(processed_data_path)
    print("¡Datos cargados exitosamente!")
except FileNotFoundError:
    print(f"Error: No se encontró el archivo en {processed_data_path}. Verifica la ruta.")
    # Detener aquí si no se cargan los datos
    raise SystemExit("Archivo no encontrado.")
except Exception as e:
    print(f"Error al cargar el archivo CSV: {e}")
    raise SystemExit("Error cargando CSV.")


# --- Inspección Inicial ---
print("\n--- Información General del DataFrame ---")
df.info()

print("\n--- Primeras 5 Filas ---")
display(df.head()) # display() funciona mejor en Jupyter para DataFrames

print("\n--- Columnas Actuales ---")
print(df.columns.tolist())

print("\n--- Estadísticas Descriptivas (Numéricas) ---")
display(df.describe())

print("\n--- Conteo de Tipos de Medio (Movie/TV) ---")
print(df['tmdb_media_type'].value_counts(dropna=False)) # dropna=False para ver también los NaN si los hay


Cargando datos desde: h:\git\Analisis-de_consumo_Netflix\Analisis-de_consumo_Netflix\data\processed\netflix_viewing_enriched.csv
¡Datos cargados exitosamente!

--- Información General del DataFrame ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1874 entries, 0 to 1873
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Title                  1874 non-null   object 
 1   Date                   1874 non-null   object 
 2   Title_Cleaned_For_API  1874 non-null   object 
 3   tmdb_id                1856 non-null   float64
 4   tmdb_title             1856 non-null   object 
 5   tmdb_original_title    1856 non-null   object 
 6   tmdb_overview          1762 non-null   object 
 7   tmdb_genres            1827 non-null   object 
 8   tmdb_popularity        1856 non-null   float64
 9   tmdb_vote_average      1856 non-null   float64
 10  tmdb_vote_count        1856 non-null   float64
 11  tmdb_media

Unnamed: 0,Title,Date,Title_Cleaned_For_API,tmdb_id,tmdb_title,tmdb_original_title,tmdb_overview,tmdb_genres,tmdb_popularity,tmdb_vote_average,tmdb_vote_count,tmdb_media_type,tmdb_release_date,tmdb_runtime_minutes
0,La casa de papel: Parte 5: La teoría de la ele...,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0
1,La casa de papel: Parte 5: Ciencia ilusionada,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0
2,La casa de papel: Parte 5: Válvulas de escape,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0
3,La casa de papel: Parte 5: Vivir muchas vidas,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0
4,La casa de papel: Parte 5: Tu sitio en el cielo,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0



--- Columnas Actuales ---
['Title', 'Date', 'Title_Cleaned_For_API', 'tmdb_id', 'tmdb_title', 'tmdb_original_title', 'tmdb_overview', 'tmdb_genres', 'tmdb_popularity', 'tmdb_vote_average', 'tmdb_vote_count', 'tmdb_media_type', 'tmdb_release_date', 'tmdb_runtime_minutes']

--- Estadísticas Descriptivas (Numéricas) ---


Unnamed: 0,tmdb_id,tmdb_popularity,tmdb_vote_average,tmdb_vote_count,tmdb_runtime_minutes
count,1856.0,1856.0,1856.0,1856.0,1856.0
mean,184586.2,25.895284,7.299446,2418.564116,42.938039
std,263845.1,35.317841,1.409748,4854.056133,40.92507
min,306.0,0.0071,0.0,0.0,0.0
25%,11250.0,4.5277,6.8,26.0,0.0
50%,94796.0,7.3912,7.455,364.0,30.0
75%,246644.0,38.2391,8.0985,1609.0,84.0
max,1466807.0,181.0492,10.0,22178.0,283.0



--- Conteo de Tipos de Medio (Movie/TV) ---
tmdb_media_type
tv       1302
movie     554
NaN        18
Name: count, dtype: int64


In [4]:
# --- Renombrar Columnas ---

# Diccionario de mapeo: {'Nombre_Viejo': 'Nombre_Nuevo_Español'}
column_mapping_es = {
    'Title': 'Titulo_Original_Netflix',
    'Date': 'Fecha_Visualizacion',
    'Title_Cleaned_For_API': 'Titulo_Limpio_Busqueda', # O quizás 'Titulo_Serie_Pelicula'
    'tmdb_id': 'ID_TMDb',
    'tmdb_title': 'Titulo_TMDb',
    'tmdb_original_title': 'Titulo_Original_TMDb',
    'tmdb_overview': 'Resumen_TMDb',
    'tmdb_genres': 'Generos_TMDb', # String separado por comas
    'tmdb_popularity': 'Popularidad_TMDb',
    'tmdb_vote_average': 'Calificacion_Promedio_TMDb',
    'tmdb_vote_count': 'Cantidad_Votos_TMDb',
    'tmdb_media_type': 'Tipo_Medio_TMDb', # 'tv' o 'movie'
    'tmdb_release_date': 'Fecha_Estreno_TMDb',
    'tmdb_runtime_minutes': 'Duracion_Minutos_TMDb' # Recordar la limitación para TV
}

# Aplicar el renombrado
df.rename(columns=column_mapping_es, inplace=True)

print("\n--- Columnas Después de Renombrar ---")
print(df.columns.tolist())

# Ver las primeras filas con los nombres nuevos
print("\n--- Primeras Filas con Nombres en Español ---")
display(df.head())


--- Columnas Después de Renombrar ---
['Titulo_Original_Netflix', 'Fecha_Visualizacion', 'Titulo_Limpio_Busqueda', 'ID_TMDb', 'Titulo_TMDb', 'Titulo_Original_TMDb', 'Resumen_TMDb', 'Generos_TMDb', 'Popularidad_TMDb', 'Calificacion_Promedio_TMDb', 'Cantidad_Votos_TMDb', 'Tipo_Medio_TMDb', 'Fecha_Estreno_TMDb', 'Duracion_Minutos_TMDb']

--- Primeras Filas con Nombres en Español ---


Unnamed: 0,Titulo_Original_Netflix,Fecha_Visualizacion,Titulo_Limpio_Busqueda,ID_TMDb,Titulo_TMDb,Titulo_Original_TMDb,Resumen_TMDb,Generos_TMDb,Popularidad_TMDb,Calificacion_Promedio_TMDb,Cantidad_Votos_TMDb,Tipo_Medio_TMDb,Fecha_Estreno_TMDb,Duracion_Minutos_TMDb
0,La casa de papel: Parte 5: La teoría de la ele...,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0
1,La casa de papel: Parte 5: Ciencia ilusionada,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0
2,La casa de papel: Parte 5: Válvulas de escape,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0
3,La casa de papel: Parte 5: Vivir muchas vidas,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0
4,La casa de papel: Parte 5: Tu sitio en el cielo,2025-05-05,La casa de papel,71446.0,Money Heist,La casa de papel,"To carry out the biggest heist in history, a m...","Crime, Drama",38.2391,8.237,18882.0,tv,2017-05-02,0.0


In [5]:
# --- Eliminamoss las columnas que no necesitamos ----

# Lista de columnas a eliminar 
cols_to_drop = [
    'Titulo_Original_TMDb',
    'Resumen_TMDb',
    #'Popularidad_TMDb',       # Descomenta si quieres quitarla también
    #'Cantidad_Votos_TMDb',    # Descomenta si quieres quitarla también
    #'Titulo_Limpio_Busqueda', # Descomenta si quieres quitarla también
]

# Guardamos las dimensiones antes de eliminar
rows_before_drop = df.shape[0]
cols_before_drop = df.shape[1]

# Eliminamos las columnas (usamos errors='ignore' por si alguna no existe)
df.drop(columns=cols_to_drop, inplace=True, errors='ignore')

print(f"\n--- Columnas Eliminadas: {', '.join(cols_to_drop)} ---")
print(f"Dimensiones antes: {rows_before_drop} filas, {cols_before_drop} columnas")
print(f"Dimensiones ahora: {df.shape[0]} filas, {df.shape[1]} columnas")
print("Columnas restantes:", df.columns.tolist())


--- Columnas Eliminadas: Titulo_Original_TMDb, Resumen_TMDb ---
Dimensiones antes: 1874 filas, 14 columnas
Dimensiones ahora: 1874 filas, 12 columnas
Columnas restantes: ['Titulo_Original_Netflix', 'Fecha_Visualizacion', 'Titulo_Limpio_Busqueda', 'ID_TMDb', 'Titulo_TMDb', 'Generos_TMDb', 'Popularidad_TMDb', 'Calificacion_Promedio_TMDb', 'Cantidad_Votos_TMDb', 'Tipo_Medio_TMDb', 'Fecha_Estreno_TMDb', 'Duracion_Minutos_TMDb']


In [None]:
#--- Conversión de Tipos y Manejo de Nulos ---

print("\n--- Verificando Tipos de Datos y Nulos ---")
df.info()

# Convertir fechas
df['Fecha_Visualizacion'] = pd.to_datetime(df['Fecha_Visualizacion'], errors='coerce')
# Para Fecha_Estreno_TMDb, puede haber varios formatos, coerce es más seguro
df['Fecha_Estreno_TMDb'] = pd.to_datetime(df['Fecha_Estreno_TMDb'], errors='coerce')

# Convertir IDs y votos a numérico (Integer sería ideal, pero si hay NaN, se convierten a Float)
# Usamos Int64 (con mayúscula) que SÍ permite NaN enteros en versiones más nuevas de Pandas.
# Si da error, prueba con pd.to_numeric y luego .astype(float)
numeric_cols_int = ['ID_TMDb', 'Cantidad_Votos_TMDb']
for col in numeric_cols_int:
    if col in df.columns: # Verificar si la columna no fue eliminada
        df[col] = pd.to_numeric(df[col], errors='coerce') # Convertir a número, errores a NaN
        df[col] = df[col].astype('Int64') # Intentar convertir a Entero Nullable

# Convertir columnas flotantes si es necesario (si no se eliminaron)
numeric_cols_float = ['Popularidad_TMDb', 'Calificacion_Promedio_TMDb', 'Duracion_Minutos_TMDb']
for col in numeric_cols_float:
    if col in df.columns:
         df[col] = pd.to_numeric(df[col], errors='coerce')

# Manejo de Nulos (Ejemplos - ¡Decide tu estrategia!)
# Para análisis, a veces es mejor rellenar Nulos para evitar errores en cálculos o gráficos.
# Opción 1: Rellenar numéricos con 0 o media/mediana, categóricos con "Desconocido"
df['Calificacion_Promedio_TMDb'].fillna(0, inplace=True) # Rellenar calificación nula con 0
df['Duracion_Minutos_TMDb'].fillna(0, inplace=True)     # Rellenar duración nula con 0
df['Generos_TMDb'].fillna('Desconocido', inplace=True)      # Rellenar géneros nulos
df['Tipo_Medio_TMDb'].fillna('Desconocido', inplace=True)  # Rellenar tipo nulo
# Opción 2: Dejar los NaN y manejarlos en cada análisis específico.

print("\n--- Tipos de Datos Después de Conversión y Nulos (potencialmente rellenados) ---")
df.info()

# Verificar si quedan NaNs importantes
print("\n--- Conteo de Nulos por Columna ---")
print(df.isnull().sum())


--- Verificando Tipos de Datos y Nulos ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1874 entries, 0 to 1873
Data columns (total 12 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Titulo_Original_Netflix     1874 non-null   object 
 1   Fecha_Visualizacion         1874 non-null   object 
 2   Titulo_Limpio_Busqueda      1874 non-null   object 
 3   ID_TMDb                     1856 non-null   float64
 4   Titulo_TMDb                 1856 non-null   object 
 5   Generos_TMDb                1827 non-null   object 
 6   Popularidad_TMDb            1856 non-null   float64
 7   Calificacion_Promedio_TMDb  1856 non-null   float64
 8   Cantidad_Votos_TMDb         1856 non-null   float64
 9   Tipo_Medio_TMDb             1856 non-null   object 
 10  Fecha_Estreno_TMDb          1850 non-null   object 
 11  Duracion_Minutos_TMDb       1856 non-null   float64
dtypes: float64(5), object(7)
memory usage: 175.8+ 

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Calificacion_Promedio_TMDb'].fillna(0, inplace=True) # Rellenar calificación nula con 0
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Duracion_Minutos_TMDb'].fillna(0, inplace=True)     # Rellenar duración nula con 0
The behavior will change in pandas 3.0. This inplace 