In [19]:
import pandas as pd

# Define la ruta al archivo.
# Si el archivo no está en la misma carpeta, deberás poner la ruta completa.
file_path = 'lacartoons_raw.csv'

try:
    # Intentamos leer el archivo CSV.
    df = pd.read_csv(file_path)
    print("¡Dataset cargado exitosamente!")
    print(f"El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
except FileNotFoundError:
    print(f"Error: El archivo '{file_path}' no fue encontrado. Por favor, verifica la ruta.")
    # Si el archivo no se encuentra, salimos del script para evitar más errores.
    exit()
except Exception as e:
    print(f"Ocurrió un error al cargar el archivo: {e}")
    exit()

# Mostramos las primeras 5 filas para tener una vista previa.
print("\n--- Primeras 5 Filas del Dataset Original ---")
print(df.head())

¡Dataset cargado exitosamente!
El dataset tiene 510 filas y 13 columnas.

--- Primeras 5 Filas del Dataset Original ---
                                 Nombre            Canal   Año  Valoracion  \
0                       2 Perros Tontos  Cartoon Network  1993           7   
1                Caballeros del Zodiaco  Cartoon Network  1986           8   
2  El Capitán Planeta y los planetarios  Cartoon Network  1990           7   
3                            Code Lyoko  Cartoon Network  2003           7   
4               Coraje El Perro Cobarde  Cartoon Network  1996           8   

                                        Generos_TMDB  \
0  Animación, Comedia, Kids, Sci-Fi & Fantasy, Fa...   
1  Action & Adventure, Animación, Drama, Sci-Fi &...   
2  Animación, Action & Adventure, Sci-Fi & Fantas...   
3  Sci-Fi & Fantasy, Animación, Comedia, Action &...   
4  Animación, Familia, Sci-Fi & Fantasy, Comedia,...   

                                            Sinopsis Fecha_Primer_Episodio

In [20]:
# (Continuación del Paso 1 - Asegúrate de haber ejecutado el código del Paso 1)

print("\n--- Información General del DataFrame (Columnas, Tipos de Datos, Nulos) ---")
# df.info() nos da un resumen conciso de nuestro DataFrame.
# Muestra:
# 1. El número total de entradas (filas).
# 2. El nombre de cada columna.
# 3. El número de valores no nulos en cada columna (útil para ver cuántos faltan).
# 4. El tipo de dato (Dtype) de cada columna (ej. object, int64, float64).
df.info()

print("\n\n--- Resumen Estadístico del DataFrame ---")
# df.describe() genera estadísticas descriptivas.
# Por defecto, solo incluye columnas numéricas (int, float).
# Usamos `include='all'` para obtener también información de columnas no numéricas (como 'object' o 'category').
# Para columnas numéricas: count, mean, std, min, 25% (1er cuartil), 50% (mediana), 75% (3er cuartil), max.
# Para columnas de tipo object (texto): count (no nulos), unique (cantidad de valores únicos),
#                                     top (el valor más frecuente), freq (frecuencia del valor más frecuente).
print(df.describe(include='all'))

print("\n\n--- Porcentaje de Valores Faltantes por Columna ---")
# Calculamos el porcentaje de valores nulos (NaN) para cada columna.
# Esto nos da una idea clara de qué columnas necesitan más atención en el manejo de faltantes.
missing_percentage = (df.isnull().sum() * 100 / len(df)).sort_values(ascending=False)

# Mostramos solo las columnas que tienen algún valor faltante.
print(missing_percentage[missing_percentage > 0])


--- Información General del DataFrame (Columnas, Tipos de Datos, Nulos) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 510 entries, 0 to 509
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Nombre                 510 non-null    object 
 1   Canal                  510 non-null    object 
 2   Año                    510 non-null    int64  
 3   Valoracion             510 non-null    int64  
 4   Generos_TMDB           408 non-null    object 
 5   Sinopsis               356 non-null    object 
 6   Fecha_Primer_Episodio  412 non-null    object 
 7   Fecha_Ultimo_Episodio  412 non-null    object 
 8   Total_Episodios        412 non-null    float64
 9   Total_Temporadas       412 non-null    float64
 10  Estudios_Produccion    386 non-null    object 
 11  Pais_Origen            412 non-null    object 
 12  ID_TMDB                412 non-null    float64
dtypes: float64(3), int64(2), object(8

In [21]:
# (Continuación del Paso 2)

print("\n--- Manejando Valores Faltantes en Columnas de Texto ---")

# Columnas de texto que identificamos con posibles faltantes
text_cols_to_fill = ['Generos_TMDB', 'Sinopsis', 'Estudios_Produccion', 'Pais_Origen']

# Antes de rellenar, veamos cuántos faltantes tiene cada una
print("Valores faltantes ANTES de rellenar (columnas de texto seleccionadas):")
for col in text_cols_to_fill:
    # Algunas de estas columnas podrían no tener faltantes si el CSV usa "" para vacío,
    # pero .fillna() igual funciona bien.
    if col in df.columns: # Comprobamos que la columna exista
        print(f"- {col}: {df[col].isnull().sum()} faltantes")

# Rellenamos los NaN con "Desconocido"
for col in text_cols_to_fill:
    if col in df.columns:
        df[col] = df[col].fillna('Desconocido')
        # Adicionalmente, es una buena práctica eliminar espacios en blanco al inicio/final
        # que podrían haber venido en los datos originales o por el relleno.
        df[col] = df[col].str.strip()


print("\nValores faltantes DESPUÉS de rellenar (columnas de texto seleccionadas):")
for col in text_cols_to_fill:
    if col in df.columns:
        print(f"- {col}: {df[col].isnull().sum()} faltantes")

print("\n--- Ejemplo de las primeras filas con 'Sinopsis' y 'Generos_TMDB' después del relleno ---")
print(df[['Nombre', 'Sinopsis', 'Generos_TMDB']].head())


--- Manejando Valores Faltantes en Columnas de Texto ---
Valores faltantes ANTES de rellenar (columnas de texto seleccionadas):
- Generos_TMDB: 102 faltantes
- Sinopsis: 154 faltantes
- Estudios_Produccion: 124 faltantes
- Pais_Origen: 98 faltantes

Valores faltantes DESPUÉS de rellenar (columnas de texto seleccionadas):
- Generos_TMDB: 0 faltantes
- Sinopsis: 0 faltantes
- Estudios_Produccion: 0 faltantes
- Pais_Origen: 0 faltantes

--- Ejemplo de las primeras filas con 'Sinopsis' y 'Generos_TMDB' después del relleno ---
                                 Nombre  \
0                       2 Perros Tontos   
1                Caballeros del Zodiaco   
2  El Capitán Planeta y los planetarios   
3                            Code Lyoko   
4               Coraje El Perro Cobarde   

                                            Sinopsis  \
0  La serie muestra las desventuras de dos perros...   
1  Saintia Shō cuenta la historia de una muchacha...   
2  Al ver a la Tierra en su profundo peligro

In [22]:
# (Continuación)

print("\n--- Identificando Filas con Muchos Valores Faltantes ---")

# Vamos a contar cuántos valores "Desconocido" (de las columnas de texto que ya tratamos)
# o NaN (de otras columnas aún no tratadas numéricamente) tiene cada fila.
# Esto es una heurística. Puedes ajustar las 'columnas_criticas'.
columnas_criticas_para_evaluar_vacio = ['Año', 'Valoracion', 'Generos_TMDB', 'Sinopsis',
                                        'Fecha_Primer_Episodio', 'Total_Episodios',
                                        'Estudios_Produccion', 'Pais_Origen', 'ID_TMDB']

# Hacemos una copia temporal para no alterar 'df' con los reemplazos solo para contar
df_temp_eval = df.copy()

# Para el conteo, reemplazamos temporalmente los NaN en columnas no-texto con un marcador
# y contamos NaN en columnas numéricas/fecha + "Desconocido" en texto.
nan_or_desconocido_count = pd.Series(0, index=df.index)

for col in columnas_criticas_para_evaluar_vacio:
    if col in df.columns:
        if df[col].dtype == 'object': # Columnas de texto ya procesadas (o que serán texto)
            nan_or_desconocido_count += (df[col] == 'Desconocido').astype(int)
            nan_or_desconocido_count += df[col].isnull().astype(int) # Por si alguna de texto aún tiene NaN
        else: # Columnas que esperamos sean numéricas o fecha (contamos NaN directamente)
            nan_or_desconocido_count += df[col].isnull().astype(int)

# Definimos un umbral: si una fila tiene más de, por ejemplo, la mitad de estas columnas críticas vacías.
umbral_faltantes_criticos = len(columnas_criticas_para_evaluar_vacio) / 2
filas_con_muchos_faltantes = df[nan_or_desconocido_count > umbral_faltantes_criticos]

if not filas_con_muchos_faltantes.empty:
    print(f"\nSe encontraron {len(filas_con_muchos_faltantes)} filas con más de {umbral_faltantes_criticos:.0f} valores críticos faltantes o 'Desconocido':")
    print(filas_con_muchos_faltantes[['Nombre'] + [c for c in columnas_criticas_para_evaluar_vacio if c in df.columns]].head())

    # Decisión: ¿Eliminar estas filas?
    # Por ahora, solo las identificamos. Si decides eliminarlas, podrías usar:
    # df.drop(filas_con_muchos_faltantes.index, inplace=True)
    # print(f"\n{len(filas_con_muchos_faltantes)} filas eliminadas por tener demasiados datos faltantes.")
    # df.reset_index(drop=True, inplace=True) # Resetear el índice después de eliminar
else:
    print("\nNo se encontraron filas que superen el umbral de valores críticos faltantes.")

# Volvemos a verificar el estado general de los nulos
print("\n--- Porcentaje de Valores Faltantes por Columna (Después del Paso 3.1) ---")
missing_percentage_after_step3 = (df.isnull().sum() * 100 / len(df)).sort_values(ascending=False)
print(missing_percentage_after_step3[missing_percentage_after_step3 > 0])


--- Identificando Filas con Muchos Valores Faltantes ---

Se encontraron 98 filas con más de 4 valores críticos faltantes o 'Desconocido':
                              Nombre   Año  Valoracion Generos_TMDB  \
13        Las Chicas Super Poderosas  1998           7  Desconocido   
32  Spiderman La nueva Serie Animada  2003           7  Desconocido   
51     Las Aventuras de Jackie Chang  2000           7  Desconocido   
73                    Astro Boy 1980  1980           7  Desconocido   
78       Los Defensores de La Tierra  1986           7  Desconocido   

       Sinopsis Fecha_Primer_Episodio  Total_Episodios Estudios_Produccion  \
13  Desconocido                   NaN              NaN         Desconocido   
32  Desconocido                   NaN              NaN         Desconocido   
51  Desconocido                   NaN              NaN         Desconocido   
73  Desconocido                   NaN              NaN         Desconocido   
78  Desconocido                   NaN      

In [23]:
# (Continuación del Paso 3)

print("\n--- Paso 4.1: Eliminando la Columna ID_TMDB ---")

if 'ID_TMDB' in df.columns:
    df.drop('ID_TMDB', axis=1, inplace=True)
    print("Columna 'ID_TMDB' eliminada exitosamente.")
else:
    print("La columna 'ID_TMDB' no se encontró o ya fue eliminada.")

# Verificamos las columnas restantes
print("\nColumnas actuales en el DataFrame:")
print(df.columns.tolist())


--- Paso 4.1: Eliminando la Columna ID_TMDB ---
Columna 'ID_TMDB' eliminada exitosamente.

Columnas actuales en el DataFrame:
['Nombre', 'Canal', 'Año', 'Valoracion', 'Generos_TMDB', 'Sinopsis', 'Fecha_Primer_Episodio', 'Fecha_Ultimo_Episodio', 'Total_Episodios', 'Total_Temporadas', 'Estudios_Produccion', 'Pais_Origen']


In [24]:
print("\n--- Paso 4.2: Corrigiendo Tipo de Dato de 'Año' ---")
# Antes de convertir, veamos su tipo actual y cuántos nulos tiene
print(f"Tipo de 'Año' ANTES de la conversión: {df['Año'].dtype}")
print(f"Valores nulos en 'Año' ANTES: {df['Año'].isnull().sum()}")

# Convertimos 'Año' a numérico.
# 'errors='coerce'' transformará cualquier valor que no pueda ser convertido en NaN.
df['Año'] = pd.to_numeric(df['Año'], errors='coerce')

# Ahora que es numérico (o float debido a los NaN), podemos rellenar los NaN.
# Usaremos 0 para indicar un año desconocido o no aplicable. Podrías elegir otra estrategia.
df['Año'] = df['Año'].fillna(0)

# Finalmente, convertimos a tipo entero, ya que los años no suelen tener decimales.
df['Año'] = df['Año'].astype(int)

print(f"\nTipo de 'Año' DESPUÉS de la conversión: {df['Año'].dtype}")
print(f"Valores nulos en 'Año' DESPUÉS: {df['Año'].isnull().sum()}")
print("Valores únicos de 'Año' (primeros 10 para muestra) después de la conversión:")
print(df['Año'].unique()[:10])


--- Paso 4.2: Corrigiendo Tipo de Dato de 'Año' ---
Tipo de 'Año' ANTES de la conversión: int64
Valores nulos en 'Año' ANTES: 0

Tipo de 'Año' DESPUÉS de la conversión: int64
Valores nulos en 'Año' DESPUÉS: 0
Valores únicos de 'Año' (primeros 10 para muestra) después de la conversión:
[1993 1986 1990 2003 1996 2000 1988 1950 2010 1995]


In [25]:
print("\n--- Paso 4.3: Corrigiendo Tipo de Dato de 'Valoracion' ---")
print(f"Tipo de 'Valoracion' ANTES: {df['Valoracion'].dtype}")
print(f"Valores nulos en 'Valoracion' ANTES: {df['Valoracion'].isnull().sum()}")

df['Valoracion'] = pd.to_numeric(df['Valoracion'], errors='coerce')

# Imputamos los NaN con la media de las valoraciones existentes.
# Es importante calcular la media DESPUÉS de convertir a numérico y ANTES de llenar los NaN.
mean_valoracion = df['Valoracion'].mean()
df['Valoracion'] = df['Valoracion'].fillna(mean_valoracion)
# Opcional: redondear la valoración a 1 o 2 decimales
df['Valoracion'] = df['Valoracion'].round(2)


print(f"\nTipo de 'Valoracion' DESPUÉS: {df['Valoracion'].dtype}") # Debería ser float64
print(f"Valores nulos en 'Valoracion' DESPUÉS: {df['Valoracion'].isnull().sum()}")
print("Descripción de 'Valoracion' después de la conversión:")
print(df['Valoracion'].describe())


--- Paso 4.3: Corrigiendo Tipo de Dato de 'Valoracion' ---
Tipo de 'Valoracion' ANTES: int64
Valores nulos en 'Valoracion' ANTES: 0

Tipo de 'Valoracion' DESPUÉS: int64
Valores nulos en 'Valoracion' DESPUÉS: 0
Descripción de 'Valoracion' después de la conversión:
count    510.000000
mean       7.145098
std        0.896690
min        4.000000
25%        7.000000
50%        7.000000
75%        8.000000
max        9.000000
Name: Valoracion, dtype: float64


In [26]:
print("\n--- Paso 4.4: Corrigiendo Tipos de 'Total_Episodios' y 'Total_Temporadas' ---")
cols_to_int = ['Total_Episodios', 'Total_Temporadas']

for col in cols_to_int:
    if col in df.columns:
        print(f"\nProcesando columna: {col}")
        print(f"Tipo de '{col}' ANTES: {df[col].dtype}")
        print(f"Valores nulos en '{col}' ANTES: {df[col].isnull().sum()}")

        df[col] = pd.to_numeric(df[col], errors='coerce')
        df[col] = df[col].fillna(0) # Rellenar NaN con 0 (asumimos que si falta, es que no hay o es 0)
        df[col] = df[col].astype(int)

        print(f"Tipo de '{col}' DESPUÉS: {df[col].dtype}")
        print(f"Valores nulos en '{col}' DESPUÉS: {df[col].isnull().sum()}")
        print(f"Valores únicos de '{col}' (primeros 10) después: {df[col].unique()[:10]}")


--- Paso 4.4: Corrigiendo Tipos de 'Total_Episodios' y 'Total_Temporadas' ---

Procesando columna: Total_Episodios
Tipo de 'Total_Episodios' ANTES: float64
Valores nulos en 'Total_Episodios' ANTES: 98
Tipo de 'Total_Episodios' DESPUÉS: int64
Valores nulos en 'Total_Episodios' DESPUÉS: 0
Valores únicos de 'Total_Episodios' (primeros 10) después: [ 52  10 113  95 102  67 363  59  54  77]

Procesando columna: Total_Temporadas
Tipo de 'Total_Temporadas' ANTES: float64
Valores nulos en 'Total_Temporadas' ANTES: 98
Tipo de 'Total_Temporadas' DESPUÉS: int64
Valores nulos en 'Total_Temporadas' DESPUÉS: 0
Valores únicos de 'Total_Temporadas' (primeros 10) después: [ 2  1  6  4  3  7  0  5  9 18]


In [27]:
print("\n--- Paso 4.5: Corrigiendo Tipos de Columnas de Fecha ---")
date_cols = ['Fecha_Primer_Episodio', 'Fecha_Ultimo_Episodio']

for col in date_cols:
    if col in df.columns:
        print(f"\nProcesando columna: {col}")
        print(f"Tipo de '{col}' ANTES: {df[col].dtype}")

        # pd.to_datetime intentará inferir el formato.
        # 'errors='coerce'' convertirá fechas inválidas en NaT (Not a Time).
        df[col] = pd.to_datetime(df[col], errors='coerce')

        print(f"Tipo de '{col}' DESPUÉS: {df[col].dtype}") # Debería ser datetime64[ns]
        print(f"Valores NaT (nulos de fecha) en '{col}' DESPUÉS: {df[col].isnull().sum()}")
        print("Primeras 5 filas de la columna (formato fecha):")
        print(df[col].head())


--- Paso 4.5: Corrigiendo Tipos de Columnas de Fecha ---

Procesando columna: Fecha_Primer_Episodio
Tipo de 'Fecha_Primer_Episodio' ANTES: object
Tipo de 'Fecha_Primer_Episodio' DESPUÉS: datetime64[ns]
Valores NaT (nulos de fecha) en 'Fecha_Primer_Episodio' DESPUÉS: 98
Primeras 5 filas de la columna (formato fecha):
0   1993-09-05
1   2018-12-10
2   1990-09-15
3   2003-09-03
4   1999-11-12
Name: Fecha_Primer_Episodio, dtype: datetime64[ns]

Procesando columna: Fecha_Ultimo_Episodio
Tipo de 'Fecha_Ultimo_Episodio' ANTES: object
Tipo de 'Fecha_Ultimo_Episodio' DESPUÉS: datetime64[ns]
Valores NaT (nulos de fecha) en 'Fecha_Ultimo_Episodio' DESPUÉS: 98
Primeras 5 filas de la columna (formato fecha):
0   1995-02-13
1   2019-02-11
2   1996-05-11
3   2007-11-10
4   2002-11-22
Name: Fecha_Ultimo_Episodio, dtype: datetime64[ns]


In [28]:
print("\n\n--- Información General del DataFrame DESPUÉS del Paso 4 ---")
df.info()

print("\n--- Primeras filas del DataFrame DESPUÉS del Paso 4 ---")
print(df.head())



--- Información General del DataFrame DESPUÉS del Paso 4 ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 510 entries, 0 to 509
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Nombre                 510 non-null    object        
 1   Canal                  510 non-null    object        
 2   Año                    510 non-null    int64         
 3   Valoracion             510 non-null    int64         
 4   Generos_TMDB           510 non-null    object        
 5   Sinopsis               510 non-null    object        
 6   Fecha_Primer_Episodio  412 non-null    datetime64[ns]
 7   Fecha_Ultimo_Episodio  412 non-null    datetime64[ns]
 8   Total_Episodios        510 non-null    int64         
 9   Total_Temporadas       510 non-null    int64         
 10  Estudios_Produccion    510 non-null    object        
 11  Pais_Origen            510 non-null    object        
dtypes

In [29]:
# (Continuación del Paso 4)

print("\n--- Paso 5.1: Eliminando Duplicados Exactos ---")

# Contamos cuántas filas duplicadas exactas hay antes de hacer nada.
# df.duplicated() devuelve una serie booleana (True si la fila es un duplicado de una ANTERIOR)
num_exact_duplicates_before = df.duplicated().sum()
print(f"Número de filas exactamente duplicadas ANTES de eliminarlas: {num_exact_duplicates_before}")

if num_exact_duplicates_before > 0:
    # Eliminamos los duplicados exactos, manteniendo la primera aparición ('keep='first'')
    df.drop_duplicates(keep='first', inplace=True)
    # Reseteamos el índice del DataFrame después de eliminar filas.
    # 'drop=True' evita que el antiguo índice se añada como una nueva columna.
    df.reset_index(drop=True, inplace=True)
    print(f"Se eliminaron {num_exact_duplicates_before} filas exactamente duplicadas.")
    print(f"Nuevo número de filas en el DataFrame: {len(df)}")
else:
    print("No se encontraron filas exactamente duplicadas.")


--- Paso 5.1: Eliminando Duplicados Exactos ---
Número de filas exactamente duplicadas ANTES de eliminarlas: 0
No se encontraron filas exactamente duplicadas.


In [30]:
# (Continuación del Paso 5)

print("\n--- Paso 6.1: Estandarizando Columnas con Múltiples Valores ---")

# Columnas que típicamente pueden tener múltiples valores separados por comas.
multi_value_cols = ['Generos_TMDB', 'Estudios_Produccion', 'Pais_Origen']

for col in multi_value_cols:
    if col in df.columns:
        print(f"\nProcesando columna: {col}")
        # Guardamos una muestra antes para comparar
        sample_before = df[col].head().copy()

        # Aplicamos una función a cada celda de la columna.
        # Esta función toma el string, lo divide por ',', limpia cada parte,
        # y luego los une de nuevo con ', '.
        # También nos aseguramos de no intentar dividir el string "Desconocido".
        def clean_multi_value_string(text):
            if pd.isnull(text) or text == 'Desconocido':
                return text # Dejamos "Desconocido" o NaN como está

            # Dividimos por coma, quitamos espacios de cada parte y filtramos vacíos
            items = [item.strip() for item in str(text).split(',') if item.strip()]
            return ', '.join(items) # Unimos con ', '

        df[col] = df[col].apply(clean_multi_value_string)

        print("Muestra ANTES de la limpieza detallada:")
        print(sample_before)
        print(f"Muestra DESPUÉS de la limpieza detallada para '{col}':")
        print(df[col].head())

print("\n--- Ejemplo de la columna 'Generos_TMDB' después de la limpieza detallada ---")
print(df[['Nombre', 'Generos_TMDB']].head(10))


--- Paso 6.1: Estandarizando Columnas con Múltiples Valores ---

Procesando columna: Generos_TMDB
Muestra ANTES de la limpieza detallada:
0    Animación, Comedia, Kids, Sci-Fi & Fantasy, Fa...
1    Action & Adventure, Animación, Drama, Sci-Fi &...
2    Animación, Action & Adventure, Sci-Fi & Fantas...
3    Sci-Fi & Fantasy, Animación, Comedia, Action &...
4    Animación, Familia, Sci-Fi & Fantasy, Comedia,...
Name: Generos_TMDB, dtype: object
Muestra DESPUÉS de la limpieza detallada para 'Generos_TMDB':
0    Animación, Comedia, Kids, Sci-Fi & Fantasy, Fa...
1    Action & Adventure, Animación, Drama, Sci-Fi &...
2    Animación, Action & Adventure, Sci-Fi & Fantas...
3    Sci-Fi & Fantasy, Animación, Comedia, Action &...
4    Animación, Familia, Sci-Fi & Fantasy, Comedia,...
Name: Generos_TMDB, dtype: object

Procesando columna: Estudios_Produccion
Muestra ANTES de la limpieza detallada:
0    Hanna-Barbera Productions, Turner Program Serv...
1                                Toei Animati

In [34]:
print("\n\n--- REVISIÓN FINAL DEL DATAFRAME LIMPIO ---")

print("\n--- Información General del DataFrame Limpio ---")
df.info()

print("\n--- Primeras 10 Filas del DataFrame Limpio ---")
print(df.head(10))

print("\n--- Últimas 5 Filas del DataFrame Limpio ---")
print(df.tail())

print("\n--- Porcentaje de Valores Faltantes Final (solo si hay) ---")
final_missing_percentage = (df.isnull().sum() * 100 / len(df)).sort_values(ascending=False)
final_missing_percentage_filtered = final_missing_percentage[final_missing_percentage > 0]

if not final_missing_percentage_filtered.empty:
    print(final_missing_percentage_filtered)
else:
    print("No hay valores faltantes en el DataFrame limpio (excepto posibles NaT en fechas).")


# Si deseas guardar el DataFrame limpio en un nuevo archivo CSV:
# output_file_path = 'lacartoons_limpio_paso_a_paso.csv'
# df.to_csv(output_file_path, index=False, encoding='utf-8-sig')
# print(f"\n¡Dataset limpio guardado exitosamente como '{output_file_path}'!")



--- REVISIÓN FINAL DEL DATAFRAME LIMPIO ---

--- Información General del DataFrame Limpio ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 510 entries, 0 to 509
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Nombre                 510 non-null    object        
 1   Canal                  510 non-null    object        
 2   Año                    510 non-null    int64         
 3   Valoracion             510 non-null    int64         
 4   Generos_TMDB           510 non-null    object        
 5   Sinopsis               510 non-null    object        
 6   Fecha_Primer_Episodio  412 non-null    datetime64[ns]
 7   Fecha_Ultimo_Episodio  412 non-null    datetime64[ns]
 8   Total_Episodios        510 non-null    int64         
 9   Total_Temporadas       510 non-null    int64         
 10  Estudios_Produccion    510 non-null    object        
 11  Pais_Origen            510 

In [36]:
# Assuming you want to save to a file named 'lacartoons_cleaned.csv'
output_file_path = 'lacartoons_cleaned.csv'
df.to_csv(output_file_path, index=False, encoding="utf-8-sig")
print(f"\n¡Dataset limpio guardado exitosamente como '{output_file_path}'!")


¡Dataset limpio guardado exitosamente como 'lacartoons_cleaned.csv'!
