In [14]:
import pandas as pd
import numpy as np

# 1. Cargamos el dataset y creamos una copia de trabajo
print("--- 1. Cargando el dataset y haciendo una copia (df1) ---")
df = pd.read_csv('netflix1.csv')
df1 = df.copy()

print("\nCopia del DataFrame (df1) creada. Así se ve al principio:")
display(df1.head())
print("-" * 50)

# 2. La primera inspección de los datos, ¡sin saltearse nada!
# Con esto sabemos qué tenemos y qué hay que arreglar.
print("\n--- Vista profunda a los datos ---")
print("\n- Info general de las columnas:")
df1.info()

print("\n- Un resumen con estadísticas de todo el conjunto:")
display(df1.describe(include='all'))

print("\n- Buscando y contando los 'Not Given' en cada columna:")
for col in df1.columns:
    count = (df1[col] == 'Not Given').sum()
    if count > 0:
        print(f"La columna '{col}' tiene: {count} 'Not Given'")
print("-" * 50)

# 3. Limpieza y transformación de datos
# Reemplazamos los 'Not Given' por valores nulos estándar (NaN)
print("\n--- 3. Limpiando y transformando las columnas ---")
print("\nReemplazando los 'Not Given' por nulos (np.nan)...")
df1['director'] = df1['director'].replace('Not Given', np.nan)
df1['country'] = df1['country'].replace('Not Given', np.nan)

print("\nMirá cómo quedaron los nulos después de la limpieza:")
print(df1.isnull().sum())
print("-" * 50)

# Convertimos la columna de fechas al formato correcto (datetime).
print("\nConvirtiendo 'date_added' al formato de fecha...")
df1['date_added'] = pd.to_datetime(df1['date_added'])

# Separamos la columna de duración en dos partes.
print("\nDividiendo la columna 'duration'...")
df1[['duration_value', 'duration_unit']] = df1['duration'].str.split(' ', expand=True)
df1['duration_value'] = pd.to_numeric(df1['duration_value'])
df1.drop('duration', axis=1, inplace=True)

print("\nAsí se ve el DataFrame con las columnas de duración ya arregladas:")
display(df1.head())
print("-" * 50)

# 4. Creación de nuevas métricas (Feature Engineering)
# Esto es "ingeniería de características", o sea, le sumamos valor a los datos.
print("\n--- 4. Creando nuevas columnas para el análisis ---")
df1['month_added'] = df1['date_added'].dt.month
df1['year_added'] = df1['date_added'].dt.year
df1['age'] = df1['year_added'] - df1['release_year']
df1['is_movie'] = np.where(df1['type'] == 'Movie', 1, 0)
df1['is_tv_show'] = np.where(df1['type'] == 'TV Show', 1, 0)

print("\nEl DataFrame final, con todas las columnas listas para el análisis:")
display(df1.head())
print("-" * 50)

# 5. La última verificación para quedarnos tranquilos
print("\n--- 5. Verificación final de los tipos de datos en df1 ---")
df1.info()
print("-" * 50)

# 6. Exportar el DataFrame a un nuevo archivo CSV
print("\n--- 6. Exportando la base de datos limpia ---")
df1.to_csv('netflix_limpio.csv', index=False)
print("¡Listo! El archivo 'netflix_limpio.csv' se ha exportado. Lo vas a encontrar en tu carpeta.")

--- 1. Cargando el dataset y haciendo una copia (df1) ---

Copia del DataFrame (df1) creada. Así se ve al principio:


Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


--------------------------------------------------

--- Vista profunda a los datos ---

- Info general de las columnas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8790 entries, 0 to 8789
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8790 non-null   object
 1   type          8790 non-null   object
 2   title         8790 non-null   object
 3   director      8790 non-null   object
 4   country       8790 non-null   object
 5   date_added    8790 non-null   object
 6   release_year  8790 non-null   int64 
 7   rating        8790 non-null   object
 8   duration      8790 non-null   object
 9   listed_in     8790 non-null   object
dtypes: int64(1), object(9)
memory usage: 686.8+ KB

- Un resumen con estadísticas de todo el conjunto:


Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
count,8790,8790,8790,8790,8790,8790,8790.0,8790,8790,8790
unique,8790,2,8787,4528,86,1713,,14,220,513
top,s1,Movie,9-Feb,Not Given,United States,1/1/2020,,TV-MA,1 Season,"Dramas, International Movies"
freq,1,6126,2,2588,3240,110,,3205,1791,362
mean,,,,,,,2014.183163,,,
std,,,,,,,8.825466,,,
min,,,,,,,1925.0,,,
25%,,,,,,,2013.0,,,
50%,,,,,,,2017.0,,,
75%,,,,,,,2019.0,,,



- Buscando y contando los 'Not Given' en cada columna:
La columna 'director' tiene: 2588 'Not Given'
La columna 'country' tiene: 287 'Not Given'
--------------------------------------------------

--- 3. Limpiando y transformando las columnas ---

Reemplazando los 'Not Given' por nulos (np.nan)...

Mirá cómo quedaron los nulos después de la limpieza:
show_id            0
type               0
title              0
director        2588
country          287
date_added         0
release_year       0
rating             0
duration           0
listed_in          0
dtype: int64
--------------------------------------------------

Convirtiendo 'date_added' al formato de fecha...

Dividiendo la columna 'duration'...

Así se ve el DataFrame con las columnas de duración ya arregladas:


Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,listed_in,duration_value,duration_unit
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,2021-09-25,2020,PG-13,Documentaries,90,min
1,s3,TV Show,Ganglands,Julien Leclercq,France,2021-09-24,2021,TV-MA,"Crime TV Shows, International TV Shows, TV Act...",1,Season
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,2021-09-24,2021,TV-MA,"TV Dramas, TV Horror, TV Mysteries",1,Season
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,2021-09-22,2021,TV-PG,"Children & Family Movies, Comedies",91,min
4,s8,Movie,Sankofa,Haile Gerima,United States,2021-09-24,1993,TV-MA,"Dramas, Independent Movies, International Movies",125,min


--------------------------------------------------

--- 4. Creando nuevas columnas para el análisis ---

El DataFrame final, con todas las columnas listas para el análisis:


Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,listed_in,duration_value,duration_unit,month_added,year_added,age,is_movie,is_tv_show
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,2021-09-25,2020,PG-13,Documentaries,90,min,9,2021,1,1,0
1,s3,TV Show,Ganglands,Julien Leclercq,France,2021-09-24,2021,TV-MA,"Crime TV Shows, International TV Shows, TV Act...",1,Season,9,2021,0,0,1
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,2021-09-24,2021,TV-MA,"TV Dramas, TV Horror, TV Mysteries",1,Season,9,2021,0,0,1
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,2021-09-22,2021,TV-PG,"Children & Family Movies, Comedies",91,min,9,2021,0,1,0
4,s8,Movie,Sankofa,Haile Gerima,United States,2021-09-24,1993,TV-MA,"Dramas, Independent Movies, International Movies",125,min,9,2021,28,1,0


--------------------------------------------------

--- 5. Verificación final de los tipos de datos en df1 ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8790 entries, 0 to 8789
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   show_id         8790 non-null   object        
 1   type            8790 non-null   object        
 2   title           8790 non-null   object        
 3   director        6202 non-null   object        
 4   country         8503 non-null   object        
 5   date_added      8790 non-null   datetime64[ns]
 6   release_year    8790 non-null   int64         
 7   rating          8790 non-null   object        
 8   listed_in       8790 non-null   object        
 9   duration_value  8790 non-null   int64         
 10  duration_unit   8790 non-null   object        
 11  month_added     8790 non-null   int32         
 12  year_added      8790 non-null   int32         
 1