<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Limpieza de Datos

En este laboratorio usaremos el DataFrame de Netflix completo creado en los primeros laboratorios de Pandas. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Documenta todas las funciones creadas durante el ejercicio. 

4. Debes incluir después de cada gráfica la interpretación de las mismas en una celda de markdown. 

## Parte 1: Limpieza y Preparación de Datos

#### Ejercicio 1: Estandarización y limpieza de columnas

En este ejercicio, debes limpiar y estandarizar algunas columnas clave para hacerlas más manejables y consistentes en tus análisis. Específicamente, trabajarás con las columnas `date_added` y `duration` para convertirlas a un formato uniforme y estructurado.

Instrucciones:

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.


**Resultado Esperado:**
Deberás obtener algo como esto:

| duration   | duration_cleaned |
|------------|-----------------|
| 1 Season   | 1               |
| 90 min     | 90              |
| 2 Seasons  | 2               |
| 45 min     | 45              |
| 3 Seasons  | 3               |

In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# Para gestión de fechas
# -----------------------------------------------------------------------
from datetime import datetime

In [2]:
# Cargar DataFrame
df_merged = pd.read_csv("C:/Users/claud/GIT/laboratorio-limpieza_datos/datos/netflix_originals_merged.csv", index_col = 0)
df_merged.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,True
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,False
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,False
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,False
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,False


In [3]:
# 1. Convertir columna "date_added" a formato "datetime"
df_merged["date_added"] = pd.to_datetime(df_merged["date_added"], errors='coerce')

In [4]:
# 1. Convertir columna "date_added" a formato "datetime"
df_merged.dtypes

show_id                 object
type                    object
title                   object
director                object
cast                    object
country                 object
date_added      datetime64[ns]
release_year             int64
rating                  object
duration                object
listed_in               object
description             object
Genre                   object
Premiere                object
Runtime                float64
IMDB Score             float64
Language                object
es_original               bool
dtype: object

In [5]:
# 1. Convertir columna "date_added" a formato "datetime"
df_merged["mes"] = df_merged["date_added"].dt.month_name()
df_merged["dia_semana"] = df_merged["date_added"].dt.day_name()
df_merged.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,mes,dia_semana
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,True,September,Saturday
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,False,September,Friday
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,False,September,Friday
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,False,September,Friday
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,False,September,Friday


In [6]:
# Limpiar columna "duration" y crear valores estandarizados
def clean_duration(value):
    if pd.isna(value):
        return np.nan
    elif 'Season' in value or 'Seasons' in value:
        return int(value.split(' ')[0])  # Extraer el número anterior "Season(s)"
    elif 'min' in value:
        return int(value.split(' ')[0])  # Extraer el número anterior "min"
    return np.nan

df_merged["duration_cleaned"] = df_merged["duration"].apply(clean_duration)

# Verificar nueva columna
df_merged[["duration", "duration_cleaned"]].head()

Unnamed: 0,duration,duration_cleaned
0,90 min,90.0
1,2 Seasons,2.0
2,,
3,,
4,2 Seasons,2.0


En el paso 1. Convertir la columna "date_added" a formato "datetime" he pensado que la mejor manera de entenderlo era crear una columna que mostrase el día de la semana y otra que mostrase el mes, ya que el año lo podemos ver en la columna "release_year". De esta manera se puede hacer un análisis temporal más completo sobre las decisiones estratégicas de la plataforma Netlifx. 
 
Luego, en el paso 2. Limpiar la columna "duration", en la tabla de puede ver de un primer vistazo la duración en minutos de las películas y la cantidad de temporadas de una serie, y todo en un mismo formato.

#### Ejercicio 2: Normalización de la columna `rating`

La columna `rating` tiene diferentes calificaciones como `PG`, `PG-13`, `R`, entre otras. Debes categorizar estas calificaciones en tres grupos:

- **'General Audience'** para calificaciones como `G`, `PG`.

- **'Teens'** para calificaciones como `PG-13`, `TV-14`.

- **'Adults'** para calificaciones como `R`, `TV-MA`.


In [7]:
# Definir función para categorizar la columna "rating"
def categorizar_rating(rating):
    if pd.isna(rating):
        return "Unknown"
    elif rating in ['G', 'PG']:
        return "General Audience"
    elif rating in ['PG-13', 'TV-14']:
        return "Teens"
    elif rating in ['R', 'TV-MA']:
        return "Adults"
    else:
        return "Other"

# Aplicar categorización a la columna "rating"
df_merged["rating_category"] = df_merged["rating"].apply(categorizar_rating)

# Verificar la categorización
df_merged[["rating", "rating_category"]].drop_duplicates().reset_index(drop=True)

Unnamed: 0,rating,rating_category
0,PG-13,Teens
1,TV-MA,Adults
2,PG,General Audience
3,TV-14,Teens
4,TV-PG,Other
5,TV-Y,Other
6,TV-Y7,Other
7,R,Adults
8,TV-G,Other
9,G,General Audience


He creado una función llamada categorizar_rating para que tome el valor de la columna "rating" y devuelva el grupo al que pertenece según la categorización que indica el enunciado. He añadido dos categorizaciones más. Si el valor no coincide con ninguna de las categorías especificadas, se clasifica como Other, y si el valor es nulo (NaN), se clasifica como Unknown. Luego, he utilizado el método .apply () para que en la columna nueva "rating_category" itere sobre las categorías asignadas a cada calificación. Por útimo, le pido que me muestre los valores únicos de la columna "rating" con sus correspondientes categorías aplicadas. 

#### Ejercicio 3: Creación de una columna personalizada basada en el elenco

Vamos a identificar si un actor clave como `Leonardo DiCaprio`, `Tom Hanks`, o `Morgan Freeman` aparece en el elenco.

Usa `apply` y una función lambda para crear una nueva columna llamada `has_famous_actor` que contenga `True` si alguno de estos actores está en la lista de `cast` y `False` en caso contrario.

In [8]:
# Definir la lista de actores
famous_actors = ["Leonardo DiCaprio", "Tom Hanks", "Morgan Freeman"]

# Crear la columna "has_famous_actor"
df_merged["has_famous_actor"] = df_merged["cast"].apply(
    lambda x: any(actor in str(x) for actor in famous_actors)
)

# Verificar la nueva columna
df_merged[["cast", "has_famous_actor"]].head()

Unnamed: 0,cast,has_famous_actor
0,,False
1,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",False
2,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",False
3,,False
4,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",False


In [9]:
# Chequear valores nulos
nulos_cast = df_merged["cast"].isna().sum()

nulos_cast

np.int64(825)

En primer lugar, he definido una lista con los actores que hay que buscar dentro de la columna "cast". Luego, creo una columna llamada "has_famous_actor" para que me devuelva un True si están dentro del elenco y False si no están dentro. Para ello, he utilizado el método .apply() para que aplique una función a cada valor de la columna "cast". Con lambda, he utilizado "any" para que verificar si algunos de los valores de la lista está dentro de la columna "cast". Con el str(x) he convertido cada valor de la columna "cast" a una cadena de texto porque hay 825 valores nulos. El resultado de la tabla indica que los actores que están dentro de la lista famous_actors no forman parte del elenco. 

#### Ejercicio 4: Creación de una columna personalizada usando lógica condicional

Vamos a crear una columna llamada `is_recent` que identifique si un título fue lanzado en los últimos 5 años.

Crea una función para marcar con `True` si el título es reciente (lanzado en los últimos 5 años) y `False` si no lo es.

In [10]:
# Definir año
current_year = datetime.now().year

# Crear la columna "is_recent"
df_merged["is_recent"] = df_merged["release_year"].apply(
    lambda x: True if not pd.isna(x) and (current_year - x) <= 5 else False
)

# Verificar resultados
df_merged[["release_year", "title", "is_recent"]].drop_duplicates().sort_values(by="release_year", ascending=False)

Unnamed: 0,release_year,title,is_recent
1,2021,Blood & Water,True
2,2021,Ganglands,True
3,2021,Jailbirds New Orleans,True
31,2021,Chicago Party Aunt,True
30,2021,Ankahi Kahaniya,True
...,...,...,...
8739,1943,Why We Fight: The Battle of Russia,False
8660,1943,Undercover: How to Operate Behind Enemy Lines,False
7790,1942,Prelude to War,False
8205,1942,The Battle of Midway,False


Primero, he llamado a la biblioteca datetime para poder obtener el año actual. Luego, he utilizado el método .apply() utilizando la columna release_year para verificar si un título es reciente o no. En la función lambda he añadido pd.isna(x) para verificar si el valor del año de lanzamiento es un valor nulo. Luego, (current_year - x) <= 5 calcula la diferencia entre el año actual y el año de lanzamiento y verifica si está dentro de los últimos 5 años. Si ambas condiciones son ciertas, devuelve True. En caso contrario, pues devuelve False. Por último, compruebo los resultados.

En la nueva columna is_recent se puede ver qué titulos fueron lanzados en los últimos 5 años y cuales no.

#### Ejercicio 5: Clasificación de películas por década

En este ejercicio, tu objetivo es categorizar los años de lanzamiento de las películas o series en décadas. La columna `release_year` contiene el año de lanzamiento y debes crear una nueva columna llamada `decade` que indique la década correspondiente, como "1990s", "2000s", etc.


In [11]:
# Categorizar columna "release_year" en décadas
def categorize_decade(year):
    if pd.isna(year):
        return "Unknown"
    decade_start = (year // 10) * 10
    return f"{decade_start}s"

# Aplicar método apply
df_merged["decade"] = df_merged["release_year"].apply(categorize_decade)

# Verificar resultados
df_merged[["release_year", "decade"]].drop_duplicates().sort_values(by="release_year", ascending=True).head()

Unnamed: 0,release_year,decade
4250,1925,1920s
7790,1942,1940s
8660,1943,1940s
8419,1944,1940s
1331,1945,1940s


En primer lugar, he definido la función categorize_decade que lo primero que hace es identificar si hay valores nulos en la columna "release_year". Si no los hay, me calcula la década y luego en el return me devuelve un string con la década. Luego, utilizo el método .apply() para iterar sobre cada valor de la columna "release_year". Por último, en verificar resultados cogo solo las columnas de "release_year" y "decade" para analizar mejor los resultados. Luego con .drop_duplicates elimino los duplicados de las filas. Y en .sort_values ordeno la columna release_year desde el año más antiguo al más reciente. 

#### Ejercicio 6: Extracción de información

Para practicar la extracción de información:

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.


In [12]:
df_merged.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,mes,dia_semana,duration_cleaned,rating_category,has_famous_actor,is_recent,decade
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,True,September,Saturday,90.0,Teens,False,True,2020s
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,False,September,Friday,2.0,Adults,False,True,2020s
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,False,September,Friday,,Adults,False,True,2020s
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,False,September,Friday,,Adults,False,True,2020s
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,False,September,Friday,2.0,Adults,False,True,2020s


In [13]:
# Extraer el primer actor
df_merged["first_actor"] = df_merged["cast"].str.extract(r'^([^,]+)', expand = True)  # Captura el texto antes de la primera coma

# Extraer el primer nimbre del director
df_merged["first_name_director"] = df_merged["director"].str.extract(r'^(\w+)', expand = True)  # Captura la primera palabra

# Verificar nuevas columnas
df_merged[["cast", "first_actor", "director", "first_name_director"]].head()

Unnamed: 0,cast,first_actor,director,first_name_director
0,,,Kirsten Johnson,Kirsten
1,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",Ama Qamata,,
2,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",Sami Bouajila,Julien Leclercq,Julien
3,,,,
4,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",Mayur More,,


Con el método str.extract he podido extraer el nombre del primer actor que sale en la columna "cast" y el primer nombre del director de la columna "director". Si se compara este resultado con el DataFrame df_merged, se puede ver que el método str.extract funciona correctamente.

#### Ejercicio 7: Limpieza de la columna `cast`

La columna `cast` contiene una lista de actores separados por comas. Tu objetivo es realizar las siguientes tareas:

1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).


In [14]:
# 1. Reemplazar los valores nulos
df_merged["cast"] = df_merged["cast"].fillna("sin información")

# Verificar cambios
df_merged[["cast"]]

Unnamed: 0,cast
0,sin información
1,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban..."
2,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi..."
3,sin información
4,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K..."
...,...
8802,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J..."
8803,sin información
8804,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ..."
8805,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma..."


In [15]:
# Contar el número de actores
df_merged["num_cast"] = df_merged["cast"].apply(lambda x: len(x.split(',')) if x != "sin información" else 0)

# Verificar nueva columna
df_merged[["cast", "num_cast"]].head()

Unnamed: 0,cast,num_cast
0,sin información,0
1,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",19
2,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",9
3,sin información,0
4,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",8


In [16]:
# Normalizar los nombres
df_merged["cast"] = df_merged["cast"].fillna("sin información").apply(
    lambda x: ", ".join([actor.strip() for actor in x.split(",")])
)

# Verificar cambios
df_merged[["cast"]]

Unnamed: 0,cast
0,sin información
1,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban..."
2,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi..."
3,sin información
4,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K..."
...,...
8802,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J..."
8803,sin información
8804,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ..."
8805,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma..."


En la primera tabla, se puede ver que los valores nulos se han reemplazado por "sin información". Luego, en la segunda tabla he utilizado el método .apply y la función lambda para que me cuente el número de actores por cada entrada. Por último, en la tercera tabla los nombres de los actores están escritos sin espacios adicionales. 


#### Ejercicio 8: Identificación de Directores Recurrentes

En este ejercicio, debes identificar los directores que aparecen más de una vez en el conjunto de datos. Realiza los siguientes pasos:

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.

In [17]:
df_merged.isnull().sum()

show_id                   0
type                      0
title                     0
director               2634
cast                      0
country                 831
date_added               10
release_year              0
rating                    4
duration               4813
listed_in                 0
description               0
Genre                  8294
Premiere               8294
Runtime                8294
IMDB Score             8294
Language               8294
es_original               0
mes                      10
dia_semana               10
duration_cleaned       4813
rating_category           0
has_famous_actor          0
is_recent                 0
decade                    0
first_actor             825
first_name_director    2634
num_cast                  0
dtype: int64

In [18]:
# Reemplazar los valores nulos
df_merged["director"] = df_merged["director"].fillna("sin información")

# Verificar cambios
df_merged[["director"]].head()

Unnamed: 0,director
0,Kirsten Johnson
1,sin información
2,Julien Leclercq
3,sin información
4,sin información


In [19]:
# Conteo director
df_merged["first_name_director"] = df_merged["first_name_director"].fillna("sin información")

first_name_director_counts = df_merged["first_name_director"].value_counts()

first_name_director_counts_df = first_name_director_counts.reset_index()
first_name_director_counts_df.columns = ["first_name_director", 'count']

first_name_director_counts_df

Unnamed: 0,first_name_director,count
0,sin información,2634
1,David,111
2,Michael,91
3,John,77
4,Robert,52
...,...,...
2265,Buz,1
2266,Hidetaka,1
2267,Preston,1
2268,Tekin,1


In [20]:
# Normalizar nombres

# Crear un diccionario para mapear el estado de recurrencia
recurrent_director_df = first_name_director_counts_df.set_index("first_name_director")["count"].apply(
    lambda x: "Yes" if x > 1 else "No"
).to_dict()

# Aplicar el mapeo al DataFrame original para crear la columna `recurrent_director`
df_merged["recurrent_director"] = df_merged["director"].map(recurrent_director_df)

# Mostrar el mapeo resultante
df_merged.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,mes,dia_semana,duration_cleaned,rating_category,has_famous_actor,is_recent,decade,first_actor,first_name_director,num_cast,recurrent_director
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,sin información,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,True,September,Saturday,90.0,Teens,False,True,2020s,,Kirsten,0,
1,s2,TV Show,Blood & Water,sin información,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,False,September,Friday,2.0,Adults,False,True,2020s,Ama Qamata,sin información,19,Yes
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,False,September,Friday,,Adults,False,True,2020s,Sami Bouajila,Julien,9,
3,s4,TV Show,Jailbirds New Orleans,sin información,sin información,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,False,September,Friday,,Adults,False,True,2020s,,sin información,0,Yes
4,s5,TV Show,Kota Factory,sin información,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,False,September,Friday,2.0,Adults,False,True,2020s,Mayur More,sin información,8,Yes


En la primera tabla nos muestra que se han reemplazado los valores nulos de la columna "director" por "sin información". Luego, en la segunda tabla he utilizado el método .value_count para que cuente cuántas veces aparece cada director en esa columna. Por último, en la tercera tabla se ha hecho un mapeo para devuelva en la nueva columna "recurrent_director" si los directores aparecen más de una vez o no en la columna "first_name_director". 

In [21]:
# Último paso. Convertir de nuevo columna "date_added" a formato "datetime" y guardarlo en pickle.
 
df_merged["date_added"] = pd.to_datetime(df_merged["date_added"])
df_merged.to_pickle("C:/Users/claud/GIT/laboratorio-limpieza_datos/datos/netflix_originals_merged.pkl")