<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Limpieza de Datos

En este laboratorio usaremos el DataFrame de Netflix completo creado en los primeros laboratorios de Pandas. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Documenta todas las funciones creadas durante el ejercicio. 

4. Debes incluir después de cada gráfica la interpretación de las mismas en una celda de markdown. 

In [71]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Para guardar DataFrames en Excel
# -----------------------------------------------------------------------
from pandas import ExcelWriter

# Para generar todas las posibles combinaciones
# -----------------------------------------------------------------------
import itertools

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [72]:
df = pd.read_csv("datos/datos_netflix.csv", index_col = 0)
df

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,Desconocido,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,original
1,s2,TV Show,Blood & Water,Desconocido,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,
3,s4,TV Show,Jailbirds New Orleans,Desconocido,Desconocido,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,
4,s5,TV Show,Kota Factory,Desconocido,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,
8803,s8804,TV Show,Zombie Dumb,Desconocido,Desconocido,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,


## Parte 1: Limpieza y Preparación de Datos

#### Ejercicio 1: Estandarización y limpieza de columnas

En este ejercicio, debes limpiar y estandarizar algunas columnas clave para hacerlas más manejables y consistentes en tus análisis. Específicamente, trabajarás con las columnas `date_added` y `duration` para convertirlas a un formato uniforme y estructurado.

Instrucciones:

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.


**Resultado Esperado:**
Deberás obtener algo como esto:

| duration   | duration_cleaned |
|------------|-----------------|
| 1 Season   | 1               |
| 90 min     | 90              |
| 2 Seasons  | 2               |
| 45 min     | 45              |
| 3 Seasons  | 3               |

In [73]:
# 1. Convertir la columna `date_added` a formato datetime
df['date_added'] = pd.to_datetime(df['date_added'], errors='coerce')

# 2. Limpiar la columna `duration` y extraer el número de temporadas o minutos
df['duration_cleaned'] = df['duration'].str.extract('(\d+)').astype('Int64')
duracion_final = df[['duration', 'duration_cleaned']]
duracion_final


Unnamed: 0,duration,duration_cleaned
0,90 min,90
1,2 Seasons,2
2,,
3,,
4,2 Seasons,2
...,...,...
8802,158 min,158
8803,2 Seasons,2
8804,,
8805,,


#### Ejercicio 2: Normalización de la columna `rating`

La columna `rating` tiene diferentes calificaciones como `PG`, `PG-13`, `R`, entre otras. Debes categorizar estas calificaciones en tres grupos:

- **'General Audience'** para calificaciones como `G`, `PG`.

- **'Teens'** para calificaciones como `PG-13`, `TV-14`.

- **'Adults'** para calificaciones como `R`, `TV-MA`.


In [74]:
# Creo una categorización con lambda para determinar el rating
df['rating_categoria'] = df['rating'].apply(lambda x: 'General Audience' if x in ['G', 'PG'] 
                                           else 'Teens' if x in ['PG-13', 'TV-14'] 
                                           else 'Adults' if x in ['R', 'TV-MA'] 
                                           else 'Desconocido')

# Mostramos las columnas 'rating' y 'rating_categoria'
df_rating = df[['rating', 'rating_categoria']]
df_rating

Unnamed: 0,rating,rating_categoria
0,PG-13,Teens
1,TV-MA,Adults
2,TV-MA,Adults
3,TV-MA,Adults
4,TV-MA,Adults
...,...,...
8802,R,Adults
8803,TV-Y7,Desconocido
8804,R,Adults
8805,PG,General Audience


#### Ejercicio 3: Creación de una columna personalizada basada en el elenco

Vamos a identificar si un actor clave como `Leonardo DiCaprio`, `Tom Hanks`, o `Morgan Freeman` aparece en el elenco.

Usa `apply` y una función lambda para crear una nueva columna llamada `has_famous_actor` que contenga `True` si alguno de estos actores está en la lista de `cast` y `False` en caso contrario.

In [75]:
famous_actors = ['Leonardo DiCaprio', 'Tom Hanks', 'Morgan Freeman']
df['has_famous_actor'] = df['cast'].apply(lambda x: any(actor in x for actor in famous_actors))
df

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,original,duration_cleaned,rating_categoria,has_famous_actor
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,Desconocido,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,original,90,Teens,False
1,s2,TV Show,Blood & Water,Desconocido,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2,Adults,False
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,Adults,False
3,s4,TV Show,Jailbirds New Orleans,Desconocido,Desconocido,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,,,Adults,False
4,s5,TV Show,Kota Factory,Desconocido,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,,2,Adults,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,158,Adults,False
8803,s8804,TV Show,Zombie Dumb,Desconocido,Desconocido,,2019-07-01,2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,,2,Desconocido,False
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,,Adults,False
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,,General Audience,False


#### Ejercicio 4: Creación de una columna personalizada usando lógica condicional

Vamos a crear una columna llamada `is_recent` que identifique si un título fue lanzado en los últimos 5 años.

Crea una función para marcar con `True` si el título es reciente (lanzado en los últimos 5 años) y `False` si no lo es.

In [76]:
# Importo la libreria datetime.
from datetime import datetime

# Obtenemos el año actual para que calcule los ultimos 5 años
año_actual = datetime.now().year

# 1. Creo la columna is recent y le aplico el lamda para que me muestre los ultimos 5 años.
df['is_recent'] = df['release_year'].apply(lambda x: x >= año_actual - 5)
df




Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,original,duration_cleaned,rating_categoria,has_famous_actor,is_recent
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,Desconocido,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,original,90,Teens,False,True
1,s2,TV Show,Blood & Water,Desconocido,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2,Adults,False,True
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,Adults,False,True
3,s4,TV Show,Jailbirds New Orleans,Desconocido,Desconocido,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,,,Adults,False,True
4,s5,TV Show,Kota Factory,Desconocido,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,,2,Adults,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,158,Adults,False,False
8803,s8804,TV Show,Zombie Dumb,Desconocido,Desconocido,,2019-07-01,2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,,2,Desconocido,False,False
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,,Adults,False,False
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,,General Audience,False,False


#### Ejercicio 5: Clasificación de películas por década

En este ejercicio, tu objetivo es categorizar los años de lanzamiento de las películas o series en décadas. La columna `release_year` contiene el año de lanzamiento y debes crear una nueva columna llamada `decade` que indique la década correspondiente, como "1990s", "2000s", etc.


In [77]:
# Creo la columna decade, y utilizo el divisor 2 veces para que redondee hacia abajo, luego lo multiplico para que me salga el resultado
df['decade'] = (df['release_year'] // 10) * 10
# Aqui convierto con astype la columna decade a stirng para añadirle la 's
df['decade'] = df['decade'].astype(str) + 's'



#### Ejercicio 6: Extracción de información

Para practicar la extracción de información:

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.


In [88]:
# 1. Extraigo el primer actor de la columna 'cast'
df['first_actor'] = df['cast'].apply(lambda x: str(x).split(', ')[0] if pd.notna(x) else None)

# 2. Extraigo el "primer" nombre del director
df['first_name_director'] = df['director'].apply(lambda x: str(x).split(' ')[0] if pd.notna(x) else None)

df_extraccion = df[['cast','first_actor','director','first_name_director']]
df_extraccion.head()

Unnamed: 0,cast,first_actor,director,first_name_director
0,Desconocido,Desconocido,Kirsten Johnson,Kirsten
1,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",Ama Qamata,Desconocido,Desconocido
2,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",Sami Bouajila,Julien Leclercq,Julien
3,Desconocido,Desconocido,Desconocido,Desconocido
4,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",Mayur More,Desconocido,Desconocido


#### Ejercicio 7: Limpieza de la columna `cast`

La columna `cast` contiene una lista de actores separados por comas. Tu objetivo es realizar las siguientes tareas:

1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).


In [95]:
# No tengo valores nulos por que en el dataframe en su momento realice un cambio de nombre de NaN a Desconocido.

# Creo la columna num_cast y le aplico un landa donde me cuente los nombres de la columna cast (split) para que me los devuelva en la columna nueva.
df['num_cast'] = df['cast'].apply(lambda x: len(x.split(', ')) if x != 'Desconocido' else 0)

# 3. Normalizo los nombres con lambda, le pido primero que quite los valores adicionales con (strip) y luego le hago un join y le pido que me lo normalice con separacion con comas y un  espacio.
df['cast'] = df['cast'].apply(lambda x: ', '.join([actor.strip() for actor in x.split(', ')]))

df_cast= df[['cast', 'num_cast']]
df_cast.sample(10)


Unnamed: 0,cast,num_cast
3578,Lisa Sanders,1
1776,"Chris Attoh, Adesua Etomi, Uzor Arukwe, Sika O...",7
3736,"Rikiya Koyama, Ayako Kawasumi, Sayaka Ohara, S...",10
7001,Desconocido,0
3390,Desconocido,0
8648,"Cathy Tyson, Katie Jarvis, David Hayman, Josh ...",8
8229,"Jack Nicholson, Morgan Freeman, Sean Hayes, Be...",10
5206,"Hugh Bonneville, Monica Dolan, Jessica Hynes, ...",12
8555,"Kris Aquino, Claudine Barretto, Boots Anson-Ro...",10
102,Desconocido,0



#### Ejercicio 9: Identificación de Directores Recurrentes

En este ejercicio, debes identificar los directores que aparecen más de una vez en el conjunto de datos. Realiza los siguientes pasos:

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.

In [100]:
# La columna director me pasa como la anterior transforme los valores nulos a 'Desconocido', por lo que ya lo tengo hecho.
# Le pido que haga un value counts para saber las veces que aparece en la columna que creamos en el ejercicio 6. 
director_cuenta = df['first_name_director'].value_counts()
# Creo la columna recurrent_director donde le aplico un lambda que diga que si es mayor a 1 que me diga si y si no me diga no.
df['recurrent_director'] = df['first_name_director'].apply(lambda x: 'Yes' if director_cuenta[x] > 1 else 'No')

df_current = df[['first_name_director', 'recurrent_director']]
df_current

Unnamed: 0,first_name_director,recurrent_director
0,Kirsten,No
1,Desconocido,Yes
2,Julien,Yes
3,Desconocido,Yes
4,Desconocido,Yes
...,...,...
8802,David,Yes
8803,Desconocido,Yes
8804,Ruben,Yes
8805,Peter,Yes
