<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Limpieza de Datos

En este laboratorio usaremos el DataFrame de Netflix completo creado en los primeros laboratorios de Pandas. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Documenta todas las funciones creadas durante el ejercicio. 

4. Debes incluir después de cada gráfica la interpretación de las mismas en una celda de markdown. 

## Parte 1: Limpieza y Preparación de Datos

#### Ejercicio 1: Estandarización y limpieza de columnas

En este ejercicio, debes limpiar y estandarizar algunas columnas clave para hacerlas más manejables y consistentes en tus análisis. Específicamente, trabajarás con las columnas `date_added` y `duration` para convertirlas a un formato uniforme y estructurado.

Instrucciones:

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.


**Resultado Esperado:**
Deberás obtener algo como esto:

| duration   | duration_cleaned |
|------------|-----------------|
| 1 Season   | 1               |
| 90 min     | 90              |
| 2 Seasons  | 2               |
| 45 min     | 45              |
| 3 Seasons  | 3               |

In [41]:
import pandas as pd
import numpy as np
pd.set_option('display.max_columns', None)
df = pd.read_csv ("data_mergeado.csv",index_col= 0)
df.head(1)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si


In [42]:
df["date_added"] = pd.to_datetime (df["date_added"])
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 18 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   show_id       8807 non-null   object        
 1   type          8807 non-null   object        
 2   Title         8807 non-null   object        
 3   director      6173 non-null   object        
 4   cast          7982 non-null   object        
 5   country       7976 non-null   object        
 6   date_added    8797 non-null   datetime64[ns]
 7   release_year  8807 non-null   int64         
 8   rating        8803 non-null   object        
 9   duration      3994 non-null   object        
 10  listed_in     8807 non-null   object        
 11  description   8807 non-null   object        
 12  Genre         513 non-null    object        
 13  Premiere      513 non-null    object        
 14  Runtime       513 non-null    float64       
 15  IMDB Score    513 non-null    float64      

In [43]:
df["duration_cleaned"] = df["duration"].str.split (" ", expand=True)[0]
df_ejercicio1 = df [["duration","duration_cleaned"]]
df_ejercicio1

Unnamed: 0,duration,duration_cleaned
0,90 min,90
1,2 Seasons,2
2,,
3,,
4,2 Seasons,2
...,...,...
8802,158 min,158
8803,2 Seasons,2
8804,,
8805,,


#### Ejercicio 2: Normalización de la columna `rating`

La columna `rating` tiene diferentes calificaciones como `PG`, `PG-13`, `R`, entre otras. Debes categorizar estas calificaciones en tres grupos:

- **'General Audience'** para calificaciones como `G`, `PG`.

- **'Teens'** para calificaciones como `PG-13`, `TV-14`.

- **'Adults'** para calificaciones como `R`, `TV-MA`.


In [44]:
lista_1 = ["G", "PG"]
lista_2 = ["PG-13", "TV-14"]
lista_3 = ["R", "TV-MA"]

def categorizar_rating (rating):
    if rating in lista_1:
        return "General_Audience"
    elif rating in lista_2:
        return "Teens"
    elif rating in lista_3:
        return "Adults"
    else:
        return "Nada"

df["rating_categorizada"] = df["rating"].apply(categorizar_rating)
df.head(3)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa,duration_cleaned,rating_categorizada
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si,90.0,Teens
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2.0,Adults
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,Adults


#### Ejercicio 3: Creación de una columna personalizada basada en el elenco

Vamos a identificar si un actor clave como `Leonardo DiCaprio`, `Tom Hanks`, o `Morgan Freeman` aparece en el elenco.

Usa `apply` y una función lambda para crear una nueva columna llamada `has_famous_actor` que contenga `True` si alguno de estos actores está en la lista de `cast` y `False` en caso contrario.

In [45]:
lista_actor_famoso = ["Leonardo Dicaprio", "Tom Hanks", "Morgan Freeman"]

def actor_famoso (nombre, lista):
    if isinstance(nombre, str):
         for actor in lista:
            if actor in nombre:
             return True
            else:
             return False

df["has_famous_actor"] = df["cast"].apply(lambda x: actor_famoso(x, lista_actor_famoso))
df.head(3)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa,duration_cleaned,rating_categorizada,has_famous_actor
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si,90.0,Teens,
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2.0,Adults,False
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,Adults,False


#### Ejercicio 4: Creación de una columna personalizada usando lógica condicional

Vamos a crear una columna llamada `is_recent` que identifique si un título fue lanzado en los últimos 5 años.

Crea una función para marcar con `True` si el título es reciente (lanzado en los últimos 5 años) y `False` si no lo es.

In [46]:
from datetime import datetime
def titulo_reciente (ano):
    ano_actual = datetime.now().year
    diferencia = ano_actual - ano
    if diferencia <= 5:
        return True
    else:
        False

df ["is_recent"] = df["release_year"].apply(titulo_reciente)
df.head(3)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa,duration_cleaned,rating_categorizada,has_famous_actor,is_recent
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si,90.0,Teens,,True
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2.0,Adults,False,True
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,Adults,False,True


In [47]:
df ["is_recent"].unique()

array([True, None], dtype=object)

#### Ejercicio 5: Clasificación de películas por década

En este ejercicio, tu objetivo es categorizar los años de lanzamiento de las películas o series en décadas. La columna `release_year` contiene el año de lanzamiento y debes crear una nueva columna llamada `decade` que indique la década correspondiente, como "1990s", "2000s", etc.


In [48]:
df["release_year"].unique()
años = [1940,1950,1960,1970,1980,1990,2000,2010,2020,2030]
decades = ["1940s", "1950s", "1960s", "1970s","1980s", "1990s", "2000s", "2010s", "2020s"]
df ["decade"] = pd.cut(df["release_year"], bins = años, labels = decades)
df.head(3)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa,duration_cleaned,rating_categorizada,has_famous_actor,is_recent,decade
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si,90.0,Teens,,True,2010s
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2.0,Adults,False,True,2020s
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,Adults,False,True,2020s


#### Ejercicio 6: Extracción de información

Para practicar la extracción de información:

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.


In [49]:
df ["first_actor"]= df ["cast"].str.split(",").str[0]
df ["first_name_director"] = df ["director"].str.split(" ").str [0]
df.head(3)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa,duration_cleaned,rating_categorizada,has_famous_actor,is_recent,decade,first_actor,first_name_director
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si,90.0,Teens,,True,2010s,,Kirsten
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2.0,Adults,False,True,2020s,Ama Qamata,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,Adults,False,True,2020s,Sami Bouajila,Julien


#### Ejercicio 7: Limpieza de la columna `cast`

La columna `cast` contiene una lista de actores separados por comas. Tu objetivo es realizar las siguientes tareas:

1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).


In [50]:
df['cast'] = df['cast'].fillna("sin informacion")

In [51]:
df ["cast_lista"]= df ["cast"].str.split(",")
df ["num_cast"] = df["cast_lista"].apply(len)
df.head(2)


Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa,duration_cleaned,rating_categorizada,has_famous_actor,is_recent,decade,first_actor,first_name_director,cast_lista,num_cast
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,sin informacion,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si,90,Teens,,True,2010s,,Kirsten,[sin informacion],1
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2,Adults,False,True,2020s,Ama Qamata,,"[Ama Qamata, Khosi Ngema, Gail Mabalane, Th...",19


In [52]:
df["cast_lista"] = df["cast_lista"].apply(lambda x: [i.strip() for i in x] if isinstance(x, list) else x)
df.head(2)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa,duration_cleaned,rating_categorizada,has_famous_actor,is_recent,decade,first_actor,first_name_director,cast_lista,num_cast
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,sin informacion,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si,90,Teens,,True,2010s,,Kirsten,[sin informacion],1
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2,Adults,False,True,2020s,Ama Qamata,,"[Ama Qamata, Khosi Ngema, Gail Mabalane, Thaba...",19



#### Ejercicio 9: Identificación de Directores Recurrentes

En este ejercicio, debes identificar los directores que aparecen más de una vez en el conjunto de datos. Realiza los siguientes pasos:

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.

In [60]:
df["director"] = df["director"].fillna("sin información")
cuantos_directores = df.groupby("first_name_director")["director"].count().reset_index()
cuantos_directores



Unnamed: 0,first_name_director,director
0,A.,4
1,A.R.,2
2,Aadish,1
3,Aamir,2
4,Aanand,1
...,...,...
2303,Çagan,1
2304,Ísold,1
2305,Óskar,1
2306,Ömer,2


In [57]:
df["recurrent_director"] = df["director"].apply(lambda x: "Yes" if cuantos_directores.get(x, 0) > 1 else "No")
df.head(2)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Nueva_Columa,duration_cleaned,rating_categorizada,has_famous_actor,is_recent,decade,first_actor,first_name_director,cast_lista,num_cast,recurrent_director
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,sin informacion,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,Si,90,Teens,,True,2010s,,Kirsten,[sin informacion],1,No
1,s2,TV Show,Blood & Water,sin información,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,2,Adults,False,True,2020s,Ama Qamata,,"[Ama Qamata, Khosi Ngema, Gail Mabalane, Thaba...",19,No
