<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Limpieza de Datos

En este laboratorio usaremos el DataFrame de Netflix completo creado en los primeros laboratorios de Pandas. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Documenta todas las funciones creadas durante el ejercicio. 

4. Debes incluir después de cada gráfica la interpretación de las mismas en una celda de markdown. 

## Parte 1: Limpieza y Preparación de Datos

#### Ejercicio 1: Estandarización y limpieza de columnas

En este ejercicio, debes limpiar y estandarizar algunas columnas clave para hacerlas más manejables y consistentes en tus análisis. Específicamente, trabajarás con las columnas `date_added` y `duration` para convertirlas a un formato uniforme y estructurado.

Instrucciones:

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.


**Resultado Esperado:**
Deberás obtener algo como esto:

| duration   | duration_cleaned |
|------------|-----------------|
| 1 Season   | 1               |
| 90 min     | 90              |
| 2 Seasons  | 2               |
| 45 min     | 45              |
| 3 Seasons  | 3               |

In [132]:
import pandas as pd
import numpy as np
from datetime import datetime

In [None]:
df = pd.read_csv("datos/netflix_mergeado.csv", index_col = 0)
pd.set_option("display.max_columns",None)

Convertir columna date_added

In [134]:
df["date_added1"] = pd.to_datetime(df["date_added"], format = "mixed")

Limpieza columna duration

In [135]:
df[["duration1", "duration2]"]] = df['duration'].str.split(' ', expand=True)
df.drop(columns = "duration2]", inplace = True)
df

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,titulo,Genre,Premiere,Runtime,IMDB Score,Language,original,date_added1,duration1
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",si,Documentary,"October 2, 2020",90.0,7.5,English,si,2021-09-25,90
1,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,si,,,,,,,2021-09-24,104
2,s100,TV Show,On the Verge,,"Julie Delpy, Elisabeth Shue, Sarah Jones, Alex...","France, United States","September 7, 2021",2021,TV-MA,,"TV Comedies, TV Dramas","Four women — a chef, a single mom, an heiress ...",si,,,,,,,2021-09-07,
3,s1000,Movie,Stowaway,Joe Penna,"Anna Kendrick, Toni Collette, Daniel Dae Kim, ...","Germany, United States","April 22, 2021",2021,TV-MA,116 min,"Dramas, International Movies, Thrillers",A three-person crew on a mission to Mars faces...,si,,,,,,,2021-04-22,116
4,s1001,Movie,Wild Dog,Ahishor Solomon,"Nagarjuna Akkineni, Dia Mirza, Saiyami Kher, A...",,"April 22, 2021",2020,TV-MA,126 min,"Action & Adventure, International Movies",A brash but brilliant Indian intelligence agen...,si,,,,,,,2021-04-22,126
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s995,Movie,This Lady Called Life,Kayode Kasum,"Bisola Aiyeola, Efa Iwara, Molawa Onajobi, Tin...",Nigeria,"April 23, 2021",2020,TV-14,120 min,"Dramas, International Movies, Romantic Movies","Abandoned by her family, young single mother A...",si,,,,,,,2021-04-23,120
8803,s996,Movie,Vizontele,"Yılmaz Erdoğan, Ömer Faruk Sorak","Yılmaz Erdoğan, Demet Akbağ, Altan Erkekli, Ce...",Turkey,"April 23, 2021",2001,TV-MA,,"Comedies, Dramas, International Movies","In 1974, a rural town in Anatolia gets its fir...",si,,,,,,,2021-04-23,
8804,s997,Movie,HOMUNCULUS,Takashi Shimizu,"Go Ayano, Ryo Narita, Yukino Kishii, Anna Ishi...",Japan,"April 22, 2021",2021,TV-MA,116 min,"Horror Movies, International Movies, Thrillers",Truth and illusion blurs when a homeless amnes...,si,,,,,,,2021-04-22,116
8805,s998,TV Show,Life in Color with David Attenborough,,David Attenborough,"Australia, United Kingdom","April 22, 2021",2021,TV-PG,,"British TV Shows, Docuseries, International TV...","Using innovative technology, this docuseries e...",si,,,,,,,2021-04-22,


#### Ejercicio 2: Normalización de la columna `rating`

La columna `rating` tiene diferentes calificaciones como `PG`, `PG-13`, `R`, entre otras. Debes categorizar estas calificaciones en tres grupos:

- **'General Audience'** para calificaciones como `G`, `PG`.

- **'Teens'** para calificaciones como `PG-13`, `TV-14`.

- **'Adults'** para calificaciones como `R`, `TV-MA`.


In [136]:
mapa_rating = {"G": "General Audience", "PG": "General Audience", "PG-13": "Teens", "TV-14":"Teens", "TV-MA": "Adults", "R":"Adults"}
df["rating_mod"] = df["rating"].map(mapa_rating)

#### Ejercicio 3: Creación de una columna personalizada basada en el elenco

Vamos a identificar si un actor clave como `Leonardo DiCaprio`, `Tom Hanks`, o `Morgan Freeman` aparece en el elenco.

Usa `apply` y una función lambda para crear una nueva columna llamada `has_famous_actor` que contenga `True` si alguno de estos actores está en la lista de `cast` y `False` en caso contrario.

In [137]:
actores = ["Leonardo DiCaprio", "Tom Hanks", "Morgan Freeman"]
for actor in actores:
    if actor in df["cast"]:
        True
    else:
        False


In [138]:
df["has_famous_actor"] = df.apply(lambda x: any(actor in actores for actor in x["cast"]) if any == True else False, axis = 1)
df.sample(1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,titulo,Genre,Premiere,Runtime,IMDB Score,Language,original,date_added1,duration1,rating_mod,has_famous_actor
2427,s3183,TV Show,V Wars,,"Ian Somerhalder, Adrian Holmes, Jacky Lai, Kyl...",United States,"December 5, 2019",2019,TV-MA,,"TV Action & Adventure, TV Dramas, TV Horror",A fast-spreading disease that turns victims in...,si,,,,,,,2019-12-05,,Adults,False


#### Ejercicio 4: Creación de una columna personalizada usando lógica condicional

Vamos a crear una columna llamada `is_recent` que identifique si un título fue lanzado en los últimos 5 años.

Crea una función para marcar con `True` si el título es reciente (lanzado en los últimos 5 años) y `False` si no lo es.

In [139]:
for x in df["release_year"]:
    if datetime.now().year - x >= 5:
        print (True)
    else:
        print (False)



False
False
False
False
False
True
False
False
False
True
True
True
True
True
False
True
True
False
True
True
True
True
True
True
False
True
True
True
True
False
False
False
False
True
False
False
True
False
False
False
True
False
True
True
False
True
False
False
True
True
True
True
False
False
True
True
False
True
True
False
True
True
True
False
True
True
False
False
True
True
False
False
False
True
True
True
False
False
True
False
False
False
True
True
True
True
False
True
True
True
True
False
False
True
False
False
False
False
True
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
False
True
True
True
True
False
True
True
False
False
False
False
True
True
True
True
True
False
True
True
False
True
True
True
False
False
True
True
True
False
True
False
True
True
True
True
True
True
True
False
True
True
False
True
True
True
True
False
True
True
False
False
True
True
True
False
False
False
True
True
False
False
False
True
True
True
True
False

In [140]:
df["is_recent"] = df.apply(lambda x: True if datetime.now().year - x["release_year"] <= 5 else False, axis = 1)
df.sample(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,titulo,Genre,Premiere,Runtime,IMDB Score,Language,original,date_added1,duration1,rating_mod,has_famous_actor,is_recent
3430,s4086,Movie,Firebrand,Aruna Raje,"Usha Jadhav, Girish Kulkarni, Sachin Khedekar,...",India,"February 22, 2019",2019,TV-MA,117 min,"Dramas, International Movies",While she successfully advocates for her femal...,si,Drama,"February 22, 2019",112.0,5.2,Marathi,si,2019-02-22,117.0,Adults,False,True
6430,s6787,Movie,Forever Chape,Luis Ara,,Brazil,"August 2, 2018",2018,TV-MA,74 min,"Documentaries, International Movies, Sports Mo...",In the wake of the plane crash that claimed th...,si,,,,,,,2018-08-02,74.0,Adults,False,False
5032,s5528,Movie,Bibi & Tina II,Detlev Buck,"Lina Larissa Strahl, Lisa-Marie Koroll, Louis ...",Germany,"April 15, 2017",2014,TV-14,,"Children & Family Movies, Music & Musicals","When robbers hit Falkenstein castle, teen witc...",si,,,,,,,2017-04-15,,Teens,False,False
5049,s5543,TV Show,Burned Cocoon,,"Yavuz Bingöl, Basak Köklükaya, Çolpan Ilhan, M...",Turkey,"April 1, 2017",2005,TV-MA,,"International TV Shows, TV Dramas",A secret marriage unites two families – one we...,si,,,,,,,2017-04-01,,Adults,False,False
7101,s7390,Movie,Malicious,Michael Winnick,"Bojana Novakovic, Josh Stewart, Delroy Lindo, ...",United States,"February 1, 2019",2018,TV-MA,,Horror Movies,"After receiving a strange present, a professor...",si,,,,,,,2019-02-01,,Adults,False,False


#### Ejercicio 5: Clasificación de películas por década

En este ejercicio, tu objetivo es categorizar los años de lanzamiento de las películas o series en décadas. La columna `release_year` contiene el año de lanzamiento y debes crear una nueva columna llamada `decade` que indique la década correspondiente, como "1990s", "2000s", etc.


In [141]:
df.release_year.unique()

array([2020, 2021, 2015, 2013, 2018, 2017, 2019, 2014, 2016, 1992, 2011,
       2010, 2008, 2001, 2004, 2007, 2006, 2003, 2012, 1981, 2009, 1996,
       1964, 2002, 1999, 1994, 2005, 1998, 1990, 1988, 1982, 1945, 1997,
       1993, 1989, 1987, 1991, 1986, 1984, 1954, 1979, 1980, 1961, 2000,
       1975, 1958, 1956, 1963, 1970, 1985, 1973, 1976, 1995, 1925, 1978,
       1983, 1972, 1974, 1960, 1966, 1971, 1962, 1959, 1969, 1977, 1967,
       1968, 1965, 1946, 1942, 1955, 1944, 1947, 1943])

In [142]:
df["prueba"] = pd.cut(df["release_year"], [1900,1910,1920,1930,1940,1950,1960,1970,1980,1990,2000,2010,2020, 2030], labels=["pre1990", "1910s", "1920s", "1930s", "1940s", "1950s", "1960s", "1970s", "1980s", "1990s", "2000s", "2010s", "2020s"])
df.sample(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,titulo,Genre,Premiere,Runtime,IMDB Score,Language,original,date_added1,duration1,rating_mod,has_famous_actor,is_recent,prueba
7485,s7736,Movie,Philadelphia,Jonathan Demme,"Tom Hanks, Denzel Washington, Jason Robards, M...",United States,"July 1, 2019",1993,PG-13,126 min,"Classic Movies, Dramas, LGBTQ Movies",Philadelphia attorney Andrew Beckett launches ...,si,,,,,,,2019-07-01,126.0,Teens,False,False,1990s
5447,s5901,TV Show,Wet Hot American Summer,,"Elizabeth Banks, Lake Bell, H. Jon Benjamin, M...",United States,"July 31, 2015",2015,TV-MA,,TV Comedies,It's the first day of camp in this outrageous ...,si,,,,,,,2015-07-31,,Adults,False,False,2010s
2392,s3151,Movie,6 Underground,Michael Bay,"Ryan Reynolds, Mélanie Laurent, Corey Hawkins,...",United States,"December 13, 2019",2019,R,129 min,"Action & Adventure, Dramas","After faking his death, a tech billionaire rec...",si,Action,"December 13, 2019",128.0,6.1,English,si,2019-12-13,129.0,Adults,False,True,2010s
1114,s2000,Movie,Hope Frozen: A Quest to Live Twice,Pailin Wedel,,"Thailand, United States","September 15, 2020",2020,TV-PG,80 min,"Documentaries, International Movies",A Thai scientist and his family decide to cryo...,si,Documentary,"September 15, 2020",80.0,6.7,Thia/English,si,2020-09-15,80.0,,False,True,2010s
5761,s6184,Movie,Are We Done Yet?,Khaled El Halafawy,"Ahmed Eid, Ayten Amer, Ahmed Fouad Selim, Mohs...",Egypt,"August 1, 2019",2018,TV-14,,"Comedies, Dramas, International Movies","When authorities arrest his young son, a taxi ...",si,,,,,,,2019-08-01,,Teens,False,False,2010s


#### Ejercicio 6: Extracción de información

Para practicar la extracción de información:

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.


In [143]:
df["first_actor"] = df['cast'].str.split(',', expand=True)[0]
df.sample(3)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,titulo,Genre,Premiere,Runtime,IMDB Score,Language,original,date_added1,duration1,rating_mod,has_famous_actor,is_recent,prueba,first_actor
3000,s37,Movie,The Stronghold,Cédric Jimenez,"Gilles Lellouche, Karim Leklou, François Civil...",,"September 17, 2021",2021,TV-MA,,"Action & Adventure, Dramas, International Movies","Tired of the small-time grind, three Marseille...",si,,,,,,,2021-09-17,,Adults,False,True,2020s,Gilles Lellouche
7607,s7846,Movie,Red Oleanders Raktokarobi,Amitava Bhattacharya,"Shantilal Mukherjee, Mumtaz Sorcar, Rahul, Kou...",India,"September 15, 2018",2017,TV-14,112 min,"Dramas, International Movies",When a theater group stages a production of a ...,si,,,,,,,2018-09-15,112.0,Teens,False,False,2010s,Shantilal Mukherjee
7835,s8050,Movie,Soekarno,Hanung Bramantyo,"Ario Bayu, Lukman Sardi, Maudy Koesnaedi, Tant...",Indonesia,"January 5, 2019",2013,TV-MA,142 min,"Dramas, International Movies",This biographical drama about Indonesia's firs...,si,,,,,,,2019-01-05,142.0,Adults,False,False,2010s,Ario Bayu


In [144]:
df["first_director"] = df['director'].str.split(',', expand=True)[0]

#### Ejercicio 7: Limpieza de la columna `cast`

La columna `cast` contiene una lista de actores separados por comas. Tu objetivo es realizar las siguientes tareas:

1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).


In [145]:
df["cast"] = df["cast"].fillna("sin información")

In [None]:
df["numcast"] = df["cast"].apply(lambda x: 0 if x == "sin información" else len(x.split(",")))
df.sample(6)

In [146]:
df["cast"] = df["cast"].str.strip().str.lower()


#### Ejercicio 8: Identificación de Directores Recurrentes

En este ejercicio, debes identificar los directores que aparecen más de una vez en el conjunto de datos. Realiza los siguientes pasos:

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.

In [147]:
df["director"] = df["director"].fillna("sin información")

In [151]:
numero_director = df["first_director"].value_counts().reset_index()
numero_director

Unnamed: 0,first_director,count
0,Rajiv Chilaka,22
1,Raúl Campos,18
2,Suhas Kadav,16
3,Marcus Raboy,16
4,Jay Karas,15
...,...,...
4400,Robert Pulcini,1
4401,Pedro Antonio,1
4402,Stephen Kijak,1
4403,Jonathan Liebesman,1


In [152]:
for x in numero_director["first_director"]:
    count_value = numero_director[numero_director["first_director"] == x]["count"].iloc[0]
    if count_value > 1:
        print ("Yes")
    else:
        print ("No")

Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes
Yes


In [153]:
df["recurrent_director"] = df["first_director"].apply(lambda x: "Yes" if any(x == numero_director["first_director"]) and numero_director[numero_director["first_director"] == x]["count"].iloc[0] > 1 else "No")

In [154]:
df.recurrent_director.unique()

array(['No', 'Yes'], dtype=object)