<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Limpieza de Datos

En este laboratorio usaremos el DataFrame de Netflix completo creado en los primeros laboratorios de Pandas. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Documenta todas las funciones creadas durante el ejercicio. 

4. Debes incluir después de cada gráfica la interpretación de las mismas en una celda de markdown. 

In [204]:
import pandas as pd
import numpy as np
pd.set_option('display.max_columns', None)

In [205]:
df = pd.read_csv("../10.python_limpiezadatos/union_netflix.csv")

In [206]:
df.sample(2)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
6022,,,,,,,,s7922,Movie,Saheb Bibi Golaam,Pratim D. Gupta,"Anjan Dutt, Swastika Mukherjee, Ritwick Chakra...",India,"January 1, 2017",2016,TV-MA,118 min,"Dramas, International Movies","A charming cabbie, a cop turned assassin and a..."
1312,,,,,,,,s6408,TV Show,Call Me Francis,,"Rodrigo de la Serna, Sergio Hernández, Mercede...",Italy,"December 16, 2016",2016,TV-14,,"International TV Shows, Spanish-Language TV Sh...","On his path to becoming Pope Francis, Father J..."


## Parte 1: Limpieza y Preparación de Datos

#### Ejercicio 1: Estandarización y limpieza de columnas

En este ejercicio, debes limpiar y estandarizar algunas columnas clave para hacerlas más manejables y consistentes en tus análisis. Específicamente, trabajarás con las columnas `date_added` y `duration` para convertirlas a un formato uniforme y estructurado.

Instrucciones:

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.


**Resultado Esperado:**
Deberás obtener algo como esto:

| duration   | duration_cleaned |
|------------|-----------------|
| 1 Season   | 1               |
| 90 min     | 90              |
| 2 Seasons  | 2               |
| 45 min     | 45              |
| 3 Seasons  | 3               |

In [207]:
df.columns #Mostramos todas las columnas para poder trabajar sobre el ejercicio.

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'Originals', 'show_id', 'type', 'title', 'director', 'cast', 'country',
       'date_added', 'release_year', 'rating', 'duration', 'listed_in',
       'description'],
      dtype='object')

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

In [208]:
df["date_datetime"] = pd.to_datetime(df["date_added"], format="%m-%d-%Y", errors="coerce") #convertimos la columna "date_added" en formato fecha y la añdimos a una nueva columna llamanda "date_datetime"


2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.

In [209]:
df["duration_string"] = df["duration"].astype(str) #Convertimos a str la columna duration para poder hacer el ejercicio planteado.
df[["duration_cleaned","duration_time/season"]] = df["duration_string"].str.split(' ', expand = True) #Hacemos un str.split para poder separar en columnas las dos partes de la columna duration (1 y season), el separador es un espacio y le decimos expand=true para que nos lo divida en dos columnas.
df[["duration","duration_cleaned"]].sample(2) #Mostramos las dos columnas que nos interesan para terminar el ejercicio.

Unnamed: 0,duration,duration_cleaned
5037,,
2080,,


#### Ejercicio 2: Normalización de la columna `rating`

La columna `rating` tiene diferentes calificaciones como `PG`, `PG-13`, `R`, entre otras. Debes categorizar estas calificaciones en tres grupos:

- **'General Audience'** para calificaciones como `G`, `PG`.

- **'Teens'** para calificaciones como `PG-13`, `TV-14`.

- **'Adults'** para calificaciones como `R`, `TV-MA`.


In [210]:
df["rating"].unique()

array(['TV-MA', 'TV-14', 'TV-G', 'TV-PG', 'NR', 'PG-13', 'TV-Y', 'R', nan,
       'TV-Y7', 'PG', 'G', 'NC-17', 'TV-Y7-FV', 'UR', '74 min', '84 min',
       '66 min'], dtype=object)

In [211]:
calificaciones_rating = {'G':'General Audience', #Hacemos un diccionario con los valores sobre los que se nos pide hacer el ejercicio y los nombramos como se nos pide.
                         'PG': 'General Audience',
                         'PG-13': 'Teens',
                         'TV-14': 'Teens',
                         'R': 'Adults',
                         'TV-MA': 'Adults'}

df["rating_qualifications"] = df["rating"].map(calificaciones_rating) #Hacemos un mapeo a partir del diccionario creado y así nos lo divide en función de las calificaciones.
    

In [212]:
df[["rating","rating_qualifications"]].sample(10)

Unnamed: 0,rating,rating_qualifications
5488,TV-MA,Adults
4726,TV-MA,Adults
875,PG-13,Teens
5900,TV-PG,
970,TV-MA,Adults
3134,TV-Y7,
8793,TV-14,Teens
6605,TV-MA,Adults
984,TV-PG,
1657,R,Adults


#### Ejercicio 3: Creación de una columna personalizada basada en el elenco

Vamos a identificar si un actor clave como `Leonardo DiCaprio`, `Tom Hanks`, o `Morgan Freeman` aparece en el elenco.

Usa `apply` y una función lambda para crear una nueva columna llamada `has_famous_actor` que contenga `True` si alguno de estos actores está en la lista de `cast` y `False` en caso contrario.

In [213]:
df["cast"].unique()

array(['Yoo Ah-in, Park Shin-hye', 'Helen Mirren, Gengher Gatti',
       'Adipati Dolken, Vanesha Prescilla, Rendi Jhon, Beby Tsabina, Denira Wiraguna, Refal Hady, Diandra Agatha, Sari Nila',
       ...,
       'Si-kyung Sung, Se-yoon Yoo, Dong-yup Shin, Ji-woong Heo, Sam Hammington',
       'Baek Yoon-sik',
       'Um Sang-hyun, Yang Jeong-hwa, Jeon Tae-yeol, Shin Yong-woo, Lee So-young, So-yeon'],
      dtype=object)

In [216]:
actores_clave = ["Leonardo DiCaprio", "Tom Hanks", "Morgan Freeman"] #creamos una lista con los actores que queremos buscar.

df["has_famous_actor"] = df["cast"].apply( #hacemos unlambda y un apply como nos pide el enunciado con una fucnión para que nos devuelva true si cualquiera de los actores que aparecen en la lista "actores_clave".
    lambda x: any(actor in str(x) for actor in actores_clave)
)

In [550]:
true_actor = df["has_famous_actor"] == True #hacemos un filtrado para mostrar todos los True que nos da la columna nueva creada.

df_actor = df[true_actor]
df_actor[["cast","has_famous_actor"]]

Unnamed: 0,cast,has_famous_actor
107,"Josh Pais, Claire van der Boom, Morgan Freeman...",True
467,"Morgan Freeman, Monica Potter, Michael Wincott...",True
541,"Robert Redford, Jennifer Lopez, Morgan Freeman...",True
565,"Gerard Butler, Morgan Freeman, Nick Nolte, Dan...",True
569,"Tom Hanks, Ewan McGregor, Ayelet Zurer, Stella...",True
891,Leonardo DiCaprio,True
1380,"Leonardo DiCaprio, Tom Hanks, Christopher Walk...",True
1594,"Tom Hanks, Halle Berry, Jim Broadbent, Hugo We...",True
1909,"Tom Hanks, Marina Goldman",True
2012,"Jamie Foxx, Christoph Waltz, Leonardo DiCaprio...",True


#### Ejercicio 4: Creación de una columna personalizada usando lógica condicional

Vamos a crear una columna llamada `is_recent` que identifique si un título fue lanzado en los últimos 5 años.

Crea una función para marcar con `True` si el título es reciente (lanzado en los últimos 5 años) y `False` si no lo es.

In [9]:
df.head(1)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,date_datetime,duration_string,duration_cleaned,duration_time/season,rating_qualifications
0,,,,,,,,s2037,Movie,#Alive,Cho Il,"Yoo Ah-in, Park Shin-hye",South Korea,"September 8, 2020",2020,TV-MA,,"Horror Movies, International Movies, Thrillers","As a grisly virus rampages a city, a lone man ...",NaT,,,,Adults


In [10]:
def lanzamiento(año): #Hacemos una función llamada lanzamiento a la cuál le decimos que si el año mayor o igual que 2019 nos devuelva True, y sino False para obtener los títulos obtenidos en los últimso 5 años (en base a la base de datos).
    if año >= 2019:
        return True
    else:
        return False
    
df["is_recent"] = df["release_year"].apply(lanzamiento)  #Hacemos un apply con la función definida anteriormente y en una nueva columna llamada "is_recent" sobre la columna "release_year"


In [11]:
df[["release_year", "is_recent"]].sample(10)

Unnamed: 0,release_year,is_recent
5817,2014,False
8024,2019,True
7272,2021,True
1478,2013,False
4386,2017,False
276,2015,False
7299,2019,True
2964,2014,False
8682,2021,True
6240,2002,False


#### Ejercicio 5: Clasificación de películas por década

En este ejercicio, tu objetivo es categorizar los años de lanzamiento de las películas o series en décadas. La columna `release_year` contiene el año de lanzamiento y debes crear una nueva columna llamada `decade` que indique la década correspondiente, como "1990s", "2000s", etc.


In [12]:
df.head(1)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,date_datetime,duration_string,duration_cleaned,duration_time/season,rating_qualifications,is_recent
0,,,,,,,,s2037,Movie,#Alive,Cho Il,"Yoo Ah-in, Park Shin-hye",South Korea,"September 8, 2020",2020,TV-MA,,"Horror Movies, International Movies, Thrillers","As a grisly virus rampages a city, a lone man ...",NaT,,,,Adults,True


In [18]:
df["release_year"].sort_values().unique()

array([1925, 1942, 1943, 1944, 1945, 1946, 1947, 1954, 1955, 1956, 1958,
       1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969,
       1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980,
       1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991,
       1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002,
       2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013,
       2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021])

In [28]:
def decada(año): #hacemos una función para que nos devuelva cada década diciendo que si el año está entre el 0 y el 9 de cada década nos devuelva el str que queremos.
    if 1920 <= año <= 1929:
        return "1920s"
    elif 1930 <= año <= 1939:
        return "1930s"
    elif 1940 <= año <= 1949:
        return "1940s"
    elif 1950 <= año <= 1959:
        return "1950s"
    elif 1960 <= año <= 1969:
        return "1960s"
    elif 1970 <= año <= 1979:
        return "1970s"
    elif 1980 <= año <= 1989:
        return "1980s"
    elif 1990 <= año <= 1999:
        return "1990s"
    elif 2000 <= año <= 2009:
        return "2000s"
    elif 2010 <= año <= 2019:
        return "2010s"
    else:
        return "2020s"
    

df["decade"] = df["release_year"].apply(decada) #Utilizamos un apply con la función definida
df.sample(2)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,date_datetime,duration_string,duration_cleaned,duration_time/season,rating_qualifications,is_recent,decade
1523,,,,,,,,s6477,Movie,Christian Mingle,Corbin Bernsen,"Lacey Chabert, Jonathan Patrick Moore, Saidah ...",United States,"June 6, 2019",2014,PG,,"Comedies, Faith & Spirituality, Romantic Movies",A career woman who has everything but romance ...,NaT,,,,General Audience,False,2010s
1026,,,,,,,,s479,TV Show,Biohackers,,"Luna Wedler, Jessica Schwarz, Adrian Julius Ti...",Germany,"July 9, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",A medical student enters a top German universi...,NaT,2 Seasons,2.0,Seasons,Adults,True,2020s


In [30]:
df[["title", "release_year", "decade"]].sample(10)

Unnamed: 0,title,release_year,decade
3811,Kim's Convenience,2021,2020s
853,Bayonet,2019,2010s
7489,The Memphis Belle: A Story of a\nFlying Fortress,1944,1940s
754,Backtrack,2015,2010s
1985,Dil Se,1998,1990s
938,Best Neighbors,2014,2010s
201,A Little Help with Carol Burnett,2018,2010s
2877,Guzaarish,2010,2010s
7166,The Forest of Love: Deep Cut,2020,2020s
309,About Time,2013,2010s


#### Ejercicio 6: Extracción de información

Para practicar la extracción de información:

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.


In [127]:
df.head(1)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,,,,,,,,s2037,Movie,#Alive,Cho Il,"Yoo Ah-in, Park Shin-hye",South Korea,"September 8, 2020",2020,TV-MA,,"Horror Movies, International Movies, Thrillers","As a grisly virus rampages a city, a lone man ..."


In [128]:
df["cast"].unique()

array(['Yoo Ah-in, Park Shin-hye', 'Helen Mirren, Gengher Gatti',
       'Adipati Dolken, Vanesha Prescilla, Rendi Jhon, Beby Tsabina, Denira Wiraguna, Refal Hady, Diandra Agatha, Sari Nila',
       ...,
       'Si-kyung Sung, Se-yoon Yoo, Dong-yup Shin, Ji-woong Heo, Sam Hammington',
       'Baek Yoon-sik',
       'Um Sang-hyun, Yang Jeong-hwa, Jeon Tae-yeol, Shin Yong-woo, Lee So-young, So-yeon'],
      dtype=object)

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

In [None]:
df["first_actor"]= df["cast"].str.split(',',expand=True)[0] #Hacemos un split para separar el primer elemento de la columna "cast" y que nos lo devuelva en una columna nueva.
df.sample(2)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,first_actor
2802,,,,,,,,s645,Movie,Good on Paper,Kimmy Gatewood,"Iliza Shlesinger, Ryan Hansen, Margaret Cho, R...",,"June 23, 2021",2021,TV-MA,,"Comedies, Romantic Movies","After years of putting her career first, a sta...",Iliza Shlesinger
5335,,,,,,,,s5776,Movie,Pac's Scary Halloween,,"Erin Mathews, Sam Vincent, Andrea Libman, Ashl...",,"October 1, 2016",2016,TV-Y7,44 min,Movies,When sinister Dr. Pacenstein schemes to swap b...,Erin Mathews


2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.

In [130]:
df["director"].unique()

array(['Cho Il', 'Sabina Fedeli, Anna Migotto', 'Rako Prijanto', ...,
       'Santwana Bardoloi', 'Hong-seon Kim', 'Young Jun Lee'],
      dtype=object)

In [None]:
df["first_name_director"]= df["director"].str.split(' ',expand=True)[0] #Replicamos el explit para separar el nombre de cada Director, en este caso la separación está hecha por un espacio, en vez de por una coma.
df.sample(2)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,first_actor,first_name_director
4496,,,,,,,,s5358,Movie,Maz Jobrani: Immigrant,Maz Jobrani,Maz Jobrani,,"August 1, 2017",2017,TV-14,,Stand-Up Comedy,Iranian American comic Maz Jobrani lights up t...,Maz Jobrani,Maz
3138,,,,,,,,s187,TV Show,Hometown Cha-Cha-Cha,,"Shin Min-a, Kim Seon-ho, Lee Sang-yi, Gong Min...",,"August 29, 2021",2021,TV-14,,"International TV Shows, Romantic TV Shows, TV ...",A big-city dentist opens up a practice in a cl...,Shin Min-a,


#### Ejercicio 7: Limpieza de la columna `cast`

La columna `cast` contiene una lista de actores separados por comas. Tu objetivo es realizar las siguientes tareas:

1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).


1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

In [132]:
df["cast"] = df["cast"].fillna("Sin información") #Hacemos una fucnión fillna para devolver el texto que queremos a todos los valores nulos de la columna.
df.sample(2)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,first_actor,first_name_director
5315,,,,,,,,s3979,Movie,Oversize Cops,"Chanon Yingyong, Phuwanit Pholdee","Sarun Cinsuvapala, Pramote Pathan, Suphachai S...",Thailand,"March 23, 2019",2017,TV-MA,,"Action & Adventure, Comedies, International Mo...","While investigating a bank robbery, a squad of...",Sarun Cinsuvapala,Chanon
5492,,,,,,,,s348,Movie,Planet 51,Jorge Blanco,"Justin Long, Dwayne Johnson, Gary Oldman, Sean...","Spain, United Kingdom, United States","August 1, 2021",2009,PG,,"Children & Family Movies, Comedies, Sci-Fi & F...",After landing on a planet reminiscent of 1950s...,Justin Long,Jorge


2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

In [133]:
df["cast"].unique()

array(['Yoo Ah-in, Park Shin-hye', 'Helen Mirren, Gengher Gatti',
       'Adipati Dolken, Vanesha Prescilla, Rendi Jhon, Beby Tsabina, Denira Wiraguna, Refal Hady, Diandra Agatha, Sari Nila',
       ...,
       'Si-kyung Sung, Se-yoon Yoo, Dong-yup Shin, Ji-woong Heo, Sam Hammington',
       'Baek Yoon-sik',
       'Um Sang-hyun, Yang Jeong-hwa, Jeon Tae-yeol, Shin Yong-woo, Lee So-young, So-yeon'],
      dtype=object)

In [134]:
numero_actores = df["cast"].str.split(',').str.len() #Hacemos un split entre , para separar el número de actores y hacemos un len() para que nos de el número de actores que hay.

df["num_cast"] = numero_actores


In [135]:
df.head(2)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,first_actor,first_name_director,num_cast
0,,,,,,,,s2037,Movie,#Alive,Cho Il,"Yoo Ah-in, Park Shin-hye",South Korea,"September 8, 2020",2020,TV-MA,,"Horror Movies, International Movies, Thrillers","As a grisly virus rampages a city, a lone man ...",Yoo Ah-in,Cho,2
1,,,,,,,,s2305,Movie,#AnneFrank - Parallel Stories,"Sabina Fedeli, Anna Migotto","Helen Mirren, Gengher Gatti",Italy,"July 1, 2020",2019,TV-14,,"Documentaries, International Movies","Through her diary, Anne Frank's story is retol...",Helen Mirren,Sabina,2


3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).

In [136]:
df["cast"] = df["cast"].str.split()

In [137]:
df.head(2)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,first_actor,first_name_director,num_cast
0,,,,,,,,s2037,Movie,#Alive,Cho Il,"[Yoo, Ah-in,, Park, Shin-hye]",South Korea,"September 8, 2020",2020,TV-MA,,"Horror Movies, International Movies, Thrillers","As a grisly virus rampages a city, a lone man ...",Yoo Ah-in,Cho,2
1,,,,,,,,s2305,Movie,#AnneFrank - Parallel Stories,"Sabina Fedeli, Anna Migotto","[Helen, Mirren,, Gengher, Gatti]",Italy,"July 1, 2020",2019,TV-14,,"Documentaries, International Movies","Through her diary, Anne Frank's story is retol...",Helen Mirren,Sabina,2



#### Ejercicio 9: Identificación de Directores Recurrentes

En este ejercicio, debes identificar los directores que aparecen más de una vez en el conjunto de datos. Realiza los siguientes pasos:

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

In [138]:
df["director"] = df["director"].fillna("Sin información") #Repetimos el método fillna par añadir "Sin información" a todos los valores nulos de la columna.

In [139]:
df.sample(2)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Originals,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,first_actor,first_name_director,num_cast
1048,,,,,,,,s6323,Movie,Black Hawk Down,Ridley Scott,"[Josh, Hartnett,, Ewan, McGregor,, Tom, Sizemo...","United States, United Kingdom","January 1, 2019",2001,R,144 min,"Action & Adventure, Dramas",When U.S. forces attempt to capture two underl...,Josh Hartnett,Ridley,20
749,,,,,,,,s4220,Movie,Back to the 90s,Yanyong Kuruaungkoul,"[Dan, Aaron, Ramnarong,, Pimchanok, Leuwisetpa...",Thailand,"January 1, 2019",2015,TV-14,111 min,"Comedies, International Movies, Music & Musicals",When a teenager is transported back to his par...,Dan Aaron Ramnarong,Yanyong,8


3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

In [149]:
numero_directores = df["first_name_director"].value_counts() #Hacemos un value_counts para contar cuántas veces aparece cada director en la columna creada en el ejercicio 6.
numero_directores = numero_directores.reset_index()
numero_directores

Unnamed: 0,first_name_director,count
0,David,111
1,Michael,91
2,John,77
3,Robert,52
4,Peter,48
...,...,...
2303,Andaç,1
2304,Brody,1
2305,Ayush,1
2306,Brodje,1


4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.

In [155]:
numero_directores_repetidos = df["first_name_director"].value_counts() > 1 #Hacemos un filtro para coger todos los datos que sean mayores que 1 en la columna "first_name_director"

def recurrent_director(director): #Definimos una fucnión que nos dice que por cada director que esté en el filtro creado, es decir, que sea mayor que 1, nos devuelva Yes y sino, No.
    if director in numero_directores_repetidos:
        return "Yes"
    else:
        return "No"

df["recurrent_director"] = df["first_name_director"].apply(recurrent_director) #Hacemos un apply para aplicar la función definida.

In [161]:
df[["recurrent_director","director"]]

Unnamed: 0,recurrent_director,director
0,Yes,Cho Il
1,Yes,"Sabina Fedeli, Anna Migotto"
2,Yes,Rako Prijanto
3,Yes,Rako Prijanto
4,Yes,Michael Kennedy
...,...,...
8802,No,Sin información
8803,No,Sin información
8804,No,Sin información
8805,Yes,Hong-seon Kim
