<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Limpieza de Datos

En este laboratorio usaremos el DataFrame de Netflix completo creado en los primeros laboratorios de Pandas. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Documenta todas las funciones creadas durante el ejercicio. 

4. Debes incluir después de cada gráfica la interpretación de las mismas en una celda de markdown. 

In [186]:
#Importo la libreria de pandas
import pandas as pd

In [187]:
#Importo la libreria de numpy
import numpy as np

In [188]:
#Configuro para que al ejecutar aparezcan todas las columnas de la base de datos
pd.set_option("display.max_columns", None)

In [189]:
#Importo el csv de netflix con el que voy a trabajar
df_netflix_final = pd.read_csv("datos/Netflix_union_final.csv", index_col = 0)
df_netflix_final.head()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,October,2020.0,Viernes,Yes
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,,,,


## Parte 1: Limpieza y Preparación de Datos

#### Ejercicio 1: Estandarización y limpieza de columnas

En este ejercicio, debes limpiar y estandarizar algunas columnas clave para hacerlas más manejables y consistentes en tus análisis. Específicamente, trabajarás con las columnas `date_added` y `duration` para convertirlas a un formato uniforme y estructurado.

Instrucciones:

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.


**Resultado Esperado:**
Deberás obtener algo como esto:

| duration   | duration_cleaned |
|------------|-----------------|
| 1 Season   | 1               |
| 90 min     | 90              |
| 2 Seasons  | 2               |
| 45 min     | 45              |
| 3 Seasons  | 3               |

In [190]:
#Me saco un ejemplo para comenzar observando las dos columnas con las que voy a trabajar (Date_added y Duration)
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
1858,s1859,Movie,Fida,Ken Ghosh,"Fardeen Khan, Kareena Kapoor, Shahid Kapoor, K...",India,2020-10-13,2004,TV-14,117 min,"International Movies, Romantic Movies, Thrillers",An all-around nice guy finds himself in a dang...,,,,,,,,,


In [191]:
#Confirmo que la columna Date_added es de tipo object
df_netflix_final["Date_added"].dtypes

dtype('O')

In [192]:
#Cambio el tipo de dato de la columna Date_added de object a datetime
df_netflix_final["Date_added"] = pd.to_datetime(df_netflix_final["Date_added"])

In [193]:
#Confirmo que el cambio se ha realizado correctamente
df_netflix_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Show_id         8807 non-null   object        
 1   Type            8807 non-null   object        
 2   Title           8807 non-null   object        
 3   Director        6173 non-null   object        
 4   Cast            7982 non-null   object        
 5   Country         7976 non-null   object        
 6   Date_added      8797 non-null   datetime64[ns]
 7   Release_year    8807 non-null   int64         
 8   Rating          8803 non-null   object        
 9   Duration        3994 non-null   object        
 10  Listed_in       8807 non-null   object        
 11  Description     8807 non-null   object        
 12  Genre           513 non-null    object        
 13  Premiere        513 non-null    object        
 14  Runtime         513 non-null    float64       
 15  IMDB_scor

In [194]:
#Compruebo que aspecto tiene esta columna después de hacer el cambio del tipo de dato y parece que esta correcto
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
4749,s4750,Movie,Coco y Raulito: Carrusel de ternura,"Raúl Campos, Jan Suter","Coco Celis, Raúl Meneses",Mexico,2018-07-27,2018,TV-MA,,Stand-Up Comedy,"A study in contrasts, comedy partners and good...",,,,,,,,,


Para crear la nueva columna Duration_cleaned que solo contenga el número de temporadas y minutos voy a utilizar el método str.split() indicando que me divida la cadena de la columna Duration por el espacio (esto me generaría una lista con los dos elementos). En el índice 0 estaría la información que queremos para la nueva columna (el número de temporadas o minutos) y en el índice 1 estaría información que no queremos para la nueva columna ("Seasons" o "min"). Por tanto, lo que voy a hacer es a continuación del método indicar que para la nueva columna quiero el primer índice (el 0), es decir, la primera parte del split. He visitado la siguiente página: https://saturncloud.io/blog/how-to-extract-first-and-last-words-from-strings-as-a-new-column-in-pandas/ 

In [195]:
#Creación de la nueva columna Duration_cleaned a partir de Duration con el método split
df_netflix_final["Duration_cleaned"] = df_netflix_final["Duration"].str.split(" ").str[0]

In [196]:
#Compruebo que se han generado bien
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned
8430,s8431,Movie,The Muppets,James Bobin,"Jason Segel, Amy Adams, Chris Cooper, Rashida ...",United States,2020-09-01,2011,PG,104 min,"Children & Family Movies, Comedies",When the Muppets learn that their beloved thea...,,,,,,,,,,104


#### Ejercicio 2: Normalización de la columna `rating`

La columna `rating` tiene diferentes calificaciones como `PG`, `PG-13`, `R`, entre otras. Debes categorizar estas calificaciones en tres grupos:

- **'General Audience'** para calificaciones como `G`, `PG`.

- **'Teens'** para calificaciones como `PG-13`, `TV-14`.

- **'Adults'** para calificaciones como `R`, `TV-MA`.


In [197]:
#Para poder categorizar todas las calificaciones lo primero que hago es sacar los valores únicos de Rating
df_netflix_final["Rating"].unique()

array(['PG-13', 'TV-MA', 'PG', 'TV-14', 'TV-PG', 'TV-Y', 'TV-Y7', 'R',
       'TV-G', 'G', 'NC-17', '74 min', '84 min', '66 min', 'NR', nan,
       'TV-Y7-FV', 'UR'], dtype=object)

Le he pedido a Chatgpt que me agrupe las calificaciones en los 3 grupos de audiencia general, adolescentes y adultos (excepto los valores nulos y los valores erróneos de duración en esta columna que se van a quedar como nulos también). Además las calificaciones de NR y UR las voy a meter en una categoría llamada "Not Classified". Me ha devuelto el siguiente diccionario:
rating_groups = {
    'TV-Y': 'Audiencia General',
    'TV-Y7': 'Audiencia General',
    'TV-Y7-FV': 'Audiencia General',
    'TV-G': 'Audiencia General',
    'G': 'Audiencia General',
    'PG': 'Audiencia General',
    'TV-PG': 'Audiencia General',
    'PG-13': 'Adolescentes',
    'TV-14': 'Adolescentes',
    'R': 'Adultos',
    'NC-17': 'Adultos',
    'TV-MA': 'Adultos'
}

In [198]:
#Antes de nada identifico los 3 registros donde en Rating aparece erróneamente la duración
categorias_incorrectas = ["66 min", "74 min", "84 min"]
df_rating_incorrecto = df_netflix_final[df_netflix_final["Rating"].isin(categorias_incorrectas)]
df_rating_incorrecto

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned
5541,s5542,Movie,Louis C.K. 2017,Louis C.K.,Louis C.K.,United States,2017-04-04,2017,74 min,,Movies,"Louis C.K. muses on religion, eternal love, gi...",,,,,,,,,,
5794,s5795,Movie,Louis C.K.: Hilarious,Louis C.K.,Louis C.K.,United States,2016-09-16,2010,84 min,,Movies,Emmy-winning comedy writer Louis C.K. brings h...,,,,,,,,,,
5813,s5814,Movie,Louis C.K.: Live at the Comedy Store,Louis C.K.,Louis C.K.,United States,2016-08-15,2015,66 min,,Movies,The comic puts his trademark hilarious/thought...,,,,,,,,,,


In [199]:
#Las duraciones las paso correctamente a la columna de Duration
df_netflix_final.iloc[5541,9] = "74 min"
df_netflix_final.iloc[5794,9] = "84 min"
df_netflix_final.iloc[5813,9] = "66 min"

In [200]:
#Voy a generar una funcion llamada categorias_rating donde primero le paso 3 listas una cada cada grupo y luego se va a ir comprobando para cada registro dentro de que lista está de las 3 y en función de en cual esté lo que devolverá será "General Audience", "Teens", "Adults" o lo dejará como nulo si no está en ninguna
def categorias_rating(rating):
    audiencia_general = ["TV-Y", "TV-Y7", "TV-Y7-FV", "TV-G", "TV-PG", "G", "PG"]
    adolescentes = ["PG-13", "TV-14"]
    adultos = ["R", "TV-MA", "NC-17"]
    sin_clasificar = ["NR", "UR"]
    if rating in audiencia_general:
        return "General Audience"
    elif rating in adolescentes:
        return "Teens"
    elif rating in adultos:
        return "Adults"
    elif rating in sin_clasificar:
        return "Not Classified"
    else:
        return np.nan

In [201]:
#Me voy a generar una nueva columna con estas calificaciones concretas categorizadas y voy a emplear el método apply para la categorizacion
df_netflix_final["Rating_categorized"] = df_netflix_final["Rating"].apply(categorias_rating)

In [202]:
#Voy a observar la nueva columna creada y comprobar que se ha categorizado correctamente
df_netflix_final.tail()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,,,,158.0,Adults
8803,s8804,TV Show,Zombie Dumb,,,,2019-07-01,2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,,,,,2.0,General Audience
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,,,,,Adults
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,,,,,General Audience
8806,s8807,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,2019-03-02,2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...,,,,,,,,,,111.0,Teens


Ahora, ya dispongo de una columna con las calificaciones categorizadas. Dispongo de 4 grupos y los registros que era nulos se mantienen como nulos, al igual que los 3 corregidos que ahora se mantendrán con valores nulos en esta columna de Rating.

#### Ejercicio 3: Creación de una columna personalizada basada en el elenco

Vamos a identificar si un actor clave como `Leonardo DiCaprio`, `Tom Hanks`, o `Morgan Freeman` aparece en el elenco.

Usa `apply` y una función lambda para crear una nueva columna llamada `has_famous_actor` que contenga `True` si alguno de estos actores está en la lista de `cast` y `False` en caso contrario.

In [203]:
def actor_elenco(v):
    if valor_1 in ["High", "Very High"] and valor_2 in ["High", "Very High"]:
        return "feliz"
    elif valor_1 in ["Low", "Medium"] and valor_2 in ["Low", "Medium"]:
        return "infeliz"
    else:
        return "indiferente"

In [204]:
def actor_lista(lista):
    for actor in lista:
        if actor in ["Leonardo DiCaprio", "Tom Hanks", "Morgan Freeman"]:
            return True
        else:
            return False

#### Ejercicio 4: Creación de una columna personalizada usando lógica condicional

Vamos a crear una columna llamada `is_recent` que identifique si un título fue lanzado en los últimos 5 años.

Crea una función para marcar con `True` si el título es reciente (lanzado en los últimos 5 años) y `False` si no lo es.

In [205]:
#Me saco los valores unicos (ordenados) de la columna de año de lanzamiento para observar cuales son los últimos 5 años en la base de datos
df_netflix_final["Release_year"].sort_values().unique()

array([1925, 1942, 1943, 1944, 1945, 1946, 1947, 1954, 1955, 1956, 1958,
       1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969,
       1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980,
       1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991,
       1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002,
       2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013,
       2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021])

In [206]:
#Creo una funcion donde va a entrar el año de lanzamiento y si ese año esta dentro de la lista que contiene los ultimos 5 años (2017, 2018, 2019, 2020 y 2021) entonces va a devolver True, y si no está dentro de la lista devuelve False
def lanzado_ultimos_años(año):
    ultimos_años = [2017, 2018, 2019, 2020, 2021]
    if año in ultimos_años:
        return True
    else:
        return False

In [207]:
#Creo la nueva columna llamando a la de Release_year a la que le aplico la función creada 
df_netflix_final["Is_recent"] = df_netflix_final["Release_year"].apply(lanzado_ultimos_años)

In [208]:
#Compruebo que la nueva columna se ha generado correctamente y funciona bien
df_netflix_final.tail()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized,Is_recent
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,,,,158.0,Adults,False
8803,s8804,TV Show,Zombie Dumb,,,,2019-07-01,2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,,,,,2.0,General Audience,True
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,,,,,Adults,False
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,,,,,General Audience,False
8806,s8807,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,2019-03-02,2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...,,,,,,,,,,111.0,Teens,False


#### Ejercicio 5: Clasificación de películas por década

En este ejercicio, tu objetivo es categorizar los años de lanzamiento de las películas o series en décadas. La columna `release_year` contiene el año de lanzamiento y debes crear una nueva columna llamada `decade` que indique la década correspondiente, como "1990s", "2000s", etc.


In [209]:
#Sacamos los valores únicos de Release_year para observar el año mínimo y máximo del que disponemos 
df_netflix_final["Release_year"].sort_values().unique()

array([1925, 1942, 1943, 1944, 1945, 1946, 1947, 1954, 1955, 1956, 1958,
       1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969,
       1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980,
       1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991,
       1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002,
       2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013,
       2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021])

Con los años ordenados, contamos con películas lanzadas desde 1925 hasta 2021, es decir, vamos a categorizarla y vamos a contar con las siguientes décadas: desde 1920s hasta 2020s. Voy a utilizar el método pd.cut para categorizar los años de lanzamiento por décadas.

In [210]:
#Lo primero que hago es definir los límites de los intervalos. Como por defecto right=True los intervalos serán: (1919,1929], (1929, 1939], (1939, 1949] ...
bins = [1919, 1929, 1939, 1949, 1959, 1969, 1979, 1989, 1999, 2009, 2019, 2029]

#Lo segundo, defino las etiquetas (décadas) para cada intervalo. Es decir, para el primer intervalo: (1919, 1929] la etiqueta será: "1920s" y así sucesivamente. 
labels = ['1920s', '1930s', '1940s', '1950s', '1960s', '1970s', '1980s', '1990s', '2000s', '2010s', '2020s']

#Por último, creo la columna Decade que va a ser la categorizada. Empleo el método pd.cut llamando a la columna de año de lanzamiento y meto los intervalos y las etiquetas previamente definidas.
df_netflix_final["Decade"] = pd.cut(df_netflix_final["Release_year"], bins=bins, labels=labels)

#Compruebo que se ha generado correctamente la columna
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized,Is_recent,Decade
4925,s4926,TV Show,The Chalet,,"Chloé Lambert, Philippe Dusseau, Emilie de Pre...",France,2018-04-17,2018,TV-MA,,"Crime TV Shows, International TV Shows, TV Dramas",Friends gathered at a remote chalet in the Fre...,,,,,,,,,,,Adults,True,2010s


#### Ejercicio 6: Extracción de información

Para practicar la extracción de información:

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.


Para este ejercicio voy a utilizar el método str.split() de la misma forma que en el ejercicio 1, solo que en este caso en vez de separar por espacio separo por coma

In [211]:
#Genero la nueva columna First_actor a partir de la columna Cast aplicando el método split y quedándome con el primer elemento (índice 0)
df_netflix_final["First_actor"] = df_netflix_final["Cast"].str.split(",").str[0]
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized,Is_recent,Decade,First_actor
5517,s5518,Movie,The 101-Year-Old Man Who Skipped Out on the Bi...,"Felix Herngren, Måns Herngren","Robert Gustafsson, Jens Hultén, Caroline Boult...",Sweden,2017-04-25,2016,TV-MA,,"Comedies, International Movies","In need of money, an eccentric ex-spy and his ...",,,,,,,,,,,Adults,False,2010s,Robert Gustafsson


In [212]:
#De la misma forma, genero la columna First_name_director a partir de la columna Director
df_netflix_final["First_name_director"] = df_netflix_final["Director"].str.split(",").str[0]
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized,Is_recent,Decade,First_actor,First_name_director
7191,s7192,Movie,Kickboxer: Retaliation,Dimitri Logothetis,"Alain Moussi, Jean-Claude Van Damme, Mike Tyso...",United States,2018-04-26,2017,R,110 min,Action & Adventure,Sloan's vow to never return to Thailand is cut...,,,,,,,,,,110,Adults,True,2010s,Alain Moussi,Dimitri Logothetis


#### Ejercicio 7: Limpieza de la columna `cast`

La columna `cast` contiene una lista de actores separados por comas. Tu objetivo es realizar las siguientes tareas:

1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).


In [213]:
#Reemplazo los valores nulos de la columna Cast por "sin informacion" con el metodo fillna() con un valor específico
df_netflix_final["Cast"] = df_netflix_final["Cast"].fillna("Sin informacion")
df_netflix_final.head()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized,Is_recent,Decade,First_actor,First_name_director
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,Sin informacion,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,October,2020.0,Viernes,Yes,90.0,Teens,True,2020s,,Kirsten Johnson
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,,,,2.0,Adults,True,2020s,Ama Qamata,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,,,,Adults,True,2020s,Sami Bouajila,Julien Leclercq
3,s4,TV Show,Jailbirds New Orleans,,Sin informacion,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,,,,,,Adults,True,2020s,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,,,,,2.0,Adults,True,2020s,Mayur More,


In [None]:
#Defino una funcion que cuente el numero de actores y actrices: si entra "sin informacion" devuelve lo mismo. Si entra una lista de actores y actrices lo que hace es aplicar el metodo split (separando por comas) que genera una lista de python donde cada elemento es cada nombre. Por último, para sacar el número lo que devuelve la función es la longitud de esa lista.
def contar_actores(actores):
    if actores == "Sin informacion":
        return actores
    else:
        lista_actores = actores.split(",")
        return len(lista_actores)

In [261]:
#Genero la columna nueva num_cast aplicando a la columna Cast la función previamente definida 
df_netflix_final["Num_cast"] = df_netflix_final["Cast"].apply(contar_actores)
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized,Is_recent,Decade,First_actor,First_name_director,Num_cast
8563,s8564,Movie,The Workshop,Laurent Cantet,"Marina Foïs, Matthieu Lucci, Warda Rammach, Is...",France,2018-11-10,2017,TV-MA,,"Dramas, International Movies","In an old shipyard town in France, sociopoliti...",,,,,,,,,,,Adults,True,2010s,Marina Foïs,Laurent Cantet,10


In [287]:
#Para asegurarme de que los nombres están en un formato consistente, voy a str.strip() que va a eliminar los espacios en blanco al principio y al final de cada cadena
df_netflix_final["Cast"] = df_netflix_final["Cast"].str.strip()
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized,Is_recent,Decade,First_actor,First_name_director,Num_cast
6462,s6463,Movie,Chhota Bheem Ka Romani Adventure,"Asit Mohapatra, Shyamal Chaulia","Julie Tejwani, SABINA MALIK, Jigna Bharadhwaj,...",,2019-05-10,2018,TV-Y7,62 min,Children & Family Movies,Bheem and King Indraverma travel to Rome for a...,,,,,,,,,,62,General Audience,True,2010s,Julie Tejwani,Asit Mohapatra,9



#### Ejercicio 9: Identificación de Directores Recurrentes

En este ejercicio, debes identificar los directores que aparecen más de una vez en el conjunto de datos. Realiza los siguientes pasos:

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.