<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Limpieza de Datos

En este laboratorio usaremos el DataFrame de Netflix completo creado en los primeros laboratorios de Pandas. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Documenta todas las funciones creadas durante el ejercicio. 

4. Debes incluir después de cada gráfica la interpretación de las mismas en una celda de markdown. 

In [4]:
# Importamos las librerías a usar
import pandas as pd
import numpy as np
pd.set_option('display.max_columns', None)

In [5]:
# Carga del dataset de trabajo
netflix_final = pd.read_csv("netflix_final.csv", sep = ",").reset_index(drop = True)

In [6]:
# Revisamos que el dataset se ha cargado correctamente.
print(netflix_final.shape)
netflix_final.head(2)

(8807, 18)


Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,original
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,


## Parte 1: Limpieza y Preparación de Datos

#### Ejercicio 1: Estandarización y limpieza de columnas

En este ejercicio, debes limpiar y estandarizar algunas columnas clave para hacerlas más manejables y consistentes en tus análisis. Específicamente, trabajarás con las columnas `date_added` y `duration` para convertirlas a un formato uniforme y estructurado.

Instrucciones:

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.


**Resultado Esperado:**
Deberás obtener algo como esto:

| duration   | duration_cleaned |
|------------|-----------------|
| 1 Season   | 1               |
| 90 min     | 90              |
| 2 Seasons  | 2               |
| 45 min     | 45              |
| 3 Seasons  | 3               |

**1. Conversión de la columna `date_added`**

Queremos convertir el tipo de dato de los elementos de objeto a tipo fecha. Para ello nos crearemos una nueva columna con estos datos incialmente para ver que funciona.

In [7]:
# Comprobamos el tipo de dato de la columna date_added.
netflix_final["date_added"].info

<bound method Series.info of 0       September 25, 2021
1       September 24, 2021
2       September 24, 2021
3       September 24, 2021
4       September 24, 2021
               ...        
8802     November 20, 2019
8803          July 1, 2019
8804      November 1, 2019
8805      January 11, 2020
8806         March 2, 2019
Name: date_added, Length: 8807, dtype: object>

In [8]:
# Convertimos la columna a tipo fecha.
netflix_final["date_added"] = pd.to_datetime(netflix_final["date_added"], format = "mixed")

In [9]:
netflix_final["date_added"].info()

<class 'pandas.core.series.Series'>
RangeIndex: 8807 entries, 0 to 8806
Series name: date_added
Non-Null Count  Dtype         
--------------  -----         
8797 non-null   datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 68.9 KB


Para cambiar el tipo de dato hemos hecho uso de la función de pandas `to_datetime`, la cual cambia el tipo de dato de objeto a tipo fecha.

**2.  Limpieza de la columna `duration`**

La principal característica de esta columna es que tenemos las duraciones en tipo objeto, ya que junto al elemento numérico, hay un elemento que indica la duración en minutos, temporadas, etc. Vamos a ver los valores únicos que tenemos en la columna inicialmente.

In [10]:
netflix_final["duration"].info()

<class 'pandas.core.series.Series'>
RangeIndex: 8807 entries, 0 to 8806
Series name: duration
Non-Null Count  Dtype 
--------------  ----- 
3994 non-null   object
dtypes: object(1)
memory usage: 68.9+ KB


In [11]:
# COnvertimos la columna a tipo str para asegurarnos que podemos aplicar métodos de string para manipularla.
netflix_final["duration"] = netflix_final["duration"].astype(str)
netflix_final["duration"].info()

<class 'pandas.core.series.Series'>
RangeIndex: 8807 entries, 0 to 8806
Series name: duration
Non-Null Count  Dtype 
--------------  ----- 
8807 non-null   object
dtypes: object(1)
memory usage: 68.9+ KB


In [12]:
# Vamos a crear una nueva columna que contenga los elementos en tipo entero (int), de la duración de los títulos y por otro lado que contenga la información sobre 
# si son minutos o temporadas. Para ello hacemos uso del método strings, split(). 
netflix_final[["duracion_int", "cosos"]] = netflix_final["duration"].str.split(' ', expand = True)
netflix_final.head(1)


Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,original,90,min


In [13]:
# La columna que nos indicaba si eran minutos o temporadas la eliminamos. 
netflix_final.drop("cosos", axis = 1).head(1)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,original,90


---------------------------------------------------------------------------------------------------------------------------------------------

#### Ejercicio 2: Normalización de la columna `rating`

La columna `rating` tiene diferentes calificaciones como `PG`, `PG-13`, `R`, entre otras. Debes categorizar estas calificaciones en tres grupos:

- **'General Audience'** para calificaciones como `G`, `PG`.

- **'Teens'** para calificaciones como `PG-13`, `TV-14`.

- **'Adults'** para calificaciones como `R`, `TV-MA`.


In [14]:
# Vamos a ver los valores que contiene la columna de rating.
netflix_final["rating"].unique()
# Vemos que contiene elementos de tipo rating, y otros como minutos, los cuales de momento no sabemos que nos aportan.

array(['PG-13', 'TV-MA', 'PG', 'TV-14', 'TV-PG', 'TV-Y', 'TV-Y7', 'R',
       'TV-G', 'G', 'NC-17', '74 min', '84 min', '66 min', 'NR', nan,
       'TV-Y7-FV', 'UR'], dtype=object)

In [15]:
# Creamos una dfunción que aplicaremos a continuación al df para poder agrupar el tipo de rating en una categoría concreta. Esta función estará 
# creada para ser aplicada a la función con un apply, por lo que no ponemos bucle for en el interior, el apply directamente iterará por los 
# elementos de la columna del dataframe a la que apliquemos la función.
def categorias_rating(rating):

    """
    Función que recibe una columna de un dataframe, y que agrupará cada tipo de rating de esa columna en un tipo de calificación diferente.

    Returns:
        String: devuelve la calificación en la que está agrupado el tipo de rating de la producción correspondiente. 
    """

    if rating == "G" or rating == "PG" or rating == "TV-PG" or rating == "TV-G" or rating == "TV-Y":
        return "General Audience"

    elif rating == "PG-13" or rating == "TV-14" or rating == "TV-V7" or rating == "TV-V7-FV":
        return "Teens"

    elif rating == "R" or rating == "TV-MA" or rating == "NC-17":
        return "Adults"

    else:
        return "No calificada"

In [16]:
# Aplicamos la función creada a la columna `rating` de nuestro dataframe, y creamos una columna nueva con la categoría correspondiente a cada
# rating.
netflix_final["categorias_rating"] = netflix_final["rating"].apply(categorias_rating)

Para saber correctamente donde agrupar cada tipo de calificación he hecho uso del siguiente enlace: https://www.thetvboss.org/es/clasificaciones-de-tv/


In [17]:
# Comprobamos que se ha creado correctamente la columna.
netflix_final.head(1)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,original,90,min,Teens


---------------------------------------------------------------------------------------------------------------------------------------------

#### Ejercicio 3: Creación de una columna personalizada basada en el elenco

Vamos a identificar si un actor clave como `Leonardo DiCaprio`, `Tom Hanks`, o `Morgan Freeman` aparece en el elenco.

Usa `apply` y una función lambda para crear una nueva columna llamada `has_famous_actor` que contenga `True` si alguno de estos actores está en la lista de `cast` y `False` en caso contrario.

In [18]:
# Comprobamos cuales son las producciones que contienen los actores clave. 
pelis_dicaprio = netflix_final[netflix_final["cast"].str.contains("Leonardo DiCaprio", case = True, na = False, regex = True)]
pelis_dicaprio.head(2)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating
329,s330,Movie,Catch Me If You Can,Steven Spielberg,"Leonardo DiCaprio, Tom Hanks, Christopher Walk...","United States, Canada",2021-08-01,2002,PG-13,142 min,Dramas,An FBI agent makes it his mission to put cunni...,,,,,,,142,min,Teens
340,s341,Movie,Inception,Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellio...","United States, United Kingdom",2021-08-01,2010,PG-13,148 min,"Action & Adventure, Sci-Fi & Fantasy, Thrillers",A troubled thief who extracts secrets from peo...,,,,,,,148,min,Teens


In [19]:
# Creamos la función lambda a aplicar al dataframe en la que indicamos mediante condicionales que nos devuelva True cuando el elemento contiene
# un actor considerado como famoso, y False cuando el elemento no contiene un actor famoso.
netflix_final["has_famous_actor"] = netflix_final.apply(lambda x: True if "Leonardo DiCaprio" in str(x["cast"]) 
                                                        or "Tom Hanks" in str(x["cast"])
                                                        or "Morgan Freeman" in str(x["cast"])
                                                         else False, axis = 1)

In [20]:
# Comporbamos que se ha creado la columna de forma correcta
netflix_final[netflix_final["has_famous_actor"] == True].sample(2)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating,has_famous_actor
5560,s5561,Movie,The C Word,Meghan O'Hara,Morgan Freeman,United States,2017-03-24,2016,TV-14,,Documentaries,"To solve the mystery of cancer, challenging th...",,,,,,,,,Teens,True
8616,s8617,Movie,Transcendence,Wally Pfister,"Johnny Depp, Rebecca Hall, Morgan Freeman, Pau...","United Kingdom, China, United States",2018-11-01,2014,PG-13,119 min,"Sci-Fi & Fantasy, Thrillers",Two computer scientists work to achieve techno...,,,,,,,119.0,min,Teens,True


---------------------------------------------------------------------------------------------------------------------------------------------

#### Ejercicio 4: Creación de una columna personalizada usando lógica condicional

Vamos a crear una columna llamada `is_recent` que identifique si un título fue lanzado en los últimos 5 años.

Crea una función para marcar con `True` si el título es reciente (lanzado en los últimos 5 años) y `False` si no lo es.

In [21]:
netflix_final["release_year"].sort_values().unique()
# Los últimos cinco años son desde 2021, hasta 2017. 

array([1925, 1942, 1943, 1944, 1945, 1946, 1947, 1954, 1955, 1956, 1958,
       1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969,
       1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980,
       1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991,
       1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002,
       2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013,
       2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021])

In [22]:
def produccion_reciente(fecha):

    """
    Función que recibe una columna de un dataframe con una fecha concreta, y que indicará si esa fecha pertenece o no a los últimos cinco años.

    Returns:
        bool: Devolverá True en caso de que la fecha pertenezca a los últimos 5 años (2017 - 2021) y False en caso de que no esté dentro de esas fechas.
    """
    if fecha >= 2017:
        return True
    else:
        return False

In [23]:
# creamos una columna nueva con la información correspondiente. Para ello hacemos uso de apply sobre la solumna de `release_year`.
netflix_final["is_recent"] = netflix_final["release_year"].apply(produccion_reciente)

Comprobamos que se ha creado la columna de forma correcta.

In [24]:
netflix_final[netflix_final["is_recent"] == True].sample(2)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating,has_famous_actor,is_recent
6148,s6149,Movie,American Warfighter,Jerry G. Angelo,"Jerry G. Angelo, Paul Logan, Joshua Santana, C...",United States,2019-09-13,2019,TV-MA,,Dramas,A Navy SEAL haunted by wartime memories tries ...,,,,,,,,,Adults,False,True
6807,s6808,Movie,From Japan to Egypt,Mahmoud Karim,"Ahmed Eid, Saki Tsukamoto, Nada Moussa, Mohamm...",Egypt,2019-06-06,2017,TV-14,,"Children & Family Movies, Comedies, Dramas",After his wife relocates to her home country o...,,,,,,,,,Teens,False,True


In [25]:
netflix_final[netflix_final["is_recent"] == False].sample(2)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating,has_famous_actor,is_recent
8335,s8336,Movie,The Green Hornet,Michel Gondry,"Seth Rogen, Jay Chou, Cameron Diaz, Tom Wilkin...",United States,2020-04-18,2011,PG-13,119 min,"Action & Adventure, Comedies",A hard-partying heir dons a disguise to fight ...,,,,,,,119,min,Teens,False,False
6358,s6359,Movie,Bonnie and Clyde,Arthur Penn,"Warren Beatty, Faye Dunaway, Michael J. Pollar...",United States,2021-01-01,1967,R,111 min,"Action & Adventure, Classic Movies, Dramas","Bonnie Parker and Clyde Barrow are young, in l...",,,,,,,111,min,Adults,False,False


----------------------------------------------------------------------------------------------------------------------------------------------

#### Ejercicio 5: Clasificación de películas por década

En este ejercicio, tu objetivo es categorizar los años de lanzamiento de las películas o series en décadas. La columna `release_year` contiene el año de lanzamiento y debes crear una nueva columna llamada `decade` que indique la década correspondiente, como "1990s", "2000s", etc.


In [26]:
netflix_final["release_year"].sort_values().unique()

array([1925, 1942, 1943, 1944, 1945, 1946, 1947, 1954, 1955, 1956, 1958,
       1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969,
       1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980,
       1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991,
       1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002,
       2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013,
       2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021])

In [27]:
# Creamos un diccionario que va a contener todos los años en los que las producciones en Netflix han sido lanzadas, en le cual, las claves van 
# a ser las décadas a la que corresponden los años de lanzamiento.
diccionario_decadas = { "1920s" : "1925",
                        "1940s" : ["1942", "1943", "1944", "1945", "1946", "1947"],
                        "1950s" : ["1954", "1955", "1956", "1958", "1959"],
                        "1960s" : ["1960", "1961", "1962", "1963", "1964", "1965", "1966", "1967", "1968", "1969"],
                        "1970s" : ["1970", "1971", "1972", "1973", "1974", "1975", "1976", "1977", "1978", "1979"],
                        "1980s" : ["1980", "1981", "1982", "1983", "1984", "1985", "1986", "1987", "1988", "1989"],
                        "1990s" : ["1990", "1991", "1992", "1993", "1994", "1995", "1996", "1997", "1998", "1999"],
                        "2000s" : ["2000", "2001", "2002", "2003", "2004", "2005", "2006", "2007", "2008", "2009"],
                        "2010s" : ["2010", "2011", "2012", "2013", "2014", "2015", "2016", "2017", "2018", "2019"],
                        "2020s" : ["2020", "2021"] }

In [28]:
# Creamos una función que me devuelva la década si encuentra el año en el diccionario
def decadas_producciones(año):

    """
    Función que recibe un año, y revisa si el año que ha recibido se encuentra en el diccionario que contiene las décadas a las que 
    pertenece cada año.

    Args:
        a (Serie,str): Serie de Pandas, que se corresponde con la columna de un DataFrame.

    Returns:
        str: Década a la que pertenece el año, que se corresponde con la clave del diccionario.
    """

    for decada,años in diccionario_decadas.items():
        if año in años:
            return decada


In [29]:
# Aplicamos la función a la columna de release_year mediante el método apply. Anteriormente le aplicamos el astype ya que si no tenemos los 
# años en tipo str no se va a poder realizar la comparación con los valores del diccionario. Si es de tipo int no iterará.
netflix_final["decade"] = netflix_final["release_year"].astype(str).apply(decadas_producciones)

In [30]:
netflix_final.sample(2)
# Comprobamos que se ha creado correctamente.

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating,has_famous_actor,is_recent,decade
1228,s1229,Movie,Bombay Rose,Gitanjali Rao,"Cyli Khare, Gargi Shitole, Amardeep Jha, Amit ...","India, United Kingdom, France, Qatar",2021-03-08,2021,PG-13,,"Dramas, Independent Movies, International Movies",Amidst the bustle of a magnetic and multifacet...,,,,,,,,,Teens,False,True,2020s
7473,s7474,Movie,Mission: Destroy Love,Osman Ali,"Bront Palarae, Maya Karin, Remy Ishak, Izara A...",Malaysia,2017-08-07,2014,TV-PG,,"Comedies, International Movies, Romantic Movies",Two strangers meet by chance on a trip to Thai...,,,,,,,,,General Audience,False,False,2010s


----------------------------------------------------------------------------------------------------------------------------------------------

#### Ejercicio 6: Extracción de información

Para practicar la extracción de información:

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.


**1. Extracción del primer actor**

In [31]:
def primer_actor(df):

    """
    Función que recibe una columna de un DataFrame la cual contiene elementos de tipo str. Separará los elementos con el método split, creando
    una lista que contiene estos elementos separados. A continuación, por cada elemento de esa lista, coge solo el primero, y lo devuelve.

    Args:
        df (Series, DataFrame de Pandas): columna de un DataFrame de Pandas, que se corresponde con una serie de pandas.

    Returns:
        str: Primer elemento de la lista de elementos que contiene cada entrada del DataFrame.
    """

    for actor in df:
        df_spliteado = df.str.split(",")
        for actores in df_spliteado:
            return df_spliteado.str[0]

In [32]:
# Aplicamos la función creada a la columna de actores del dataframe. Creamos una nueva columna con la información
netflix_final["first_actor"] = primer_actor(netflix_final["cast"])

In [33]:
# Comprobamos que se funciona correctamente
netflix_final.sample(2)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating,has_famous_actor,is_recent,decade,first_actor
654,s655,Movie,#Selfie,Cristina Jacob,"Flavia Hojda, Crina Semciuc, Olimpia Melinte, ...",Romania,2021-06-21,2014,TV-MA,125 min,"Comedies, Dramas, International Movies","Two days before their final exams, three teen ...",,,,,,,125.0,min,Adults,False,False,2010s,Flavia Hojda
4684,s4685,Movie,Bert Kreischer: Secret Time,Todd Biermann,Bert Kreischer,,2018-08-24,2018,TV-MA,,Stand-Up Comedy,Shirtless comic Bert Kreischer relays personal...,,,,,,,,,Adults,False,True,2010s,Bert Kreischer


**2. Extracción del primer director**

In [34]:
def primer_director(df):

    """
    Función que recibe una columna de un DataFrame la cual contiene elementos de tipo str. Separará los elementos con el método split, creando
    una lista que contiene estos elementos separados. A continuación, por cada elemento de esa lista, coge solo el primero, y lo devuelve.

    Args:
        df (Series, DataFrame de Pandas): columna de un DataFrame de Pandas, que se corresponde con una serie de pandas.

    Returns:
        str: Primer elemento de la lista de elementos que contiene cada entrada del DataFrame.
    """
    for actor in df:
        df_spliteado = df.str.split(" ")
        for actores in df_spliteado:
            return df_spliteado.str[0]

In [35]:
# Aplicamos la función a la columna de director de nuestro dataframe, y creamos una nueva columna con el nombre del director.
netflix_final["first_name_director"] = primer_director(netflix_final["director"])

In [36]:
# Comprobamos que se funciona correctamente
netflix_final.sample(2)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating,has_famous_actor,is_recent,decade,first_actor,first_name_director
6246,s6247,Movie,Barsaat,Rajkumar Santoshi,"Twinkle Khanna, Bobby Deol, Danny Denzongpa, R...",India,2018-04-01,1995,TV-PG,166 min,"Action & Adventure, International Movies, Musi...",A naïve young man and a rich city girl fall in...,,,,,,,166.0,min,General Audience,False,False,1990s,Twinkle Khanna,Rajkumar
8046,s8047,Movie,Sniper: Special Ops,Fred Olen Ray,"Steven Seagal, Rob Van Dam, Tim Abell, Charlen...",United States,2020-01-10,2016,R,,"Action & Adventure, Dramas",After a mission to rescue a U.S. congressman f...,,,,,,,,,Adults,False,False,2010s,Steven Seagal,Fred


----------------------------------------------------------------------------------------------------------------------------------------------

#### Ejercicio 7: Limpieza de la columna `cast`

La columna `cast` contiene una lista de actores separados por comas. Tu objetivo es realizar las siguientes tareas:

1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).


Revisar

**1. Reemplazo de valores nulos**

In [37]:
# Vamos a ver los valores únicos que tenemos en la columna de `director`primero
netflix_final["cast"].isnull().value_counts()
# Tenemos 825 valores nulos. 

cast
False    7982
True      825
Name: count, dtype: int64

In [38]:
# Aplicamos la función fillna, la cual permite rellenar los elementos que tienen un valor nulo, por lo que queramos.
netflix_final["cast"] = netflix_final["cast"].fillna("sin información")

In [39]:
# Comprobamos que se ha hecho el cambio de forma correcta.
netflix_final["cast"].isnull().value_counts()

cast
False    8807
Name: count, dtype: int64

In [40]:
netflix_final["cast"].unique()

array(['sin información',
       'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng',
       'Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabiha Akkari, Sofia Lesaffre, Salim Kechiouche, Noureddine Farihi, Geert Van Rampelberg, Bakary Diombera',
       ...,
       'Jesse Eisenberg, Woody Harrelson, Emma Stone, Abigail Breslin, Amber Heard, Bill Murray, Derek Graf',
       'Tim Allen, Courteney Cox, Chevy Chase, Kate Mara, Ryan Newman, Michael Cassidy, Spencer Breslin, Rip Torn, Kevin Zegers',
       'Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanana, Manish Chaudhary, Meghna Malik, Malkeet Rauni, Anita Shabdish, Chittaranjan Tripathy'],
      dtype=object)

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.



In [41]:
def cuenta_actores(df):

    """ 
    Función que recibe una columna de un DataFrame, y cuenta el número de elementos que se encuentran en cada entrada de la columna.

    Args:
        df (Serie,str): Columna del Dataframe que contiene los elementos a contar.

    Returns:
        int: número de elementos que se encuentran en la entrada del dataframe.    
    """
    for actor in df:
        df_spliteado = df.str.split(",")
        for actores in df_spliteado:
            return df_spliteado.str.len()

In [42]:
# Aplicamos la función a la columna de cast, y creamos una nueva con el número de actores por columna.
netflix_final["num_cast"] = cuenta_actores(netflix_final["cast"])

In [43]:
# Comprobamos que se ha creado correctamente
netflix_final.sample()

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating,has_famous_actor,is_recent,decade,first_actor,first_name_director,num_cast
7201,s7202,Movie,Kill Ratio,Paul Tanter,"Tom Hopper, Amy Huberman, Lacy Moore, Brian Mc...",United States,2017-02-17,2016,TV-MA,,Action & Adventure,Posing as a telecom salesman at a business con...,,,,,,,,,Adults,False,False,2010s,Tom Hopper,Paul,6


In [44]:
# Parte de la comprobación, me sacará todos los actores de la entrada seleccionada del sample anterior, así podemos ver que son el mismo número de actores.
actores = netflix_final.iloc[5749,:]
actores.loc["cast"]

'Masakazu Morita, Fumiko Orikasa, Kazuya Nakai, Noriaki Sugiyama, Kentarô Itô, Yuki Matsuoka, Ryotaro Okiayu, Romi Park'

In [45]:
netflix_final.columns

Index(['show_id', 'type', 'Title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description',
       'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language', 'es_original',
       'duracion_int', 'cosos', 'categorias_rating', 'has_famous_actor',
       'is_recent', 'decade', 'first_actor', 'first_name_director',
       'num_cast'],
      dtype='object')

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).

In [46]:
# Para quitar espacios adicionales de las columnas usaremos el método de string str.strip
netflix_final["cast"] = netflix_final.apply(lambda x: x["cast"].strip() , axis = 1)
# Hemos aplicado mediante la función apply, una función lambda, que eliminará los espacios adicionales al principio y al final de cada entrada
# de la columna del dataframe (cast en este caso).

In [47]:
# Comprobamos que se ha realizado correctamente
netflix_final.sample()

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating,has_famous_actor,is_recent,decade,first_actor,first_name_director,num_cast
2812,s2813,Movie,Digs & Discoveries: Mines of Mystery,Joey So,"Joseph May, Flaminia Cinque, Anna Francolini, ...",,2020-03-15,2019,TV-Y,23 min,Children & Family Movies,Amidst Italy's ancient sites and hidden treasu...,,,,,,,23,min,General Audience,False,True,2010s,Joseph May,Joey,7


----------------------------------------------------------------------------------------------------------------------------------------------


#### Ejercicio 8: Identificación de Directores Recurrentes

En este ejercicio, debes identificar los directores que aparecen más de una vez en el conjunto de datos. Realiza los siguientes pasos:

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.

**1. Reemplazo de valores nulos**

In [48]:
# Vamos a ver los valores únicos que tenemos en la columna de `director`primero
netflix_final["director"].isnull().value_counts()
# Tenemos 2.634 valores nulos. 

director
False    6173
True     2634
Name: count, dtype: int64

In [49]:
# Aplicamos la función fillna, la cual permite rellenar los elementos que tienen un valor nulo, por lo que queramos.
netflix_final["director"].fillna("sin información")

0       Kirsten Johnson
1       sin información
2       Julien Leclercq
3       sin información
4       sin información
             ...       
8802      David Fincher
8803    sin información
8804    Ruben Fleischer
8805       Peter Hewitt
8806        Mozez Singh
Name: director, Length: 8807, dtype: object

In [50]:
# Comprobamos que todos los nulos han sido eliminados
netflix_final["director"].isnull().value_counts()

director
False    6173
True     2634
Name: count, dtype: int64

**2. Cuenta de cuantas veces aparece cada director**

In [51]:
# Contamos cuantas veces aparece cada director mediante un groupby. Agrupamos por cada nombre de director, y realizamos una cuenta de cuantas 
# veces aparece ese director.
cuenta_director = netflix_final.groupby("first_name_director")["Title"].count().reset_index()
cuenta_director.sort_values("Title", ascending = False)

Unnamed: 0,first_name_director,Title
478,David,111
1352,Michael,91
969,John,77
1750,Robert,52
1597,Peter,48
...,...,...
2269,Younuts!,1
2271,Yu,1
19,Abir,1
20,Abu,1


In [52]:
# Otra forma de ver el número de veces que me aparece cada director es mediante el uso del value_counts
cuenta_directores = netflix_final["first_name_director"].value_counts()
cuenta_directores

first_name_director
David       111
Michael      91
John         77
Robert       52
Peter        48
           ... 
Buz           1
Hidetaka      1
Preston       1
Tekin         1
Lena          1
Name: count, Length: 2308, dtype: int64

**3. Filtro por directores que aparecen más de una vez y creación de columna**

In [None]:
# Creamos una función que aplicamos al dataframe original en la que me devolverá yes si el nombre del director aparece más de una vez. Para ello, utilizamos la variable
# que hemos creado anteriormente para contar el número de veces que aparace cada nombre. Inicialmente, si se encuentra con un valor nulo, decimos que devuelva también un valor
# nulo. SIno, que devuelva Yes cuanndo la cuenta de la entrada es mayor que uno, y en el resto de casos que devuelva No.   
netflix_final["recurrent_director"] = netflix_final.apply(lambda x: np.nan if pd.isnull(x["first_name_director"]) else "Yes" if cuenta_directores[x["first_name_director"]] > 1 else "No", axis=1)
netflix_final.sample(1)

Unnamed: 0,show_id,type,Title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,es_original,duracion_int,cosos,categorias_rating,has_famous_actor,is_recent,decade,first_actor,first_name_director,num_cast,recurrent_director
5972,s5973,Movie,#cats_the_mewvie,Michael Margolis,sin información,Canada,2020-02-05,2020,TV-14,90 min,"Documentaries, International Movies",This pawesome documentary explores how our fel...,,,,,,,90,min,Teens,False,True,2020s,,Michael,1,Yes


In [61]:
# Comprobamos que es correcto cogiendo el nombre del director y filtrando la variable que me realiza la cuenta de veces q aparece el director por el nombre del director
# del sample realizado. 
cuenta_director[cuenta_director["first_name_director"] == "Michael"]

Unnamed: 0,first_name_director,Title
1352,Michael,91


In [62]:
# Guardamos el archivo en formato pickle para que los cambios realizados sobre las columnas, como cambio de tipo de dato, etc, se guarden 
netflix_final.to_pickle("Netflix_Final_bueno.pkl")