<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Limpieza de Datos

En este laboratorio usaremos el DataFrame de Netflix completo creado en los primeros laboratorios de Pandas. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Documenta todas las funciones creadas durante el ejercicio. 

4. Debes incluir después de cada gráfica la interpretación de las mismas en una celda de markdown. 

In [94]:
#Importo la libreria de pandas
import pandas as pd

In [95]:
#Configuro para que al ejecutar aparezcan todas las columnas de la base de datos
pd.set_option("display.max_columns", None)

In [96]:
#Importo el csv de netflix con el que voy a trabajar
df_netflix_final = pd.read_csv("datos/Netflix_union_final.csv", index_col = 0)
df_netflix_final.head()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,October,2020.0,Viernes,Yes
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,,,,


## Parte 1: Limpieza y Preparación de Datos

#### Ejercicio 1: Estandarización y limpieza de columnas

En este ejercicio, debes limpiar y estandarizar algunas columnas clave para hacerlas más manejables y consistentes en tus análisis. Específicamente, trabajarás con las columnas `date_added` y `duration` para convertirlas a un formato uniforme y estructurado.

Instrucciones:

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.


**Resultado Esperado:**
Deberás obtener algo como esto:

| duration   | duration_cleaned |
|------------|-----------------|
| 1 Season   | 1               |
| 90 min     | 90              |
| 2 Seasons  | 2               |
| 45 min     | 45              |
| 3 Seasons  | 3               |

In [97]:
#Me saco un ejemplo para comenzar observando las dos columnas con las que voy a trabajar (Date_added y Duration)
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
4648,s4649,TV Show,If I were an Animal,,"Zachary Young, Fleur Delahunty",,2018-09-11,2018,TV-G,,"Docuseries, Kids' TV, Science & Nature TV",Curious kids Emma and her big brother Tim obse...,,,,,,,,,


In [98]:
#Confirmo que la columna Date_added es de tipo object
df_netflix_final["Date_added"].dtypes

dtype('O')

In [99]:
#Cambio el tipo de dato de la columna Date_added de object a datetime
df_netflix_final["Date_added"] = pd.to_datetime(df_netflix_final["Date_added"])

In [100]:
#Confirmo que el cambio se ha realizado correctamente
df_netflix_final.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Show_id         8807 non-null   object        
 1   Type            8807 non-null   object        
 2   Title           8807 non-null   object        
 3   Director        6173 non-null   object        
 4   Cast            7982 non-null   object        
 5   Country         7976 non-null   object        
 6   Date_added      8797 non-null   datetime64[ns]
 7   Release_year    8807 non-null   int64         
 8   Rating          8803 non-null   object        
 9   Duration        3994 non-null   object        
 10  Listed_in       8807 non-null   object        
 11  Description     8807 non-null   object        
 12  Genre           513 non-null    object        
 13  Premiere        513 non-null    object        
 14  Runtime         513 non-null    float64       
 15  IMDB_scor

In [101]:
#Compruebo que aspecto tiene esta columna después de hacer el cambio del tipo de dato y parece que esta correcto
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title
6980,s6981,Movie,Ho Mann Jahaan,Asim Raza,"Adeel Hussain, Mahira Khan, Sheheryar Munawar,...",Pakistan,2017-07-01,2015,TV-PG,170 min,"Dramas, International Movies, Romantic Movies",Three friends in modern-day Karachi navigate t...,,,,,,,,,


In [102]:
#Para crear una nueva columna duration_cleaned que contenga solo el numero de temporadas y minutos lo que hago es generar dos columnas (una que contenga el número y otra columna que realmente es innecesaria porque contiene "min" o "seasons") con el metodo split
df_netflix_final[["Duration_cleaned", "Innecesaria"]] = df_netflix_final["Duration"].str.split(" ", expand= True)

In [103]:
#Compruebo que se han generado bien
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Innecesaria
195,s196,Movie,EMI: Liya Hai To Chukana Padega,Saurabh Kabra,"Sanjay Dutt, Arjun Rampal, Malaika Arora, Aash...",India,2021-08-27,2008,TV-14,128 min,"Comedies, Dramas, International Movies",A bank hires an enigmatic and unorthodox debt ...,,,,,,,,,,128,min


In [104]:
#Borro del dataframe la columna innecesaria porque no la quiero para nada
df_netflix_final = df_netflix_final.drop("Innecesaria", axis=1)
df_netflix_final.sample()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned
1312,s1313,Movie,Monsoon,Hong Khaou,"Henry Golding, Parker Sawyers, Molly Harris, D...",United Kingdom,2021-02-13,2020,TV-MA,85 min,"Dramas, Independent Movies, LGBTQ Movies",A reflective man must come to terms with his f...,,,,,,,,,,85


#### Ejercicio 2: Normalización de la columna `rating`

La columna `rating` tiene diferentes calificaciones como `PG`, `PG-13`, `R`, entre otras. Debes categorizar estas calificaciones en tres grupos:

- **'General Audience'** para calificaciones como `G`, `PG`.

- **'Teens'** para calificaciones como `PG-13`, `TV-14`.

- **'Adults'** para calificaciones como `R`, `TV-MA`.


Me voy a ceñir a categorizar las calificaciones que concretamente se indican en el enunciado. Para el resto, las dejaré con su valor original de rating.

In [109]:
#Voy a generar una funcion llamada categorias_rating donde primero le paso 3 listas una cada cada grupo y luego se va a ir comprobando para cada registro dentro de que lista está de las 3 y en función de en cual esté lo que devolverá será "General Audience", "Teens", "Adults" o manteniendo su valor original si no se encuentra en ninguna de las 3 listas
def categorias_rating(rating):
    audiencia_general = ["G", "PG"]
    adolescentes = ["PG-13", "TV-14"]
    adultos = ["R", "TV-MA"]
    if rating in audiencia_general:
        return "General Audience"
    elif rating in adolescentes:
        return "Teens"
    elif rating in adultos:
        return "Adults"
    else:
        return rating

In [110]:
#Me voy a generar una nueva columna con estas calificaciones concretas categorizadas y voy a emplear el método apply para la categorizacion
df_netflix_final["Rating_categorized"] = df_netflix_final["Rating"].apply(categorias_rating)

In [112]:
#Voy a observar la nueva columna creada y comprobar que se ha categorizado correctamente
df_netflix_final.tail()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,,,,158.0,Adults
8803,s8804,TV Show,Zombie Dumb,,,,2019-07-01,2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,,,,,2.0,TV-Y7
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,,,,,Adults
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,,,,,General Audience
8806,s8807,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,2019-03-02,2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...,,,,,,,,,,111.0,Teens


#### Ejercicio 3: Creación de una columna personalizada basada en el elenco

Vamos a identificar si un actor clave como `Leonardo DiCaprio`, `Tom Hanks`, o `Morgan Freeman` aparece en el elenco.

Usa `apply` y una función lambda para crear una nueva columna llamada `has_famous_actor` que contenga `True` si alguno de estos actores está en la lista de `cast` y `False` en caso contrario.

In [None]:
def actor_elenco(v):
    if valor_1 in ["High", "Very High"] and valor_2 in ["High", "Very High"]:
        return "feliz"
    elif valor_1 in ["Low", "Medium"] and valor_2 in ["Low", "Medium"]:
        return "infeliz"
    else:
        return "indiferente"

In [116]:
def actor_lista(lista):
    for actor in lista:
        if actor in ["Leonardo DiCaprio", "Tom Hanks", "Morgan Freeman"]:
            return True
        else:
            return False

#### Ejercicio 4: Creación de una columna personalizada usando lógica condicional

Vamos a crear una columna llamada `is_recent` que identifique si un título fue lanzado en los últimos 5 años.

Crea una función para marcar con `True` si el título es reciente (lanzado en los últimos 5 años) y `False` si no lo es.

In [None]:
#Me saco los valores unicos (ordenados) de la columna de año de lanzamiento para observar cuales son los últimos 5 años en la base de datos
df_netflix_final["Release_year"].sort_values().unique()

array([1925, 1942, 1943, 1944, 1945, 1946, 1947, 1954, 1955, 1956, 1958,
       1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969,
       1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980,
       1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991,
       1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002,
       2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013,
       2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021])

In [None]:
#Creo una funcion donde va a entrar el año de lanzamiento y si ese año esta dentro de la lista que contiene los ultimos 5 años (2017, 2018, 2019, 2020 y 2021) entonces va a devolver True, y si no está dentro de la lista devuelve False
def lanzado_ultimos_años(año):
    ultimos_años = [2017, 2018, 2019, 2020, 2021]
    if año in ultimos_años:
        return True
    else:
        return False

In [None]:
#Creo la nueva columna llamando a la de Release_year a la que le aplico la función creada 
df_netflix_final["Is_recent"] = df_netflix_final["Release_year"].apply(lanzado_ultimos_años)

In [None]:
#Compruebo que la nueva columna se ha generado correctamente y funciona bien
df_netflix_final.tail()

Unnamed: 0,Show_id,Type,Title,Director,Cast,Country,Date_added,Release_year,Rating,Duration,Listed_in,Description,Genre,Premiere,Runtime,IMDB_score,Language,Month_premiere,Year_premiere,Day_premiere,Original_title,Duration_cleaned,Rating_categorized,Is_recent
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,,,,158.0,Adults,False
8803,s8804,TV Show,Zombie Dumb,,,,2019-07-01,2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,,,,,2.0,TV-Y7,True
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,,,,,Adults,False
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,,,,,General Audience,False
8806,s8807,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,2019-03-02,2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...,,,,,,,,,,111.0,Teens,False


#### Ejercicio 5: Clasificación de películas por década

En este ejercicio, tu objetivo es categorizar los años de lanzamiento de las películas o series en décadas. La columna `release_year` contiene el año de lanzamiento y debes crear una nueva columna llamada `decade` que indique la década correspondiente, como "1990s", "2000s", etc.


#### Ejercicio 6: Extracción de información

Para practicar la extracción de información:

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.


#### Ejercicio 7: Limpieza de la columna `cast`

La columna `cast` contiene una lista de actores separados por comas. Tu objetivo es realizar las siguientes tareas:

1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).



#### Ejercicio 9: Identificación de Directores Recurrentes

En este ejercicio, debes identificar los directores que aparecen más de una vez en el conjunto de datos. Realiza los siguientes pasos:

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.