<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Limpieza de Datos

En este laboratorio usaremos el DataFrame de Netflix completo creado en los primeros laboratorios de Pandas. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Documenta todas las funciones creadas durante el ejercicio. 

4. Debes incluir después de cada gráfica la interpretación de las mismas en una celda de markdown. 

In [1]:
import pandas as pd
ruta_datos = r"C:\Users\marta\Desktop\mibootcamp\lab\python\datos\merged_netflix_data.csv"

df = pd.read_csv(ruta_datos)

## Parte 1: Limpieza y Preparación de Datos

#### Ejercicio 1: Estandarización y limpieza de columnas

En este ejercicio, debes limpiar y estandarizar algunas columnas clave para hacerlas más manejables y consistentes en tus análisis. Específicamente, trabajarás con las columnas `date_added` y `duration` para convertirlas a un formato uniforme y estructurado.

Instrucciones:

1. **Convertir la columna `date_added`**: La columna `date_added` contiene fechas en formato de texto. Debes convertirla a un formato `datetime` que pandas pueda entender y manejar fácilmente.

2. **Limpiar la columna `duration`**: La columna `duration` tiene valores en diferentes formatos como "1 Season", "2 Seasons", "90 min", etc. Tu tarea es extraer el número (ya sea el número de temporadas o la cantidad de minutos) y crear una nueva columna llamada `duration_cleaned` con esos valores estandarizados.


**Resultado Esperado:**
Deberás obtener algo como esto:

| duration   | duration_cleaned |
|------------|-----------------|
| 1 Season   | 1               |
| 90 min     | 90              |
| 2 Seasons  | 2               |
| 45 min     | 45              |
| 3 Seasons  | 3               |

In [2]:
df['duration_cleaned'] = df['duration'].str.extract('(\d+)').astype(float) #extraigo valores numericos y los convierto a float

print(df[['duration', 'duration_cleaned']].head())


    duration  duration_cleaned
0     90 min              90.0
1  2 Seasons               2.0
2        NaN               NaN
3        NaN               NaN
4  2 Seasons               2.0


In [8]:
df.head(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,duration_cleaned
0,s1,Movie,dick johnson is dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,"October 2, 2020",90.0,7.5,English,90.0
1,s2,TV Show,blood & water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,2.0
2,s3,TV Show,ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,
3,s4,TV Show,jailbirds new orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,
4,s5,TV Show,kota factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,2.0


In [3]:
df.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description',
       'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'duration_cleaned'],
      dtype='object')

In [7]:
df['date_added'] = pd.to_datetime(df['date_added'], format='%B %d, %Y', errors='coerce')

print(df[['date_added']].head())


  date_added
0 2021-09-25
1 2021-09-24
2 2021-09-24
3 2021-09-24
4 2021-09-24


#### Ejercicio 2: Normalización de la columna `rating`

La columna `rating` tiene diferentes calificaciones como `PG`, `PG-13`, `R`, entre otras. Debes categorizar estas calificaciones en tres grupos:

- **'General Audience'** para calificaciones como `G`, `PG`.

- **'Teens'** para calificaciones como `PG-13`, `TV-14`.

- **'Adults'** para calificaciones como `R`, `TV-MA`.


In [16]:
df['rating'].unique()

array(['PG-13', 'TV-MA', 'PG', 'TV-14', 'TV-PG', 'TV-Y', 'TV-Y7', 'R',
       'TV-G', 'G', 'NC-17', '74 min', '84 min', '66 min', 'NR', nan,
       'TV-Y7-FV', 'UR'], dtype=object)

In [17]:
df['rating'].value_counts()

rating
TV-MA       3207
TV-14       2160
TV-PG        863
R            799
PG-13        490
TV-Y7        334
TV-Y         307
PG           287
TV-G         220
NR            80
G             41
TV-Y7-FV       6
NC-17          3
UR             3
74 min         1
84 min         1
66 min         1
Name: count, dtype: int64

In [None]:
# crear una función para agrupar la clasificaciones
def classify_rating(rating):
    if rating in ['G', 'PG', 'TV-G', 'TV-Y', 'TV-Y7', 'TV-Y7-FV']:
        return 'General Audience'
    elif rating in ['PG-13', 'TV-14', 'TV-PG']:
        return 'Teens'
    elif rating in ['R', 'TV-MA', 'NC-17', 'NR', 'UR']:
        return 'Adults'
    else:
        return 'Unknown'  # Incluye casos como '74 min', nan, etc.

#corregir los valores erroneos en la columna rating antes de clasificarla, para que no tenga que manejar los valores erroneos innecesariamente (preprocesamiento)
valid_ratings = ['G', 'PG', 'TV-G', 'TV-Y', 'TV-Y7', 'TV-Y7-FV',
                 'PG-13', 'TV-14', 'TV-PG', 'R', 'TV-MA', 'NC-17', 'NR', 'UR'] #clasificaciones válidas,
# nos ayuda a comparar cada valor de la columna rating contra un conjunto definido de valores correctos
df['rating'] = df['rating'].apply(lambda x: x if x in valid_ratings else 'Unknown') #si un valor no está en esa lista, lo consideramos inválido y lo reemplamos como unknown

# Aplicar la función para clasificar
df['rating_category'] = df['rating'].apply(classify_rating)

# Verificar el resultado
print(df[['rating', 'rating_category']].value_counts())


rating    rating_category 
TV-MA     Adults              3207
TV-14     Teens               2160
TV-PG     Teens                863
R         Adults               799
PG-13     Teens                490
TV-Y7     General Audience     334
TV-Y      General Audience     307
PG        General Audience     287
TV-G      General Audience     220
NR        Adults                80
G         General Audience      41
Unknown   Unknown                7
TV-Y7-FV  General Audience       6
NC-17     Adults                 3
UR        Adults                 3
Name: count, dtype: int64


#### Ejercicio 3: Creación de una columna personalizada basada en el elenco

Vamos a identificar si un actor clave como `Leonardo DiCaprio`, `Tom Hanks`, o `Morgan Freeman` aparece en el elenco.

Usa `apply` y una función lambda para crear una nueva columna llamada `has_famous_actor` que contenga `True` si alguno de estos actores está en la lista de `cast` y `False` en caso contrario.

In [21]:
df['cast'].value_counts()

cast
David Attenborough                                                                                                                                                                            19
Vatsal Dubey, Julie Tejwani, Rupa Bhimani, Jigna Bhardwaj, Rajesh Kava, Mousam, Swapnil                                                                                                       14
Samuel West                                                                                                                                                                                   10
Jeff Dunham                                                                                                                                                                                    7
David Spade, London Hughes, Fortune Feimster                                                                                                                                                   6
                              

In [22]:
famous_actors = ['Leonardo DiCaprio', 'Tom Hanks', 'Morgan Freeman']
'''creamos una lista con los nombres que queremos buscar en la columna cast, 
aplicamos (apply) la funcion lamba acada elemento de la columna cast, '''
df['has_famous_actor'] = df['cast'].apply(lambda cast: any(actor in cast for actor in famous_actors) if isinstance(cast, str) else False)

In [24]:
df['has_famous_actor'].value_counts()

has_famous_actor
False    8772
True       35
Name: count, dtype: int64

#### Ejercicio 4: Creación de una columna personalizada usando lógica condicional

Vamos a crear una columna llamada `is_recent` que identifique si un título fue lanzado en los últimos 5 años.

Crea una función para marcar con `True` si el título es reciente (lanzado en los últimos 5 años) y `False` si no lo es.

In [25]:
from datetime import datetime

In [27]:
current_year = datetime.now().year
print(current_year)

2024


In [None]:
def check_is_recent(release_year):
    if release_year >= current_year - 5:  
        return True
    else:
        return False

In [29]:
df['is_recent'] = df['release_year'].apply(check_is_recent)

In [30]:
df.value_counts('is_recent')

is_recent
False    6232
True     2575
Name: count, dtype: int64

#### Ejercicio 5: Clasificación de películas por década

En este ejercicio, tu objetivo es categorizar los años de lanzamiento de las películas o series en décadas. La columna `release_year` contiene el año de lanzamiento y debes crear una nueva columna llamada `decade` que indique la década correspondiente, como "1990s", "2000s", etc.


In [31]:
df.value_counts('release_year')

release_year
2018    1147
2017    1032
2019    1030
2020     953
2016     902
        ... 
1959       1
1961       1
1947       1
1966       1
1925       1
Name: count, Length: 74, dtype: int64

In [34]:
df['release_year'].unique()

array([2020, 2021, 1993, 2018, 1996, 1998, 1997, 2010, 2013, 2017, 1975,
       1978, 1983, 1987, 2012, 2001, 2014, 2002, 2003, 2004, 2011, 2008,
       2009, 2007, 2005, 2006, 1994, 2015, 2019, 2016, 1982, 1989, 1990,
       1991, 1999, 1986, 1992, 1984, 1980, 1961, 2000, 1995, 1985, 1976,
       1959, 1988, 1981, 1972, 1964, 1945, 1954, 1979, 1958, 1956, 1963,
       1970, 1973, 1925, 1974, 1960, 1966, 1971, 1962, 1969, 1977, 1967,
       1968, 1965, 1946, 1942, 1955, 1944, 1947, 1943], dtype=int64)

In [None]:

def classify_decade(release_year):
    if pd.isnull(release_year):  # manejo de valores nulos
        return "Unknown"
    decade_start = (release_year // 10) * 10  # calculo de inicio de la decada
    return f"{decade_start}s"  # formatear como "1990s"

# crear la columna 'decade' usando apply
df['decade'] = df['release_year'].apply(classify_decade)

In [40]:
df

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,...,Genre,Premiere,Runtime,IMDB Score,Language,duration_cleaned,rating_category,has_famous_actor,is_recent,decade
0,s1,Movie,dick johnson is dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,...,Documentary,"October 2, 2020",90.0,7.5,English,90.0,Teens,False,True,2020s
1,s2,TV Show,blood & water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,...,,,,,,2.0,Adults,False,True,2020s
2,s3,TV Show,ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,...,,,,,,,Adults,False,True,2020s
3,s4,TV Show,jailbirds new orleans,,,,2021-09-24,2021,TV-MA,,...,,,,,,,Adults,False,True,2020s
4,s5,TV Show,kota factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,...,,,,,,2.0,Adults,False,True,2020s
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,...,,,,,,158.0,Adults,False,False,2000s
8803,s8804,TV Show,zombie dumb,,,,2019-07-01,2018,TV-Y7,2 Seasons,...,,,,,,2.0,General Audience,False,False,2010s
8804,s8805,Movie,zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,...,,,,,,,Adults,False,False,2000s
8805,s8806,Movie,zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,...,,,,,,,General Audience,False,False,2000s


#### Ejercicio 6: Extracción de información

Para practicar la extracción de información:

1. **Extrae el primer actor** de la lista en la columna `cast` y crea una nueva columna llamada `first_actor`.

2. **Extrae el primer nombre del director** y guárdalo en una columna llamada `first_name_director`.


In [None]:
def extract_first_actor(cast):
    if pd.isnull(cast): # gestion de nulos
        return None
    actors = cast.split(',')  # divide la lista de actores por comas
    return actors[0].strip()  # devuelve el primer actor, eliminando espacios

df['first_actor'] = df['cast'].apply(extract_first_actor)

# 2. funcion para extraer el primer nombre del director
def extract_first_name_director(director):
    if pd.isnull(director):  # gestion de mulos 
        return None
    director_name = director.split()  # se separa el nombre completo por espacio
    return director_name[0]  # Devolvemos el primer nombre del director

df['first_name_director'] = df['director'].apply(extract_first_name_director)

In [42]:
df

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,...,Runtime,IMDB Score,Language,duration_cleaned,rating_category,has_famous_actor,is_recent,decade,first_actor,first_name_director
0,s1,Movie,dick johnson is dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,...,90.0,7.5,English,90.0,Teens,False,True,2020s,,Kirsten
1,s2,TV Show,blood & water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,...,,,,2.0,Adults,False,True,2020s,Ama Qamata,
2,s3,TV Show,ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,...,,,,,Adults,False,True,2020s,Sami Bouajila,Julien
3,s4,TV Show,jailbirds new orleans,,,,2021-09-24,2021,TV-MA,,...,,,,,Adults,False,True,2020s,,
4,s5,TV Show,kota factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,...,,,,2.0,Adults,False,True,2020s,Mayur More,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,...,,,,158.0,Adults,False,False,2000s,Mark Ruffalo,David
8803,s8804,TV Show,zombie dumb,,,,2019-07-01,2018,TV-Y7,2 Seasons,...,,,,2.0,General Audience,False,False,2010s,,
8804,s8805,Movie,zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,...,,,,,Adults,False,False,2000s,Jesse Eisenberg,Ruben
8805,s8806,Movie,zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,...,,,,,General Audience,False,False,2000s,Tim Allen,Peter


#### Ejercicio 7: Limpieza de la columna `cast`

La columna `cast` contiene una lista de actores separados por comas. Tu objetivo es realizar las siguientes tareas:

1. **Reemplaza los valores nulos** en la columna `cast` por "sin información".

2. **Contar el número de actores** en cada entrada y crear una nueva columna llamada `num_cast`.

3. **Normalizar los nombres**: Asegúrate de que los nombres de los actores estén en un formato consistente (por ejemplo, quitar espacios adicionales).


In [70]:
df['cast'] = df['cast'].fillna("sin información") # rellena los nulos con "sin informacion"
df['cast'].value_counts()

cast
sin información                                                                                                                                                                               825
David Attenborough                                                                                                                                                                             19
Vatsal Dubey, Julie Tejwani, Rupa Bhimani, Jigna Bhardwaj, Rajesh Kava, Mousam, Swapnil                                                                                                        14
Samuel West                                                                                                                                                                                    10
Jeff Dunham                                                                                                                                                                                     7
                         

In [None]:
# se crea una funcion para contar el numero de actores
def count_actors(cast):
    if cast == "sin información":
        return 0  # si no hay informacion, se cuenta como 0
    return len(cast.split(','))  # si hay informacion, contamos los actores separándolos por comas

In [None]:
df['num_cast'] = df['cast'].apply(count_actors) #creamos la nueva columna aplicandole la funcion

In [52]:
df['num_cast']. value_counts()

num_cast
10    1442
8     1179
1      881
0      825
9      688
6      620
7      617
11     474
5      370
12     307
4      272
2      201
3      193
13     186
14     125
15     120
16      72
17      47
18      37
19      28
20      26
21      16
22      11
25       9
23       9
24       7
28       6
26       6
27       4
34       3
47       3
33       3
40       2
31       2
50       2
38       2
41       2
30       2
39       2
35       1
36       1
42       1
44       1
32       1
29       1
Name: count, dtype: int64

In [56]:
df['cast'].value_counts()

cast
sin información                                                                                                                                                                               825
David Attenborough                                                                                                                                                                             19
Vatsal Dubey, Julie Tejwani, Rupa Bhimani, Jigna Bhardwaj, Rajesh Kava, Mousam, Swapnil                                                                                                        14
Samuel West                                                                                                                                                                                    10
Jeff Dunham                                                                                                                                                                                     7
                         

In [58]:
print(df['cast'].head(20))

0                                       sin información
1     Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...
2     Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...
3                                       sin información
4     Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...
5     Kate Siegel, Zach Gilford, Hamish Linklater, H...
6     Vanessa Hudgens, Kimiko Glenn, James Marsden, ...
7     Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...
8     Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho...
9     Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...
10                                      sin información
11    Sukollawat Kanarot, Sushar Manaying, Pavarit M...
12    Luna Wedler, Jannis Niewöhner, Milan Peschel, ...
13    Klara Castanho, Lucca Picon, Júlia Gomes, Marc...
14                                      sin información
15    Logan Browning, Brandon P. Bell, DeRon Horton,...
16                                      sin información
17    Luis Ernesto Franco, Camila Sodi, Sergio G

In [59]:
print(df['cast'].value_counts().head(20))

cast
sin información                                                                                                           825
David Attenborough                                                                                                         19
Vatsal Dubey, Julie Tejwani, Rupa Bhimani, Jigna Bhardwaj, Rajesh Kava, Mousam, Swapnil                                    14
Samuel West                                                                                                                10
Jeff Dunham                                                                                                                 7
Craig Sechler                                                                                                               6
David Spade, London Hughes, Fortune Feimster                                                                                6
Kevin Hart                                                                                                       

# no hace falta normalizar los nombres de cast (?)


#### Ejercicio 9: Identificación de Directores Recurrentes

En este ejercicio, debes identificar los directores que aparecen más de una vez en el conjunto de datos. Realiza los siguientes pasos:

1. **Reemplaza los valores nulos** en la columna `director` por "sin información".

3. **Cuenta cuántas veces aparece cada director** en la columna creada en el ejercicio 6.

4. **Filtra aquellos directores que aparecen más de una vez** y crea una nueva columna llamada `recurrent_director` donde se indique "Yes" si el director aparece varias veces o "No" en caso contrario.

In [60]:
df['director'] = df['director'].fillna('sin información')

In [62]:
df['director'].value_counts()

director
sin información                   2634
Rajiv Chilaka                       19
Raúl Campos, Jan Suter              18
Suhas Kadav                         16
Marcus Raboy                        16
                                  ... 
Raymie Muzquiz, Stu Livingston       1
Joe Menendez                         1
Eric Bross                           1
Will Eisenberg                       1
Mozez Singh                          1
Name: count, Length: 4529, dtype: int64

In [65]:
director_counts = df['director'].value_counts()
director_counts

director
sin información                   2634
Rajiv Chilaka                       19
Raúl Campos, Jan Suter              18
Suhas Kadav                         16
Marcus Raboy                        16
                                  ... 
Raymie Muzquiz, Stu Livingston       1
Joe Menendez                         1
Eric Bross                           1
Will Eisenberg                       1
Mozez Singh                          1
Name: count, Length: 4529, dtype: int64

In [66]:
df['recurrent_director'] = df['director'].apply(lambda x: 'Yes' if director_counts[x] > 1 else 'No')

In [67]:
print(df[['director', 'recurrent_director']].head(20))

                                         director recurrent_director
0                                 Kirsten Johnson                 No
1                                 sin información                Yes
2                                 Julien Leclercq                Yes
3                                 sin información                Yes
4                                 sin información                Yes
5                                   Mike Flanagan                Yes
6                   Robert Cullen, José Luis Ucha                 No
7                                    Haile Gerima                 No
8                                 Andy Devonshire                 No
9                                  Theodore Melfi                 No
10                                sin información                Yes
11                              Kongkiat Komesiri                 No
12                            Christian Schwochow                 No
13                                