<a href="https://colab.research.google.com/github/fralfaro/MAT281/blob/main/docs/labs/lab_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03





**Objetivo**: Aplicar técnicas avanzadas de manipulación y análisis de datos con pandas sobre un conjunto real de datos de contenido de Netflix, reforzando buenas prácticas y métodos eficientes sin recurrir a `groupby`, `merge`, `pivot`, ni `join`.



**Dataset**:

Trabajaremos con el archivo `netflix_titles.csv`, que contiene información sobre los títulos disponibles en la plataforma Netflix hasta el año 2021.

| Variable       | Clase     | Descripción                                                                 |
|----------------|-----------|------------------------------------------------------------------------------|
| show_id        | caracter  | Identificador único del título en el catálogo de Netflix.                   |
| type           | caracter  | Tipo de contenido: 'Movie' o 'TV Show'.                                     |
| title          | caracter  | Título del contenido.                                                       |
| director       | caracter  | Nombre del director (puede ser nulo).                                       |
| cast           | caracter  | Lista de actores principales (puede ser nulo).                              |
| country        | caracter  | País o países donde se produjo el contenido.                                |
| date_added     | fecha     | Fecha en la que el título fue agregado al catálogo de Netflix.              |
| release_year   | entero    | Año de lanzamiento original del título.                                     |
| rating         | caracter  | Clasificación por edad (por ejemplo: 'PG-13', 'TV-MA').                      |
| duration       | caracter  | Duración del contenido (minutos o número de temporadas para series).        |
| listed_in      | caracter  | Categorías o géneros en los que está clasificado el contenido.              |
| description    | caracter  | Breve sinopsis del contenido.                                               |




In [151]:
import pandas as pd

# Cargar datos
df = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/netflix_titles.csv')
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...



### Parte 1: Limpieza y preparación

1. Revisar y describir el dataset:

   * ¿Cuántas filas y columnas tiene?
   * ¿Qué tipos de datos hay?
   * ¿Cuántos valores nulos hay por columna?

2. Transformar la columna `date_added` a tipo fecha.

3. Crear columnas auxiliares con `assign`:

   * Año (`year_added`)
   * Mes (`month_added`)



In [150]:
"1. "
print("Hay", df.shape[0], "filas y", df.shape[1], "columnas.")
print('')
print("Los tipos de datos que hay son:")
print(df.dtypes)
print('')
print("Los valores nulos por cada columna son:")
print(df.isnull().sum())
print('')
print("Al transformar la columna date_added a fecha obtenemos:")
print(pd.to_datetime(df['date_added'], errors='coerce'))
print('')
df = df.assign(year_added=pd.to_datetime(df['date_added'], errors='coerce').dt.year)
df = df.assign(month_added=pd.to_datetime(df['date_added'], errors='coerce').dt.month)
print("Al agregar el mes y año se tiene la siguiente tabla:")
df

Hay 8807 filas y 15 columnas.

Los tipos de datos que hay son:
show_id          object
type             object
title            object
director         object
cast             object
country          object
date_added       object
release_year      int64
rating           object
duration         object
listed_in       float64
description      object
year_added      float64
month_added     float64
duration_min    float64
dtype: object

Los valores nulos por cada columna son:
show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in       8807
description        0
year_added        98
month_added       98
duration_min    2679
dtype: int64

Al transformar la columna date_added a fecha obtenemos:
0      2021-09-25
1      2021-09-24
2      2021-09-24
3      2021-09-24
4      2021-09-24
          ...    
8802   2019-11-20
8803   2019

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,year_added,month_added,duration_min
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,,"As her father nears the end of his life, filmm...",2021.0,9.0,90.0
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,,"After crossing paths at a party, a Cape Town t...",2021.0,9.0,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,,To protect his family from a powerful drug lor...,2021.0,9.0,
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,,"Feuds, flirtations and toilet talk go down amo...",2021.0,9.0,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,,In a city of coaching centers known to train I...,2021.0,9.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,,"A political cartoonist, a crime reporter and a...",2019.0,11.0,158.0
8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,,"While living alone in a spooky town, a young g...",2019.0,7.0,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,88 min,,Looking to survive in a world taken over by zo...,2019.0,11.0,88.0
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,88 min,,"Dragged from civilian life, a former superhero...",2020.0,1.0,88.0


## Parte 2: Técnicas avanzadas de pandas

4. Utilizar `.loc` para seleccionar películas (`type == 'Movie'`) que fueron agregadas después del año 2018.

5. Utilizar `str.contains()` y `str.extract()`:

   * Filtrar títulos que contienen la palabra 'love' (sin distinguir mayúsculas/minúsculas).
   * Extraer la duración en minutos para las películas desde la columna `duration`.

6. Aplicar `explode()` sobre la columna `listed_in` para obtener una fila por cada género.

7. Obtener un top 10 de géneros más frecuentes utilizando `value_counts()`.

8. Aplicar `where()` y `mask()` para marcar las películas de más de 120 minutos como contenido largo en una nueva columna.

9. Utilizar `.loc` para filtrar películas que cumplen con:

   * Más de 100 minutos de duración.
   * Rating igual a `'R'`.
   * País igual a `'United States'`.

10. Utilizar `.style` para formatear visualmente el top 10 de películas más largas.

In [177]:
"4."
df = df.assign(year_added=pd.to_datetime(df['date_added'], errors='coerce').dt.year)
df = df.assign(month_added=pd.to_datetime(df['date_added'], errors='coerce').dt.month)

peliculas_2018mas = df.loc[(df['type']=='Movie') & (df['year_added']>2018)]
print("Las películas que fueron agregadas después del año 2018 son:")
print(peliculas_2018mas[['title', 'date_added']])
print('')
"--------------------------------"
"5."
love = df[df['title'].str.contains('love', case=False, na=False)]
print("Las películas que contienen la palabra 'love' son:")
print(love[['title', 'date_added']])
print('')
df['duration_min'] = df['duration'].str.extract('(\d+) min').astype(float)
print("Las películas con duración en minutos son:")
print(df[['title', 'duration_min']])
print('')

"--------------------------------"
"6."
df_exploded = df.assign(listed_in=df['listed_in'].astype(str).str.split(', ')).explode('listed_in')
df_exploded = df_exploded[df_exploded['listed_in'] != 'nan']
print("Tabla después de aplicar explode() en 'listed_in':")
display(df_exploded)
print('')

"--------------------------------"
"7."
t10_generos = df_exploded['listed_in'].value_counts().head(10)
print("Top 10 de géneros más frecuentes:")
display(t10_generos)
print('')

"--------------------------------"
"8."
df['long_content'] = 'Short/Medium Movie'
df['long_content'] = df['long_content'].where(df['duration_min'] <= 120, 'Long Movie')
df['long_content'] = df['long_content'].mask(df['duration_min'].isnull(), None)
print("Tabla con la nueva columna 'long_content':")
display(df[['title', 'duration_min', 'long_content']])
print('')

"--------------------------------"
"9."
peliculas_filtradas = df.loc[(df['type'] == 'Movie') &
                         (df['duration_min'] > 100) &
                         (df['rating'] == 'R') &
                         (df['country'] == 'United States')]
print("Películas que cumplen con duración > 100 min, rating 'R', y país 'United States':")
display(peliculas_filtradas[['title', 'duration_min', 'rating', 'country']])
print('')

"--------------------------------"
"10."
t10_peliculas_largas = df.loc[df['type'] == 'Movie'].sort_values(by='duration_min', ascending=False).head(10)
print("Top 10 de películas más largas:")
display(t10_peliculas_largas[['title', 'duration_min']].style.background_gradient(subset=['duration_min'], cmap='Reds'))
print('')

  df['duration_min'] = df['duration'].str.extract('(\d+) min').astype(float)


Las películas que fueron agregadas después del año 2018 son:
                                 title          date_added
0                 Dick Johnson Is Dead  September 25, 2021
6     My Little Pony: A New Generation  September 24, 2021
7                              Sankofa  September 24, 2021
9                         The Starling  September 24, 2021
12                        Je Suis Karl  September 23, 2021
...                                ...                 ...
8798                          Zed Plus   December 31, 2019
8802                            Zodiac   November 20, 2019
8804                        Zombieland    November 1, 2019
8805                              Zoom    January 11, 2020
8806                            Zubaan       March 2, 2019

[3701 rows x 2 columns]

Las películas que contienen la palabra 'love' son:
                               title          date_added
25              Love on the Spectrum  September 21, 2021
158          Love Don't Cost a Thing   S

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,year_added,month_added,duration_min,long_content
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",2021.0,9.0,90.0,Short/Medium Movie
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,International TV Shows,"After crossing paths at a party, a Cape Town t...",2021.0,9.0,,
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,TV Dramas,"After crossing paths at a party, a Cape Town t...",2021.0,9.0,,
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,TV Mysteries,"After crossing paths at a party, a Cape Town t...",2021.0,9.0,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,Crime TV Shows,To protect his family from a powerful drug lor...,2021.0,9.0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,88 min,Children & Family Movies,"Dragged from civilian life, a former superhero...",2020.0,1.0,88.0,Short/Medium Movie
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,88 min,Comedies,"Dragged from civilian life, a former superhero...",2020.0,1.0,88.0,Short/Medium Movie
8806,s8807,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,Dramas,A scrappy but poor boy worms his way into a ty...,2019.0,3.0,111.0,Short/Medium Movie
8806,s8807,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,International Movies,A scrappy but poor boy worms his way into a ty...,2019.0,3.0,111.0,Short/Medium Movie



Top 10 de géneros más frecuentes:


Unnamed: 0_level_0,count
listed_in,Unnamed: 1_level_1
International Movies,2752
Dramas,2427
Comedies,1674
International TV Shows,1351
Documentaries,869
Action & Adventure,859
TV Dramas,763
Independent Movies,756
Children & Family Movies,641
Romantic Movies,616



Tabla con la nueva columna 'long_content':


Unnamed: 0,title,duration_min,long_content
0,Dick Johnson Is Dead,90.0,Short/Medium Movie
1,Blood & Water,,
2,Ganglands,,
3,Jailbirds New Orleans,,
4,Kota Factory,,
...,...,...,...
8802,Zodiac,158.0,Long Movie
8803,Zombie Dumb,,
8804,Zombieland,88.0,Short/Medium Movie
8805,Zoom,88.0,Short/Medium Movie



Películas que cumplen con duración > 100 min, rating 'R', y país 'United States':


Unnamed: 0,title,duration_min,rating,country
48,Training Day,122.0,R,United States
81,Kate,106.0,R,United States
131,Blade Runner: The Final Cut,117.0,R,United States
139,Do the Right Thing,120.0,R,United States
144,House Party,104.0,R,United States
...,...,...,...,...
8678,Vincent N Roxxy,101.0,R,United States
8691,Wakefield,109.0,R,United States
8751,Wish I Was Here,106.0,R,United States
8754,Wolves,109.0,R,United States



Top 10 de películas más largas:


Unnamed: 0,title,duration_min
4253,Black Mirror: Bandersnatch,312.0
717,Headspace: Unwind Your Mind,273.0
2491,The School of Mischief,253.0
2487,No Longer kids,237.0
2484,Lock Your Girls In,233.0
2488,Raya and Sakina,230.0
166,Once Upon a Time in America,229.0
7932,Sangam,228.0
1019,Lagaan,224.0
4573,Jodhaa Akbar,214.0







### Pregunta Desafío

11. ¿Cuáles son las combinaciones más frecuentes de género y rating en el dataset?
    (Sugerencia: utilizar `value_counts` con `subset=["genre", "rating"]` después de aplicar `explode()`).



### Bonus: Análisis de duplicados y limpieza

12. ¿Existen películas con el mismo nombre (`title`) pero con distinto año de lanzamiento (`release_year`)?
13. ¿Cuántos títulos únicos hay en total en la columna `title`?





In [178]:
"11."
df_exploded_genero = df.assign(listed_in=df['listed_in'].astype(str).str.split(', ')).explode('listed_in')
df_exploded_genero = df_exploded_genero[df_exploded_genero['listed_in'] != 'nan']
genero_comb = df_exploded_genero.value_counts(subset=['listed_in', 'rating']).head(10)
print("10 mejores combinaciones más frecuentes de género y rating:")
display(genero_comb)
print('')

"--------------------------------"
"12."
peliculas_df = df[df['type'] == 'Movie'].copy()
mismo_titulo = peliculas_df[peliculas_df.duplicated(subset=['title'], keep=False)].sort_values(by='title')
años_distinto = mismo_titulo.groupby('title').filter(lambda x: x['release_year'].nunique() > 1)
print("Las peliculas con el mismo nombre y distinto año son:")
display(años_distinto[['title', 'release_year', 'date_added']])
print('')

"--------------------------------"
"13."
unico_titulo = df['title'].nunique()
print(f"Titulos unicos: {unico_titulo}")

10 mejores combinaciones más frecuentes de género y rating:


Unnamed: 0_level_0,Unnamed: 1_level_0,count
listed_in,rating,Unnamed: 2_level_1
International Movies,TV-MA,1130
International Movies,TV-14,1065
Dramas,TV-MA,830
International TV Shows,TV-MA,714
Dramas,TV-14,693
International TV Shows,TV-14,472
Comedies,TV-14,465
TV Dramas,TV-MA,434
Comedies,TV-MA,431
Dramas,R,375



Las peliculas con el mismo nombre y distinto año son:


Unnamed: 0,title,release_year,date_added



Titulos unicos: 8807
