<a href="https://colab.research.google.com/github/fralfaro/MAT281/blob/main/docs/labs/lab_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03





**Objetivo**: Aplicar técnicas avanzadas de manipulación y análisis de datos con pandas sobre un conjunto real de datos de contenido de Netflix, reforzando buenas prácticas y métodos eficientes sin recurrir a `groupby`, `merge`, `pivot`, ni `join`.



**Dataset**:

Trabajaremos con el archivo `netflix_titles.csv`, que contiene información sobre los títulos disponibles en la plataforma Netflix hasta el año 2021.

| Variable       | Clase     | Descripción                                                                 |
|----------------|-----------|------------------------------------------------------------------------------|
| show_id        | caracter  | Identificador único del título en el catálogo de Netflix.                   |
| type           | caracter  | Tipo de contenido: 'Movie' o 'TV Show'.                                     |
| title          | caracter  | Título del contenido.                                                       |
| director       | caracter  | Nombre del director (puede ser nulo).                                       |
| cast           | caracter  | Lista de actores principales (puede ser nulo).                              |
| country        | caracter  | País o países donde se produjo el contenido.                                |
| date_added     | fecha     | Fecha en la que el título fue agregado al catálogo de Netflix.              |
| release_year   | entero    | Año de lanzamiento original del título.                                     |
| rating         | caracter  | Clasificación por edad (por ejemplo: 'PG-13', 'TV-MA').                      |
| duration       | caracter  | Duración del contenido (minutos o número de temporadas para series).        |
| listed_in      | caracter  | Categorías o géneros en los que está clasificado el contenido.              |
| description    | caracter  | Breve sinopsis del contenido.                                               |




In [2]:
import pandas as pd

# Cargar datos
df = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/netflix_titles.csv')
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...



### Parte 1: Limpieza y preparación

1. Revisar y describir el dataset:

   * ¿Cuántas filas y columnas tiene?
   * ¿Qué tipos de datos hay?
   * ¿Cuántos valores nulos hay por columna?

2. Transformar la columna `date_added` a tipo fecha.

3. Crear columnas auxiliares con `assign`:

   * Año (`year_added`)
   * Mes (`month_added`)



In [4]:
filas, columnas = df.shape
print("Las filas son: ", filas)
print("Las columnas son: ", columnas)

print("\nLos tipos de datos son: ", df.dtypes)

print("\nLos valores nulos por columna: ", df.isnull().sum())

Las filas son:  8807
Las columnas son:  12

Los tipos de datos son:  show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

Los valores nulos por columna:  show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64


In [5]:
df['date_added'] = pd.to_datetime(df['date_added'], errors='coerce')
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [6]:
df = df.assign(year_added = df['date_added'].dt.year, month_added = df['date_added'].dt.month)
df[['date_added', 'year_added', 'month_added']].head(10)

Unnamed: 0,date_added,year_added,month_added
0,2021-09-25,2021.0,9.0
1,2021-09-24,2021.0,9.0
2,2021-09-24,2021.0,9.0
3,2021-09-24,2021.0,9.0
4,2021-09-24,2021.0,9.0
5,2021-09-24,2021.0,9.0
6,2021-09-24,2021.0,9.0
7,2021-09-24,2021.0,9.0
8,2021-09-24,2021.0,9.0
9,2021-09-24,2021.0,9.0


## Parte 2: Técnicas avanzadas de pandas

4. Utilizar `.loc` para seleccionar películas (`type == 'Movie'`) que fueron agregadas después del año 2018.

5. Utilizar `str.contains()` y `str.extract()`:

   * Filtrar títulos que contienen la palabra 'love' (sin distinguir mayúsculas/minúsculas).
   * Extraer la duración en minutos para las películas desde la columna `duration`.

6. Aplicar `explode()` sobre la columna `listed_in` para obtener una fila por cada género.

7. Obtener un top 10 de géneros más frecuentes utilizando `value_counts()`.

8. Aplicar `where()` y `mask()` para marcar las películas de más de 120 minutos como contenido largo en una nueva columna.

9. Utilizar `.loc` para filtrar películas que cumplen con:

   * Más de 100 minutos de duración.
   * Rating igual a `'R'`.
   * País igual a `'United States'`.

10. Utilizar `.style` para formatear visualmente el top 10 de películas más largas.

In [7]:
condicion_tipo = df['type'] == 'Movie'
condicion_year = df['year_added'] > 2018

peliculas_recientes = df.loc[condicion_tipo & condicion_year]

print("Películas agregadas después de 2018:")
peliculas_recientes[['title', 'type', 'year_added']].head()

Películas agregadas después de 2018:


Unnamed: 0,title,type,year_added
0,Dick Johnson Is Dead,Movie,2021.0
6,My Little Pony: A New Generation,Movie,2021.0
7,Sankofa,Movie,2021.0
9,The Starling,Movie,2021.0
12,Je Suis Karl,Movie,2021.0


In [10]:
titulos_love = df[df['title'].str.contains('love', case=False, na=False)] #case=False -> No distinguir mayus/minus
print("Títulos que contienen la palabra 'love':")
display(titulos_love[['title']].head())

duracion_numerica = df.loc[df['type'] == 'Movie', 'duration'].str.extract(r'(\d+)') #r(\d+) busca uno o más dígitos


df['duration_min'] = pd.to_numeric(duracion_numerica[0])

print("\nDuración extraída para las primeras 5 películas:")
display(df.loc[df['type'] == 'Movie', ['title', 'duration', 'duration_min']].head())

Títulos que contienen la palabra 'love':


Unnamed: 0,title
25,Love on the Spectrum
158,Love Don't Cost a Thing
159,Love in a Puff
206,"LSD: Love, Sex Aur Dhokha"
227,Really Love



Duración extraída para las primeras 5 películas:


Unnamed: 0,title,duration,duration_min
0,Dick Johnson Is Dead,90 min,90.0
6,My Little Pony: A New Generation,91 min,91.0
7,Sankofa,125 min,125.0
9,The Starling,104 min,104.0
12,Je Suis Karl,127 min,127.0


In [12]:
df_exp = df.assign(listed_in=df["listed_in"].apply(lambda x: x.split(", ")))
df_exp = df_exp.explode("listed_in")
df_exp.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,year_added,month_added,duration_min
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",2021.0,9.0,90.0
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,International TV Shows,"After crossing paths at a party, a Cape Town t...",2021.0,9.0,
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,TV Dramas,"After crossing paths at a party, a Cape Town t...",2021.0,9.0,
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,TV Mysteries,"After crossing paths at a party, a Cape Town t...",2021.0,9.0,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,1 Season,Crime TV Shows,To protect his family from a powerful drug lor...,2021.0,9.0,


In [15]:
top10_generos = df_explode['listed_in'].value_counts().head(10)
print(top10_generos)

listed_in
Comedies, Dramas, International Movies              822
Dramas, Independent Movies, International Movies    756
Dramas, International Movies                        724
Dramas, International Movies, Romantic Movies       540
Comedies, International Movies, Romantic Movies     456
Dramas, International Movies, Thrillers             402
Children & Family Movies, Comedies                  402
Action & Adventure, Dramas, International Movies    396
Documentaries, International Movies                 372
Documentaries                                       359
Name: count, dtype: int64


In [18]:
import numpy as np

#Con mask
df_movies['long_content'] = df_movies['duration_minutes'].mask(df_movies['duration_minutes'] > 120, 'Contenido largo')

#Con where
condicion = (df['type'] == 'Movie') & (df['duration_min'] > 120)

# Si la condición se cumple, asigna 'Largas', de lo contrario 'Normal'
df['largo'] = np.where(condicion, 'Largas', 'Normal')

print("Películas marcadas como 'Largas':")
df[df['largo'] == 'Largas'][['title', 'duration_min', 'largo']].head()

Películas marcadas como 'Largas':


Unnamed: 0,title,duration_min,largo
7,Sankofa,125.0,Largas
12,Je Suis Karl,127.0,Largas
22,Avvai Shanmughi,161.0,Largas
24,Jeans,166.0,Largas
26,Minsara Kanavu,147.0,Largas


In [19]:
df_filtered = df_movies.loc[
    (df_movies['duration_minutes'] > 100) &
    (df_movies['rating'] == 'R') &
    (df_movies['country'] == 'United States')
]

In [20]:
# Obtenemos las 10 películas más largas usando nlargest
top_10_largas = df.nlargest(10, 'duration_min')

# Seleccionamos columnas de interés para mostrar
columnas_display = ['title', 'director', 'country', 'duration_min']

# Estilizamos
top_10_largas[columnas_display].style.background_gradient(subset=['duration_min'], cmap='viridis')

Unnamed: 0,title,director,country,duration_min
4253,Black Mirror: Bandersnatch,,United States,312.0
717,Headspace: Unwind Your Mind,,,273.0
2491,The School of Mischief,Houssam El-Din Mustafa,Egypt,253.0
2487,No Longer kids,Samir Al Asfory,Egypt,237.0
2484,Lock Your Girls In,Fouad El-Mohandes,,233.0
2488,Raya and Sakina,Hussein Kamal,,230.0
166,Once Upon a Time in America,Sergio Leone,"Italy, United States",229.0
7932,Sangam,Raj Kapoor,India,228.0
1019,Lagaan,Ashutosh Gowariker,"India, United Kingdom",224.0
4573,Jodhaa Akbar,Ashutosh Gowariker,India,214.0




### Pregunta Desafío

11. ¿Cuáles son las combinaciones más frecuentes de género y rating en el dataset?
    (Sugerencia: utilizar `value_counts` con `subset=["genre", "rating"]` después de aplicar `explode()`).



### Bonus: Análisis de duplicados y limpieza

12. ¿Existen películas con el mismo nombre (`title`) pero con distinto año de lanzamiento (`release_year`)?
13. ¿Cuántos títulos únicos hay en total en la columna `title`?





In [22]:
combinaciones = (
    df_explode.value_counts(subset=['genre', 'rating'])
              .reset_index(name='count')
              .head(10)
)
print(combinaciones)

                    genre rating  count
0    International Movies  TV-MA   1130
1    International Movies  TV-14   1065
2                  Dramas  TV-MA    830
3  International TV Shows  TV-MA    714
4                  Dramas  TV-14    693
5  International TV Shows  TV-14    472
6                Comedies  TV-14    465
7               TV Dramas  TV-MA    434
8                Comedies  TV-MA    431
9                  Dramas      R    375


In [21]:
df_titulos_duplicados = df[df['title'].duplicated(keep=False)]

df_casos_buscados = df_titulos_duplicados.drop_duplicates(subset=['title', 'release_year'])
casos_finales = df_casos_buscados[df_casos_buscados['title'].duplicated(keep=False)]

if not casos_finales.empty:
    print("Sí, existen títulos con el mismo nombre pero diferente año de lanzamientos:")
    display(df[df['title'].isin(casos_finales['title'])].sort_values('title'))
else:
    print("No se encontraron títulos con el mismo nombre y diferente año de lanzamiento.")

No se encontraron títulos con el mismo nombre y diferente año de lanzamiento.


In [None]:
total_unicos = df['title'].nunique()
print("Número de títulos únicos:", total_unicos)

Número de títulos únicos: 8807
