<a href="https://colab.research.google.com/github/fralfaro/MAT281/blob/main/docs/labs/lab_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03





**Objetivo**: Aplicar técnicas avanzadas de manipulación y análisis de datos con pandas sobre un conjunto real de datos de contenido de Netflix, reforzando buenas prácticas y métodos eficientes sin recurrir a `groupby`, `merge`, `pivot`, ni `join`.



**Dataset**:

Trabajaremos con el archivo `netflix_titles.csv`, que contiene información sobre los títulos disponibles en la plataforma Netflix hasta el año 2021.

| Variable       | Clase     | Descripción                                                                 |
|----------------|-----------|------------------------------------------------------------------------------|
| show_id        | caracter  | Identificador único del título en el catálogo de Netflix.                   |
| type           | caracter  | Tipo de contenido: 'Movie' o 'TV Show'.                                     |
| title          | caracter  | Título del contenido.                                                       |
| director       | caracter  | Nombre del director (puede ser nulo).                                       |
| cast           | caracter  | Lista de actores principales (puede ser nulo).                              |
| country        | caracter  | País o países donde se produjo el contenido.                                |
| date_added     | fecha     | Fecha en la que el título fue agregado al catálogo de Netflix.              |
| release_year   | entero    | Año de lanzamiento original del título.                                     |
| rating         | caracter  | Clasificación por edad (por ejemplo: 'PG-13', 'TV-MA').                      |
| duration       | caracter  | Duración del contenido (minutos o número de temporadas para series).        |
| listed_in      | caracter  | Categorías o géneros en los que está clasificado el contenido.              |
| description    | caracter  | Breve sinopsis del contenido.                                               |




In [59]:
import pandas as pd

# Cargar datos
df = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/netflix_titles.csv')
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...



## Parte 1: Limpieza y preparación

1. Revisar y describir el dataset:

   * ¿Cuántas filas y columnas tiene?
   * ¿Qué tipos de datos hay?
   * ¿Cuántos valores nulos hay por columna?

2. Transformar la columna `date_added` a tipo fecha.

3. Crear columnas auxiliares con `assign`:

   * Año (`year_added`)
   * Mes (`month_added`)



### 1

In [60]:
#Se muestra el número de filas y de columnas , respectivamente.
n_filas, n_columnas = df.shape
print(f"Filas: {n_filas:,}, Columnas: {n_columnas}")
print("Hay",n_filas," filas y ",n_columnas," columnas")

Filas: 8,807, Columnas: 12
Hay 8807  filas y  12  columnas


In [61]:
# Informacion del dataframe.
print("Esta es la información del dataframe:")
df.info()
"\n"
"\n"

# Tipo de datos por columnas.
print("Y este son los tipo de datos por columnas: \n")
df.dtypes

Esta es la información del dataframe:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB
Y este son los tipo de datos por columnas: 



Unnamed: 0,0
show_id,object
type,object
title,object
director,object
cast,object
country,object
date_added,object
release_year,int64
rating,object
duration,object


In [62]:
# Valores nulos por columna.
print("Los valores nulos por columna son los siguientes:")
df.isnull().sum()


Los valores nulos por columna son los siguientes:


Unnamed: 0,0
show_id,0
type,0
title,0
director,2634
cast,825
country,831
date_added,10
release_year,0
rating,4
duration,3


### 2

In [64]:
# Se transforma la columna `date_added` a tipo fecha.
df["date_added"] = pd.to_datetime(df["date_added"], errors="coerce") #Se utilizo errors="coerce", ya que la columna puede tener valores faltantes o strings mal formados, y usando esto esos casos se transformen en NaT.
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


### 3

In [65]:
#Se crean las columnas auxiliares year_added y month_added con assign.
df = df.assign(
    year_added=lambda x: x["date_added"].dt.year,
    month_added=lambda x: x["date_added"].dt.month
)

df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,year_added,month_added
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",2021.0,9.0
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",2021.0,9.0
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,2021.0,9.0
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",2021.0,9.0
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,2021.0,9.0


## Parte 2: Técnicas avanzadas de pandas

4. Utilizar `.loc` para seleccionar películas (`type == 'Movie'`) que fueron agregadas después del año 2018.

5. Utilizar `str.contains()` y `str.extract()`:

   * Filtrar títulos que contienen la palabra 'love' (sin distinguir mayúsculas/minúsculas).
   * Extraer la duración en minutos para las películas desde la columna `duration`.

6. Aplicar `explode()` sobre la columna `listed_in` para obtener una fila por cada género.

7. Obtener un top 10 de géneros más frecuentes utilizando `value_counts()`.

8. Aplicar `where()` y `mask()` para marcar las películas de más de 120 minutos como contenido largo en una nueva columna.

9. Utilizar `.loc` para filtrar películas que cumplen con:

   * Más de 100 minutos de duración.
   * Rating igual a `'R'`.
   * País igual a `'United States'`.

10. Utilizar `.style` para formatear visualmente el top 10 de películas más largas.

### 4

In [66]:
# Se seleccionan utilizando .loc las películas ('type' == 'Movie') que fueron agregadas después del año 2018.
df_movies_after_2018 = df.loc[(df['type'] == 'Movie') & (df['year_added'] > 2018)]
display(df_movies_after_2018.head()) #Se utilizo display, puesto que facilita la lectura y exploración del Dataframe. Está función es especialmente útil para ver DataFrames grandes o con muchos datos (coniserando que se está trabajando en Google Colab), como es este caso.

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,year_added,month_added
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",2021.0,9.0
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,91 min,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,2021.0,9.0
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",2021.0,9.0
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,2021.0,9.0
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...,2021.0,9.0


## 5

In [67]:
#Se utiliza str.contains para filtrar títulos que contienen la palabra "love".
titulos_love = df.loc[
    df["title"].str.contains("love", case=False, na=False)  # Se utliza case=False para que no se distinga entre mayúsculas y minúsculas, y se usa na=False, porque evita que los valores nulos (NaN) generen errores en la búsqueda.
]


titulos_love[["title", "type", "release_year"]].head()


Unnamed: 0,title,type,release_year
25,Love on the Spectrum,TV Show,2021
158,Love Don't Cost a Thing,Movie,2003
159,Love in a Puff,Movie,2010
206,"LSD: Love, Sex Aur Dhokha",Movie,2010
227,Really Love,Movie,2020


In [68]:
#Se utilza str.extract para extraer la duración en minutos para las películas desde la columna duration.

# Primero seleccionamos solo las películas.
peliculas = df.loc[df["type"] == "Movie"]

# Luego se extare el número (antes de 'min') de duration, usando str.extract.
peliculas = peliculas.assign(
    duration_min=peliculas["duration"].str.extract(r"(\d+)\s*min") #Se usa una expresión regular ( (r"(\d+)\s*min") ) para capturar los números seguidos de la palabra "min".
)

peliculas[["title", "duration", "duration_min"]].head()


Unnamed: 0,title,duration,duration_min
0,Dick Johnson Is Dead,90 min,90
6,My Little Pony: A New Generation,91 min,91
7,Sankofa,125 min,125
9,The Starling,104 min,104
12,Je Suis Karl,127 min,127


### 6

In [69]:
# Se aplica explode() sobre la columna 'listed_in' para obtener una fila por cada género.
df_generos = df.assign(
    listed_in=df["listed_in"].str.split(", ") #Se utiliza str.split(", ") para dividir los strings de la columna listed_in por la coma seguida de un espacio. Esto transforma cada string en una lista de géneros.
).explode("listed_in").reset_index(drop=True) #Se usa reset_index(drop=True) para restablecer el índice del DataFrame resultante y eliminar la columna de índice original.

df_generos.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,year_added,month_added
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",2021.0,9.0
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,International TV Shows,"After crossing paths at a party, a Cape Town t...",2021.0,9.0
2,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,TV Dramas,"After crossing paths at a party, a Cape Town t...",2021.0,9.0
3,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,TV Mysteries,"After crossing paths at a party, a Cape Town t...",2021.0,9.0
4,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,1 Season,Crime TV Shows,To protect his family from a powerful drug lor...,2021.0,9.0


### 7

In [70]:
# Se obtuvo un top 10 de géneros más frecuentes utilizando value_counts.
top_generos = (
    df_generos["listed_in"]
    .value_counts()
    .head(10)
)

print(top_generos)


listed_in
International Movies        2752
Dramas                      2427
Comedies                    1674
International TV Shows      1351
Documentaries                869
Action & Adventure           859
TV Dramas                    763
Independent Movies           756
Children & Family Movies     641
Romantic Movies              616
Name: count, dtype: int64


### 8

In [71]:
#Se utiliza where() y mask() para marcar las películas de más de 120 minutos como contenido largo en una nueva columna.

# Primero seleccionamos solo las películas.
peliculas = df.loc[df["type"] == "Movie"].copy()  #Se copia, ya que se utilizo anteriormente en el ejercicio 2.5 donde se utiliza el str.extract.

# Aseguramos que tenemos duration_min
peliculas["duration_min"] = (peliculas["duration"].str.extract(r"(\d+)\s*min").astype(float))

#Con where(condición, valor_si_falso) mantenemos el valor cuando se cumple la condición, en este caso de "Largo" a "Corto".
peliculas["contenido_largo_where"] = (
    peliculas["duration_min"]
    .where(peliculas["duration_min"] > 120, other="Corto")
)

# Cambiamos a etiqueta "Largo"
peliculas["contenido_largo_where"] = peliculas["contenido_largo_where"].apply(
    lambda x: "Largo" if x != "Corto" else "Corto"
)

# Con mask(condición, valor_si_verdadero) reemplazamos solo cuando se cumple la condición, en este caso de "Corto" a "Largo".
peliculas["contenido_largo_mask"] = (
    pd.Series("Corto", index=peliculas.index)
      .mask(peliculas["duration_min"] > 120, "Largo")
)

peliculas.head()


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,year_added,month_added,duration_min,contenido_largo_where,contenido_largo_mask
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",2021.0,9.0,90.0,Corto,Corto
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,91 min,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,2021.0,9.0,91.0,Corto,Corto
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",2021.0,9.0,125.0,Largo,Largo
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,2021.0,9.0,104.0,Corto,Corto
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...,2021.0,9.0,127.0,Largo,Largo


### 9

In [72]:
#Se utiliza .loc para filtrar películas que cumplen con: Más de 100 minutos de duración, Rating igual a "R" y País igual a "United States".

#Aseguramos que tenemos duration_min
df["duration_min"] = ( df["duration"].str.extract(r"(\d+)\s*min").astype(float))

#Se filtra con .loc.
peliculas_filtradas = df.loc[
    (df["type"] == "Movie") &
    (df["duration_min"] > 100) &
    (df["rating"] == "R") &
    (df["country"] == "United States")
]

peliculas_filtradas[["title", "duration", "duration_min", "rating", "country"]].head()

Unnamed: 0,title,duration,duration_min,rating,country
48,Training Day,122 min,122.0,R,United States
81,Kate,106 min,106.0,R,United States
131,Blade Runner: The Final Cut,117 min,117.0,R,United States
139,Do the Right Thing,120 min,120.0,R,United States
144,House Party,104 min,104.0,R,United States


### 10

In [73]:
#Se utilza .style para formatear visualmente el top 10 de películas más largas.

#Aseguramos que tenemos duration_min.
df["duration_min"] = df["duration"].str.extract(r"(\d+)\s*min").astype(float)


#Seleccionamos las películas más largas.
top10_largas = (
    df.loc[df["type"] == "Movie", ["title", "duration", "duration_min"]]
      .sort_values("duration_min", ascending=False)
      .head(10)
)


#Formateamos visualmente usando .style.
(
    top10_largas.style
    .background_gradient(subset=["duration_min"], cmap="Reds")  # degradado rojo según minutos
    .set_caption("🎬 Top 10 películas más largas en Netflix")
    .format({"duration_min": "{:.0f} min"})  # mostrar sin decimales
)


Unnamed: 0,title,duration,duration_min
4253,Black Mirror: Bandersnatch,312 min,312 min
717,Headspace: Unwind Your Mind,273 min,273 min
2491,The School of Mischief,253 min,253 min
2487,No Longer kids,237 min,237 min
2484,Lock Your Girls In,233 min,233 min
2488,Raya and Sakina,230 min,230 min
166,Once Upon a Time in America,229 min,229 min
7932,Sangam,228 min,228 min
1019,Lagaan,224 min,224 min
4573,Jodhaa Akbar,214 min,214 min




## Pregunta Desafío

11. ¿Cuáles son las combinaciones más frecuentes de género y rating en el dataset?
    (Sugerencia: utilizar `value_counts` con `subset=["genre", "rating"]` después de aplicar `explode()`).



### Bonus: Análisis de duplicados y limpieza

12. ¿Existen películas con el mismo nombre (`title`) pero con distinto año de lanzamiento (`release_year`)?
13. ¿Cuántos títulos únicos hay en total en la columna `title`?





### 11

In [74]:
#Se obtienen las combinaciones más frecuentes de género y rating en el dataset.

# Explota la columna de géneros para tener una fila por cada género del título.
df_generos = df.assign(listed_in=df["listed_in"].str.split(r",\s*")).explode("listed_in")

## Cuenta combinaciones (género, rating) y arma el Top 10
top_genre_rating = (
    df_generos.value_counts(subset=["listed_in","rating"])
              .rename("count")
              .reset_index()
              .sort_values("count", ascending=False)
              .head(10)
)
print("Las combinaciones más frecuentes de género y rating en el dataset son las siguientes:")
top_genre_rating



Las combinaciones más frecuentes de género y rating en el dataset son las siguientes:


Unnamed: 0,listed_in,rating,count
0,International Movies,TV-MA,1130
1,International Movies,TV-14,1065
2,Dramas,TV-MA,830
3,International TV Shows,TV-MA,714
4,Dramas,TV-14,693
5,International TV Shows,TV-14,472
6,Comedies,TV-14,465
7,TV Dramas,TV-MA,434
8,Comedies,TV-MA,431
9,Dramas,R,375


### 12

In [75]:
#Se verifica si existen películas con el mismo nombre title, pero con distinto año de lanzamiento release_year.

peliculas = df.loc[df["type"] == "Movie"]


# Agrupamos por título y contamos cuántos años distintos tiene
titulos_repetidos = (
    peliculas.groupby("title")["release_year"]
             .nunique()
             .reset_index(name="n_anios")
)

# Nos quedamos con los que tienen más de un año
titulos_repetidos = titulos_repetidos.loc[titulos_repetidos["n_anios"] > 1]


# Mostrar ejemplos de títulos repetidos con sus años
ejemplos = peliculas.loc[peliculas["title"].isin(titulos_repetidos["title"])]

ejemplos[["title", "release_year"]].sort_values("title").head(20)

Unnamed: 0,title,release_year


#### No existen películas con el mismo nombre, pero con distinto año de lanzamiento

### 13

In [76]:
#Se muestra la cantidad de títulos únicos en la columna title.
titulos_unicos = df["title"].nunique()
print("Títulos únicos en la columna 'title':", titulos_unicos)


Títulos únicos en la columna 'title': 8807


#### En la columna "title" hay 8807 títulos únicos.