<a href="https://colab.research.google.com/github/fralfaro/MAT281/blob/main/docs/labs/lab_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03





**Objetivo**: Aplicar técnicas avanzadas de manipulación y análisis de datos con pandas sobre un conjunto real de datos de contenido de Netflix, reforzando buenas prácticas y métodos eficientes sin recurrir a `groupby`, `merge`, `pivot`, ni `join`.



**Dataset**:

Trabajaremos con el archivo `netflix_titles.csv`, que contiene información sobre los títulos disponibles en la plataforma Netflix hasta el año 2021.

| Variable       | Clase     | Descripción                                                                 |
|----------------|-----------|------------------------------------------------------------------------------|
| show_id        | caracter  | Identificador único del título en el catálogo de Netflix.                   |
| type           | caracter  | Tipo de contenido: 'Movie' o 'TV Show'.                                     |
| title          | caracter  | Título del contenido.                                                       |
| director       | caracter  | Nombre del director (puede ser nulo).                                       |
| cast           | caracter  | Lista de actores principales (puede ser nulo).                              |
| country        | caracter  | País o países donde se produjo el contenido.                                |
| date_added     | fecha     | Fecha en la que el título fue agregado al catálogo de Netflix.              |
| release_year   | entero    | Año de lanzamiento original del título.                                     |
| rating         | caracter  | Clasificación por edad (por ejemplo: 'PG-13', 'TV-MA').                      |
| duration       | caracter  | Duración del contenido (minutos o número de temporadas para series).        |
| listed_in      | caracter  | Categorías o géneros en los que está clasificado el contenido.              |
| description    | caracter  | Breve sinopsis del contenido.                                               |




In [38]:
import pandas as pd

# Cargar datos
df = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/netflix_titles.csv')
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...



### Parte 1: Limpieza y preparación

1. Revisar y describir el dataset:

   * ¿Cuántas filas y columnas tiene?
   * ¿Qué tipos de datos hay?
   * ¿Cuántos valores nulos hay por columna?

2. Transformar la columna `date_added` a tipo fecha.

3. Crear columnas auxiliares con `assign`:

   * Año (`year_added`)
   * Mes (`month_added`)



In [39]:
#pregunta 1
print("Numero de filas y columnas:")
print(df.shape)
print("\nTipo de datos:")
print(df.dtypes)
print("\n Valores nulos por columna")
print(df.isnull().sum())

#Pregunta 2
df["date_added"]= pd.to_datetime(df["date_added"],errors="coerce")

#pegunta 3
#agregar columna de año y de mes a partir de la fecha
df=df.assign(year_added=df['date_added'].dt.year,month_added=df['date_added'].dt.month)

display(df.head())


Numero de filas y columnas:
(8807, 12)

Tipo de datos:
show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

 Valores nulos por columna
show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,year_added,month_added
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",2021.0,9.0
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",2021.0,9.0
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,2021.0,9.0
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",2021.0,9.0
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,2021.0,9.0


## Parte 2: Técnicas avanzadas de pandas

4. Utilizar `.loc` para seleccionar películas (`type == 'Movie'`) que fueron agregadas después del año 2018.

5. Utilizar `str.contains()` y `str.extract()`:

   * Filtrar títulos que contienen la palabra 'love' (sin distinguir mayúsculas/minúsculas).
   * Extraer la duración en minutos para las películas desde la columna `duration`.

6. Aplicar `explode()` sobre la columna `listed_in` para obtener una fila por cada género.

7. Obtener un top 10 de géneros más frecuentes utilizando `value_counts()`.

8. Aplicar `where()` y `mask()` para marcar las películas de más de 120 minutos como contenido largo en una nueva columna.

9. Utilizar `.loc` para filtrar películas que cumplen con:

   * Más de 100 minutos de duración.
   * Rating igual a `'R'`.
   * País igual a `'United States'`.

10. Utilizar `.style` para formatear visualmente el top 10 de películas más largas.

In [40]:
#Pregunta 4: Peliculas despues del 2018
mayor2018=df.loc[(df["type"]=="Movie") & (df["year_added"]>2018)]
display(mayor2018.head())

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,year_added,month_added
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",2021.0,9.0
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,91 min,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,2021.0,9.0
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",2021.0,9.0
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,2021.0,9.0
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...,2021.0,9.0


In [41]:
#Pregunta 5: titulos con la palabra love
love=df[df["title"].str.contains("love",case=False,na=False)]
display(love[["title"]].head())

#extraer duración
df["duracion_m"]=df["duration"].str.extract(r"(\d+)").astype(float)
display(df[["title","duration", "duracion_m"]].head())



Unnamed: 0,title
25,Love on the Spectrum
158,Love Don't Cost a Thing
159,Love in a Puff
206,"LSD: Love, Sex Aur Dhokha"
227,Really Love


Unnamed: 0,title,duration,duracion_m
0,Dick Johnson Is Dead,90 min,90.0
1,Blood & Water,2 Seasons,2.0
2,Ganglands,1 Season,1.0
3,Jailbirds New Orleans,1 Season,1.0
4,Kota Factory,2 Seasons,2.0


In [42]:
#pregunta 6: fila por genero
df["split"]=df["listed_in"].str.split(', ')
df_explode=df.explode("split")
display(df_explode[["title", "split"]].head())


Unnamed: 0,title,split
0,Dick Johnson Is Dead,Documentaries
1,Blood & Water,International TV Shows
1,Blood & Water,TV Dramas
1,Blood & Water,TV Mysteries
2,Ganglands,Crime TV Shows


In [43]:
#pregunta 7:top 10 generos mas frecuentes
top_10=df_explode["split"].value_counts().head(10)
print(top_10)

split
International Movies        2752
Dramas                      2427
Comedies                    1674
International TV Shows      1351
Documentaries                869
Action & Adventure           859
TV Dramas                    763
Independent Movies           756
Children & Family Movies     641
Romantic Movies              616
Name: count, dtype: int64


In [44]:
#pregunta 8: Contemido largo
df["contenido_largo"]=df["duracion_m"].where(df["duracion_m"]>120,other=False)
df["contenido_largo"]=df["contenido_largo"].mask(df["contenido_largo"]!=False,True)
display(df[["title","duracion_m","contenido_largo"]].head())

Unnamed: 0,title,duracion_m,contenido_largo
0,Dick Johnson Is Dead,90.0,False
1,Blood & Water,2.0,False
2,Ganglands,1.0,False
3,Jailbirds New Orleans,1.0,False
4,Kota Factory,2.0,False


In [45]:
#Pregunta 9: filtrar por +100 minutos,rating R, Unates states

filtro=df.loc[(df["duracion_m"]>100) & (df['rating']=="R") & (df["country"]== "United States")]
display(filtro[["title", "duracion_m","rating","country"]])

Unnamed: 0,title,duracion_m,rating,country
48,Training Day,122.0,R,United States
81,Kate,106.0,R,United States
131,Blade Runner: The Final Cut,117.0,R,United States
139,Do the Right Thing,120.0,R,United States
144,House Party,104.0,R,United States
...,...,...,...,...
8678,Vincent N Roxxy,101.0,R,United States
8691,Wakefield,109.0,R,United States
8751,Wish I Was Here,106.0,R,United States
8754,Wolves,109.0,R,United States


In [47]:
#Pregunta 10: top 10 peliculas mas largas
top_largas=df[df["type"]=="Movie"].sort_values("duracion_m", ascending=False).head(10)
display(top_largas[["title","duracion_m"]].style.background_gradient(cmap="RdPu"))

Unnamed: 0,title,duracion_m
4253,Black Mirror: Bandersnatch,312.0
717,Headspace: Unwind Your Mind,273.0
2491,The School of Mischief,253.0
2487,No Longer kids,237.0
2484,Lock Your Girls In,233.0
2488,Raya and Sakina,230.0
166,Once Upon a Time in America,229.0
7932,Sangam,228.0
1019,Lagaan,224.0
4573,Jodhaa Akbar,214.0




### Pregunta Desafío

11. ¿Cuáles son las combinaciones más frecuentes de género y rating en el dataset?
    (Sugerencia: utilizar `value_counts` con `subset=["genre", "rating"]` después de aplicar `explode()`).



### Bonus: Análisis de duplicados y limpieza

12. ¿Existen películas con el mismo nombre (`title`) pero con distinto año de lanzamiento (`release_year`)?
13. ¿Cuántos títulos únicos hay en total en la columna `title`?





In [48]:
#Pregunta 11
combinaciones_frec=df_explode.value_counts(subset=["split","rating"])
display(combinaciones_frec)

Unnamed: 0_level_0,Unnamed: 1_level_0,count
split,rating,Unnamed: 2_level_1
International Movies,TV-MA,1130
International Movies,TV-14,1065
Dramas,TV-MA,830
International TV Shows,TV-MA,714
Dramas,TV-14,693
...,...,...
TV Sci-Fi & Fantasy,NR,1
TV Mysteries,TV-G,1
TV Sci-Fi & Fantasy,TV-Y7-FV,1
TV Shows,R,1


In [49]:
#Pregunta 12:peliculas con el mismo nombre y distinto año
titulos_dup=df.groupby("title")["release_year"].nunique()
#buscar los titulos repetidos y ver cuantos años de lanzamiento tiene
titulos_año=titulos_dup[titulos_dup > 1]
#agrupa aquellos titulos que tienen mas de un año de lanzamiento
display(titulos_año)

Unnamed: 0_level_0,release_year
title,Unnamed: 1_level_1


No hay titulos repetidos con años diferentes

In [50]:
#Pregunta 14:
titulos_unicos=df["title"].nunique()
print("titulos unicos:",titulos_unicos)

titulos unicos: 8807
