# Análisis exploratorio con datos de Netflix

En este cuaderno vamos a explorar la base de datos `netflix_titles.csv` usando **pandas** y **NumPy**.

Objetivos:
- Practicar carga y exploración de datos.
- Realizar limpieza y transformación básica.
- Responder preguntas usando agregaciones y filtros.
- Usar NumPy para calcular estadísticas sobre una variable numérica.


In [1]:
import pandas as pd
import numpy as np


## 1. Carga e inspección inicial

En esta sección cargamos el archivo `netflix_titles.csv` y revisamos su estructura general.


In [2]:
# Todo: ajusta la ruta si es necesario
df = pd.read_csv('netflix_titles.csv')
df.head(5)


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [3]:
df.shape


(8807, 12)

In [4]:
df.info()


<class 'pandas.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   show_id       8807 non-null   str  
 1   type          8807 non-null   str  
 2   title         8807 non-null   str  
 3   director      6173 non-null   str  
 4   cast          7982 non-null   str  
 5   country       7976 non-null   str  
 6   date_added    8797 non-null   str  
 7   release_year  8807 non-null   int64
 8   rating        8803 non-null   str  
 9   duration      8804 non-null   str  
 10  listed_in     8807 non-null   str  
 11  description   8807 non-null   str  
dtypes: int64(1), str(11)
memory usage: 825.8 KB


In [5]:
df.isna().sum()


show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64

In [6]:
df.describe(include='all')


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
count,8807,8807,8807,6173,7982,7976,8797,8807.0,8803,8804,8807,8807
unique,8807,2,8807,4528,7692,748,1767,,17,220,514,8775
top,s1,Movie,Dick Johnson Is Dead,Rajiv Chilaka,David Attenborough,United States,"January 1, 2020",,TV-MA,1 Season,"Dramas, International Movies","Paranormal activity at a lush, abandoned prope..."
freq,1,6131,1,19,19,2818,109,,3207,1793,362,4
mean,,,,,,,,2014.180198,,,,
std,,,,,,,,8.819312,,,,
min,,,,,,,,1925.0,,,,
25%,,,,,,,,2013.0,,,,
50%,,,,,,,,2017.0,,,,
75%,,,,,,,,2019.0,,,,


**Actividad:** Describe brevemente (en tus propias palabras) qué información contiene el dataset y qué columnas parecen más importantes para el análisis.


## 2. Limpieza y transformación básica

Vamos a:
- Convertir `date_added` a tipo fecha.
- Crear una columna `year_added`.
- Separar `duration` en número y unidad.
- Crear una columna de país principal.


In [None]:
# Conversión de fecha
df['date_added'] = pd.to_datetime(df['date_added'])
df['year_added'] = df['date_added'].dt.year
df[['date_added', 'year_added']].head()


In [None]:
# Separar duración en número y unidad
df['duration_num'] = df['duration'].str.extract(r'(\d+)').astype(float)
df['duration_unit'] = df['duration'].str.extract(r'([A-Za-z ]+)$').str.strip()
df[['duration', 'duration_num', 'duration_unit']].head()


In [None]:
# País principal (primer país de la lista)
df['main_country'] = df['country'].str.split(',').str[0].str.strip()
df[['country', 'main_country']].head()


**Actividad:** Revisa qué columnas tienen muchos valores faltantes y comenta qué decisión tomarías (eliminar filas, imputar, dejar como están) para este proyecto.


## 3. Preguntas de análisis con pandas

Responde las siguientes preguntas usando filtros, `groupby` y agregaciones.


### 3.1. Películas vs series

¿Cuántas películas y cuántas series hay en el catálogo?


In [None]:
df['type'].value_counts()


### 3.2. Títulos añadidos por año y tipo

¿Cómo ha evolucionado el número de títulos añadidos a Netflix por año (`year_added`) y por `type`?


In [None]:
titles_per_year = (
    df.groupby(['year_added', 'type'])['show_id']
      .count()
      .reset_index(name='n_titles')
)
titles_per_year.head()


### 3.3. Duración de las películas por década

Considera solo los registros donde `type == 'Movie'`. Calcula la duración promedio por década de `release_year`.


In [None]:
movies = df[df['type'] == 'Movie'].copy()
movies['decade'] = (movies['release_year'] // 10) * 10
duration_by_decade = (
    movies.groupby('decade')['duration_num']
          .mean()
)
duration_by_decade


### 3.4. Géneros más frecuentes

¿Cuáles son los géneros (`listed_in`) más comunes en el catálogo?


In [None]:
genres_series = df['listed_in'].dropna().str.split(', ')
all_genres = pd.Series([g for sub in genres_series for g in sub])
top_genres = all_genres.value_counts().head(10)
top_genres


### 3.5. Países con más títulos

Usando `main_country`, ¿cuáles son los países con más títulos en el catálogo?


In [None]:
df['main_country'].value_counts().head(10)


## 4. Uso de NumPy para estadísticas

En esta sección usamos NumPy explícitamente sobre la duración de las películas.


In [None]:
movie_durations = movies['duration_num'].dropna().values
movie_durations[:10]


In [None]:
mean_duration = np.mean(movie_durations)
median_duration = np.median(movie_durations)
p90_duration = np.percentile(movie_durations, 90)
mean_duration, median_duration, p90_duration


In [None]:
long_mask = movie_durations > 120
long_ratio = long_mask.mean()
long_ratio


**Actividad:** Interpreta los resultados anteriores: ¿es común encontrar películas muy largas (> 120 minutos) en el catálogo?


## 5. Conclusiones

Escribe un breve resumen (5–8 frases) donde respondas, en lenguaje natural, a las preguntas principales del análisis:
- Películas vs series.
- Evolución por año.
- Patrón de duración por década.
- Géneros y países predominantes.
