# Análisis exploratorio con datos de Netflix

En este cuaderno vamos a explorar la base de datos `netflix_titles.csv` usando **pandas** y **NumPy**.

Objetivos:
- Practicar carga y exploración de datos.
- Realizar limpieza y transformación básica.
- Responder preguntas usando agregaciones y filtros.
- Usar NumPy para calcular estadísticas sobre una variable numérica.


In [1]:
import pandas as pd
import numpy as np


## 1. Carga e inspección inicial

En esta sección cargamos el archivo `netflix_titles.csv` y revisamos su estructura general.


In [2]:
df = pd.read_csv('netflix_titles.csv')
df.head()


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [3]:
df.shape


(8807, 12)

In [14]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   show_id              8807 non-null   object
 1   tipo                 8807 non-null   object
 2   titulo               8807 non-null   object
 3   director             6173 non-null   object
 4   reparto              7982 non-null   object
 5   pais                 7976 non-null   object
 6   fecha_de_agregado    8797 non-null   object
 7   anio_de_lanzamiento  8807 non-null   int64 
 8   clasificacion        8803 non-null   object
 9   duracion             8804 non-null   object
 10  genero               8807 non-null   object
 11  descripcion          8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


In [5]:
df.rename(columns={'type': 'tipo', 'title': 'titulo','cast': 'reparto','country': 'pais','date_added': 'fecha_de_agregado','release_year': 'anio_de_lanzamiento','rating': 'valoracion','duration': 'duracion','listed_in': 'genero','description': 'descripcion'}, inplace=True)

In [13]:
df.rename(columns={'valoracion': 'clasificacion'}, inplace=True)

In [7]:
df.isna().sum()


show_id                   0
tipo                      0
titulo                    0
director               2634
reparto                 825
pais                    831
fecha_de_agregado        10
anio_de_lanzamiento       0
valoracion                4
duracion                  3
genero                    0
descripcion               0
dtype: int64

In [15]:
df['anio_de_lanzamiento'].describe(include='all')


count    8807.000000
mean     2014.180198
std         8.819312
min      1925.000000
25%      2013.000000
50%      2017.000000
75%      2019.000000
max      2021.000000
Name: anio_de_lanzamiento, dtype: float64

**Actividad:** Describe brevemente (en tus propias palabras) qué información contiene el dataset y qué columnas parecen más importantes para el análisis.


## 2. Limpieza y transformación básica

Vamos a:
- Convertir `date_added` a tipo fecha.
- Crear una columna `year_added`.
- Separar `duration` en número y unidad.
- Crear una columna de país principal.


In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   show_id              8807 non-null   object        
 1   tipo                 8807 non-null   object        
 2   titulo               8807 non-null   object        
 3   director             6173 non-null   object        
 4   reparto              7982 non-null   object        
 5   pais                 7976 non-null   object        
 6   fecha_de_agregado    8709 non-null   datetime64[ns]
 7   anio_de_lanzamiento  8807 non-null   int64         
 8   clasificacion        8803 non-null   object        
 9   duracion             8804 non-null   object        
 10  genero               8807 non-null   object        
 11  descripcion          8807 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(10)
memory usage: 825.8+ KB


In [23]:
df['fecha_de_agregado'].describe(include='all')

count                             8709
mean     2019-05-23 01:45:29.452290816
min                2008-01-01 00:00:00
25%                2018-04-20 00:00:00
50%                2019-07-12 00:00:00
75%                2020-08-26 00:00:00
max                2021-09-25 00:00:00
Name: fecha_de_agregado, dtype: object

In [21]:
df['fecha_de_agregado'] = pd.to_datetime(df['fecha_de_agregado'], errors='coerce')

In [28]:
df.isna().sum()

show_id                   0
tipo                      0
titulo                    0
director               2634
reparto                 825
pais                    831
fecha_de_agregado        98
anio_de_lanzamiento       0
clasificacion             4
duracion                  3
genero                    0
descripcion               0
dtype: int64

In [29]:
df['fecha_de_agregado'].head(20)

0    2021-09-25
1    2021-09-24
2    2021-09-24
3    2021-09-24
4    2021-09-24
5    2021-09-24
6    2021-09-24
7    2021-09-24
8    2021-09-24
9    2021-09-24
10   2021-09-24
11   2021-09-23
12   2021-09-23
13   2021-09-22
14   2021-09-22
15   2021-09-22
16   2021-09-22
17   2021-09-22
18   2021-09-22
19   2021-09-22
Name: fecha_de_agregado, dtype: datetime64[ns]

In [30]:
df['director'].fillna('Desconocido', inplace=True)
df['reparto'].fillna('Desconocido', inplace=True)
df['pais'].fillna('Desconocido', inplace=True)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['reparto'].fillna('Desconocido', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['pais'].fillna('Desconocido', inplace=True)


In [32]:
df['fecha_de_agregado'].fillna(df['anio_de_lanzamiento'].astype(str) + "-01-01", inplace=True)

In [34]:
df['clasificacion'].fillna('Desconocido', inplace=True)
df['duracion'].fillna('Desconocido', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['clasificacion'].fillna('Desconocido', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['duracion'].fillna('Desconocido', inplace=True)


In [35]:
df.isna().sum()

show_id                0
tipo                   0
titulo                 0
director               0
reparto                0
pais                   0
fecha_de_agregado      0
anio_de_lanzamiento    0
clasificacion          0
duracion               0
genero                 0
descripcion            0
dtype: int64

In [None]:
# Separar duración en número y unidad
df['duration_num'] = df['duration'].str.extract(r'(\d+)').astype(float)
df['duration_unit'] = df['duration'].str.extract(r'([A-Za-z ]+)$').str.strip()
df[['duration', 'duration_num', 'duration_unit']].head()


In [None]:
# País principal (primer país de la lista)
df['main_country'] = df['country'].str.split(',').str[0].str.strip()
df[['country', 'main_country']].head()


**Actividad:** Revisa qué columnas tienen muchos valores faltantes y comenta qué decisión tomarías (eliminar filas, imputar, dejar como están) para este proyecto.


## 3. Preguntas de análisis con pandas

Responde las siguientes preguntas usando filtros, `groupby` y agregaciones.


### 3.1. Películas vs series

¿Cuántas películas y cuántas series hay en el catálogo?


In [None]:
df['type'].value_counts()


### 3.2. Títulos añadidos por año y tipo

¿Cómo ha evolucionado el número de títulos añadidos a Netflix por año (`year_added`) y por `type`?


In [None]:
titles_per_year = (
    df.groupby(['year_added', 'type'])['show_id']
      .count()
      .reset_index(name='n_titles')
)
titles_per_year.head()


### 3.3. Duración de las películas por década

Considera solo los registros donde `type == 'Movie'`. Calcula la duración promedio por década de `release_year`.


In [None]:
movies = df[df['type'] == 'Movie'].copy()
movies['decade'] = (movies['release_year'] // 10) * 10
duration_by_decade = (
    movies.groupby('decade')['duration_num']
          .mean()
)
duration_by_decade


### 3.4. Géneros más frecuentes

¿Cuáles son los géneros (`listed_in`) más comunes en el catálogo?


In [None]:
genres_series = df['listed_in'].dropna().str.split(', ')
all_genres = pd.Series([g for sub in genres_series for g in sub])
top_genres = all_genres.value_counts().head(10)
top_genres


### 3.5. Países con más títulos

Usando `main_country`, ¿cuáles son los países con más títulos en el catálogo?


In [None]:
df['main_country'].value_counts().head(10)


## 4. Uso de NumPy para estadísticas

En esta sección usamos NumPy explícitamente sobre la duración de las películas.


In [None]:
movie_durations = movies['duration_num'].dropna().values
movie_durations[:10]


In [None]:
mean_duration = np.mean(movie_durations)
median_duration = np.median(movie_durations)
p90_duration = np.percentile(movie_durations, 90)
mean_duration, median_duration, p90_duration


In [None]:
long_mask = movie_durations > 120
long_ratio = long_mask.mean()
long_ratio


**Actividad:** Interpreta los resultados anteriores: ¿es común encontrar películas muy largas (> 120 minutos) en el catálogo?


## 5. Conclusiones

Escribe un breve resumen (5–8 frases) donde respondas, en lenguaje natural, a las preguntas principales del análisis:
- Películas vs series.
- Evolución por año.
- Patrón de duración por década.
- Géneros y países predominantes.
