## 🧠 Clase: Análisis de Datos con Pandas — *Catálogo de Netflix*



### 🎯 **Objetivo general**

Aprender a realizar un análisis exploratorio de datos usando **Pandas**,
a través de un dataset real del catálogo de Netflix.




## 🧩 **1. Cargar e inspeccionar los datos**

In [None]:
# Importamos las librerías necesarias
import pandas as pd

# Cargar el dataset (ajusta la ruta según tu entorno)
df = pd.read_csv('netflix_titles.csv')

# Mostrar primeras filas
df.head()

### 💬 Preguntas para reflexionar:

-   ¿Qué tipo de información contiene cada columna?
-   ¿Qué tipos de datos observas?



## 🔍 **2. Exploración inicial**

In [None]:
# Tamaño del dataset
print("Filas y columnas:", df.shape)

# Información general del DataFrame
df.info()

# Columnas con valores faltantes
df.isna().sum()

# Descripción de columnas numéricas
df.describe()

# Algunos valores únicos en columnas clave
df['type'].value_counts()

### 🧠 **Ejercicio 1:**

1.  ¿Cuántas películas y cuántas series hay?
2.  ¿Cuántos países distintos aparecen en el dataset?


## 🧼 **3. Limpieza y preparación**

Algunos campos tienen valores nulos o con formato inconsistente.


In [None]:
print("Valores nulos por columna:\n")
df.isna().sum()

In [None]:
df.tail()

In [12]:
# Rellenamos valores nulos en country y director con 'Desconocido'
df['country'] = df['country'].fillna('Desconocido')
df['director'] = df['director'].fillna('Desconocido')

### 🧠 **Ejercicio 2:**

1.  Elimina las filas duplicadas (si existen).
2.  Crea una columna llamada `is_movie` que valga `True` si el tipo es
    *Movie* y `False` si es *TV Show*.

## 📊 **4. Análisis exploratorio**


### 🔸 Películas por año de lanzamiento


In [None]:
movies_per_year = df[df['type'] == 'Movie']['release_year'].value_counts()

movies_per_year.tail(10)

### 🔸 Top 10 países con más producciones


In [None]:
country_counts = df['country'].value_counts().head(10)
country_counts

### 🔸 Promedio de año de lanzamiento por tipo


In [None]:
df.groupby('type')['release_year'].mean()

### 🧠 **Ejercicio 3:**

1.  Encuentra el país con más **series**.
2.  Calcula cuántas películas fueron agregadas a Netflix en **2020**.

## 📈 **5. Visualización básica**

In [None]:
import matplotlib.pyplot as plt

# Distribución de películas por año
movies_per_year.plot(kind='bar', figsize=(10,4))
plt.title('Número de películas por año de lanzamiento')
plt.xlabel('Año')
plt.ylabel('Cantidad')
plt.show()

In [None]:
# Top 10 países
country_counts.head(10).plot(kind='barh', figsize=(8,4))
plt.title('Top 10 países con más títulos')
plt.xlabel('Cantidad de títulos')
plt.ylabel('País')
plt.show()

### 🧠 **Ejercicio 4:**

1.  Crea un gráfico que compare la cantidad de *Movies* y *TV Shows*.

## 🧭 **6. Conclusiones finales**


> Reflexiona sobre:
>
> -   ¿Qué patrones interesantes encontraste?
> -   ¿Qué otros análisis podrías hacer (por género, duración, rating…)?
> -   ¿Cómo podrías usar este tipo de análisis en otro contexto?

## 🌟 **Desafío opcional**


Analiza la columna `listed_in` (géneros) y:

-   Cuenta cuántas veces aparece cada género.
-   Grafica los 10 géneros más comunes.