## üß† Clase: An√°lisis de Datos con Pandas ‚Äî *Cat√°logo de Netflix*



### üéØ **Objetivo general**

Aprender a realizar un an√°lisis exploratorio de datos usando **Pandas**,
a trav√©s de un dataset real del cat√°logo de Netflix.




## üß© **1. Cargar e inspeccionar los datos**

In [None]:
# Importamos las librer√≠as necesarias
import pandas as pd

# Cargar el dataset (ajusta la ruta seg√∫n tu entorno)
df = pd.read_csv('netflix_titles.csv')

# Mostrar primeras filas
df.head()

### üí¨ Preguntas para reflexionar:

-   ¬øQu√© tipo de informaci√≥n contiene cada columna?
-   ¬øQu√© tipos de datos observas?



## üîç **2. Exploraci√≥n inicial**

In [None]:
# Tama√±o del dataset
print("Filas y columnas:", df.shape)

# Informaci√≥n general del DataFrame
df.info()

# Columnas con valores faltantes
df.isna().sum()

# Descripci√≥n de columnas num√©ricas
df.describe()

# Algunos valores √∫nicos en columnas clave
df['type'].value_counts()

### üß† **Ejercicio 1:**

1.  ¬øCu√°ntas pel√≠culas y cu√°ntas series hay?
2.  ¬øCu√°ntos pa√≠ses distintos aparecen en el dataset?


## üßº **3. Limpieza y preparaci√≥n**

Algunos campos tienen valores nulos o con formato inconsistente.


In [None]:
print("Valores nulos por columna:\n")
df.isna().sum()

In [None]:
df.tail()

In [12]:
# Rellenamos valores nulos en country y director con 'Desconocido'
df['country'] = df['country'].fillna('Desconocido')
df['director'] = df['director'].fillna('Desconocido')

### üß† **Ejercicio 2:**

1.  Elimina las filas duplicadas (si existen).
2.  Crea una columna llamada `is_movie` que valga `True` si el tipo es
    *Movie* y `False` si es *TV Show*.

## üìä **4. An√°lisis exploratorio**


### üî∏ Pel√≠culas por a√±o de lanzamiento


In [None]:
movies_per_year = df[df['type'] == 'Movie']['release_year'].value_counts()

movies_per_year.tail(10)

### üî∏ Top 10 pa√≠ses con m√°s producciones


In [None]:
country_counts = df['country'].value_counts().head(10)
country_counts

### üî∏ Promedio de a√±o de lanzamiento por tipo


In [None]:
df.groupby('type')['release_year'].mean()

### üß† **Ejercicio 3:**

1.  Encuentra el pa√≠s con m√°s **series**.
2.  Calcula cu√°ntas pel√≠culas fueron agregadas a Netflix en **2020**.

## üìà **5. Visualizaci√≥n b√°sica**

In [None]:
import matplotlib.pyplot as plt

# Distribuci√≥n de pel√≠culas por a√±o
movies_per_year.plot(kind='bar', figsize=(10,4))
plt.title('N√∫mero de pel√≠culas por a√±o de lanzamiento')
plt.xlabel('A√±o')
plt.ylabel('Cantidad')
plt.show()

In [None]:
# Top 10 pa√≠ses
country_counts.head(10).plot(kind='barh', figsize=(8,4))
plt.title('Top 10 pa√≠ses con m√°s t√≠tulos')
plt.xlabel('Cantidad de t√≠tulos')
plt.ylabel('Pa√≠s')
plt.show()

### üß† **Ejercicio 4:**

1.  Crea un gr√°fico que compare la cantidad de *Movies* y *TV Shows*.

## üß≠ **6. Conclusiones finales**


> Reflexiona sobre:
>
> -   ¬øQu√© patrones interesantes encontraste?
> -   ¬øQu√© otros an√°lisis podr√≠as hacer (por g√©nero, duraci√≥n, rating‚Ä¶)?
> -   ¬øC√≥mo podr√≠as usar este tipo de an√°lisis en otro contexto?

## üåü **Desaf√≠o opcional**


Analiza la columna `listed_in` (g√©neros) y:

-   Cuenta cu√°ntas veces aparece cada g√©nero.
-   Grafica los 10 g√©neros m√°s comunes.