# Fase 3: Preparación de los Datos


# Fase 3: Preparación de los Datos
En este notebook se ejecuta el pipeline de **data_engineering** de Kedro.
El objetivo es:
- Seleccionar variables relevantes
- Limpiar datos (nulos, duplicados, outliers)
- Crear nuevas variables (main_genre, release_year)
- Integrar `movies_metadata`, `credits` y `ratings`
- Guardar dataset final listo para análisis/modelado

 
# Cargar extensiones de Kedro

In [None]:
%load_ext kedro.ipython


# Inspeccionar los datasets RAW


In [None]:
catalog = context.catalog

movies_metadata = catalog.load("movies_metadata")
credits = catalog.load("credits")
ratings = catalog.load("ratings")


print("Movies Metadata:", movies_metadata.shape)
print("Credits:", credits.shape)
print("Ratings:", ratings.shape)

display(movies_metadata.head(3))
display(credits.head(3))
display(ratings.head(3))


## 1. Ejecutar el pipeline de `data_engineering`

In [None]:
%run_pipeline data_engineering

## 2. Cargar datasets generados en cada paso

In [None]:
movies_selected = catalog.load("movies_selected")
movies_clean = catalog.load("movies_clean")
movies_with_genre = catalog.load("movies_with_genre")
movies_with_credits = catalog.load("movies_with_credits")
movies_final = catalog.load("movies_final")

# Mostrar tamaños de cada dataset
print("movies_selected:", movies_selected.shape)
print("movies_clean:", movies_clean.shape)
print("movies_with_genre:", movies_with_genre.shape)
print("movies_with_credits:", movies_with_credits.shape)
print("movies_final:", movies_final.shape)


## 3. Comparar antes y después de la limpieza

In [None]:
dup_movies = movies_metadata.duplicated().sum()
dup_clean = movies_clean.duplicated().sum()

In [None]:

print("Duplicados en movies_metadata:", dup_movies)
print("Duplicados en movies_clean:", dup_clean)

# Nulos antes vs después
print("\nNulos en movies_metadata:")
print(movies_metadata.isnull().sum().head())

print("\nNulos en movies_clean:")
print(movies_clean.isnull().sum().head())



## 4. Variables creadas (release_year y main_genre)

In [None]:
print(movies_with_genre[["title", "release_year", "main_genre"]].head(10))

## 5. Dataset final integrado

In [None]:
print(movies_final.head(5))

## 6. Visualización rápida de datos preparados

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10,6))
sns.histplot(movies_clean["runtime"], bins=50, kde=False, color="coral")
plt.title("Distribución de la duración de películas (limpia)")
plt.xlabel("Duración (minutos)")
plt.ylabel("Cantidad de películas")
plt.show()

plt.figure(figsize=(12,6))
sns.countplot(data=movies_with_genre, x="main_genre",
              order=movies_with_genre["main_genre"].value_counts().index)
plt.xticks(rotation=45)
plt.title("Número de películas por género principal (limpio)")
plt.show()