In [None]:
import os                     # Librería estándar para trabajar con el sistema operativo (rutas, carpetas, variables de entorno)
import requests               # Para hacer peticiones HTTP a la API de TMDB
import pandas as pd           # Para trabajar con DataFrames (tablas) y leer/escribir CSV
from dotenv import load_dotenv # Para cargar la API Key desde un archivo .env sin escribirla en el código (buena práctica)
from datetime import date     # Para trabajar con fechas (filtrar películas por rango de años)

# =========================
# CONFIGURACIÓN GENERAL
# =========================
# MODO controla de dónde salen las películas:
# - "API": descarga directamente desde TMDB (online)
# - "CSV": si existe peliculas.csv lo lee (offline / reproducible); si no existe lo crea desde la API
# MODO = "API"
MODO = "CSV"

TOP_POR_GENERO = 30           # Cantidad de películas que queremos por género (objetivo: 30 por género)
ANOS_ATRAS = 5                # Ventana temporal: películas desde hace X años hasta hoy
ORDENAR_POR = "popularity.desc"  # Criterio de ordenación de TMDB: más populares primero

# Diccionario de géneros: clave = id del género en TMDB, valor = nombre legible
# Esto permite iterar por géneros y etiquetar cada película con su género
GENEROS_SELECCIONADOS = {
    28: "Acción",
    12: "Aventura",
    16: "Animación",
    35: "Comedia",
    80: "Crimen",
    18: "Drama",
    27: "Terror",
    878: "Ciencia ficción",
    14: "Fantasía",
    10749: "Romance"
}

# =========================
# RUTAS DE ARCHIVOS
# =========================
# Rutas relativas del proyecto:
# - ../data/ contiene los CSV del proyecto
# - ../conf/.env contiene la TMDB_API_KEY
ruta_base = "../data"
ruta_peliculas = "../data/peliculas.csv"
ruta_clientes = "../data/clientes.csv"
ruta_alquileres = "../data/alquileres.csv"

# Fecha de hoy y fecha de inicio calculada para filtrar últimos ANOS_ATRAS años
hoy = date.today()
fecha_inicio = date(hoy.year - ANOS_ATRAS, 1, 1)  # Ej: si hoy es 2026, fecha_inicio será 2021-01-01

# =========================
# FUNCIONES DE API (nivel bajo)
# =========================
def obtener_pagina_descubrir(api_key: str, id_genero: int, pagina: int) -> dict:
    """
    Función de "bajo nivel": hace UNA llamada a la API a /discover/movie
    para un género concreto y una página concreta.
    
    ¿Por qué existe?
    - Separamos la lógica de pedir datos (HTTP) del resto del proceso.
    - Hace el código más limpio y fácil de mantener.
    """
    url = "https://api.themoviedb.org/3/discover/movie"

    # Parámetros de la API:
    # - api_key: credencial
    # - language: para recibir títulos/strings en español
    # - sort_by: orden de resultados
    # - with_genres: filtra por el género que estamos iterando
    # - primary_release_date.gte/lte: rango de fechas (últimos ANOS_ATRAS años)
    # - page: paginación obligatoria en TMDB
    # - include_adult: excluye contenido adulto
    parametros = {
        "api_key": api_key,
        "language": "es-ES",
        "sort_by": ORDENAR_POR,
        "with_genres": id_genero,
        "primary_release_date.gte": fecha_inicio.isoformat(),
        "primary_release_date.lte": hoy.isoformat(),
        "page": pagina,
        "include_adult": False
    }

    # requests.get hace la petición HTTP
    respuesta = requests.get(url, params=parametros)

    # raise_for_status() lanza un error si la API devuelve 4xx/5xx (por ejemplo clave inválida, rate limit, etc.)
    respuesta.raise_for_status()

    # Convertimos la respuesta a JSON (dict de Python)
    return respuesta.json()

# =========================
# PAGINACIÓN ENCAPSULADA (nivel medio)
# =========================
def obtener_peliculas_por_genero(api_key: str, id_genero: int, limite: int):
    """
    Función de "nivel medio": devuelve una LISTA de películas (diccionarios JSON)
    para un género, gestionando la paginación internamente.

    IMPORTANTE PARA DEFENDER:
    - TMDB devuelve resultados paginados (20 por página).
    - Como queremos 30, necesitamos pedir varias páginas.
    - Aquí "encapsulamos" la paginación para que el resto del código sea más limpio.
    """
    peliculas = []        # Lista donde iremos acumulando películas
    ids_vistos = set()    # Set para evitar duplicados dentro del género (por seguridad)
    pagina = 1            # Empezamos por la primera página

    # Seguimos pidiendo páginas hasta alcanzar el límite deseado o quedarnos sin resultados
    while len(peliculas) < limite:
        datos = obtener_pagina_descubrir(api_key, id_genero, pagina)   # llamada a la API de esa página
        resultados = datos.get("results", [])                          # lista de películas de esa página

        # Si la página no devuelve resultados, paramos
        if not resultados:
            break

        # Recorremos películas devueltas por la API
        for pelicula in resultados:
            id_pelicula = pelicula.get("id")

            # Si no hay id o el id ya lo vimos, saltamos (evita duplicados)
            if not id_pelicula or id_pelicula in ids_vistos:
                continue

            ids_vistos.add(id_pelicula)
            peliculas.append(pelicula)

            # Si ya llegamos al límite (30), dejamos de añadir
            if len(peliculas) >= limite:
                break

        # Pasamos a la siguiente página
        pagina += 1

        # Seguridad: si ya hemos pasado el máximo de páginas que dice la API, paramos
        if pagina > datos.get("total_pages", 1):
            break

    # Devolvemos la lista de películas (diccionarios)
    return peliculas

# =========================
# CONSTRUCCIÓN DEL DATAFRAME (nivel alto)
# =========================
def construir_peliculas_desde_api(api_key: str):
    """
    Función de "nivel alto": descarga películas para TODOS los géneros seleccionados
    y las transforma a un DataFrame final con columnas consistentes.

    Este paso es el "Transform" del ETL:
    - Pasamos de JSON (semi-estructurado) -> tabla (estructurado).
    """
    filas = []  # Aquí guardaremos filas finales (cada fila = una película en un género)

    # Iteramos por cada género definido en GENEROS_SELECCIONADOS
    for id_genero, nombre_genero in GENEROS_SELECCIONADOS.items():

        # Obtenemos hasta TOP_POR_GENERO películas para ese género (paginación encapsulada)
        peliculas_genero = obtener_peliculas_por_genero(api_key, id_genero, TOP_POR_GENERO)

        # Si por cualquier razón TMDB no devuelve suficientes películas, lo avisamos
        # (no se rompe el pipeline, solo informamos)
        if len(peliculas_genero) < TOP_POR_GENERO:
            print(f"⚠️ Aviso: {nombre_genero} devolvió {len(peliculas_genero)} películas")

        # Convertimos cada película a una fila (dict plano) con las columnas que nos interesan
        for ranking, pelicula in enumerate(peliculas_genero, start=1):
            filas.append({
                # Metadatos del género
                "genre_id": id_genero,
                "genre_name": nombre_genero,
                "rank_in_genre": ranking,  # ranking dentro del género según orden de popularidad

                # Identificador de película (clave principal para joins con alquileres)
                "movie_id": pelicula.get("id"),

                # Campos descriptivos
                "title": pelicula.get("title"),
                "original_title": pelicula.get("original_title"),
                "original_language": pelicula.get("original_language"),
                "release_date": pelicula.get("release_date"),

                # Métricas útiles para análisis/ML
                "popularity": pelicula.get("popularity"),
                "vote_average": pelicula.get("vote_average"),
                "vote_count": pelicula.get("vote_count"),
            })

    # Construimos el DataFrame final
    return pd.DataFrame(filas)

# =========================
# FUNCIÓN PRINCIPAL (orquestación)
# =========================
def obtener_peliculas():
    """
    Orquestador:
    - Si MODO == "API": descarga desde TMDB (online)
    - Si MODO == "CSV": si existe peliculas.csv lo lee; si no existe lo genera desde la API y lo guarda

    Esto permite:
    - Reproducibilidad (modo CSV)
    - Flexibilidad (modo API)
    """
    # --- MODO API ---
    if MODO == "API":
        # Cargamos la API KEY desde el archivo .env
        ruta_env = "../conf/.env"
        load_dotenv(ruta_env)
        api_key = os.getenv("TMDB_API_KEY")

        # Si no existe la variable, paramos con un error claro
        if not api_key:
            raise ValueError("COMPRUEBA QUE LA API KEY ESTA EN ../conf/.env")

        # Descargamos y devolvemos el DataFrame
        return construir_peliculas_desde_api(api_key)

    # --- MODO CSV ---
    if MODO == "CSV":
        # Si el CSV ya existe, lo leemos y no llamamos a la API (más rápido y reproducible)
        if os.path.exists(ruta_peliculas):
            return pd.read_csv(ruta_peliculas)

        # Si no existe, lo generamos desde la API y lo guardamos
        print("PELICULAS NO EXISTE, SE CREA DESDE LA API")

        ruta_env = "../conf/.env"
        load_dotenv(ruta_env)
        api_key = os.getenv("TMDB_API_KEY")

        if not api_key:
            raise ValueError("COMPRUEBA QUE LA API KEY ESTA EN ../conf/.env")

        # Construimos el dataset desde la API
        df = construir_peliculas_desde_api(api_key)

        # Creamos carpeta ../data si no existe
        os.makedirs(ruta_base, exist_ok=True)

        # Guardamos el CSV (Load del ETL)
        df.to_csv(ruta_peliculas, index=False, encoding="utf-8")

        print(f"✅ Archivo creado: {ruta_peliculas}")
        return df

    # Si MODO no es API ni CSV, es un error de configuración
    raise ValueError("Comprueba MODO: debe ser 'API' o 'CSV'")

# =========================
# CARGA DE DATOS (clientes, alquileres, peliculas)
# =========================

# Leemos clientes y alquileres desde CSV (datos locales del proyecto)
clientes = pd.read_csv(ruta_clientes)
alquileres = pd.read_csv(ruta_alquileres)

# Obtenemos películas según MODO (API o CSV)
peliculas = obtener_peliculas()

# Imprimimos tamaños para comprobar rápidamente que se ha cargado todo bien
print("Modo:", MODO)
print("Clientes:", clientes.shape)
print("Alquileres:", alquileres.shape)
print("Películas:", peliculas.shape)
