In [None]:
import os
import requests
import pandas as pd
from dotenv import load_dotenv
from datetime import date, timedelta

#Definimos variables ( constantes )
#----------------------------------

#------------IMPORTANTE------------------------------
"""Elegimos el modo que vamos a trabajar directamente
   hacienodo peticiones desde la API o descargando el
   archivo CVS"""
# MODO = "API"
MODO = "CSV"
#---------------------------------
TOP = 30
ANOS_ATRAS = 5
ORDENAR_POR = "popularity.desc"

GENEROS_SELECCIONADOS = {
    28: "Acción",
    12: "Aventura",
    16: "Animación",
    35: "Comedia",
    80: "Crimen",
    18: "Drama",
    27: "Terror",
    878: "Ciencia ficción",
    14: "Fantasía",
    10749: "Romance"
}

# Definimos las rutas de los archivos

ruta_base = "../data"
ruta_peliculas = "../data/peliculas.csv"
ruta_clientes = "../data/clientes.csv"
ruta_alquileres = "../data/alquileres.csv"

# Utilizamos date para ir 5 años atras y nos de una decha 
# que sea 5 años a partir de este año pero el mes 1 y dia 1
hoy = date.today()
fecha_inicio = date(hoy.year - ANOS_ATRAS, 1, 1)


def obtener_pagina_descubrir(api_key: str, id_genero: int, pagina: int):
    """
    Llama a /discover/movie para de un género obtener una página.
    """
    url = "https://api.themoviedb.org/3/discover/movie"
    parametros = {
        "api_key": api_key,
        "language": "es-ES",
        "sort_by": ORDENAR_POR,
        "with_genres": id_genero,
        "primary_release_date.gte": fecha_inicio.isoformat(),
        "primary_release_date.lte": hoy.isoformat(),
        "page": pagina
    }
    respuesta = requests.get(url, params=parametros)
    return respuesta.json()


def obtener_peliculas_por_genero(api_key: str, id_genero: int, limite: int):
    """
    Devuelve una lista de películas para un género concreto,
    gestionando la paginación internamente y evitando duplicados
    dentro del mismo género.
    """
    peliculas = []
    ids_vistos = set()   # Creo medida defensiva para evitar duplicados
    pagina = 1

    while len(peliculas) < limite:
        datos = obtener_pagina_descubrir(api_key, id_genero, pagina)
        resultados = datos.get("results", [])


        if not resultados:
            break

        for pelicula in resultados:
            id_pelicula = pelicula.get("id")

            # Evita duplicados por paginacion
            if id_pelicula in ids_vistos:
                continue

            ids_vistos.add(id_pelicula)
            peliculas.append(pelicula)

            # Se detiene cuando se alcanza el numero deseado
            if len(peliculas) >= limite:
                break

        pagina += 1

        # Fin de la paginación
        if pagina > datos.get("total_pages", 1):
            break

    return peliculas


def construir_peliculas_desde_api(api_key: str):
    """
    Descarga películas desde TMDB y construye el DataFrame.
    """
    # Contador para cambiar de filas 
    ranking = 1
    filas = []
    # Recorre el diccionario por generos 
    for id_genero, nombre_genero in GENEROS_SELECCIONADOS.items():
        # Las descarga
        peliculas_genero = obtener_peliculas_por_genero( api_key, id_genero, TOP )

        # Avisa si hay menos peliculas que tienen TOP 
        if len(peliculas_genero) < TOP:
            print(f"De: {nombre_genero} tan solo devolvio {len(peliculas_genero)} películas no llega a {TOP} que has marcado")

        #
        for pelicula in peliculas_genero:
            filas.append({
                "genre_id": id_genero,
                "genre_name": nombre_genero,
                "rank_in_genre": ranking,
                "movie_id": pelicula.get("id"),
                "title": pelicula.get("title"),
                "original_title": pelicula.get("original_title"),
                "original_language": pelicula.get("original_language"),
                "release_date": pelicula.get("release_date"),
                "popularity": pelicula.get("popularity"),
                "vote_average": pelicula.get("vote_average"),
                "vote_count": pelicula.get("vote_count"),
            })
            ranking += 1 

    return pd.DataFrame(filas)


def obtener_peliculas():
    """
    Carga las películas según el modo:
    - API: descarga desde TMDB
    - CSV: lee peliculas.csv o lo crea si no existe
    """
    if MODO == "API":
        ruta_env = "../conf/.env"
        load_dotenv(ruta_env)
        api_key = os.getenv("TMDB_API_KEY")

        if not api_key:
            raise ValueError("COMPRUEBA QUE LA API KEY ESTA EN ../conf/.env")

        return construir_peliculas_desde_api(api_key)

    if MODO == "CSV":
        if os.path.exists(ruta_peliculas):
            return pd.read_csv(ruta_peliculas)

        print("PELICULAS NO EXITE, SE CREA DESDE LA API")

        ruta_env = "../conf/.env"
        load_dotenv(ruta_env)
        api_key = os.getenv("TMDB_API_KEY")

        if not api_key:
            raise ValueError("COMPRUEBA QUE LA API KEY ESTA EN ../conf/.env")

        df = construir_peliculas_desde_api(api_key)

        os.makedirs(ruta_base, exist_ok=True)
        df.to_csv(ruta_peliculas, index=False )

        print(f"✅ Archivo creado: {ruta_peliculas}")
        return df

    raise ValueError("Comprueba MODO de ser 'API' o 'CVS' COMENTA LA QUE NO TE INTERESE")


# Cargo los datos y muestro lo cargado


clientes = pd.read_csv(ruta_clientes)
alquileres = pd.read_csv(ruta_alquileres)
peliculas = obtener_peliculas()

print("Modo:", MODO)
print("Clientes:", clientes.shape)
print("Alquileres:", alquileres.shape)
print("Películas:", peliculas.shape)




###  Preguntas

In [None]:
!pip install ipywidgets

In [None]:
!pip install jupyterlab_widgets

In [None]:
import ipywidgets as widgets
from IPython.display import display
import matplotlib.pyplot as plt

In [None]:

salida = widgets.Output()
# Creo el desplegable
desplegable = widgets.Dropdown(
    options=clientes["nombre"].tolist(),
    description="Cliente:"
)
# Mostramos el despegable con los nombres
display(desplegable, salida)

#Se ejecuta cuando el .observe cambia
def cuando_cambia_cliente(cambio):
    if cambio["name"] != "value":
        return

    with salida:
        #Limpia la salida
        salida.clear_output()
        # Seleccionamos un nuevo cliente
        nombre_sel = cambio["new"]
        # Cogemos el id
        cliente_id_sel = clientes.loc[clientes["nombre"] == nombre_sel, "cliente_id"].iloc[0]
        #Filtramos los alquileres
        alq_cliente = (
            alquileres[alquileres["cliente_id"] == cliente_id_sel]
            .sort_values("fecha_alquiler", ascending=False)
        )
        #Obtenemos el titulo por el id
        tabla = alq_cliente.merge(
            peliculas[["movie_id", "title"]],
            on="movie_id",
            how="left"
        )
        #Creamos la tabla final con los datos que nos interesa
        tabla_final = tabla[["fecha_alquiler", "title"]]
        PRECIO_ALQUILER = 3 
        ingresos = len(tabla_final) * 3

        
        print(f"Nº de alquileres: {len(tabla_final)}")
        print(f"Ingresos totales: {ingresos} €")
        
        display(tabla_final.head(250))
        
# Conectamos el desplegable
desplegable.observe(cuando_cambia_cliente, names="value")

# Se ejecuta la funcion
cuando_cambia_cliente({"name": "value", "new": desplegable.value})



In [None]:
dup = (
    alquileres
    .groupby(["cliente_id", "movie_id", "fecha_alquiler"])
    .size()
    .reset_index(name="count")
)

dup[dup["count"] > 1]

In [None]:
salida = widgets.Output()

periodos = {
    "Últimos 7 días": 7,
    "Últimos 30 días": 30,
    "Últimos 365 días": 365,
    "Todo": None
}

desplegable = widgets.Dropdown(
    options=list(periodos.keys()),
    description="Elige un periodo:"
)
display(desplegable,salida)

def cuando_cambia_periodo(cambio):

    # Solo reaccionar si cambia el "value"
    if cambio["name"] != "value":
        return

    with salida:
        salida.clear_output()

        # Obtener texto y días del periodo elegido
        texto = cambio["new"]
        dias = periodos[texto]
        # Aplicar filtro
        if dias is None:
            alq_filtrados = alquileres
        else:
            fecha_referencia = alquileres["fecha_alquiler"].max()
            fecha_limite = fecha_referencia - timedelta(days=dias)
            alq_filtrados = alquileres[alquileres["fecha_alquiler"] >= fecha_limite]


        ingresos = len(alq_filtrados) * 3

        # Mostrar resultado
        print(f"Periodo: {texto}")
        print(f"Alquileres totales: {len(alq_filtrados)}")
        print(f"Lo que es lo mismo: {ingresos} € en ese Periodo")
        
        # Ranking de clientes en ese periodo
        resumen = (
            alq_filtrados
            .groupby("cliente_id")
            .size()
            .reset_index(name="num_alquileres")
        )
        
        # Añadir nombre del cliente
        resumen = resumen.merge(
            clientes[["cliente_id", "nombre"]],
            )
        
        # Ordenar por numero de alquileres
        resumen = resumen.sort_values("num_alquileres", ascending=False)
        
        # Mostrar solo cliente y número de alquileres
        display(resumen[["nombre", "num_alquileres"]].head(10))



desplegable.observe(cuando_cambia_periodo, names="value")

In [None]:
top_deseado=10

alquileres_por_pelicula = (
    alquileres
    .groupby("movie_id")
    .size()
    .reset_index(name="num_alquileres")
)

top_peliculas = alquileres_por_pelicula.sort_values(
    by="num_alquileres",
    ascending=False
)

peliculas_unicas = peliculas.drop_duplicates(
    subset="movie_id"
)
top_peliculas_con_titulo = top_peliculas.merge(
    peliculas_unicas,
    on="movie_id",
    how="left"
)

top=(top_peliculas_con_titulo[["title", "num_alquileres"]].head(top_deseado).dropna(subset=["title"]))
top

plt.barh(data=top,
    y="title",
    width="num_alquileres"
         
)

plt.xlabel("Número de alquileres")
plt.ylabel("Película")
plt.title(f"Top 5 películas más alquiladas")



In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# =========================
# CONFIG
# =========================
top_deseado = 10

# =========================
# 1) (Opcional) Cargar CSV si aún no los tienes cargados
# =========================
# clientes = pd.read_csv("../data/clientes.csv")
# peliculas = pd.read_csv("../data/peliculas.csv")
# alquileres = pd.read_csv("../data/alquileres.csv")

# =========================
# 2) Normalizar claves (evita fallos de merge por tipos/espacios)
# =========================
alquileres["movie_id"] = alquileres["movie_id"].astype(str).str.strip()
peliculas["movie_id"]  = peliculas["movie_id"].astype(str).str.strip()
peliculas["title"]     = peliculas["title"].astype(str).str.strip()

# Si hubiera títulos vacíos, los convertimos a NA (no es obligatorio, pero es robusto)
peliculas.loc[peliculas["title"] == "", "title"] = pd.NA

# =========================
# 3) Contar alquileres por movie_id
# =========================
alquileres_por_pelicula = (
    alquileres.groupby("movie_id")
    .size()
    .reset_index(name="num_alquileres")
)

# =========================
# 4) Dejar 1 fila por película (porque peliculas puede repetirse por género)
# =========================
peliculas_unicas = (
    peliculas.sort_values(["movie_id"])   # orden estable
    .drop_duplicates(subset="movie_id")[["movie_id", "title"]]
)

# =========================
# 5) Merge + diagnóstico (para ver si faltan títulos por IDs sin match)
# =========================
df = alquileres_por_pelicula.merge(
    peliculas_unicas,
    on="movie_id",
    how="left",
    indicator=True
)

print("\n--- Diagnóstico del merge ---")
print(df["_merge"].value_counts())

ids_sin_match = df.loc[df["_merge"] == "left_only", "movie_id"].unique()
if len(ids_sin_match) > 0:
    print(f"\n⚠️ Hay {len(ids_sin_match)} movie_id en alquileres que no están en peliculas.")
    print("Ejemplo de IDs sin match:", ids_sin_match[:10])
else:
    print("\n✅ Todos los movie_id de alquileres tienen título en peliculas.")

# =========================
# 6) Elegir cómo construir el TOP:
#    A) Si quieres SIEMPRE top_deseado (aunque falte título), rellena el título
#    B) Si prefieres excluir los que no tienen título, usa dropna
# =========================

# ---- Opción A (recomendada para que siempre salgan top_deseado barras) ----
df["title"] = df["title"].fillna("ID sin título: " + df["movie_id"])

top = (
    df.sort_values("num_alquileres", ascending=False)
      .head(top_deseado)
      .copy()
)

# ---- Opción B (si prefieres excluir sin título) ----
# top = (
#     df.dropna(subset=["title"])
#       .sort_values("num_alquileres", ascending=False)
#       .head(top_deseado)
#       .copy()
# )

# (Opcional) mostrar tabla top
display(top[["movie_id", "title", "num_alquileres"]])

# =========================
# 7) Gráfica
# =========================
plt.figure(figsize=(10, 6))
plt.barh(data=top, y="title", width="num_alquileres")
plt.xlabel("Número de alquileres")
plt.ylabel("Película")
plt.title(f"Top {top_deseado} películas más alquiladas")
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()


## ¿Existe relación entre la popularidad de una película en TMDB y el número de veces que se alquila?