Movie Recommendation Notebook
-----------------------------
This notebook lets you input a movie preference prompt (e.g., "I want to watch a sci-fi romance with strong female leads")
and returns a top-5 list of recommended movies based on dataset embeddings and similarity search.

# 1. Install and import necessary libraries

In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sentence_transformers import SentenceTransformer
import faiss
import os
import wget
import google.generativeai as genai

# --- Configuración del dataset de películas ---
DATASET_DOWNLOAD_URL = "https://www.kaggle.com/api/v1/datasets/download/utkarshx27/movies-dataset"
DATASET_FILE_NAME = "movies-dataset.zip"
DATASET_CSV_NAME = "movie_dataset.csv"
DATASET_DIR = "./data/"
DATASET_LOCAL_PATH = os.path.join(DATASET_DIR, DATASET_CSV_NAME)

# --- Configuración de la API de Gemini ---
GEMINI_API_KEY = "AIzaSyDkt35etFDXRdrWfGC3mIttC17g9IxlZic"

# Configurar la API de Google Gemini
genai.configure(api_key=GEMINI_API_KEY)

# Listamos los modelos disponibles (lo usamos para debug)
for m in genai.list_models():
    if "generateContent" in m.supported_generation_methods:
        print(m.name)

# Seleccionamos el modelo geminio que vamos a usar
GEMINI_MODEL_NAME = "gemini-2.0-flash"

try:
    model = genai.GenerativeModel(GEMINI_MODEL_NAME)
    print(f"Modelo Gemini '{GEMINI_MODEL_NAME}' configurado exitosamente.")
except Exception as e:
    print(f"Error al configurar el modelo Gemini: {e}")
    print("Por favor, verifica tu clave API y tu conexión a internet.")
    raise

  from .autonotebook import tqdm as notebook_tqdm


models/gemini-1.0-pro-vision-latest
models/gemini-pro-vision
models/gemini-1.5-pro-latest
models/gemini-1.5-pro-002
models/gemini-1.5-pro
models/gemini-1.5-flash-latest
models/gemini-1.5-flash
models/gemini-1.5-flash-002
models/gemini-1.5-flash-8b
models/gemini-1.5-flash-8b-001
models/gemini-1.5-flash-8b-latest
models/gemini-2.5-pro-preview-03-25
models/gemini-2.5-flash-preview-04-17
models/gemini-2.5-flash-preview-05-20
models/gemini-2.5-flash
models/gemini-2.5-flash-preview-04-17-thinking
models/gemini-2.5-flash-lite-preview-06-17
models/gemini-2.5-pro-preview-05-06
models/gemini-2.5-pro-preview-06-05
models/gemini-2.5-pro
models/gemini-2.0-flash-exp
models/gemini-2.0-flash
models/gemini-2.0-flash-001
models/gemini-2.0-flash-exp-image-generation
models/gemini-2.0-flash-lite-001
models/gemini-2.0-flash-lite
models/gemini-2.0-flash-preview-image-generation
models/gemini-2.0-flash-lite-preview-02-05
models/gemini-2.0-flash-lite-preview
models/gemini-2.0-pro-exp
models/gemini-2.0-pro-exp

In [None]:
import ast

# Crea la carpeta de datos si no existe
os.makedirs(DATASET_DIR, exist_ok=True)

# Descarga el dataset si no existe localmente
if not os.path.exists(DATASET_LOCAL_PATH):
    print(f"Descargando el dataset de películas (aprox. 23 MB) a: {DATASET_DIR}")
    print("Esto puede tardar unos segundos...")
    try:
        # wget descarga el zip, luego lo descomprimimos
        zip_path = os.path.join(DATASET_DIR, DATASET_FILE_NAME)
        wget.download(DATASET_DOWNLOAD_URL, out=zip_path)
        print("\nDescarga del ZIP completada. Descomprimiendo...")

        import zipfile
        with zipfile.ZipFile(zip_path, 'r') as zip_ref:
            zip_ref.extract(DATASET_CSV_NAME, DATASET_DIR)
        os.remove(zip_path) # Elimina el zip después de descomprimir
        print(f"Dataset '{DATASET_CSV_NAME}' descomprimido.")

    except Exception as e:
        print(f"\nError al descargar o descomprimir el dataset: {e}")
        print("Por favor, verifica tu conexión a internet o la URL del dataset.")
        raise # Levanta el error para que el notebook se detenga

print(f"Cargando el dataset desde: {DATASET_LOCAL_PATH}")
movies_df = pd.read_csv(DATASET_LOCAL_PATH)
print("Dataset cargado exitosamente.")

# Para debug: Mostramos las columnas del dataset para verificar su estructura
print(movies_df.columns)

# --- Preprocesamiento del dataset ---
# Renombramos columnas para consistencia
movies_df.rename(columns={'title': 'CleanTitle'}, inplace=True)

# Extraemos el año de 'release_date'
# Usamos .loc para evitar el SettingWithCopyWarning y asegurar la modificación directa
movies_df.loc[:, 'Year'] = pd.to_datetime(movies_df['release_date'], errors='coerce').dt.year
# Convertimos a Int64 para manejar NaNs como enteros o un tipo de entero que acepta nulos
movies_df.loc[:, 'Year'] = movies_df['Year'].astype('Int64').fillna(0) # Temporalmente a 0 para mantener tipo numérico
movies_df.loc[movies_df['Year'] == 0, 'Year'] = 'año desconocido' # Luego reemplazamos 0 por el string


# Función para parsear los géneros
def parse_genres_robust(genres_str):
    if pd.isna(genres_str) or genres_str == '[]' or genres_str == '':
        return []
    try:
        # Evalua como una lista de diccionarios (el formato más común)
        genres_list = ast.literal_eval(genres_str)
        if isinstance(genres_list, list):
            return [d['name'] for d in genres_list if isinstance(d, dict) and 'name' in d]
        else: # Si no es una lista, podría ser un string simple malformado
            raise ValueError("Not a list of dictionaries")
    except (ValueError, SyntaxError):
        # Si ast.literal_eval falla, intenta dividir por comas o espacios.
        if ',' in genres_str:
            return [g.strip() for g in genres_str.split(',') if g.strip()]
        else: # Si no hay comas, intenta por espacios
            return [g.strip() for g in genres_str.split(' ') if g.strip()]
    except Exception as e:
        print(f"Advertencia: Error inesperado al parsear géneros '{genres_str}': {e}")
        return []

# Aplica la función a la columna 'genres'
movies_df.loc[:, 'genres_parsed'] = movies_df['genres'].apply(parse_genres_robust)
movies_df.loc[:, 'Genres'] = movies_df['genres_parsed'].apply(lambda x: ', '.join(x) if x else '')

# El 'vote_average' es el rating promedio global
movies_df.rename(columns={'vote_average': 'AvgRating'}, inplace=True)

movies_df['CleanCast'] = movies_df['cast'].fillna('')
# Combina texto para embeddings (título, géneros, y SINOPIS/OVERVIEW)
movies_df.loc[:, 'combined_text'] = movies_df['CleanTitle'].fillna('') + ' ' + \
                                     movies_df['Genres'].fillna('') + ' ' + \
                                     movies_df['CleanCast'].fillna('') + ' ' + \
                                     movies_df['overview'].fillna('')

# Elimina duplicados si hay (basado en CleanTitle y Year)
movies_df.drop_duplicates(subset=['CleanTitle', 'Year'], inplace=True, ignore_index=True)

print(f"Dataset preprocesado. Filas: {len(movies_df)}")

Cargando el dataset desde: ./data/movie_dataset.csv
Dataset cargado exitosamente.
Index(['index', 'budget', 'genres', 'homepage', 'id', 'keywords',
       'original_language', 'original_title', 'overview', 'popularity',
       'production_companies', 'production_countries', 'release_date',
       'revenue', 'runtime', 'spoken_languages', 'status', 'tagline', 'title',
       'vote_average', 'vote_count', 'cast', 'crew', 'director'],
      dtype='object')
Dataset preprocesado. Filas: 4803


  movies_df.loc[movies_df['Year'] == 0, 'Year'] = 'año desconocido' # Luego reemplazamos 0 por el string


In [None]:
# Cargamos el modelo de embeddings
# 'all-MiniLM-L6-v2' es ligero y bueno para inglés.
# (para mejor rendimineto en español usar 'paraphrase-multilingual-MiniLM-L12-v2' es más grande)
print("Cargando modelo de embeddings (SentenceTransformer)...")
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
print("Modelo de embeddings cargado.")

# Genera embeddings para el dataset preprocesado
print("Generando embeddings para las películas (esto puede tardar un poco)...")
movie_embeddings = embedding_model.encode(movies_df['combined_text'].tolist(), show_progress_bar=True)
print("Embeddings generados.")

# Escala los embeddings
scaler = StandardScaler()
scaled_embeddings = scaler.fit_transform(movie_embeddings)

# Crear el índice FAISS
# D = dimensión de los embeddings (384 para all-MiniLM-L6-v2)
D = scaled_embeddings.shape[1]
index = faiss.IndexFlatL2(D) # L2 para distancia euclidiana (común para embeddings)
index.add(scaled_embeddings)
print(f"Índice FAISS creado con {index.ntotal} elementos.")

# Opcional: guardar/cargar el índice para no tener que regenerarlo
# faiss.write_index(index, "movie_embeddings.faiss")
# index = faiss.read_index("movie_embeddings.faiss")

Cargando modelo de embeddings (SentenceTransformer)...
Modelo de embeddings cargado.
Generando embeddings para las películas (esto puede tardar un poco)...


Batches:  16%|█▌        | 24/151 [01:09<05:57,  2.82s/it]

In [None]:
def recommend_movies(user_prompt, k=5):
    """
    Recomienda películas basadas en un prompt del usuario,
    usando embeddings del nuevo dataset y FAISS.
    """
    # Genera embedding para el prompt del usuario
    user_embedding = embedding_model.encode([user_prompt])
    
    # Escala el embedding del usuario
    scaled_user_embedding = scaler.transform(user_embedding)
    
    # Realiza búsqueda de similitud en el índice FAISS
    distances, indices = index.search(scaled_user_embedding, k)
    
    # Obtiene las películas recomendadas del DataFrame original
    recommended_movies = movies_df.iloc[indices[0]]
    
    # Opcional: podemos añadir un filtro mínimo de 'vote_count'  para recomendaciones más robustas
    
    return recommended_movies

In [None]:
def llamar_a_gemini(prompt_texto):
    """
    Llama a la API de Google Gemini para generar una respuesta.
    """
    model = genai.GenerativeModel(GEMINI_MODEL_NAME)


    try:
        response = model.generate_content(
            prompt_texto,
            generation_config=genai.types.GenerationConfig(
                temperature=0.7,
                max_output_tokens=500,
            )
        )
        # El texto generado está en response.candidates[0].content.parts[0].text
        return response.text
    except Exception as e:
        print(f"Error al llamar a la API de Gemini: {e}")
        return "Lo siento, no pude generar una recomendación en este momento. Por favor, intenta de nuevo más tarde."

In [None]:
user_prompt = input("¿Qué tipo de película querés ver?: ")

recommendations = recommend_movies(user_prompt, k=5)

resumen = ""
for i, row in recommendations.iterrows():
    movie_year = int(row['Year']) if pd.notna(row['Year']) and row['Year'] != 'año desconocido' else 'año desconocido'

    resumen += (
        f"Título: {row['CleanTitle']} ({movie_year}), "
        f"Géneros: {row['Genres']}, "
        f"Actores: {row['CleanCast']}, "
        f"Rating Promedio: {round(row['AvgRating'], 1)}.\n"
        f"Sinopsis: {row['overview']}\n\n"
    )

prompt_llm = f"""
Actuá como un recomendador de películas en español. Un usuario te dijo lo siguiente:
"{user_prompt}"

Estas son tus opciones (con título, año, géneros, actores, rating promedio y sinopsis):
{resumen}

Considerando la sinopsis, los géneros, los actores y el rating de las películas, respondé en tono natural y conversacional, recomendando las películas que mejor se ajusten a la preferencia del usuario.
"""

print("\nGenerando recomendación con Google Gemini (API)...")
respuesta = llamar_a_gemini(prompt_llm)
print("\n🎬 Recomendación personalizada:\n")
print(respuesta)