In [2]:
%pip install -r requirements.txt

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sentence_transformers import SentenceTransformer
import faiss
import os
import wget
import google.generativeai as genai
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.manifold import TSNE
import numpy as np

# --- Configuración del dataset de películas ---
DATASET_DOWNLOAD_URL = "https://www.kaggle.com/api/v1/datasets/download/utkarshx27/movies-dataset"
DATASET_FILE_NAME = "movies-dataset.zip"
DATASET_CSV_NAME = "movie_dataset.csv"
DATASET_DIR = "./data/"
DATASET_LOCAL_PATH = os.path.join(DATASET_DIR, DATASET_CSV_NAME)

# --- Configuración de la API de Gemini ---
GEMINI_API_KEY = "AIzaSyB2lqerBn4B8VuHHg53v7mZF3kdGmE-i7k"

# Configurar la API de Google Gemini
genai.configure(api_key=GEMINI_API_KEY)

# Listamos los modelos disponibles (lo usamos para debug)
for m in genai.list_models():
    if "generateContent" in m.supported_generation_methods:
        print(m.name)

# Seleccionamos el modelo geminio que vamos a usar
GEMINI_MODEL_NAME = "gemini-2.0-flash"

try:
    model = genai.GenerativeModel(GEMINI_MODEL_NAME)
    print(f"Modelo Gemini '{GEMINI_MODEL_NAME}' configurado exitosamente.")
except Exception as e:
    print(f"Error al configurar el modelo Gemini: {e}")
    print("Por favor, verifica tu clave API y tu conexión a internet.")
    raise

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


models/gemini-1.0-pro-vision-latest
models/gemini-pro-vision
models/gemini-1.5-pro-latest
models/gemini-1.5-pro-002
models/gemini-1.5-pro
models/gemini-1.5-flash-latest
models/gemini-1.5-flash
models/gemini-1.5-flash-002
models/gemini-1.5-flash-8b
models/gemini-1.5-flash-8b-001
models/gemini-1.5-flash-8b-latest
models/gemini-2.5-pro-preview-03-25
models/gemini-2.5-flash-preview-04-17
models/gemini-2.5-flash-preview-05-20
models/gemini-2.5-flash
models/gemini-2.5-flash-preview-04-17-thinking
models/gemini-2.5-flash-lite-preview-06-17
models/gemini-2.5-pro-preview-05-06
models/gemini-2.5-pro-preview-06-05
models/gemini-2.5-pro
models/gemini-2.0-flash-exp
models/gemini-2.0-flash
models/gemini-2.0-flash-001
models/gemini-2.0-flash-exp-image-generation
models/gemini-2.0-flash-lite-001
models/gemini-2.0-flash-lite
models/gemini-2.0-flash-preview-image-generation
models/gemini-2.0-flash-lite-preview-02-05
models/gemini-2.0-flash-lite-preview
models/gemini-2.0-pro-exp
models/gemini-2.0-pro-exp

In [3]:
import ast

# Crea la carpeta de datos si no existe
os.makedirs(DATASET_DIR, exist_ok=True)

# Descarga el dataset si no existe localmente
if not os.path.exists(DATASET_LOCAL_PATH):
    print(f"Descargando el dataset de películas (aprox. 23 MB) a: {DATASET_DIR}")
    print("Esto puede tardar unos segundos...")
    try:
        # wget descarga el zip, luego lo descomprimimos
        zip_path = os.path.join(DATASET_DIR, DATASET_FILE_NAME)
        wget.download(DATASET_DOWNLOAD_URL, out=zip_path)
        print("\nDescarga del ZIP completada. Descomprimiendo...")

        import zipfile
        with zipfile.ZipFile(zip_path, 'r') as zip_ref:
            zip_ref.extract(DATASET_CSV_NAME, DATASET_DIR)
        os.remove(zip_path) # Elimina el zip después de descomprimir
        print(f"Dataset '{DATASET_CSV_NAME}' descomprimido.")

    except Exception as e:
        print(f"\nError al descargar o descomprimir el dataset: {e}")
        raise

print(f"Cargando el dataset desde: {DATASET_LOCAL_PATH}")
movies_df = pd.read_csv(DATASET_LOCAL_PATH)
print("Dataset cargado exitosamente.")
print(movies_df.columns)

# --- Preprocesamiento del dataset ---
movies_df.rename(columns={'title': 'CleanTitle'}, inplace=True)

movies_df.loc[:, 'Year'] = pd.to_datetime(movies_df['release_date'], errors='coerce').dt.year
movies_df.loc[:, 'Year'] = movies_df['Year'].astype('Int64').fillna(0)
movies_df.loc[movies_df['Year'] == 0, 'Year'] = 'año desconocido'

# --- Funciones de parsing ---
def parse_genres_robust(genres_str):
    if pd.isna(genres_str) or genres_str == '[]' or genres_str == '':
        return []
    try:
        genres_list = ast.literal_eval(genres_str)
        if isinstance(genres_list, list):
            return [d['name'] for d in genres_list if isinstance(d, dict) and 'name' in d]
        else:
            raise ValueError("Not a list of dictionaries")
    except (ValueError, SyntaxError):
        if ',' in genres_str:
            return [g.strip() for g in genres_str.split(',') if g.strip()]
        else:
            return [g.strip() for g in genres_str.split(' ') if g.strip()]
    except Exception as e:
        print(f"Advertencia al parsear géneros: {e}")
        return []

def parse_cast_robust(cast_str):
    if pd.isna(cast_str) or cast_str == '[]' or cast_str == '':
        return []
    try:
        cast_list = ast.literal_eval(cast_str)
        if isinstance(cast_list, list):
            return [d['name'] for d in cast_list if isinstance(d, dict) and 'name' in d]
        else:
            raise ValueError("Not a list of dictionaries")
    except (ValueError, SyntaxError):
        if ',' in cast_str:
            return [c.strip() for c in cast_str.split(',') if c.strip()]
        else:
            return [cast_str.strip()]

# Aplica funciones de parsing
movies_df['genres_parsed'] = movies_df['genres'].apply(parse_genres_robust)

# ✅ Traducción de géneros del inglés al español
genre_translation = {
    "Action": "Acción",
    "Adventure": "Aventura",
    "Comedy": "Comedia",
    "Drama": "Drama",
    "Science Fiction": "Ciencia Ficción",
    "Horror": "Terror",
    "Thriller": "Thriller",
    "Romance": "Romance",
    "Animation": "Animación",
    "Documentary": "Documental",
    "Mystery": "Misterio",
    "Fantasy": "Fantasía",
    "Crime": "Crimen"
}

def traducir_generos(generos):
    return [genre_translation.get(g, g) for g in generos]

movies_df['genres_traducidos'] = movies_df['genres_parsed'].apply(traducir_generos)
movies_df['Genres'] = movies_df['genres_traducidos'].apply(lambda x: ', '.join(x) if x else '')

# Cast
movies_df['cast_parsed'] = movies_df['cast'].apply(parse_cast_robust)
movies_df['CleanCast'] = movies_df['cast_parsed'].apply(lambda x: ', '.join(x) if x else '')

# Promedio de rating
movies_df.rename(columns={'vote_average': 'AvgRating'}, inplace=True)

# Texto combinado para embeddings
movies_df['combined_text'] = (
    "Título: " + movies_df['CleanTitle'].fillna('') + ". " +
    "Géneros: " + movies_df['Genres'].fillna('') + ". " +
    "Actores: " + movies_df['CleanCast'].fillna('') + ". " +
    "Sinopsis: " + movies_df['overview'].fillna('')
)

# Elimina duplicados
movies_df.drop_duplicates(subset=['CleanTitle', 'Year'], inplace=True, ignore_index=True)

print(f"Dataset preprocesado. Filas: {len(movies_df)}")
print(movies_df['combined_text'].sample(5).values)


Cargando el dataset desde: ./data/movie_dataset.csv
Dataset cargado exitosamente.
Index(['index', 'budget', 'genres', 'homepage', 'id', 'keywords',
       'original_language', 'original_title', 'overview', 'popularity',
       'production_companies', 'production_countries', 'release_date',
       'revenue', 'runtime', 'spoken_languages', 'status', 'tagline', 'title',
       'vote_average', 'vote_count', 'cast', 'crew', 'director'],
      dtype='object')


  movies_df.loc[movies_df['Year'] == 0, 'Year'] = 'año desconocido'


Dataset preprocesado. Filas: 4803
["Título: Queen of the Damned. Géneros: Drama, Fantasía, Terror. Actores: Stuart Townsend Aaliyah Marguerite Moreau Vincent P\\u00e9rez Paul McGann. Sinopsis: Lestat de Lioncourt is awakened from his slumber. Bored with his existence he has now become this generations new Rock God. While in the course of time, another has arisen, Akasha, the Queen of the Vampires and the Dammed. He want's immortal fame, his fellow vampires want him eternally dead for his betrayal, and the Queen want's him for her King. Who will be the first to reach him? Who shall win?"
 'Título: The Jackal. Géneros: Acción, Thriller, Aventura, Crimen. Actores: Bruce Willis Richard Gere Sidney Poitier Diane Venora J.K. Simmons. Sinopsis: Hired by a powerful member of the Russian mafia to avenge an FBI sting that left his brother dead, the perfectionist Jackal proves an elusive target for the men charged with the task of bringing him down: a deputy FBI boss and a former IRA terrorist.'


In [None]:
# Cargamos el modelo de embeddings
# 'all-MiniLM-L6-v2' es ligero y bueno para inglés.
# (para mejor rendimineto en español usar 'paraphrase-multilingual-MiniLM-L12-v2' es más grande)
print("Cargando modelo de embeddings (SentenceTransformer)...")
embedding_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
print("Modelo de embeddings cargado.")

# Genera embeddings para el dataset preprocesado
print("Generando embeddings para las películas (esto puede tardar un poco)...")
movie_embeddings = embedding_model.encode(movies_df['combined_text'].tolist(), show_progress_bar=True)
print("Embeddings generados.")

# Escala los embeddings
scaler = StandardScaler()
scaled_embeddings = scaler.fit_transform(movie_embeddings)

# Crear el índice FAISS
# D = dimensión de los embeddings (384 para all-MiniLM-L6-v2)
D = scaled_embeddings.shape[1]
index = faiss.IndexFlatL2(D) # L2 para distancia euclidiana (común para embeddings)
index.add(scaled_embeddings)
print(f"Índice FAISS creado con {index.ntotal} elementos.")

# Opcional: guardar/cargar el índice para no tener que regenerarlo
# faiss.write_index(index, "movie_embeddings.faiss")
# index = faiss.read_index("movie_embeddings.faiss")

Cargando modelo de embeddings (SentenceTransformer)...


In [None]:
# --- 4. Visualización de Embeddings (t-SNE) ---
# Esto ayuda a inspeccionar visualmente si películas similares se agrupan en el espacio de embeddings.
# Visualizaremos una muestra de los embeddings, ya que puede ser computacionalmente intensivo para todas las 4800+ películas.

print("\nGenerando visualización de embeddings con t-SNE (esto puede tomar un tiempo)...")
# Reduce el número de muestras para t-SNE si tu dataset es muy grande,
# de lo contrario, puede ser muy lento. Tomemos una muestra aleatoria.
sample_size = 1000 # Ajusta según sea necesario
sample_indices = np.random.choice(len(scaled_embeddings), sample_size, replace=False)
sample_embeddings = scaled_embeddings[sample_indices]
sample_movies_df = movies_df.iloc[sample_indices]

# Reduce dimensiones usando t-SNE
tsne = TSNE(n_components=2, random_state=42, perplexity=30, n_iter=1000)
tsne_results = tsne.fit_transform(sample_embeddings)

# Crea un DataFrame para la gráfica
tsne_df = pd.DataFrame(data=tsne_results, columns=['tsne-2d-one', 'tsne-2d-two'])
tsne_df['CleanTitle'] = sample_movies_df['CleanTitle'].values
tsne_df['Genres'] = sample_movies_df['Genres'].values
tsne_df['AvgRating'] = sample_movies_df['AvgRating'].values

plt.figure(figsize=(16, 10))
sns.scatterplot(
    x="tsne-2d-one", y="tsne-2d-two",
    hue="Genres", # Puedes colorear por género, pero puede haber demasiadas categorías
    # size="AvgRating", # O dimensionar por rating
    palette=sns.color_palette("hls", 10), # Ajusta el tamaño de la paleta si coloreas por género
    data=tsne_df,
    legend="full",
    alpha=0.7
)
plt.title('Visualización t-SNE de Embeddings de Películas')
plt.xlabel('Dimensión t-SNE 1')
plt.ylabel('Dimensión t-SNE 2')
plt.show()

In [None]:
import spacy

# Cargar el modelo de spaCy para español
nlp = spacy.load("es_core_news_sm")

# Lista de géneros en español para detectar desde el prompt
GENRES = [
    "acción", "aventura", "comedia", "drama", "ciencia ficción", "terror", "thriller", 
    "romance", "animación", "documental", "misterio", "fantasía", "crimen"
]

# Extrae nombres de actores y géneros del prompt
def extract_actor_and_genres(prompt):
    doc = nlp(prompt)
    actores = [ent.text for ent in doc.ents if ent.label_ == "PER"]  # spaCy reconoce nombres de personas

    generos_encontrados = []
    prompt_lower = prompt.lower()
    for genero in GENRES:
        if genero in prompt_lower:
            generos_encontrados.append(genero.capitalize())  # Para coincidir con columna Genres

    return actores, generos_encontrados


import time

def recommend_movies_mejorado(prompt, k=5):
    actores, generos = extract_actor_and_genres(prompt)
    df_filtrado = movies_df.copy()

    if actores:
        df_filtrado = df_filtrado[df_filtrado['CleanCast'].str.contains('|'.join(actores), case=False, na=False)]
    if generos:
        df_filtrado = df_filtrado[df_filtrado['Genres'].str.contains('|'.join(generos), case=False, na=False)]

    if df_filtrado.empty:
        df_filtrado = movies_df.copy()

    # Filtrar los embeddings precalculados
    indices_filtrados = df_filtrado.index.tolist()
    filtered_embeddings = scaled_embeddings[indices_filtrados]

    # Crear índice FAISS temporal con embeddings filtrados
    D = filtered_embeddings.shape[1]
    temp_index = faiss.IndexFlatL2(D)
    temp_index.add(filtered_embeddings)

    # Embedding del prompt
    prompt_emb = embedding_model.encode([prompt])
    scaled_prompt_emb = scaler.transform(prompt_emb)

    distances, indices = temp_index.search(scaled_prompt_emb, k)
    recomendadas = df_filtrado.iloc[indices[0]]

    return recomendadas.reset_index(drop=True)


In [None]:
def llamar_a_gemini(prompt_texto):
    """
    Llama a la API de Google Gemini para generar una respuesta.
    """
    model = genai.GenerativeModel(GEMINI_MODEL_NAME)


    try:
        response = model.generate_content(
            prompt_texto,
            generation_config=genai.types.GenerationConfig(
                temperature=0.7,
                max_output_tokens=500,
            )
        )
        # El texto generado está en response.candidates[0].content.parts[0].text
        return response.text
    except Exception as e:
        print(f"Error al llamar a la API de Gemini: {e}")
        return "Lo siento, no pude generar una recomendación en este momento. Por favor, intenta de nuevo más tarde."

In [None]:
user_prompt = input("¿Qué tipo de película querés ver?: ")

recommendations = recommend_movies_mejorado(user_prompt, k=5)

resumen = ""
for i, row in recommendations.iterrows():
    movie_year = int(row['Year']) if pd.notna(row['Year']) and row['Year'] != 'año desconocido' else 'año desconocido'

    resumen += (
        f"Título: {row['CleanTitle']} ({movie_year}), "
        f"Géneros: {row['Genres']}, "
        f"Actores: {row['CleanCast']}, "
        f"Rating Promedio: {round(row['AvgRating'], 1)}.\n"
        f"Sinopsis: {row['overview']}\n\n"
    )
prompt_llm = f"""
Actuá como un recomendador de películas en español. Un usuario te dijo lo siguiente:
"{user_prompt}"

Estas son tus opciones (con título, año, géneros, actores, rating promedio y sinopsis):
{resumen}

Considerando la sinopsis, los géneros, los actores y el rating de las películas, respondé en tono natural y conversacional, recomendando las películas que mejor se ajusten a la preferencia del usuario.
"""

print("\nGenerando recomendación con Google Gemini (API)...")
respuesta = llamar_a_gemini(prompt_llm)
print("\n🎬 Recomendación personalizada:\n")
print(respuesta)

In [None]:
print("\n--- Análisis de las características de las películas recomendadas ---")

# Distribución de Géneros en las Recomendaciones
print("\nGéneros más comunes en las recomendaciones:")
# Aplanar la lista de géneros y contar ocurrencias
all_genres = []
for genres_str in recommendations['Genres']:
    all_genres.extend([g.strip() for g in genres_str.split(',') if g.strip()])
genre_counts = pd.Series(all_genres).value_counts().head(10)
print(genre_counts)

plt.figure(figsize=(10, 6))
sns.barplot(x=genre_counts.values, y=genre_counts.index, palette="viridis")
plt.title('Top 10 Géneros en Películas Recomendadas')
plt.xlabel('Número de Películas')
plt.ylabel('Género')
plt.show()

# Distribución de Ratings Promedio en las Recomendaciones
print("\nDistribución de Ratings Promedio en las recomendaciones:")
print(recommendations['AvgRating'].describe())

plt.figure(figsize=(8, 5))
sns.histplot(recommendations['AvgRating'], bins=5, kde=True)
plt.title('Distribución de Ratings Promedio de Películas Recomendadas')
plt.xlabel('Rating Promedio')
plt.ylabel('Frecuencia')
plt.show()

# Distribución de Años en las Recomendaciones
print("\nAños de lanzamiento de las películas recomendadas:")
# Convertir 'año desconocido' a NaN para la graficación numérica, luego manejarlo por separado si es necesario
years_for_plot = recommendations['Year'].apply(lambda x: np.nan if x == 'año desconocido' else int(x))
plt.figure(figsize=(8, 5))
sns.histplot(years_for_plot.dropna(), bins=5, kde=False)
plt.title('Distribución de Años de Películas Recomendadas')
plt.xlabel('Año de Lanzamiento')
plt.ylabel('Frecuencia')
plt.show()
if 'año desconocido' in recommendations['Year'].values:
    print(f"Hay {sum(recommendations['Year'] == 'año desconocido')} película(s) con año desconocido en las recomendaciones.")

In [None]:
prompt = "Quiero ver una película de acción brad pitt"
recs = recommend_movies_mejorado(prompt, k=10)
print(recs[['CleanTitle', 'Genres', 'CleanCast', 'AvgRating']])


                        CleanTitle  \
0                           Patton   
1                    The Statement   
2                            U-571   
3               The Imitation Game   
4      G.I. Joe: The Rise of Cobra   
5               Enemy at the Gates   
6                          Wah-Wah   
7                          Firefox   
8                      World War Z   
9  Star Wars: Clone Wars: Volume 1   

                                              Genres  \
0                                Drama, History, War   
1                                    Drama, Thriller   
2                       Acción, Drama, Thriller, War   
3                      History, Drama, Thriller, War   
4       Aventura, Acción, Thriller, Science, Fiction   
5                                                War   
6                                              Drama   
7       Science, Fiction, Acción, Aventura, Thriller   
8  Acción, Drama, Terror, Science, Fiction, Thriller   
9  Acción, Aventura, 