# Librerías

In [None]:
#!pip install pysqlite3
#!pip install scikit-lear
!pip install -q google-generativeai #Para API de Gemini
!pip install requests #Libreria no totalmente necesaria pero recomenda en caso de peticiones HTTP
!pip install numpy==1.23.5
!pip install scikit-surprise

Collecting scikit-surprise
  Using cached scikit_surprise-1.1.4.tar.gz (154 kB)
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (pyproject.toml) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.4-cp311-cp311-linux_x86_64.whl size=2505212 sha256=729bb0419900c8e81f88f18c23df293526e3efd6ec8b3d50a1be7ed3a09b4041
  Stored in directory: /root/.cache/pip/wheels/2a/8f/6e/7e2899163e2d85d8266daab4aa1cdabec7a6c56f83c015b5af
Successfully built scikit-surprise
Installing collected packages: scikit-surprise
Successfully installed scikit-surprise-1.1.4


In [None]:
# Manejo de Datos
import numpy as np
import pandas as pd
import sqlite3 as sql
import os
import sys
import datetime

# Visualización
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots

# Estadísticas y Pruebas
import scipy.stats as stats
from scipy.stats import gaussian_kde

# Procesamiento de Datos
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA

# Modelado y Algoritmos
from sklearn import neighbors
import joblib
#from surprise import Reader, Dataset
from surprise.model_selection import cross_validate, GridSearchCV
from surprise import KNNBasic, KNNWithMeans, KNNWithZScore, KNNBaseline
from surprise.model_selection import train_test_split

# Interactividad
from ipywidgets import interact

# Google Colab
from google.colab import drive
from google.colab import files

# Otros
from collections import Counter

#Librerias de la API fe Gemini
import google.generativeai as genai #Para API de Gemini
import requests # Se usa para hacer solicitudes HTTP. Permite enviar peticiones POST a las APIs para traducción y generación de texto

In [None]:
from surprise import Reader, Dataset #Libreria para modelos de recomendación

# Conectar con google drive


In [None]:
drive.flush_and_unmount() #Linea en caso de tener que desconectar el drive por algún tipo de falla

Drive not mounted, so nothing to flush and unmount.


In [None]:
#drive.flush_and_unmount()  #Linea en caso de tener que desconectar el drive por algún tipo de falla
drive.mount('/content/drive') #Linea para conectar al drive

Mounted at /content/drive


In [None]:
path="/content/drive/MyDrive/analitica 3/sistemas_recomendacion" ### ruta del repositorio en drive
os.chdir(path) ### volver la carpeta del repositorio directorio de trabajo
sys.path.append(path) ### agregarla al path, poder leer archivos de funciones propios como paquetes

In [None]:
import a_funciones as fn #Importar el documento de funciones para hacer uso de estas

# Base de datos

In [None]:
conn = sql.connect('/content/drive/MyDrive/analitica 3/sistemas_recomendacion/data/db_movies3') #Crear la conexión con la base de datos
cur = conn.cursor() #Creacion del cursos para realizar consultas dentro del mismo SQL

In [None]:
# Creación de cursor para  ejecutar consultas en la base de datos
# Visualizar las tablas contenidas en la base de datos
cur.execute("SELECT name FROM sqlite_master where type='table'")
cur.fetchall()

[('movies_final',),
 ('ratings_final',),
 ('df_final',),
 ('df_terminado',),
 ('df_catalogo',),
 ('reco',)]

#Modelos

In [None]:
df_modelos=joblib.load('/content/drive/MyDrive/analitica 3/sistemas_recomendacion/salidas/df_modelos.joblib')   # Carga el DataFrame de modelos desde un archivo .joblib

In [None]:
df_catalogo = pd.read_sql("SELECT * from df_catalogo",conn)

##Sistema de recomendación basado en contenido KNN (Basado en el usuario)

In [None]:
## seleccionar usuarios para recomendaciones
usuarios=pd.read_sql('select distinct (user_id) as user_id from ratings_final',conn)

In [None]:
# Función para recomendar películas a un usuario basado en su perfil de gustos usando k-vecinos más cercanos
def recomendar(user_id=list(usuarios['user_id'].value_counts().index)):

    ###seleccionar solo los ratings del usuario seleccionado
    ratings=pd.read_sql('select *from ratings_final where user_id=:user',conn, params={'user':user_id})

    ###convertir ratings del usuario a array
    l_movies_r=ratings['movie_id'].to_numpy()

    ###agregar la columna de movie_id y titulo de la pelicula a dummie para filtrar y mostrar nombre
    df_modelos[['movie_id','title']]=df_catalogo[['movie_id','title']]

    ### filtrar las peliculas calificadas por el usuario
    movies_r=df_modelos[df_modelos['movie_id'].isin(l_movies_r)]

    ## eliminar columna nombre e movie_id
    movies_r=movies_r.drop(columns=['movie_id','title'])
    movies_r["indice"]=1 ### para usar group by y que quede en formato pandas tabla de centroide
    ##centroide o perfil del usuario
    centroide=movies_r.groupby("indice").mean()


    ### filtrar peliculas no vistas
    movies_nr=df_modelos[~df_modelos['movie_id'].isin(l_movies_r)]
    ## eliminbar nombre y movie_id
    movies_nr=movies_nr.drop(columns=['movie_id','title'])

    ### entrenar modelo
    model=neighbors.NearestNeighbors(n_neighbors=11, metric='cosine')
    model.fit(movies_nr)
    dist, idlist = model.kneighbors(centroide)

    ids=idlist[0] ### queda en un array anidado, para sacarlo
    recomend_b=df_catalogo.loc[ids][['title','movie_id']]
    leidos=df_catalogo[df_catalogo['movie_id'].isin(l_movies_r)][['title','movie_id']]

    return recomend_b


recomendar(550) #Ejecutar la funcion con user_id (usuario) de prueba

Unnamed: 0,title,movie_id
1444,"Big Sleep, The (1946)",1284
1028,Star Trek Into Darkness (2013),102445
1018,Thor (2011),86332
1443,Akira (1988),1274
938,Once Upon a Time in Mexico (2003),6709
63,"Clockwork Orange, A (1971)",1206
58,"Abyss, The (1989)",1127
1013,"Expendables, The (2010)",79695
14,Ed Wood (1994),235
381,Once Were Warriors (1994),290


In [None]:
print(interact(recomendar)) # Crea un widget interactivo para seleccionar el usuario y mostrar recomendaciones en tiempo real

##Sistema de recomendación filtro colaborativo

In [None]:
# Cargar toda la tabla 'ratings_final'
ratings=pd.read_sql('select * from ratings_final', conn)
ratings.head()

Unnamed: 0,user_id,movie_id,rating,year_ratings,month,day
0,1,1,4.0,2000,7,30
1,1,3,4.0,2000,7,30
2,1,6,4.0,2000,7,30
3,1,47,5.0,2000,7,30
4,1,50,5.0,2000,7,30


In [None]:
reader = Reader(rating_scale=(0, 5)) # Define el rango de los ratings para el lector de datos de Surprise
data   = Dataset.load_from_df(ratings[['user_id','movie_id','rating']], reader) # Crea un conjunto de datos para Surprise a partir del dataframe de ratings

In [None]:
models=[KNNBasic(),KNNWithMeans(),KNNWithZScore(),KNNBaseline()] # Lista de modelos KNN de Surprise para probar diferentes variantes
results = {} # Diccionario para almacenar resultados de los modelos

In [None]:
model=models[1] # Elección de un modelo incial para la iteración
for model in models: # Iterar sobre cada modelo de la lista de modelos

    # Realizar validación cruzada (5 subdivisiones) calculando MAE y RMSE
    CV_scores = cross_validate(model, data, measures=["MAE","RMSE"], cv=5, n_jobs=-1)

    # Calculo del promedio de las metricas y guardar los resultados en el diccionario
    result = pd.DataFrame.from_dict(CV_scores).mean(axis=0).\
             rename({'test_mae':'MAE', 'test_rmse': 'RMSE'})
    results[str(model).split("algorithms.")[1].split("object ")[0]] = result


performance_df = pd.DataFrame.from_dict(results).T # Convertir diccionario de resultados en un dataframe
performance_df.sort_values(by='RMSE') # Ordenar los modelos en funcion de su RMSE de menor a mayor

Unnamed: 0,MAE,RMSE,fit_time,test_time
knns.KNNBaseline,0.642409,0.840252,0.375409,2.89168
knns.KNNWithZScore,0.646957,0.850371,0.294945,1.981156
knns.KNNWithMeans,0.652459,0.852827,0.26724,2.526312
knns.KNNBasic,0.6934,0.903106,0.278211,3.875282


En los resultados obtenidos, el modelo KNNBaseline presenta el mejor desempeño, con el MAE más bajo (0.6429) y también el menor RMSE (0.8408), lo que indica una mayor precisión en la predicción de las calificaciones de los usuarios. Aunque no es el modelo más rápido en términos de tiempo de entrenamiento y prueba, la diferencia respecto a los demás es mínima y no representa un factor determinante.

In [None]:
# Diccionario con parametros que se probaran durante la busqueda de hiperparámetros
# donde, 'msd' es (Mean Squared Difference), 'cosine' es (similitud coseno) y min_support es
# número mínimo de coincidencias (usuarios o ítems comunes) para considerar la similitud
param_grid = { 'sim_options' : {'name': ['msd','cosine'], \
                                'min_support': list(range(2,7)), \
                                'user_based': [False, True], \
                                'min_k':[5]}
             }

In [None]:
# Creamos un objeto GridSearchCV para realizar la búsqueda de hiperparámetros
gridsearchKNNBaseline = GridSearchCV(KNNBaseline, param_grid, measures=['rmse'], \
                                      cv=2, n_jobs=-1) # cv: número de particiones para la validación cruzada (2 en este caso)
                                      # n_jobs=-1 usa todos los núcleos disponibles, es decir numero de trabajos en paralelo

gridsearchKNNBaseline.fit(data) # Entrenamiento del modelo

In [None]:
# Obtener el mejor conjunto de hiperparámetros encontrados durante la búsqueda, especificamente los que lograron un mejor RMSE
gridsearchKNNBaseline.best_params["rmse"]
gridsearchKNNBaseline.best_score["rmse"]
gs_model=gridsearchKNNBaseline.best_estimator['rmse']

In [None]:
trainset = data.build_full_trainset() ### esta función convierte todos los datos en entrnamiento, las funciones anteriores dividen  en entrenamiento y evaluación
model=gs_model.fit(trainset) ## se reentrena sobre todos los datos posibles (sin dividir)

Estimating biases using als...
Computing the msd similarity matrix...
Done computing similarity matrix.


In [None]:
joblib.dump(model,'/content/drive/MyDrive/analitica 3/sistemas_recomendacion/salidas/modelo_colaborativo.joblib')

['/content/drive/MyDrive/analitica 3/sistemas_recomendacion/salidas/modelo_colaborativo.joblib']

In [None]:
### Hacer predicción con el modelo de recomendación
# uid: ID del usuario para quien se quiere predecir la calificación
# iid: ID del ítem (película) para el cual se quiere hacer la predicción
model.predict(uid=5, iid='5',r_ui='')

Prediction(uid=5, iid='5', r_ui='', est=3.5093755789717713, details={'was_impossible': False})

In [None]:
#Crea el anti-testset: una lista de todas las combinaciones (usuario, película) que NO existen en el conjunto de entrenamiento
predset = trainset.build_anti_testset()
len(predset)

#Muestra las primeras 10 combinaciones usuario-película no vistas,
predset[0:10]

[(1, 318, 3.579442714350294),
 (1, 1704, 3.579442714350294),
 (1, 6874, 3.579442714350294),
 (1, 8798, 3.579442714350294),
 (1, 46970, 3.579442714350294),
 (1, 48516, 3.579442714350294),
 (1, 58559, 3.579442714350294),
 (1, 60756, 3.579442714350294),
 (1, 68157, 3.579442714350294),
 (1, 71535, 3.579442714350294)]

In [None]:
# Utiliza el modelo entrenado (gs_model) para predecir las calificaciones
# de todas las combinaciones usuario-película que no han sido calificadas
predictions = gs_model.test(predset)

In [None]:
#Muestra las primeras 10 predicciones
predictions[0:10]

[Prediction(uid=1, iid=318, r_ui=3.579442714350294, est=4.953888892997183, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid=1, iid=1704, r_ui=3.579442714350294, est=4.811858760280403, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid=1, iid=6874, r_ui=3.579442714350294, est=4.745184479485489, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid=1, iid=8798, r_ui=3.579442714350294, est=4.6102450867763745, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid=1, iid=46970, r_ui=3.579442714350294, est=4.139481333486526, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid=1, iid=48516, r_ui=3.579442714350294, est=4.9620836959599846, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid=1, iid=58559, r_ui=3.579442714350294, est=5, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid=1, iid=60756, r_ui=3.579442714350294, est=4.232274503384751, details={'actual_k': 40, 'was_impossibl

In [None]:
predictions_df = pd.DataFrame(predictions) #Convertir la lista de predicciones en un dataframe
predictions_df.shape
predictions_df.head()
predictions_df['r_ui'].unique() ### promedio de ratings
predictions_df. sort_values(by='est',ascending=False) # Ordenar el dataframe enforma descendente respecto a est ---- est: Es la calificación predicha

Unnamed: 0,uid,iid,r_ui,est,details
105295,53,6867,3.579443,5.000000,"{'actual_k': 17, 'was_impossible': False}"
104831,53,610,3.579443,5.000000,"{'actual_k': 19, 'was_impossible': False}"
104125,53,4014,3.579443,5.000000,"{'actual_k': 19, 'was_impossible': False}"
105549,53,3507,3.579443,5.000000,"{'actual_k': 18, 'was_impossible': False}"
550595,276,168252,3.579443,5.000000,"{'actual_k': 36, 'was_impossible': False}"
...,...,...,...,...,...
5877,3,1381,3.579443,0.192631,"{'actual_k': 22, 'was_impossible': False}"
4680,3,63992,3.579443,0.170991,"{'actual_k': 16, 'was_impossible': False}"
881790,442,3593,3.579443,0.156023,"{'actual_k': 14, 'was_impossible': False}"
1192348,598,640,3.579443,0.088903,"{'actual_k': 2, 'was_impossible': False}"


In [None]:
#Llevar dataframe de predicciones de peliculas a un csv
#predictions_df.to_csv('/content/drive/MyDrive/analitica 3/sistemas_recomendacion/salidas/predictions_movies.csv', index=False)

In [None]:
#Funcion que genera recomendaciones personalizadas de películas para un usuario específico basadas en
#predicciones de ratings, y además incluye los títulos de las películas

def recomendaciones(user_id, n_recomend=10):

    # Filtrar las predicciones para el usuario y ordenar por la calificación estimada
    predictions_userID = predictions_df[predictions_df['uid'] == user_id].\
                        sort_values(by="est", ascending=False).head(n_recomend)

    # Seleccionar las columnas necesarias y renombrarlas
    recomendados = predictions_userID[['uid', 'iid', 'r_ui', 'est']]
    recomendados.columns = ['user_id', 'movie_id', 'promedio_rating_real', 'estimacion_rating']

    # Guardar las recomendaciones en la base de datos
    recomendados.to_sql('reco', conn, if_exists="replace", index=False)

    # Realizar la consulta SQL para obtener los títulos de las películas y eliminar duplicados
    recomendados = pd.read_sql('''SELECT a.*, b.title
                                  FROM reco a
                                  LEFT JOIN df_final b
                                  ON a.movie_id = b.movie_id''', conn)

    # Eliminar filas duplicadas
    recomendados = recomendados.drop_duplicates(subset=['movie_id', 'title'])

    return recomendados

# Ejemplo
df_recomendaciones=recomendaciones(user_id=100, n_recomend=5)
df_recomendaciones

Unnamed: 0,user_id,movie_id,promedio_rating_real,estimacion_rating,title
0,100,3147,3.579443,4.407402,"Green Mile, The (1999)"
111,100,318,3.579443,4.400224,"Shawshank Redemption, The (1994)"
428,100,58559,3.579443,4.399551,"Dark Knight, The (2008)"
577,100,2324,3.579443,4.392307,Life Is Beautiful (La Vita è bella) (1997)
665,100,48516,3.579443,4.377912,"Departed, The (2006)"


In [None]:
lista_peliculas = df_recomendaciones.title.to_list()
lista_peliculas

['Green Mile, The (1999)',
 'Shawshank Redemption, The (1994)',
 'Dark Knight, The (2008)',
 'Life Is Beautiful (La Vita è bella) (1997)',
 'Departed, The (2006)']

### Uso de API para descripción de películas

- Obtener la Api Key de Gemini gratuita: https://aistudio.google.com/apikey (Tener cuenta previamente)

In [None]:
# Configuración de la clave API para acceder a los servicios de Gemini
genai.configure(api_key="AIzaSyCCppbwpZKqG-i5xocnFIJgVBUr_sBavew")

In [None]:
# Crear una instancia del modelo generativo
# En este caso, se utiliza el modelo 'gemini-2.0-flash' que es una versión ligera y rápida de Gemini
lista_respuestas = []

model_ai = genai.GenerativeModel('gemini-2.0-flash')

# Definir una función para enviar un prompt y obtener la respuesta del modelo
def preguntar_a_gemini(prompt):
    # El método generate_content genera una respuesta para el prompt dado
    respuesta = model_ai.generate_content(prompt)
    # Se retorna solo el texto de la respuesta
    return respuesta.text




In [None]:
for pelicula in lista_peliculas:
    promt = "Dame una descripción de 50 palabras de la siguiente pelicula: " + pelicula
    lista_respuestas.append(preguntar_a_gemini(promt))
lista_respuestas

['En una prisión de la Luisiana de la década de 1930, un jefe de guardia de prisión conoce a John Coffey, un corpulento hombre negro que ha sido condenado por asesinar a dos chicas jóvenes. Sin embargo, parece que posee un don sobrenatural que conmociona a los guardias.\n',
 'Condenado injustamente por el asesinato de su esposa, Andy Dufresne pasa casi dos décadas en la penitenciaría de Shawshank. Durante su tiempo tras las rejas, se hace amigo de otro preso, Red, y se convierte en una figura importante en la lavandería de dinero del establecimiento.',
 'En una ciudad sumida en el caos, Batman se enfrenta al Joker, un genio criminal que busca desatar el caos y probar que todos, incluso los héroes, pueden corromperse. Batman deberá superar sus límites para proteger Ciudad Gótica y decidir quién está dispuesto a cruzar la línea para salvarla.\n',
 'En la Italia de la Segunda Guerra Mundial, el encantador Guido, un judío, usa el humor y la imaginación para proteger a su hijo Joshua de los

In [None]:
lista_protagonista = []

for pelicula in lista_peliculas:
    promt = "Dime solo el nombre del protagonista principal de la pelicula: " + pelicula
    lista_protagonista.append(preguntar_a_gemini(promt))
lista_protagonista

['Paul Edgecomb\n',
 'Andy Dufresne\n',
 'Bruce Wayne\n',
 'Guido Orefice\n',
 'Billy Costigan\n']

In [None]:
df_recomendaciones['protagonista'] = lista_protagonista
df_recomendaciones['descripcion'] = lista_respuestas
df_recomendaciones

Unnamed: 0,user_id,movie_id,promedio_rating_real,estimacion_rating,title,protagonista,descripcion
0,100,3147,3.579443,4.407402,"Green Mile, The (1999)",Paul Edgecomb\n,En una prisión de la Luisiana de la década de ...
111,100,318,3.579443,4.400224,"Shawshank Redemption, The (1994)",Andy Dufresne\n,Condenado injustamente por el asesinato de su ...
428,100,58559,3.579443,4.399551,"Dark Knight, The (2008)",Bruce Wayne\n,"En una ciudad sumida en el caos, Batman se enf..."
577,100,2324,3.579443,4.392307,Life Is Beautiful (La Vita è bella) (1997),Guido Orefice\n,"En la Italia de la Segunda Guerra Mundial, el ..."
665,100,48516,3.579443,4.377912,"Departed, The (2006)",Billy Costigan\n,"""The Departed"" es un thriller de crimen ambien..."
