In [1]:
# CONECTAR CON DRIVE
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os
import sys
path ='/content/drive/MyDrive/cod/LEA3_Marketing'
os.chdir(path) ## volver la carpeta de repositorio directorio de trabajo
sys.path.append(path) ## agregarla al path, para leer archivos propios como paquetes

In [3]:
#!pip install ipywidgets
#!pip install google-generativeai
#pip install genai

import numpy as np
import pandas as pd
import sqlite3 as sql
import a_funciones as fn
from sklearn.preprocessing import MinMaxScaler
from ipywidgets import interact ## para análisis interactivo
from sklearn import neighbors ### basado en contenido un solo producto consumido
import joblib
import google.generativeai as genai #Para API de Gemini


# CREAR CONEXIÓN CON LA BASE DE DATOS db_movies
con = sql.connect('data/db_movies')

# CREAR EL CURSOR
cur = con.cursor() ## se crea el cursor, que es el otro tipo de conexión para ejecutar las consultas

# <font color=4CBB17>**1. Sistemas de recomendación basados en popularidad**</font>

In [4]:
# VERIFICAR LOS NOMBRES DE TODAS LAS TABLAS QUE HAY EN LA BASE DE DATOS
cur.execute(""" select name from sqlite_master where type= 'table'  """)
cur.fetchall()

[('ratings',),
 ('movies',),
 ('full_ratings',),
 ('usuarios_selectos',),
 ('pelis_selectas',),
 ('ratings_final',),
 ('movies_final',),
 ('full_rating',)]

In [5]:
full_ratings = pd.read_sql('SELECT * FROM full_rating', con) # tabla full_rating sin preprocear
full_ratings.head(5)

Unnamed: 0,movie_id,movie_title,user_id,movie_rating,movie_genres
0,1,Toy Story (1995),1,4.0,Adventure|Animation|Children|Comedy|Fantasy
1,3,Grumpier Old Men (1995),1,4.0,Comedy|Romance
2,6,Heat (1995),1,4.0,Action|Crime|Thriller
3,47,Seven (a.k.a. Se7en) (1995),1,5.0,Mystery|Thriller
4,50,"Usual Suspects, The (1995)",1,5.0,Crime|Mystery|Thriller


In [6]:
full_ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39698 entries, 0 to 39697
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   movie_id      39698 non-null  int64  
 1   movie_title   39698 non-null  object 
 2   user_id       39698 non-null  int64  
 3   movie_rating  39698 non-null  float64
 4   movie_genres  39698 non-null  object 
dtypes: float64(1), int64(2), object(2)
memory usage: 1.5+ MB


In [7]:
# Aplicar el pipeline
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer
import a_funciones as fn

# Construcción del pipeline
pipeline = Pipeline(steps=[
    ('genres_transform', FunctionTransformer(fn.split_and_encode_genres, validate=False)),
    ('extract_title_year', FunctionTransformer(fn.extract_title_and_year, validate=False)),
    ('remove_nan_years', FunctionTransformer(fn.remove_nan_years, validate=False))
])

In [8]:
#from mlxtend.preprocessing import TransactionEncoder

db_full_final = pipeline.fit_transform(full_ratings)

In [9]:
db_full_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39698 entries, 0 to 39697
Data columns (total 24 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   movie_id      39698 non-null  int64  
 1   user_id       39698 non-null  int64  
 2   movie_rating  39698 non-null  float64
 3   Action        39698 non-null  bool   
 4   Adventure     39698 non-null  bool   
 5   Animation     39698 non-null  bool   
 6   Children      39698 non-null  bool   
 7   Comedy        39698 non-null  bool   
 8   Crime         39698 non-null  bool   
 9   Documentary   39698 non-null  bool   
 10  Drama         39698 non-null  bool   
 11  Fantasy       39698 non-null  bool   
 12  Film-Noir     39698 non-null  bool   
 13  Horror        39698 non-null  bool   
 14  IMAX          39698 non-null  bool   
 15  Musical       39698 non-null  bool   
 16  Mystery       39698 non-null  bool   
 17  Romance       39698 non-null  bool   
 18  Sci-Fi        39698 non-nu

In [10]:
db_full_final['movie_year']=db_full_final.movie_year.astype('int') # Año a númerico

In [11]:
# creará una nueva tabla con los datos actuales de db_full_final
db_full_final.to_sql("full_ratings", con, index=False, if_exists='replace')


39698

In [12]:
#pd.set_option('display.max_columns', None)  # Muestra todas las columnas
#pd.set_option('display.width', 1000)  # Aumenta el ancho de la línea

## <font color=FA9214>**TOP 10 Peliculas con mejores calificaciones y más calificadas (weighted rating)**</font>

Se uso una fórmula, que es una adaptación del ranking ponderado de IMDb (o Bayesian average). Se usa para evitar que películas con muy pocos votos, pero notas muy altas, aparezcan en los primeros lugares.

https://stats.stackexchange.com/questions/189658/what-are-good-resources-on-bayesian-rating

Weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C , where:

* R = average for the movie (mean) = (Rating)
* v = number of votes for the movie = (votes)
* m = minimum votes required to be listed in the Top
* C = the mean vote across the whole report

>Se usa pesos para dar a los más calificados mejor puntuacion asi como a los mejor calificados mas puntuacion, entonces una pelicula con muchas calificaciones y bien calificadas tendra gran oportunidad de hacer parte de este top 10 de popularidad

In [13]:
# Calcular el promedio de calificación (C) y el percentil 75 de cantidad de calificaciones (m)

# Conteo de rantings que agrupa las calificaciones por movieId en donde cada fila
# representa una película y muestra cuántas veces ha sido calificada
rating_counts_df = pd.read_sql("""
    SELECT COUNT(*) AS rating_count
    FROM full_ratings
    GROUP BY movie_id
""", con)

# Calificacion promedio / rating promedio
avg_rating_df = pd.read_sql("""
    SELECT AVG(movie_rating) AS C
    FROM full_ratings
""", con)

# Extraccion de calificación promedio
C = avg_rating_df['C'].iloc[0]

# calculo del percentil 75.
m = rating_counts_df['rating_count'].quantile(0.75)

print(f"Rating promedio (C): {C}")
print(f"Percentil 75 del conteo de calificaciones (m): {m}")


Rating promedio (C): 3.72327321275631
Percentil 75 del conteo de calificaciones (m): 20.0


A continuación, se hará la busqueda en SQL y se va a crear la columna que será la calificación ponderada, ya que se considera es mejor que la simple (promedio), porque reduce el sesgo de películas con pocos votos, dando más relevancia a aquellas tienen más calificaciones. En este caso,

In [14]:
## se prepara el query donde se calcula la calificación ponderada dando uso a
# los productos con mejor calificación ponderada, es decir, los más calificados y con mayor calificación
query = f"""
    SELECT
        movie_year,
        movie_title,
        COUNT(*) AS rating_count,
        ((COUNT(*) / (COUNT(*) + {m})) * AVG(movie_rating) + ({m} / (COUNT(*) + {m})) * {C}) AS weighted_rating
    FROM full_ratings
    WHERE movie_rating > 0
    GROUP BY movie_title
    HAVING rating_count > 30
    ORDER BY weighted_rating DESC
    LIMIT 10
"""
df = pd.read_sql(query, con)
df

Unnamed: 0,movie_year,movie_title,rating_count,weighted_rating
0,1994,"Shawshank Redemption, The",255,4.398056
1,1995,"Usual Suspects, The",145,4.221003
2,1977,Star Wars: Episode IV - A New Hope,175,4.204951
3,2008,"Dark Knight, The",105,4.195724
4,1999,Fight Club,152,4.194567
5,1998,American History X,86,4.19307
6,1993,Schindler's List,170,4.18666
7,1994,Forrest Gump,250,4.183205
8,1999,"Matrix, The",202,4.171016
9,2006,"Departed, The",69,4.168151


### <font color=FA9214>Descripción del TOP 10 Peliculas con mejores calificaciones y más calificadas, por medio de gemini (AI) (weighted rating)</font>

Como se planteó en el diseño de la solución, a través de inteligencia artificial se complementará la salida del top 10 con una descripción similar a un resumen, en la que el usuario, más allá de conocer la posición de una película, podrá ver de qué trata, quiénes son los actores, el director y los premios que ha recibido.

In [15]:
# Crear una instancia del modelo generativo
import google.generativeai as genai

# Configurar la API key
genai.configure(api_key="AIzaSyCAzaOoGD8V077O0gtqXzbiPaXXJiQJA5M")

model = genai.GenerativeModel('gemini-2.0-flash')


In [16]:
# Preguntar a Gemini
def preguntar_a_gemini(prompt):
    respuesta = model.generate_content(prompt)
    return respuesta.text

In [17]:
for i in range(min(5, len(df))):
    pregunta = f"me podrias dar una tabla con una descripción de la película, de que trata, actores principales, director y premios/ galardones ganados '{df.loc[i, 'movie_title']}'"
    print(f"Pregunta: {pregunta}")
    print(f"Respuesta: {preguntar_a_gemini(pregunta)}\n")

Pregunta: me podrias dar una tabla con una descripción de la película, de que trata, actores principales, director y premios/ galardones ganados 'Shawshank Redemption, The'
Respuesta: ¡Por supuesto! Aquí tienes una tabla con la información que solicitaste sobre "The Shawshank Redemption" (Sueños de Fuga/Cadena Perpetua):

| Categoría          | Descripción                                                                                                                                                                                                                |
|-------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Título Original   | The Shawshank Redemption                                                                                                                                              

Como se observó, se presenta una descripción más detallada de las 10 películas más populares, visible para todos los usuarios. Esta descripción incluye el título original, la traducción al español, una sinopsis, los actores principales, el director y los galardones obtenidos. Toda esta información se obtiene mediante una consulta a Gemini, la cual también la organiza en formato de tabla para que los usuarios puedan visualizarla de manera más estructurada.

## <font color=FA9214>**Películas mejor calificadas en los últimos 10 años registrados**</font>

In [18]:
pd.read_sql("""
    -- Crear una tabla temporal con películas rankeadas por año y calificación, debe ser con WITH porque
    -- esto es SQLite entonces no se puede usar SELECT DISTINCT

    WITH ranked_movies AS (
    SELECT
        movie_title,
        movie_year,
        movie_id,
        movie_rating,
        ROW_NUMBER() OVER (PARTITION BY movie_year ORDER BY movie_rating DESC) AS rank
        -- Asigna un número de fila ordenado por calificación descendente dentro de cada año
    FROM full_ratings
)
SELECT
    movie_title,
    movie_year,
    movie_rating AS best_rating
FROM ranked_movies
WHERE rank = 1  -- Solo tomar la mejor calificada por año
ORDER BY movie_year DESC
LIMIT 10; --las 10 películas más recientes
""", con)

Unnamed: 0,movie_title,movie_year,best_rating
0,Avengers: Infinity War - Part I,2018,5.0
1,Thor: Ragnarok,2017,5.0
2,10 Cloverfield Lane,2016,5.0
3,Mad Max: Fury Road,2015,5.0
4,The Imitation Game,2014,5.0
5,"Wolf of Wall Street, The",2013,5.0
6,"Dark Knight Rises, The",2012,5.0
7,Warrior,2011,5.0
8,Inside Job,2010,5.0
9,Inglourious Basterds,2009,5.0


# <font color=4CBB17>**2. Sistema de recomendación basado en contenido KNN un solo producto visto**</font>

In [19]:
movies_final=pd.read_sql_query('SELECT * FROM movies_final', con)
movies_final.head()

Unnamed: 0,movie_id,movie_title,movie_genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,5,Father of the Bride Part II (1995),Comedy
4,6,Heat (1995),Action|Crime|Thriller


In [20]:
# Aplicar el pipeline
db_movies_final = pipeline.fit_transform(movies_final)

In [21]:
db_movies_final.head(5)

Unnamed: 0,movie_id,Action,Adventure,Animation,Children,Comedy,Crime,Documentary,Drama,Fantasy,...,IMAX,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western,movie_title,movie_year
0,1,False,True,True,True,True,False,False,False,True,...,False,False,False,False,False,False,False,False,Toy Story,1995
1,2,False,True,False,True,False,False,False,False,True,...,False,False,False,False,False,False,False,False,Jumanji,1995
2,3,False,False,False,False,True,False,False,False,False,...,False,False,False,True,False,False,False,False,Grumpier Old Men,1995
3,5,False,False,False,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,Father of the Bride Part II,1995
4,6,True,False,False,False,False,True,False,False,False,...,False,False,False,False,False,True,False,False,Heat,1995


In [22]:
db_movies_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2269 entries, 0 to 2268
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   movie_id     2269 non-null   int64 
 1   Action       2269 non-null   bool  
 2   Adventure    2269 non-null   bool  
 3   Animation    2269 non-null   bool  
 4   Children     2269 non-null   bool  
 5   Comedy       2269 non-null   bool  
 6   Crime        2269 non-null   bool  
 7   Documentary  2269 non-null   bool  
 8   Drama        2269 non-null   bool  
 9   Fantasy      2269 non-null   bool  
 10  Film-Noir    2269 non-null   bool  
 11  Horror       2269 non-null   bool  
 12  IMAX         2269 non-null   bool  
 13  Musical      2269 non-null   bool  
 14  Mystery      2269 non-null   bool  
 15  Romance      2269 non-null   bool  
 16  Sci-Fi       2269 non-null   bool  
 17  Thriller     2269 non-null   bool  
 18  War          2269 non-null   bool  
 19  Western      2269 non-null 

In [23]:
db_movies_final['movie_year']=db_movies_final.movie_year.astype('int')
db_movies_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2269 entries, 0 to 2268
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   movie_id     2269 non-null   int64 
 1   Action       2269 non-null   bool  
 2   Adventure    2269 non-null   bool  
 3   Animation    2269 non-null   bool  
 4   Children     2269 non-null   bool  
 5   Comedy       2269 non-null   bool  
 6   Crime        2269 non-null   bool  
 7   Documentary  2269 non-null   bool  
 8   Drama        2269 non-null   bool  
 9   Fantasy      2269 non-null   bool  
 10  Film-Noir    2269 non-null   bool  
 11  Horror       2269 non-null   bool  
 12  IMAX         2269 non-null   bool  
 13  Musical      2269 non-null   bool  
 14  Mystery      2269 non-null   bool  
 15  Romance      2269 non-null   bool  
 16  Sci-Fi       2269 non-null   bool  
 17  Thriller     2269 non-null   bool  
 18  War          2269 non-null   bool  
 19  Western      2269 non-null 

In [24]:
sc = MinMaxScaler()
db_movies_final[["year_sc"]] = sc.fit_transform(db_movies_final[['movie_year']])

In [25]:
db_movies_final.head(5)

Unnamed: 0,movie_id,Action,Adventure,Animation,Children,Comedy,Crime,Documentary,Drama,Fantasy,...,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western,movie_title,movie_year,year_sc
0,1,False,True,True,True,True,False,False,False,True,...,False,False,False,False,False,False,False,Toy Story,1995,0.760417
1,2,False,True,False,True,False,False,False,False,True,...,False,False,False,False,False,False,False,Jumanji,1995,0.760417
2,3,False,False,False,False,True,False,False,False,False,...,False,False,True,False,False,False,False,Grumpier Old Men,1995,0.760417
3,5,False,False,False,False,True,False,False,False,False,...,False,False,False,False,False,False,False,Father of the Bride Part II,1995,0.760417
4,6,True,False,False,False,False,True,False,False,False,...,False,False,False,False,True,False,False,Heat,1995,0.760417


In [26]:
from sklearn import neighbors
from ipywidgets import interact
import pandas as pd

# Se seleccionan las columnas de numéricas
X = db_movies_final.drop(columns=['movie_id', 'movie_title', 'movie_year'])

# Creamos y entrenamos el modelo con distancia del coseno
model = neighbors.NearestNeighbors(n_neighbors=11, metric='cosine')
model.fit(X)

# Obtenemos los vecinos más cercanos de cada película
dist, idlist = model.kneighbors(X)

# Guardamos como df para inspección opcional
distancias = pd.DataFrame(dist)
id_list = pd.DataFrame(idlist)

In [27]:
# Nombre de la película a buscar
movie_list_name = []
movie_name = 'Avengers: Age of Ultron'

# Buscar el índice de la película
movie_id = db_movies_final[db_movies_final['movie_title'] == movie_name].index

if len(movie_id) > 0:
    movie_id = movie_id[0]  # Si hay varios, usar el primero

    for newid in idlist[movie_id]:
        movie_list_name.append(db_movies_final.loc[newid].movie_title)

movie_list_name


['Avengers: Age of Ultron',
 'Ant-Man',
 'Star Trek Beyond',
 'Doctor Strange',
 'Guardians of the Galaxy',
 'X-Men: Days of Future Past',
 'Thor: Ragnarok',
 'Black Panther',
 'Guardians of the Galaxy 2',
 'Avengers: Infinity War - Part I',
 'Green Lantern']

In [28]:
from ipywidgets import interact
import ipywidgets as widgets

def MovieRecommender(Select_Movie =list(db_movies_final['movie_title'].value_counts().index)):
    """Recomienda películas similares a la seleccionada usando KNN y distancia del coseno."""

    movie_list_name = []

    # Buscar el índice de la película dada
    movie_id = db_movies_final[db_movies_final['movie_title'] == Select_Movie].index

    movie_id = movie_id[0]  # Se toma el primer índice en caso de duplicados

    # Ids y distancias de las películas similares
    similar_ids = idlist[movie_id]
    similar_distances = dist[movie_id]
    similitudes = 1 - similar_distances  # convertir distancia a similitud

    # df con resultados
    results = pd.DataFrame({
        'Título': db_movies_final.loc[similar_ids, 'movie_title'].values,
        'Año': db_movies_final.loc[similar_ids, 'movie_year'].values,
        'Similitud': similitudes
    })

     # Eliminar la película original (si aparece en la lista)
    results = results[results['Título'] != Select_Movie]

    # Ordenar por similitud y mostrar solo las 10 más parecidas
    results = results.sort_values('Similitud', ascending=False).head(10)

    # Ajustar el índice para que empiece en 1
    results.index = range(1, len(results) + 1)
    results.index.name = 'Ranking'

    display(results)

# Activar el selector interactivo
# Widget con título personalizado
_=interact(
    MovieRecommender,
    Select_Movie=widgets.Dropdown(
        options=list(db_movies_final['movie_title'].value_counts().index),
        value=list(db_movies_final['movie_title'].value_counts().index)[0],
        description='Película:',
        layout=widgets.Layout(width='30%')
    )
)

interactive(children=(Dropdown(description='Película:', layout=Layout(width='30%'), options=('King Kong', 'Fly…

In [29]:

import nbformat

# Path to your notebook
input_notebook = 'c_modelos.ipynb'
output_notebook = 'c_modelos2.ipynb'

# Load the notebook
with open(input_notebook, 'r') as f:
    notebook = nbformat.read(f, as_version=4)

# Check if the notebook has 'metadata.widgets' and remove it
if 'widgets' in notebook.metadata:
    del notebook.metadata['widgets']  # Removes widgets metadata completely

# Alternatively, if you want to add a 'state' key inside 'widgets', do this:
# if 'widgets' in notebook.metadata:
#     notebook.metadata['widgets']['state'] = {}

# Save the modified notebook
with open(output_notebook, 'w') as f:
    nbformat.write(notebook, f)

print(f"Fixed notebook saved as {output_notebook}")


Fixed notebook saved as c_modelos2.ipynb


NOTA: Si se corre en VSCode la salida es doble, si se corre en un jupyternotebooks no hay problema. Lo anterior se debe a un problema de compatibilidad entre widgets y VSCode.