# <font color=4CBB17>**1. Sistemas basados en popularidad**</font>

In [None]:
# CONECTAR CON DRIVE
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os
import sys
path ='/content/drive/MyDrive/cod/LEA3_Marketing'
os.chdir(path) ## volver la carpeta de repositorio directorio de trabajo
sys.path.append(path) ## agregarla al path, para leer archivos propios como paquetes

In [None]:
#!pip install ipywidgets
import numpy as np
import pandas as pd
import sqlite3 as sql
from sklearn.preprocessing import MinMaxScaler
from ipywidgets import interact ## para análisis interactivo
from sklearn import neighbors ### basado en contenido un solo producto consumido
import joblib

# CREAR CONEXIÓN CON LA BASE DE DATOS db_movies
con = sql.connect('data/db_movies')

# CREAR EL CURSOR
cur = con.cursor() ## se crea el cursor, que es el otro tipo de conexión para ejecutar las consultas

In [None]:
# VERIFICAR LOS NOMBRES DE TODAS LAS TABLAS QUE HAY EN LA BASE DE DATOS
cur.execute(""" select name from sqlite_master where type= 'table'  """)
cur.fetchall()

[('ratings',),
 ('movies',),
 ('usuarios_selectos',),
 ('pelis_selectas',),
 ('ratings_final',),
 ('movies_final',),
 ('full_ratings',)]

In [None]:
full_ratings = pd.read_sql('SELECT * FROM full_ratings', con)
full_ratings.head(5)

Unnamed: 0,movie_id,movie_title,user_id,movie_rating,movie_genres
0,1,Toy Story (1995),1,4.0,Adventure|Animation|Children|Comedy|Fantasy
1,3,Grumpier Old Men (1995),1,4.0,Comedy|Romance
2,6,Heat (1995),1,4.0,Action|Crime|Thriller
3,47,Seven (a.k.a. Se7en) (1995),1,5.0,Mystery|Thriller
4,50,"Usual Suspects, The (1995)",1,5.0,Crime|Mystery|Thriller


In [None]:
full_ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36767 entries, 0 to 36766
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   movie_id      36767 non-null  int64  
 1   movie_title   36767 non-null  object 
 2   user_id       36767 non-null  int64  
 3   movie_rating  36767 non-null  float64
 4   movie_genres  36767 non-null  object 
dtypes: float64(1), int64(2), object(2)
memory usage: 1.4+ MB


In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer
from mlxtend.preprocessing import TransactionEncoder

# Función 1: separar géneros y convertir a binario con TransactionEncoder
def split_and_encode_genres(df):
    genres = df['movie_genres'].str.split('|')
    te = TransactionEncoder()
    genres_bin = te.fit_transform(genres)
    genres_df = pd.DataFrame(genres_bin, columns=te.columns_)

    # Eliminar "(no genres listed)" si existe
    if '(no genres listed)' in genres_df.columns:
        valid_rows = ~genres_df['(no genres listed)'] # La virgulilla me convierte lo TRUE en FALSE y viceversa
        df = df.loc[valid_rows].reset_index(drop=True) # Filtro por las columnas que si tienen género
        genres_df = genres_df.loc[valid_rows].drop(columns='(no genres listed)').reset_index(drop=True)

    # Eliminar columna original 'genres' y unir los géneros codificados
    df = df.drop(columns='movie_genres').reset_index(drop=True) # Elimina la columna original 'genres' del df
    return pd.concat([df, genres_df], axis=1)

# Función 2: extraer título y año
def extract_title_and_year(df):
    df['movie_title'] = df['movie_title'].str.strip()  # Elimina espacios al inicio y al final
    year = df['movie_title'].str.extract(r'\((\d{4})\)$')  # Extrae el año de 4 dígitos entre paréntesis al final
    year.columns = ['movie_year']
    title = df['movie_title'].str.replace(r'\s*\(\d{4}\)$', '', regex=True) # Elimina el año y espacio antes del título
    title.name = 'movie_title'
    df = df.drop(columns='movie_title') # Elimina la columna original que contenía título + año
    df = pd.concat([df.reset_index(drop=True), title.reset_index(drop=True), year.reset_index(drop=True)], axis=1)
    return df

# Función 3: eliminar registros con year == NaN, si existen
def remove_nan_years(df):
#Se usa notna para filtrar el df dejando solo las filas donde 'movie_year' no es NaN, es decir, donde si hay año
    return df[df['movie_year'].notna()].reset_index(drop=True)

# Construcción del pipeline
pipeline = Pipeline(steps=[
    ('genres_transform', FunctionTransformer(split_and_encode_genres, validate=False)),
    ('extract_title_year', FunctionTransformer(extract_title_and_year, validate=False)),
    ('remove_nan_years', FunctionTransformer(remove_nan_years, validate=False))
])

In [None]:
# Aplicar el pipeline
db_full_final = pipeline.fit_transform(full_ratings)

In [None]:
db_full_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36767 entries, 0 to 36766
Data columns (total 24 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   movie_id      36767 non-null  int64  
 1   user_id       36767 non-null  int64  
 2   movie_rating  36767 non-null  float64
 3   Action        36767 non-null  bool   
 4   Adventure     36767 non-null  bool   
 5   Animation     36767 non-null  bool   
 6   Children      36767 non-null  bool   
 7   Comedy        36767 non-null  bool   
 8   Crime         36767 non-null  bool   
 9   Documentary   36767 non-null  bool   
 10  Drama         36767 non-null  bool   
 11  Fantasy       36767 non-null  bool   
 12  Film-Noir     36767 non-null  bool   
 13  Horror        36767 non-null  bool   
 14  IMAX          36767 non-null  bool   
 15  Musical       36767 non-null  bool   
 16  Mystery       36767 non-null  bool   
 17  Romance       36767 non-null  bool   
 18  Sci-Fi        36767 non-nu

In [None]:
db_full_final['movie_year']=db_full_final.movie_year.astype('int')

In [None]:
# la tabla "full_ratings" ya existe en la base de datos SQL, se eliminará
# y se creará una nueva tabla con los datos actuales de db_movies_final
db_full_final.to_sql("full_ratings", con, index=False, if_exists='replace')


36767

In [None]:
#pd.set_option('display.max_columns', None)  # Muestra todas las columnas
#pd.set_option('display.width', 1000)  # Aumenta el ancho de la línea

## <font color=FA9214>**TOP 10 Peliculas con mejores calificaciones y más calificadas (weighted rating)**</font>

Se uso una fórmula, que es una adaptación del ranking ponderado de IMDb (o Bayesian average). Se usa para evitar que películas con muy pocos votos, pero notas muy altas, aparezcan en los primeros lugares.

https://stats.stackexchange.com/questions/189658/what-are-good-resources-on-bayesian-rating

Weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C , where:

* R = average for the movie (mean) = (Rating)
* v = number of votes for the movie = (votes)
* m = minimum votes required to be listed in the Top
* C = the mean vote across the whole report

>Se usa pesos para dar a los más calificados mejor puntuacion asi como a los mejor calificados mas puntuacion, entonces una pelicula con muchas calificaciones y bien calificadas tendra gran oportunidad de hacer parte de este top 10 de popularidad

In [None]:
# Calcular el promedio de calificación (C) y el percentil 75 de cantidad de calificaciones (m)

# Conteo de rantings que agrupa las calificaciones por movieId en donde cada fila
# representa una película y muestra cuántas veces ha sido calificada
rating_counts_df = pd.read_sql("""
    SELECT COUNT(*) AS rating_count
    FROM full_ratings
    GROUP BY movie_id
""", con)

# Calificacion promedio / rating promedio
avg_rating_df = pd.read_sql("""
    SELECT AVG(movie_rating) AS C
    FROM full_ratings
""", con)

# Extraccion de calificación promedio
C = avg_rating_df['C'].iloc[0]

# calculo del percentil 75.
m = rating_counts_df['rating_count'].quantile(0.75)

print(f"Rating promedio (C): {C}")
print(f"Percentil 75 del conteo de calificaciones (m): {m}")


Rating promedio (C): 3.731783936682351
Percentil 75 del conteo de calificaciones (m): 20.0


A continuación, se hará la busqueda en SQL y se va a crear la columna que será la calificación ponderada, ya que se considera es mejor que la simple (promedio), porque reduce el sesgo de películas con pocos votos, dando más relevancia a aquellas tienen más calificaciones. En este caso,

In [None]:
## se prepara el query donde se calcula la calificación ponderada dando uso a
# los productos con mejor calificación ponderada, es decir, los más calificados y con mayor calificación
query = f"""
    SELECT
        movie_year,
        movie_title,
        COUNT(*) AS rating_count,
        ((COUNT(*) / (COUNT(*) + {m})) * AVG(movie_rating) + ({m} / (COUNT(*) + {m})) * {C}) AS weighted_rating
    FROM full_ratings
    WHERE movie_rating > 0
    GROUP BY movie_title
    HAVING rating_count > 30
    ORDER BY weighted_rating DESC
    LIMIT 10
"""
df = pd.read_sql(query, con)
df

Unnamed: 0,movie_year,movie_title,rating_count,weighted_rating
0,1994,"Shawshank Redemption, The",224,4.402195
1,1977,Star Wars: Episode IV - A New Hope,154,4.227791
2,1998,American History X,80,4.206357
3,1995,"Usual Suspects, The",127,4.194801
4,1980,Star Wars: Episode V - The Empire Strikes Back,127,4.194801
5,1983,Star Wars: Episode VI - Return of the Jedi,115,4.189894
6,1993,Schindler's List,148,4.182355
7,1994,Forrest Gump,223,4.175455
8,2009,Inglourious Basterds,53,4.173091
9,1987,"Princess Bride, The",81,4.16966


## <font color=FA9214>**Películas mejor calificadas en los últimos 10 años registrados**</font>

In [None]:
pd.read_sql("""
    -- Crear una tabla temporal con películas rankeadas por año y calificación, debe ser con WITH porque
    -- esto es SQLite entonces no se puede usar SELECT DISTINCT

    WITH ranked_movies AS (
    SELECT
        movie_title,
        movie_year,
        movie_id,
        movie_rating,
        ROW_NUMBER() OVER (PARTITION BY movie_year ORDER BY movie_rating DESC) AS rank
        -- Asigna un número de fila ordenado por calificación descendente dentro de cada año
    FROM full_ratings
)
SELECT
    movie_title,
    movie_year,
    movie_rating AS best_rating
FROM ranked_movies
WHERE rank = 1  -- Solo tomar la mejor calificada por año
ORDER BY movie_year DESC
LIMIT 10; --las 10 películas más recientes
""", con)

Unnamed: 0,movie_title,movie_year,best_rating
0,Avengers: Infinity War - Part I,2018,5.0
1,Thor: Ragnarok,2017,5.0
2,10 Cloverfield Lane,2016,5.0
3,Spectre,2015,5.0
4,Interstellar,2014,5.0
5,Prisoners,2013,5.0
6,"Dark Knight Rises, The",2012,5.0
7,Intouchables,2011,5.0
8,Despicable Me,2010,5.0
9,Moon,2009,5.0


# <font color=4CBB17>**2. Sistema de recomendación basado en contenido KNN un solo producto visto**</font>

In [None]:
movies_final=pd.read_sql_query('SELECT * FROM movies_final', con)
movies_final.head()

Unnamed: 0,movie_id,movie_title,movie_genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,5,Father of the Bride Part II (1995),Comedy
4,6,Heat (1995),Action|Crime|Thriller


In [None]:
# Aplicar el pipeline
db_movies_final = pipeline.fit_transform(movies_final)

In [None]:
db_movies_final.head(5)

Unnamed: 0,movie_id,Action,Adventure,Animation,Children,Comedy,Crime,Documentary,Drama,Fantasy,...,IMAX,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western,movie_title,movie_year
0,1,False,True,True,True,True,False,False,False,True,...,False,False,False,False,False,False,False,False,Toy Story,1995
1,2,False,True,False,True,False,False,False,False,True,...,False,False,False,False,False,False,False,False,Jumanji,1995
2,3,False,False,False,False,True,False,False,False,False,...,False,False,False,True,False,False,False,False,Grumpier Old Men,1995
3,5,False,False,False,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,Father of the Bride Part II,1995
4,6,True,False,False,False,False,True,False,False,False,...,False,False,False,False,False,True,False,False,Heat,1995


In [None]:
db_movies_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2121 entries, 0 to 2120
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   movie_id     2121 non-null   int64 
 1   Action       2121 non-null   bool  
 2   Adventure    2121 non-null   bool  
 3   Animation    2121 non-null   bool  
 4   Children     2121 non-null   bool  
 5   Comedy       2121 non-null   bool  
 6   Crime        2121 non-null   bool  
 7   Documentary  2121 non-null   bool  
 8   Drama        2121 non-null   bool  
 9   Fantasy      2121 non-null   bool  
 10  Film-Noir    2121 non-null   bool  
 11  Horror       2121 non-null   bool  
 12  IMAX         2121 non-null   bool  
 13  Musical      2121 non-null   bool  
 14  Mystery      2121 non-null   bool  
 15  Romance      2121 non-null   bool  
 16  Sci-Fi       2121 non-null   bool  
 17  Thriller     2121 non-null   bool  
 18  War          2121 non-null   bool  
 19  Western      2121 non-null 

In [None]:
db_movies_final['movie_year']=db_movies_final.movie_year.astype('int')
db_movies_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2121 entries, 0 to 2120
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   movie_id     2121 non-null   int64 
 1   Action       2121 non-null   bool  
 2   Adventure    2121 non-null   bool  
 3   Animation    2121 non-null   bool  
 4   Children     2121 non-null   bool  
 5   Comedy       2121 non-null   bool  
 6   Crime        2121 non-null   bool  
 7   Documentary  2121 non-null   bool  
 8   Drama        2121 non-null   bool  
 9   Fantasy      2121 non-null   bool  
 10  Film-Noir    2121 non-null   bool  
 11  Horror       2121 non-null   bool  
 12  IMAX         2121 non-null   bool  
 13  Musical      2121 non-null   bool  
 14  Mystery      2121 non-null   bool  
 15  Romance      2121 non-null   bool  
 16  Sci-Fi       2121 non-null   bool  
 17  Thriller     2121 non-null   bool  
 18  War          2121 non-null   bool  
 19  Western      2121 non-null 

In [None]:
sc = MinMaxScaler()
db_movies_final[["year_sc"]] = sc.fit_transform(db_movies_final[['movie_year']])

In [None]:
db_movies_final.head(5)

Unnamed: 0,movie_id,Action,Adventure,Animation,Children,Comedy,Crime,Documentary,Drama,Fantasy,...,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western,movie_title,movie_year,year_sc
0,1,False,True,True,True,True,False,False,False,True,...,False,False,False,False,False,False,False,Toy Story,1995,0.760417
1,2,False,True,False,True,False,False,False,False,True,...,False,False,False,False,False,False,False,Jumanji,1995,0.760417
2,3,False,False,False,False,True,False,False,False,False,...,False,False,True,False,False,False,False,Grumpier Old Men,1995,0.760417
3,5,False,False,False,False,True,False,False,False,False,...,False,False,False,False,False,False,False,Father of the Bride Part II,1995,0.760417
4,6,True,False,False,False,False,True,False,False,False,...,False,False,False,False,True,False,False,Heat,1995,0.760417


In [None]:
from sklearn import neighbors
from ipywidgets import interact
import pandas as pd

# 1. Se seleccionan las columnas de numéricas
X = db_movies_final.drop(columns=['movie_id', 'movie_title', 'movie_year'])

# 2. Creamos y entrenamos el modelo con distancia del coseno
model = neighbors.NearestNeighbors(n_neighbors=20, metric='cosine')
model.fit(X)

# 3. Obtenemos los vecinos más cercanos de cada película
dist, idlist = model.kneighbors(X)

# 4. Guardamos como DataFrame para inspección opcional
distancias = pd.DataFrame(dist)
id_list = pd.DataFrame(idlist)

In [None]:
# Nombre de la película a buscar
movie_list_name = []
movie_name = 'Avengers: Age of Ultron'

# Buscar el índice de la película
movie_id = db_movies_final[db_movies_final['movie_title'] == movie_name].index

if len(movie_id) > 0:
    movie_id = movie_id[0]  # Si hay varios, usar el primero

    for newid in idlist[movie_id]:
        movie_list_name.append(db_movies_final.loc[newid].movie_title)

movie_list_name


['Avengers: Age of Ultron',
 'Ant-Man',
 'Doctor Strange',
 'Star Trek Beyond',
 'Guardians of the Galaxy',
 'X-Men: Days of Future Past',
 'Thor: Ragnarok',
 'Guardians of the Galaxy 2',
 'Black Panther',
 'Avengers: Infinity War - Part I',
 'Iron Man',
 'Fantastic Four: Rise of the Silver Surfer',
 'Serenity',
 'Star Wars: Episode III - Revenge of the Sith',
 'Fantastic Four',
 'Sky Captain and the World of Tomorrow',
 'Terminator 3: Rise of the Machines',
 'Hulk',
 'Bulletproof Monk',
 'Time Machine, The']

In [None]:
from ipywidgets import interact

def MovieRecommender(Select_Movie =list(db_movies_final['movie_title'].value_counts().index)):
    """Recomienda películas similares a la seleccionada usando KNN y distancia del coseno."""
    movie_list_name = []

    # Buscar el índice de la película dada
    movie_id = db_movies_final[db_movies_final['movie_title'] == Select_Movie].index

    movie_id = movie_id[0]  # Se toma el primer índice en caso de duplicados

    # Ids y distancias de las películas similares
    similar_ids = idlist[movie_id]
    similar_distances = dist[movie_id]
    similitudes = 1 - similar_distances  # convertir distancia a similitud

    # df con resultados
    results = pd.DataFrame({
        'Título': db_movies_final.loc[similar_ids, 'movie_title'].values,
        'Año': db_movies_final.loc[similar_ids, 'movie_year'].values,
        'Similitud': similitudes
    })

    # Eliminar la película original de la lista (si aparece entre los resultados)
    results = results[results['Título'] != Select_Movie]

    # Ordenar por menor distancia
    return results.sort_values('Similitud', ascending=False).reset_index(drop=True)


import ipywidgets as widgets

# Activar el selector interactivo
# Widget con título personalizado
_=interact(
    MovieRecommender,
    Select_Movie=widgets.Dropdown(
        options=list(db_movies_final['movie_title'].value_counts().index),
        value=list(db_movies_final['movie_title'].value_counts().index)[0],
        description='Película:',
        layout=widgets.Layout(width='30%') # Largo de la barrita de búsqueda
    )
)