# **Taller 1**
### **Integrantes:**
* Diego Felipe Carvajal Lombo (201911910)
* Brenda Catalina Barahona Pinilla (201812721)
* Sergio Julian Zona Moreno (201914936)

In [1]:
# Posible instalación necesaria
!conda install -c conda-forge scikit-surprise

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... done

# All requested packages already installed.



# **Carga y muestreo de los datos**

In [1]:
# Importación de librerias
seed = 161
import pandas as pd
import numpy as np
import hashlib

# Se importa la librería de tiempo para medir cuánto se demora en encontrar los hiperparámetros con cada modelo.
import time
import math

# Librerias CUDA
# import cudf
# cudf.set_option("spill", True)

# Database
import sqlite3

# Gráficos
import matplotlib.pyplot as plt

# Importamos la librería del SR
import os
from surprise import Reader
from surprise import Dataset
from surprise.model_selection import train_test_split
from surprise import KNNBasic, KNNWithZScore
from surprise import accuracy

#Para garantizar reproducibilidad en resultados
import random
seed = 2023
#random.seed(seed)
#np.random.seed(seed)

# Importar/Exportar modelos
from joblib import dump, load

In [2]:
!nvidia-smi

Thu Mar  9 00:20:50 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 528.24       Driver Version: 528.24       CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA GeForce ... WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   47C    P0    N/A /  N/A |      0MiB /  4096MiB |      1%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

# **Carga de datos**

In [3]:
# Se cargan el conjunto total de los datos. 
# Leer TSV: https://stackoverflow.com/questions/9652832/how-to-load-a-tsv-file-into-a-pandas-dataframe
# Tokenizing data error: https://stackoverflow.com/questions/18039057/python-pandas-error-tokenizing-data

fields = ["userid", "timestamp", "musicbrainz-artist-id", "artist-name", "musicbrainz-track-id", "track-name"]

df_data=pd.read_csv('../data/userid-timestamp-artid-artname-traid-traname.tsv', sep='\t',
                     on_bad_lines='skip', skipinitialspace=True, names=fields)

In [4]:
# import cudf
# cudf.set_option("spill", True)
# df_data = cudf.from_pandas(df_data)

In [5]:
# Cantidad de datos y número de variables
df_data.shape

(19098853, 6)

In [6]:
# Ejemplo de muestra de los datos.
df_data.tail(5)

Unnamed: 0,userid,timestamp,musicbrainz-artist-id,artist-name,musicbrainz-track-id,track-name
19098848,user_001000,2008-01-27T22:02:35Z,9e53f84d-ef44-4c16-9677-5fd4d78cbd7d,Wilco,a490cabc-1e5c-4807-86c7-740c31a50009,Please Be Patient With Me
19098849,user_001000,2008-01-27T21:56:52Z,9e53f84d-ef44-4c16-9677-5fd4d78cbd7d,Wilco,3e92e447-9e1f-440d-bc00-6734469880c5,Shake It Off
19098850,user_001000,2008-01-27T21:52:36Z,9e53f84d-ef44-4c16-9677-5fd4d78cbd7d,Wilco,93d044e6-1bbb-46a6-ac8e-283382a89e6f,Side With The Seeds
19098851,user_001000,2008-01-27T21:49:12Z,9e53f84d-ef44-4c16-9677-5fd4d78cbd7d,Wilco,5ac4386f-6146-4389-a762-4b43f362d2c8,Sky Blue Sky
19098852,user_001000,2008-01-27T21:43:14Z,9e53f84d-ef44-4c16-9677-5fd4d78cbd7d,Wilco,3acc99bc-a349-420f-ad28-7095eb3533c9,Impossible Germany


In [7]:
# Tipos de las variables al cargar, todas son objetos.
df_data.dtypes

userid                   object
timestamp                object
musicbrainz-artist-id    object
artist-name              object
musicbrainz-track-id     object
track-name               object
dtype: object

In [8]:
# Número de valores nulos en filas.
df_plot = df_data.isnull().sum().sort_values()
df_plot

userid                         0
timestamp                      0
artist-name                    0
track-name                    12
musicbrainz-artist-id     600848
musicbrainz-track-id     2162719
dtype: int64

In [9]:
# Existen múltiples filas con valores nulos. Esto se debe a que son llaves foráneas.
#plt.barh(df_plot.index, df_plot.values)

# **Perfilamiento y entendimiento de los datos**
Obtendremos estadísticas descriptivas pertinentes y posteriormente ingresaremos el conjunto de datos a Pandas Profiling para obtener un reporte adecuado de correlación e interacción entre variables.

In [10]:
# Obtención de estadísticas descriptivas.
df_data.describe()

Unnamed: 0,userid,timestamp,musicbrainz-artist-id,artist-name,musicbrainz-track-id,track-name
count,19098853,19098853,18498005,19098853,16936134,19098841
unique,992,17454730,107295,173921,960402,1083471
top,user_000949,2009-02-26T21:29:15Z,a74b1b7f-71a5-4011-9441-d0b5e4122711,Radiohead,db16d0b3-b8ce-4aa8-a11a-e4d53cc7f8a6,Intro
freq,183103,248,115099,115099,3991,17561


In [11]:
# Obtención de estadísticas descriptivas.
df_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19098853 entries, 0 to 19098852
Data columns (total 6 columns):
 #   Column                 Dtype 
---  ------                 ----- 
 0   userid                 object
 1   timestamp              object
 2   musicbrainz-artist-id  object
 3   artist-name            object
 4   musicbrainz-track-id   object
 5   track-name             object
dtypes: object(6)
memory usage: 874.3+ MB


In [13]:
# Contamos el número de veces que una persona escuchó una canción. Y tomamos esto como matriz de utilidad.
# La segunda línea quita el multi-index.
df_user_track = df_data.groupby(['userid', 'track-name']).count().sort_values('timestamp', ascending=False)['timestamp'].to_frame()
df_user_track = df_user_track.reset_index(level=[0,1])

# Optimizamos la memoria.
# Link: https://towardsdatascience.com/memory-efficient-data-science-types-53423d48ba1d
df_user_track['timestamp'] = df_user_track['timestamp'].astype(np.uint16)
df_user_track.rename(columns={"userid":"user_id","track-name":"track_name","timestamp": "rating"}, inplace=True)
df_user_track

Unnamed: 0,user_id,track_name,rating
0,user_000008,Heartless,2119
1,user_000008,See You In My Nightmares,2069
2,user_000008,Say You Will,2065
3,user_000008,Love Lockdown,2059
4,user_000008,Welcome To Heartbreak (Feat. Kid Cudi),2059
...,...,...,...
4407905,user_000593,A Billion Tons Of Light,1
4407906,user_000152,Muskogee,1
4407907,user_000593,A Brighter Beat,1
4407908,user_000152,Mun Täytyy Mennä,1


In [19]:
# from cuml.preprocessing import MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
pd.options.mode.chained_assignment = None  # default='warn'

df_UT = df_user_track.copy()
# Devuelve las primeras 100 canciones con más reproducciones del usuario
# df_test = df_user_track.loc[(df_user_track['user_id'] == 'user_000008') | (df_user_track['user_id'] == 'user_000593')]
# usuarios = df_test['user_id'].unique()
usuarios = df_UT['user_id'].unique()
scaler = MinMaxScaler(feature_range=(1, 5))

for userId in usuarios:
    df_user = df_UT.loc[df_user_track['user_id'] == userId]
    df_UT.loc[df_UT['user_id'] == userId, 'rating'] = scaler.fit_transform(df_user[['rating']])
    
df_UT

Unnamed: 0,user_id,track_name,rating
0,user_000008,Heartless,5.000000
1,user_000008,See You In My Nightmares,4.905571
2,user_000008,Say You Will,4.898017
3,user_000008,Love Lockdown,4.886686
4,user_000008,Welcome To Heartbreak (Feat. Kid Cudi),4.886686
...,...,...,...
4407905,user_000593,A Billion Tons Of Light,1.000000
4407906,user_000152,Muskogee,1.000000
4407907,user_000593,A Brighter Beat,1.000000
4407908,user_000152,Mun Täytyy Mennä,1.000000


In [20]:
df_UT.describe()

Unnamed: 0,rating
count,4407910.0
mean,1.141077
std,0.3001056
min,1.0
25%,1.0
50%,1.023392
75%,1.148148
max,5.0


In [21]:
# Contamos el número de veces que una persona escuchó un artista. Y tomamos esto como matriz de utilidad.
# La segunda línea quita el multi-index.
df_user_artist = df_data.groupby(['userid', 'artist-name']).count().sort_values('timestamp', ascending=False)['timestamp'].to_frame()
df_user_artist = df_user_artist.reset_index(level=[0,1])

# Optimizamos la memoria.
# Link: https://towardsdatascience.com/memory-efficient-data-science-types-53423d48ba1d
df_user_artist['timestamp'] = df_user_artist['timestamp'].astype(np.uint16)
df_user_artist.rename(columns={"userid":"user_id","artist-name":"artist_name","timestamp": "rating"}, inplace=True)
df_user_artist

Unnamed: 0,user_id,artist_name,rating
0,user_000008,Kanye West,26496
1,user_000141,Chemistry,25609
2,user_000499,The Knife,18597
3,user_000889,Soilwork,15566
4,user_000084,Britney Spears,14614
...,...,...,...
897414,user_000593,Chris & Mollie,1
897415,user_000593,Celestial Aeon Project,1
897416,user_000593,Carla Bruni,1
897417,user_000082,Tymon & The Transistors,1


In [22]:
# Analizamos el consumo en memoria de los DF's
df_user_track.info()
print("------------------------------------------")
df_user_artist.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4407910 entries, 0 to 4407909
Data columns (total 3 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   user_id     object
 1   track_name  object
 2   rating      uint16
dtypes: object(2), uint16(1)
memory usage: 75.7+ MB
------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 897419 entries, 0 to 897418
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   user_id      897419 non-null  object
 1   artist_name  897419 non-null  object
 2   rating       897419 non-null  uint16
dtypes: object(2), uint16(1)
memory usage: 15.4+ MB


In [23]:
df_user_artist

Unnamed: 0,user_id,artist_name,rating
0,user_000008,Kanye West,26496
1,user_000141,Chemistry,25609
2,user_000499,The Knife,18597
3,user_000889,Soilwork,15566
4,user_000084,Britney Spears,14614
...,...,...,...
897414,user_000593,Chris & Mollie,1
897415,user_000593,Celestial Aeon Project,1
897416,user_000593,Carla Bruni,1
897417,user_000082,Tymon & The Transistors,1


In [20]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import FunctionTransformer
from sklearn.compose import ColumnTransformer

In [None]:
# from sklearn.preprocessing import MinMaxScaler
# pd.options.mode.chained_assignment = None  # default='warn'

# def ratings(df_user_track):
#     # Devuelve las primeras 100 canciones con más reproducciones del usuario
#     # df_test = df_user_track.loc[(df_user_track['user_id'] == 'user_000008') | (df_user_track['user_id'] == 'user_000593')]
#     # usuarios = df_test['user_id'].unique()
#     usuarios = df_user_track['user_id'].unique()
#     scaler = MinMaxScaler(feature_range=(1, 5))
    
#     for userId in usuarios:
#         df_user = df_user_track.loc[df_user_track['user_id'] == userId]
#         df_user_track.loc[df_user_track['user_id'] == userId, 'rating'] = scaler.fit_transform(df_user[['rating']])
#     return df_user_track
        
# pipelines = Pipeline([
#     ('rating', FunctionTransformer(ratings)),
#         'model', model
#     ])

In [24]:
from sklearn.preprocessing import MinMaxScaler
pd.options.mode.chained_assignment = None  # default='warn'

df_UA = df_user_artist.copy()
usuarios = df_UA['user_id'].unique()
scaler = MinMaxScaler(feature_range=(1, 5))

for userId in usuarios:
    df_user = df_UA.loc[df_user_artist['user_id'] == userId]
    df_UA.loc[df_UA['user_id'] == userId, 'rating'] = scaler.fit_transform(df_user[['rating']])
    
df_UA

Unnamed: 0,user_id,artist_name,rating
0,user_000008,Kanye West,5.0
1,user_000141,Chemistry,5.0
2,user_000499,The Knife,5.0
3,user_000889,Soilwork,5.0
4,user_000084,Britney Spears,5.0
...,...,...,...
897414,user_000593,Chris & Mollie,1.0
897415,user_000593,Celestial Aeon Project,1.0
897416,user_000593,Carla Bruni,1.0
897417,user_000082,Tymon & The Transistors,1.0


In [24]:
user593 = df_user_artist.loc[df_user_artist['user_id'] == 'user_000593']
user593

Unnamed: 0,user_id,artist_name,rating
75,user_000593,Patrick Wolf,5.000000
314,user_000593,Pj Harvey,3.144476
371,user_000593,Radiohead,2.972616
498,user_000593,Jeff Buckley,2.711048
717,user_000593,Urma,2.387158
...,...,...,...
897412,user_000593,Clayhill,1.000000
897413,user_000593,Christian Kjellvander,1.000000
897414,user_000593,Chris & Mollie,1.000000
897415,user_000593,Celestial Aeon Project,1.000000


In [25]:
# Exportamos los DF's
df_user_track.index.name='id'
df_user_track.to_csv("../data/processed/user_track.csv")
df_user_artist.index.name='id'
df_user_artist.to_csv("../data/processed/user_artist.csv")

df_UT.index.name='id'
df_UT.to_csv("../data/processed/user_track_rate.csv")
df_UA.index.name='id'
df_UA.to_csv("../data/processed/user_artist_rate.csv")

In [26]:
# Este código genera la matriz de 1's y 0s. Realiza un pivote y cuenta las coincidencias.
#df_user_track = df_user_track.pivot(index='userid', columns='artist-name', values='timestamp')

In [28]:
# Se cargan el conjunto total de los datos. 
# Leer TSV: https://stackoverflow.com/questions/9652832/how-to-load-a-tsv-file-into-a-pandas-dataframe
# Tokenizing data error: https://stackoverflow.com/questions/18039057/python-pandas-error-tokenizing-data

df_users=pd.read_csv('../data/userid-profile.tsv', sep='\t')
df_users['registered'] = pd.to_datetime(df_users['registered']).apply(str)
df_users.rename(columns={"#id":"user_id"}, inplace=True)
df_users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 992 entries, 0 to 991
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   user_id     992 non-null    object 
 1   gender      884 non-null    object 
 2   age         286 non-null    float64
 3   country     907 non-null    object 
 4   registered  992 non-null    object 
dtypes: float64(1), object(4)
memory usage: 38.9+ KB


In [29]:
# Creamos la columna que tendrá el Password. Para facilitar nuestra simulación, esta columna será: hash256('user_id'+'123.')
def hash(x):
    h = hashlib.new('sha256')
    h.update(x.encode())
    return h.hexdigest()

df_users['password_hash'] = df_users['user_id'].apply(lambda x: hash(str(x)+'123.'))
df_users

Unnamed: 0,user_id,gender,age,country,registered,password_hash
0,user_000001,m,,Japan,2006-08-13 00:00:00,51e94ea69d81c394617371560c1aa022f5ecec92fbec6f...
1,user_000002,f,,Peru,2006-02-24 00:00:00,ba40ebe35b562b6687252e5d1ab46f0501d32ee3ac2dd0...
2,user_000003,m,22.0,United States,2005-10-30 00:00:00,05f4cdc5ac31f4b948045012dce4991d13790bb6087d40...
3,user_000004,f,,,2006-04-26 00:00:00,ff8cb1bbbd20a1c3cb1adce1d60dd64089ba963bc3e722...
4,user_000005,m,,Bulgaria,2006-06-29 00:00:00,f252ade4b897736f03a935891bb7621c53985df5d3315f...
...,...,...,...,...,...,...
987,user_000996,f,,United States,2006-07-17 00:00:00,948d27bea57b9c79890ae7ae5a2b59802f86a97199f909...
988,user_000997,m,,United States,2007-01-05 00:00:00,69f789605cc44a3d37192449ed68b39187bc48c91c05db...
989,user_000998,m,,United Kingdom,2005-09-28 00:00:00,721efa604cf85d874342335214bf2270b4c436b3be4793...
990,user_000999,f,,Poland,2007-07-24 00:00:00,f2452fe018c883c56d8aace2939d30b5bdae3a6c0cdb1a...


In [30]:
df_users.to_csv("../data/processed/users.csv")

In [30]:
# Se genera un reporte de analítica. Demora menos de 1 minuto aproximadamente.
#profile = ProfileReport(df_user_artist.to_pandas(), title="Pandas Profiling Report", minimal=True)
#profile.to_file("reporte.html")

# **Creación de la base de datos SQLite3**
Creamos una base de datos SQLite3, con base en los DF's generados.

In [31]:
# En caso de que no se pueda utilizar CUDF.
#df_user_track = df_user_track.to_pandas()
#df_user_artist = df_user_artist.to_pandas()

In [31]:
# Connect to the SQLite3 database
conn = sqlite3.connect('../backend/data/data.db')

# Create a cursor object
cur = conn.cursor()

# Create a new table in the database
cur.execute('CREATE TABLE IF NOT EXISTS user_track (id INTEGER PRIMARY KEY, user_id TEXT, track_name TEXT, rating INTEGER)')

for index, row in df_user_track.iterrows():
    cur.execute('INSERT INTO user_track (id, user_id, track_name, rating) VALUES (?, ?, ?, ?)', 
                (index, row['user_id'], row['track_name'], row['rating']))

# Commit the changes and close the database connection
conn.commit()
cur.close()
conn.close()

In [32]:
# Connect to the SQLite3 database
conn = sqlite3.connect('../backend/data/data.db')

# Create a cursor object
cur = conn.cursor()

# Create a new table in the database
cur.execute('CREATE TABLE IF NOT EXISTS user_artist (id INTEGER PRIMARY KEY, user_id TEXT, artist_name TEXT, rating INTEGER)')

for index, row in df_user_artist.iterrows():
    cur.execute('INSERT INTO user_artist (id, user_id, artist_name, rating) VALUES (?, ?, ?, ?)', 
                (index, row['user_id'], row['artist_name'], row['rating']))

# Commit the changes and close the database connection
conn.commit()
cur.close()
conn.close()

In [33]:
# Connect to the SQLite3 database
conn = sqlite3.connect('../backend/data/data.db')

# Create a cursor object
cur = conn.cursor()

# Create a new table in the database
cur.execute('CREATE TABLE IF NOT EXISTS user (user_id PRIMARY KEY, gender TEXT, age INTEGER, country TEXT, registered TIMESTAMP, password_hash TEXT)')

for index, row in df_users.iterrows():
    cur.execute('INSERT INTO user (user_id, gender, age, country, registered, password_hash) VALUES (?, ?, ?, ?, ?, ?)', 
                (row['user_id'] , row['gender'], row['age'], row['country'], row['registered'], row['password_hash']))

# Commit the changes and close the database connection
conn.commit()
cur.close()
conn.close()

In [34]:
# Connect to the SQLite3 database
conn = sqlite3.connect('../backend/data/data.db')

# Create a cursor object
cur = conn.cursor()

# Create a new table in the database
cur.execute('CREATE TABLE IF NOT EXISTS user_track_rate (id INTEGER PRIMARY KEY, user_id TEXT, track_name TEXT, rating INTEGER)')

for index, row in df_UT.iterrows():
    cur.execute('INSERT INTO user_track_rate (id, user_id, track_name, rating) VALUES (?, ?, ?, ?)', 
                (index, row['user_id'], row['track_name'], row['rating']))

# Commit the changes and close the database connection
conn.commit()
cur.close()
conn.close()

In [35]:
# Connect to the SQLite3 database
conn = sqlite3.connect('../backend/data/data.db')

# Create a cursor object
cur = conn.cursor()

# Create a new table in the database
cur.execute('CREATE TABLE IF NOT EXISTS user_artist_rate (id INTEGER PRIMARY KEY, user_id TEXT, artist_name TEXT, rating INTEGER)')

for index, row in df_UA.iterrows():
    cur.execute('INSERT INTO user_artist_rate (id, user_id, artist_name, rating) VALUES (?, ?, ?, ?)', 
                (index, row['user_id'], row['artist_name'], row['rating']))

# Commit the changes and close the database connection
conn.commit()
cur.close()
conn.close()

# **Creación de modelo de filtrado colaborativo basado en similitud con usuarios o items cercanos**

Surprise cuenta con la implementación de los modelos colaborativos dentro de la clase [KNNBasic](https://surprise.readthedocs.io/en/stable/knn_inspired.html) 

El modelo recibe los siguientes parámetros: 


*   k: El máximo número de vecinos con el que se hará la extrapolación
*   min_k : El mínimo número de vecinos con el que se extrapolará un rating
*   sim_options : Opciones de similitud pasadas como un diccionario de python, aqui se le configura al modelo el tipo de similitud a usar para encontrar los vecinos y si la extrapolación debe hacerse usando usuarios o items similares. Revise el formato y similitudes disponibles en surprise en [este link](https://surprise.readthedocs.io/en/stable/prediction_algorithms.html#similarity-measure-configuration)





In [75]:
# Leer los CSV para no tener que generarlos de nuevo del DataSet original
#df_UA = pd.read_csv('../data/processed/user_artist_rate.csv', sep=',',  index_col='id')
#df_UA

Unnamed: 0_level_0,user_id,artist_name,rating
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,user_000008,Kanye West,5.0
1,user_000141,Chemistry,5.0
2,user_000499,The Knife,5.0
3,user_000889,Soilwork,5.0
4,user_000084,Britney Spears,5.0
...,...,...,...
897414,user_000593,Chris & Mollie,1.0
897415,user_000593,Celestial Aeon Project,1.0
897416,user_000593,Carla Bruni,1.0
897417,user_000082,Tymon & The Transistors,1.0


In [76]:
# Leer los CSV para no tener que generarlos de nuevo del DataSet original
#df_UT = pd.read_csv('../data/processed/user_track_rate.csv', sep=',', index_col='id')
#df_UT

Unnamed: 0_level_0,user_id,track_name,rating
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,user_000008,Heartless,5.000000
1,user_000008,See You In My Nightmares,4.905571
2,user_000008,Say You Will,4.898017
3,user_000008,Love Lockdown,4.886686
4,user_000008,Welcome To Heartbreak (Feat. Kid Cudi),4.886686
...,...,...,...
4407905,user_000593,A Billion Tons Of Light,1.000000
4407906,user_000152,Muskogee,1.000000
4407907,user_000593,A Brighter Beat,1.000000
4407908,user_000152,Mun Täytyy Mennä,1.000000


In [36]:
# Método para obtener N registros de cada usuario de un Dataframe
def obtener_N_elementos(df, N):
    df_data = pd.DataFrame()
    usuarios = df['user_id'].unique()
    
    for userId in usuarios:
        df_user = df.loc[df['user_id'] == userId][:N]
        df_data = pd.concat([df_data, df_user])
    
    return df_data

In [37]:
df_ut_sample = obtener_N_elementos(df_UT, 20)
df_ut_sample

Unnamed: 0_level_0,user_id,track_name,rating
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,user_000008,Heartless,5.000000
1,user_000008,See You In My Nightmares,4.905571
2,user_000008,Say You Will,4.898017
3,user_000008,Love Lockdown,4.886686
4,user_000008,Welcome To Heartbreak (Feat. Kid Cudi),4.886686
...,...,...,...
4222982,user_000538,Poetry Boy,1.000000
4222983,user_000538,Procession,1.000000
4222984,user_000538,Rabenwald,1.000000
4222985,user_000538,Track 9,1.000000


In [38]:
df_ua_sample = obtener_N_elementos(df_UA, 20)
df_ua_sample

Unnamed: 0_level_0,user_id,artist_name,rating
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,user_000008,Kanye West,5.000000
40,user_000008,T.I.,1.802114
473,user_000008,The Fray,1.280053
4612,user_000008,Muse,1.075637
9114,user_000008,Linkin Park,1.047405
...,...,...,...
810683,user_000677,Panic At The Disco,1.000000
810684,user_000677,P!Nk,1.000000
810685,user_000677,Outkast,1.000000
810688,user_000677,Nas,1.000000


In [77]:
reader = Reader( rating_scale = ( 1, 5 ) )
#Se crea el dataset a partir del dataframe
surprise_dataset = Dataset.load_from_df( df_UA[['user_id', 'artist_name', 'rating']], reader )

train_set, test_set=  train_test_split(surprise_dataset, test_size=.2)

In [71]:
sim_options = {'name': 'pearson_baseline',
               'user_based': False # calcule similitud item-item
               }

algo = KNNWithZScore(k=50, min_k=2, sim_options=sim_options)

In [46]:
# from sklearn.preprocessing import MinMaxScaler
# pd.options.mode.chained_assignment = None  # default='warn'

# def ratings(df_user_track):
#     # Devuelve las primeras 100 canciones con más reproducciones del usuario
#     # df_test = df_user_track.loc[(df_user_track['user_id'] == 'user_000008') | (df_user_track['user_id'] == 'user_000593')]
#     # usuarios = df_test['user_id'].unique()
#     usuarios = df_user_track['user_id'].unique()
#     scaler = MinMaxScaler(feature_range=(1, 5))
    
#     for userId in usuarios:
#         df_user = df_user_track.loc[df_user_track['user_id'] == userId]
#         df_user_track.loc[df_user_track['user_id'] == userId, 'rating'] = scaler.fit_transform(df_user[['rating']])
#     return df_user_track


# # se crea un modelo knnbasic item-item con similitud coseno 
# # Define a transformer to convert Surprise's trainset to a Pandas DataFrame
# class TrainsetToDataFrame(BaseEstimator, TransformerMixin):
#     def fit(self, X, y=None):
#         return self
    
#     def transform(self, X, y=None):
#         df = pd.DataFrame(X.all_ratings())
#         return df

# sim_options = {'name': 'pearson_baseline',
#                'user_based': False # calcule similitud item-item
#                }
# algo = KNNWithZScore(k=50, min_k=2, sim_options=sim_options)

# pipeline = Pipeline([
#     ('trainset_to_df', TrainsetToDataFrame()),
#     ('rating', FunctionTransformer(ratings)),
#     ('model', algo),
#     ])

# pipeline.fit(train_set)
# #Se le pasa la matriz de utilidad al algoritmo 
# #algo.fit(trainset=train_set)

In [None]:
# from sklearn.preprocessing import MinMaxScaler
# pd.options.mode.chained_assignment = None  # default='warn'

# def ratings(df_user_track):
#     # Devuelve las primeras 100 canciones con más reproducciones del usuario
#     # df_test = df_user_track.loc[(df_user_track['user_id'] == 'user_000008') | (df_user_track['user_id'] == 'user_000593')]
#     # usuarios = df_test['user_id'].unique()
#     usuarios = df_user_track['user_id'].unique()
#     scaler = MinMaxScaler(feature_range=(1, 5))
    
#     for userId in usuarios:
#         df_user = df_user_track.loc[df_user_track['user_id'] == userId]
#         df_user_track.loc[df_user_track['user_id'] == userId, 'rating'] = scaler.fit_transform(df_user[['rating']])
#     return df_user_track
        
# pipelines = Pipeline([
#     ('rating', FunctionTransformer(ratings)),
#         'model', algo
#     ])

In [73]:
algo.fit(train_set)
algo.predict('user_000981', 'Bijelo Dugme')

Estimating biases using als...
Computing the pearson_baseline similarity matrix...


MemoryError: Unable to allocate 85.4 GiB for an array with shape (151448, 151448) and data type int32

In [210]:
test_predictions = algo.test(test_set)

In [212]:
accuracy.rmse( test_predictions, verbose = True )

RMSE: 1.1119


1.11185717865118

In [213]:
accuracy.mae( test_predictions, verbose = True )

MAE:  0.8626


0.8626370697887236

In [None]:
#Se le pasa la matriz de utilidad al algoritmo 
algo.fit(trainset=train_set)

In [None]:
#Verifique la propiedad est de la predicción
algo.predict(154,302)

In [None]:
items[items['movie id']==302]

Como podemos ver, la predicción (4.24) del modelo no esta alejada de lo que realmente opinó el usuario  (4.0)

Para medir la calidad de la predicción para todos los usuarios e items del dataset de prueba, vamos a comparar lo que dice el modelo de predicción vs lo que dice el conjunto de prueba, para esto vamos a usar la métrica [RMSE](https://surprise.readthedocs.io/en/stable/accuracy.html#surprise.accuracy.rmse)

Inicialmente calculamos la predicción para todos los elementos del conjunto de test

In [None]:
test_predictions=algo.test(test_set)

In [None]:
#5 primeras predicciones
test_predictions[0:5]

Ahora se mide el RMSE de las predicciones vs el valor del dataset

In [None]:
# En promedio, el sistema encuentra ratings que estan una estrella por encima o por debajo del rating del usuario
accuracy.rmse( test_predictions, verbose = True )

##Utilice las siguientes celdas para encontrar la respuesta a las siguientes preguntas

¿Cuál es el RMSE de un modelo usuario-usuario con los mismos parámetros de similitud?

¿Cuál es el efecto de cambiar el número de vecinos en la calidad del modelo usuario-usuario ?

In [None]:
# se crea un modelo knnbasic user-user con similitud coseno 
sim_options = {'name': 'cosine',
               'user_based': True  # calcule similitud user-user
               }
algo = KNNBasic(k=20, min_k=2, sim_options=sim_options)

In [None]:
#Se le pasa la matriz de utilidad al algoritmo 
algo.fit(trainset=train_set)

In [None]:
test_predictions=algo.test(test_set)

In [None]:
#5 primeras predicciones
test_predictions[0:5]

In [None]:
# En promedio, el sistema encuentra ratings que estan una estrella por encima o por debajo del rating del usuario
accuracy.rmse( test_predictions, verbose = True )

In [None]:
# se crea un modelo knnbasic user-user con similitud coseno 
sim_options = {'name': 'cosine',
               'user_based': True  # calcule similitud user-user
               }
algo = KNNBasic(k=10, min_k=2, sim_options=sim_options)
#Se le pasa la matriz de utilidad al algoritmo 
algo.fit(trainset=train_set)
test_predictions=algo.test(test_set)
#5 primeras predicciones
test_predictions[0:5]
# En promedio, el sistema encuentra ratings que estan una estrella por encima o por debajo del rating del usuario
accuracy.rmse( test_predictions, verbose = True )

In [None]:
# se crea un modelo knnbasic user-user con similitud coseno 
sim_options = {'name': 'cosine',
               'user_based': True  # calcule similitud user-user
               }
algo = KNNBasic(k=5, min_k=2, sim_options=sim_options)
#Se le pasa la matriz de utilidad al algoritmo 
algo.fit(trainset=train_set)
test_predictions=algo.test(test_set)
#5 primeras predicciones
test_predictions[0:5]
# En promedio, el sistema encuentra ratings que estan una estrella por encima o por debajo del rating del usuario
accuracy.rmse( test_predictions, verbose = True )

In [None]:
# se crea un modelo knnbasic user-user con similitud coseno 
sim_options = {'name': 'cosine',
               'user_based': True  # calcule similitud user-user
               }
algo = KNNBasic(k=35, min_k=2, sim_options=sim_options)
#Se le pasa la matriz de utilidad al algoritmo 
algo.fit(trainset=train_set)
test_predictions=algo.test(test_set)
#5 primeras predicciones
test_predictions[0:5]
# En promedio, el sistema encuentra ratings que estan una estrella por encima o por debajo del rating del usuario
accuracy.rmse( test_predictions, verbose = True )

##Generando listas de predicciones para los usuarios

Retomemos nuestro modelo inicial y ajustémolo con todos los ratings disponibles

Para generar una lista de recomendación se debe crear un dataset de "test" con las entradas faltantes de la matriz utilidad para que el modelo cree las predicciones (terminar de llenar la matriz de utilidad)



In [None]:
surprise_dataset.build_full_trainset()

In [None]:
#Se crea el dataset para modelo 
rating_data=surprise_dataset.build_full_trainset()
# Se crea dataset de "prueba" con las entradas faltantes para generar las predicciones
test=rating_data.build_anti_testset()

# se crea el mismo modelo que el del ejemplo
sim_options = {'name': 'cosine',
               'user_based': False  # calcule similitud item-item
               }
algo = KNNBasic(k=20, min_k=2, sim_options=sim_options)
algo.fit(rating_data)
predictions=algo.test(test)

In [None]:
#10 primeras predicciones
predictions[0:10]

In [None]:
#Predicciones para usuario 196
user_predictions=list(filter(lambda x: x[0]==196,predictions))

In [None]:
#Ordenamos de mayor a menor estimación de relevancia
user_predictions.sort(key=lambda x : x.est, reverse=True)

In [None]:
#tomamos las 10 primeras predicciones
user_predictions=user_predictions[0:10]

In [None]:
user_predictions

In [None]:
#Se convierte a dataframe
labels = ['movie id', 'estimation']
df_predictions = pd.DataFrame.from_records(list(map(lambda x: (x.iid, x.est) , user_predictions)), columns=labels)

In [None]:
#Lo unimos con el dataframe de películas
df_predictions.merge(items[['movie id','movie title','IMDb URL ']], how='left', on='movie id')

# **Modelo de recomendación**
Generamos dos modelos de recomendación, uno item-item y otro user-user

In [None]:
# EXPORTAMOS EL MODELO: 
# Usamos la libreria joblib.
filename = 'logistic_model.joblib'
# Se guarda
dump(final_model, filename) 