<a href="https://colab.research.google.com/github/juancarloscruzd/Recommender_Systems/blob/main/Most_Popular_Item_Recommender/Book_Crossing_MPIR.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<h1 align=center><font size = 5> Most-popular-item Recommender</font></h1>

---

<center>
  <img src="https://storage.googleapis.com/kaggle-datasets-images/1661575/2726067/684ac0c4c14cb46d1047ccb620b45cac/dataset-cover.jpg?t=2021-10-21-03-18-09" width="800" height="300">
</center>


## Objetivo de este Notebook

1. Cargar y preprocesar un Dataset.
2. Realizar un sistema de recomendación basado en MPIR.
3. Comprobar el performance del sistema.

## Tabla de Contenidos

<div class="alert alert-block alert-info" style="margin-top: 20px">

<font size = 3>
    
1. <a href="#item31">Contexto</a>  
2. <a href="#item32">Descargar y preparar el Dataset</a>  
3. <a href="#item33">Pre-selección de variables</a>  
4. <a href="#item34">Tratamiento de variables categóricas</a>  
5. <a href="#item34">Tratamiento de variables numéricas</a>  
6. <a href="#item34">Entrenamiento del modelo</a>  

</font>
</div>

## 1. Contexto


El conjunto de datos "Book-Crossing" (también conocido como BX) es una colección de datos relacionados con libros y reseñas de libros. Este conjunto de datos se centra en la interacción de los usuarios con libros y sus calificaciones, y es ampliamente utilizado en aplicaciones de sistemas de recomendación.



<b>Descripción de datos</b>

---

El conjunto de datos Book-Crossing contiene información sobre:

* <b>Libros:</b> Información sobre los libros, incluyendo su título, autor y año de publicación.

* <b>Usuarios:</b> Perfiles de los usuarios que interactúan con los libros, incluyendo su ID y ubicación.

* <b>Calificaciones:</b> Calificaciones numéricas que los usuarios asignan a los libros que han leído.

El conjunto de datos puede ser utilizado para varios propósitos, como la construcción de sistemas de recomendación de libros, el análisis de patrones de lectura y preferencias de los usuarios, y la investigación en el campo de la minería de datos y la inteligencia artificial.

---



<strong>Puede consultar este [link](https://www.kaggle.com/datasets/syedjaferk/book-crossing-dataset) para leer más sobre la fuente de datos Automobile Loan Default.</strong>


## 2. Descargar y preparar Dataset

In [None]:
# Download Book-Crossing Dataset
!curl -o dataset.zip "http://www2.informatik.uni-freiburg.de/~cziegler/BX/BX-CSV-Dump.zip"
!unzip dataset.zip
!ls -la

In [None]:
# Principales librerías
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore") # Turn off warnings


In [None]:
ratings = pd.read_csv("BX-Book-Ratings.csv", sep=";", encoding="ISO-8859-1")
books   = pd.read_csv("BX-Books.csv",        sep=";", encoding="ISO-8859-1", error_bad_lines=False)
users   = pd.read_csv("BX-Users.csv",        sep=";", encoding="ISO-8859-1")

In [None]:
users.head()

In [None]:
books.head()

In [None]:
ratings.head()

In [None]:
print("  Users: {} \n  Books: {}\n  Ratings: {}".format(len(users), len(books), len(ratings)))


In [None]:
users.columns = users.columns.str.lower().str.replace('-', '_')
books.columns = books.columns.str.lower().str.replace('-', '_')
ratings.columns = ratings.columns.str.lower().str.replace('-', '_')

### 2.1. Data de usuarios

In [None]:
users.head()

In [None]:
users["age"].describe()

In [None]:
# Ejemplo de remoción de outliers
IQR = np.nanpercentile(users['age'], 75) - np.nanpercentile(users['age'], 25)
lower_threshold = np.nanpercentile(users['age'], 50) - 1.5*IQR
upper_threshold = np.nanpercentile(users['age'], 50) + 1.5*IQR

users = users[(users['age'] > lower_threshold) & (users['age'] < upper_threshold)]

In [None]:
# Establecer el estilo de Seaborn (opcional)
sns.set(style="whitegrid")

# Crear el gráfico de barras
plt.figure(figsize=(12, 5))  # Ajusta el tamaño de la figura si es necesario
ax = sns.countplot(data=users, x='age', color='lightblue')

# Personalizar el eje x
ax.set_xticklabels(ax.get_xticklabels(), rotation=90, ha='right')

# Ajustar el tamaño de fuente de las etiquetas del eje x
ax.tick_params(axis='x', labelsize=8)

# Agregar etiquetas y título
plt.xlabel('Edad', fontsize=12)
plt.ylabel('Cantidad', fontsize=12)
plt.title('Distribución de Edad de usuarios', fontsize=14)

# Mostrar el gráfico
plt.tight_layout()
plt.show()


### 2.2. Data de libros

In [None]:
#dropping the image columns
books.drop(columns=['image_url_s', 'image_url_m', 'image_url_l'], inplace=True) # drop image-url columns

In [None]:
books.head()

In [None]:
#converting years of publication to integer
books.year_of_publication = pd.to_numeric(books.year_of_publication, errors='coerce')

In [None]:
#replacing all years of publication that are 0 with NaN
books.year_of_publication.replace(0, np.nan, inplace=True)

In [None]:
# Ejemplo de remoción de outliers
lower_threshold = 1964
upper_threshold = 2004

books = books[(books['year_of_publication'] > lower_threshold) & (books['year_of_publication'] < upper_threshold)]
books.year_of_publication = books.year_of_publication.astype(int)

In [None]:
# Establecer el estilo de Seaborn (opcional)
sns.set(style="whitegrid")

# Crear el gráfico de barras
plt.figure(figsize=(12, 5))  # Ajusta el tamaño de la figura si es necesario
ax = sns.countplot(data=books, x='year_of_publication', color='lightblue')

# Personalizar el eje x
ax.set_xticklabels(ax.get_xticklabels(), rotation=90, ha='right')

# Ajustar el tamaño de fuente de las etiquetas del eje x
ax.tick_params(axis='x', labelsize=8)

# Agregar etiquetas y título
plt.xlabel('Año de Publicación', fontsize=12)
plt.ylabel('Cantidad', fontsize=12)
plt.title('Distribución de Años de Publicación de Libros', fontsize=14)

# Mostrar el gráfico
plt.tight_layout()
plt.show()


In [None]:
#correcting publisher names and assigning the name 'Other' to those with missing publisher names
books.publisher= books.publisher.str.replace('&amp;', '&', regex=False)

In [None]:
books.publisher.replace(np.nan,'Other', inplace = True)

In [None]:
#replacing the NaN in for book_author with Unknown
books.book_author.replace(np.nan,"Unknown", inplace=True)

In [None]:
#dropping the rows with NaN year of publication
books = books.dropna(how='any', axis = 0)

### 2.3. Data de Ratings

In [None]:
ratings.head()

In [None]:
#removing the rows with an implicit book_rating of 0
ratings = ratings[ratings.book_rating!=0]

In [None]:
# Establecer el estilo de Seaborn (opcional)
sns.set(style="whitegrid")

# Crear el gráfico de barras
plt.figure(figsize=(12, 5))  # Ajusta el tamaño de la figura si es necesario
ax = sns.countplot(data=ratings, x='book_rating', color='lightblue')

# Personalizar el eje x
ax.set_xticklabels(ax.get_xticklabels(), rotation=90, ha='right')

# Ajustar el tamaño de fuente de las etiquetas del eje x
ax.tick_params(axis='x', labelsize=8)

# Agregar etiquetas y título
plt.xlabel('Rating del libro', fontsize=12)
plt.ylabel('Cantidad', fontsize=12)
plt.title('Distribución de Rating de libros', fontsize=14)

# Mostrar el gráfico
plt.tight_layout()
plt.show()


### 2.4. Unificando data

In [None]:
df_unified = pd.merge(users[['user_id', 'age']], ratings, on = 'user_id', how = 'inner')
df_unified = pd.merge(df_unified, books[['isbn', 'book_title']], on = 'isbn', how = 'inner')

df_unified.head()

In [None]:
df_unified.loc[df_unified.user_id ==  387]

# 3. Most-popular-item Recommender

Se basa en la popularidad de los elementos para hacer recomendaciones a los usuarios. En lugar de utilizar algoritmos complicados para analizar las preferencias individuales de los usuarios, este tipo de sistema simplemente recomienda los elementos que son más populares.

La lógica detrás de un Most-Popular-Item Recommender es bastante simple: si un artículo es popular y ha sido apreciado por muchas personas, es más probable que sea del agrado de nuevos usuarios también. Este enfoque es especialmente útil cuando no se dispone de suficiente información sobre los usuarios y sus preferencias.



Ventajas de un Most-Popular-Item Recommender:

* <b>Simplicidad:</b> Es fácil de implementar y no requiere algoritmos complejos.

* <b>Efectividad inicial:</b> Puede funcionar bien en situaciones donde hay poca información sobre los usuarios.

* <b>Escalabilidad:</b> Puede manejar grandes conjuntos de datos sin problemas.



Desventajas de un Most-Popular-Item Recommender:

* <b>Falta de personalización:</b> No tiene en cuenta las preferencias individuales de los usuarios, lo que puede llevar a recomendaciones no relevantes.

* <b>Burbuja de filtro:</b> Puede llevar a una sobrerrepresentación de elementos populares y no descubrir nuevos elementos.

* <b>No considera cambios en el tiempo:</b> No tiene en cuenta las tendencias cambiantes o los gustos cambiantes de los usuarios.
---

### 3.1. Muestreo de datos


El conjunto de datos en machine learning se divide típicamente en dos partes: el conjunto de entrenamiento (train) y el conjunto de prueba (test). Estas divisiones se utilizan para entrenar y evaluar los modelos.



<b>Train:</b> El conjunto de entrenamiento se utiliza para entrenar el modelo de machine learning. Es aquí donde el modelo "aprende" los patrones y relaciones en los datos para poder hacer predicciones o clasificaciones.

<b>Test:</b> El conjunto de prueba se utiliza para evaluar el rendimiento del modelo en datos no vistos durante el entrenamiento. Es una medida objetiva de la capacidad del modelo para generalizar y realizar predicciones precisas en nuevos datos.

In [None]:
# Muestreo
#La función train_test_split de scikit-learn se utiliza para dividir un conjunto de datos en subconjuntos de train y test.
from sklearn.model_selection import train_test_split

train, test = train_test_split(df_unified, # Base de datos
                               train_size = 0.7, # Especificar el tamaño de train/test
                               random_state = 123) # Semilla aleatoria


In [None]:
train.head()

### 3.2. Most Popular Items recommender: No Personalizada


In [None]:
most_popular = train.groupby('book_title')[['isbn']].count().reset_index()
most_popular.rename(columns = {'isbn' : 'popularity'}, inplace = True)
most_popular.sort_values(by = 'popularity', ascending = False, inplace = True)
most_popular.head()

In [None]:
# Aplicando recomendaciones

test['rec_1'] = 'The Lovely Bones: A Novel'
test['rec_2'] = 'The Da Vinci Code'
test['rec_3'] = 'Harry Potter and the Chamber of Secrets (Book 2)'
test['rec_4'] = 'Angels &amp; Demons'
test['rec_5'] = 'The Secret Life of Bees'

Veamos la calidad de la recomendación

In [None]:
test.head()

#### Hit Rate

In [None]:
# Calculamos si alguno de los productos recomendados al cliente hizo hit
test['hit'] = (test.book_title == test.rec_1) | (test.book_title == test.rec_2) |  (test.book_title == test.rec_3) |  (test.book_title == test.rec_4) |  (test.book_title == test.rec_5)
test['hit'].head()

In [None]:
# Calculamos si el cliente hizo hit en alguno de sus productos
test_cliente = test.groupby('user_id').aggregate({'hit' : 'sum'}).reset_index()
test_cliente.head()

In [None]:
hit_rate = round(len(test_cliente[test_cliente.hit > 0])/len(test_cliente)*100, 1)
print(f'Hit rate: {hit_rate}%')


#### Calidad de hits

In [None]:
# Calculamos si el cliente hizo hit en alguno de sus productos
test[test.hit == 1].book_rating.median()

In [None]:
# Media de rating de libros comprados
test.book_rating.median()

#### Precision

In [None]:
precision = round((test_cliente.hit.mean()/5)*100, 1)
print(f'Precision: {precision}%')


### 3.2. Most Popular Items recommender: Semi-Personalizada


In [None]:
# Muestreo
#La función train_test_split de scikit-learn se utiliza para dividir un conjunto de datos en subconjuntos de train y test.
from sklearn.model_selection import train_test_split

train, test = train_test_split(df_unified, # Base de datos
                               train_size = 0.7, # Especificar el tamaño de train/test
                               random_state = 123) # Semilla aleatoria

In [None]:
# Discretizar variables
from sklearn.preprocessing import KBinsDiscretizer

discretizer = KBinsDiscretizer(n_bins = 5,
                               encode = 'ordinal',
                               strategy = "quantile").fit(np.array(train['age']).reshape(-1, 1))


In [None]:
train['age' + '_rango'] = discretizer.transform(np.array(train['age']).reshape(-1, 1))


In [None]:
most_popular = train.groupby(['book_title', 'age_rango'])[['isbn']].count().reset_index()
most_popular.rename(columns = {'isbn' : 'popularity'}, inplace = True)
most_popular.sort_values(by = 'popularity', ascending = False, inplace = True)

#pd.set_option('display.max_colwidth', None)
most_popular[most_popular.age_rango == 0].head(5)

In [None]:
most_popular[most_popular.age_rango == 1].head(5)

In [None]:
most_popular[most_popular.age_rango == 2].head(5)

In [None]:
most_popular[most_popular.age_rango == 3].head()

In [None]:
most_popular[most_popular.age_rango == 4].head(5)

Veamos la calidad de la recomendación

In [None]:
test['age' + '_rango'] = discretizer.transform(np.array(test['age']).reshape(-1, 1))

In [None]:

recom = pd.DataFrame({'age_rango': [0, 1, 2, 3, 4],
                      'rec_1': [most_popular[most_popular.age_rango == 0].book_title.tolist()[0],
                                most_popular[most_popular.age_rango == 1].book_title.tolist()[0],
                                most_popular[most_popular.age_rango == 2].book_title.tolist()[0],
                                most_popular[most_popular.age_rango == 3].book_title.tolist()[0],
                                most_popular[most_popular.age_rango == 4].book_title.tolist()[0]],

                      'rec_2': [most_popular[most_popular.age_rango == 0].book_title.tolist()[1],
                                most_popular[most_popular.age_rango == 1].book_title.tolist()[1],
                                most_popular[most_popular.age_rango == 2].book_title.tolist()[1],
                                most_popular[most_popular.age_rango == 3].book_title.tolist()[1],
                                most_popular[most_popular.age_rango == 4].book_title.tolist()[1]],

                      'rec_3': [most_popular[most_popular.age_rango == 0].book_title.tolist()[2],
                                most_popular[most_popular.age_rango == 1].book_title.tolist()[2],
                                most_popular[most_popular.age_rango == 2].book_title.tolist()[2],
                                most_popular[most_popular.age_rango == 3].book_title.tolist()[2],
                                most_popular[most_popular.age_rango == 4].book_title.tolist()[2]],

                      'rec_4': [most_popular[most_popular.age_rango == 0].book_title.tolist()[3],
                                most_popular[most_popular.age_rango == 1].book_title.tolist()[3],
                                most_popular[most_popular.age_rango == 2].book_title.tolist()[3],
                                most_popular[most_popular.age_rango == 3].book_title.tolist()[3],
                                most_popular[most_popular.age_rango == 4].book_title.tolist()[3]],

                      'rec_5': [most_popular[most_popular.age_rango == 0].book_title.tolist()[4],
                                most_popular[most_popular.age_rango == 1].book_title.tolist()[4],
                                most_popular[most_popular.age_rango == 2].book_title.tolist()[4],
                                most_popular[most_popular.age_rango == 3].book_title.tolist()[4],
                                most_popular[most_popular.age_rango == 4].book_title.tolist()[4]]
                      })
recom

In [None]:
test = pd.merge(test, recom, on = 'age_rango', how = 'left')

#### Hit Rate

In [None]:
# Calculamos si alguno de los productos recomendados al cliente hizo hit
test['hit'] = (test.book_title == test.rec_1) | (test.book_title == test.rec_2) |  (test.book_title == test.rec_3) |  (test.book_title == test.rec_4) |  (test.book_title == test.rec_5)
test['hit'].head()

In [None]:
# Calculamos si el cliente hizo hit en alguno de sus productos
test_cliente = test.groupby('user_id').aggregate({'hit' : 'sum'}).reset_index()
test_cliente.head()

In [None]:
hit_rate = round(len(test_cliente[test_cliente.hit > 0])/len(test_cliente)*100, 1)
print(f'Hit rate: {hit_rate}%')


#### Calidad de hits

In [None]:
# Calculamos si el cliente hizo hit en alguno de sus productos
test[test.hit == 1].book_rating.median()

In [None]:
# Media de rating de libros comprados
test.book_rating.median()

#### Precision

In [None]:
precision = round((test_cliente.hit.mean()/5)*100, 1)
print(f'Precision: {precision}%')


---
## Gracias por completar este laboratorio!