<a href="https://colab.research.google.com/github/carpalmar/sistema_recomendacion/blob/main/K_Nearest_Neighbors_Recommender/Book_Crossing_KNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<h1 align=center><font size = 5> K-Nearest Neighbors
 Recommender</font></h1>

---

<center>
  <img src="https://storage.googleapis.com/kaggle-datasets-images/1661575/2726067/684ac0c4c14cb46d1047ccb620b45cac/dataset-cover.jpg?t=2021-10-21-03-18-09" width="800" height="300">
</center>


## Objetivo de este Notebook

1. Cargar y preprocesar un Dataset.
2. Realizar un sistema de recomendación basado en KNN.
3. Comprobar el performance del sistema.

## Tabla de Contenidos

<div class="alert alert-block alert-info" style="margin-top: 20px">

<font size = 3>
    
1. <a href="#item31">Contexto</a>  
2. <a href="#item32">Descargar y preparar el Dataset</a>  
6. <a href="#item34">Entrenamiento del modelo</a>  
6. <a href="#item34">Validación del modelo</a>  

</font>
</div>

## 1. Contexto


El conjunto de datos "Book-Crossing" (también conocido como BX) es una colección de datos relacionados con libros y reseñas de libros. Este conjunto de datos se centra en la interacción de los usuarios con libros y sus calificaciones, y es ampliamente utilizado en aplicaciones de sistemas de recomendación.



<b>Descripción de datos</b>

---

El conjunto de datos Book-Crossing contiene información sobre:

* <b>Libros:</b> Información sobre los libros, incluyendo su título, autor y año de publicación.

* <b>Usuarios:</b> Perfiles de los usuarios que interactúan con los libros, incluyendo su ID y ubicación.

* <b>Calificaciones:</b> Calificaciones numéricas que los usuarios asignan a los libros que han leído.

El conjunto de datos puede ser utilizado para varios propósitos, como la construcción de sistemas de recomendación de libros, el análisis de patrones de lectura y preferencias de los usuarios, y la investigación en el campo de la minería de datos y la inteligencia artificial.

---



<strong>Puede consultar este [link](https://www.kaggle.com/datasets/syedjaferk/book-crossing-dataset) para leer más sobre la fuente de datos Book Crossing.</strong>


## 2. Descargar y preparar Dataset

In [None]:
# Download Book-Crossing Dataset
!curl -o dataset.zip "http://www2.informatik.uni-freiburg.de/~cziegler/BX/BX-CSV-Dump.zip"
!unzip dataset.zip
!ls -la

In [None]:
# Principales librerías
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore") # Turn off warnings


In [None]:
ratings = pd.read_csv("BX-Book-Ratings.csv", sep=";", encoding="ISO-8859-1")
books   = pd.read_csv("BX-Books.csv",        sep=";", encoding="ISO-8859-1", error_bad_lines=False)
users   = pd.read_csv("BX-Users.csv",        sep=";", encoding="ISO-8859-1")

Skipping line 6452: expected 8 fields, saw 9
Skipping line 43667: expected 8 fields, saw 10
Skipping line 51751: expected 8 fields, saw 9

Skipping line 92038: expected 8 fields, saw 9
Skipping line 104319: expected 8 fields, saw 9
Skipping line 121768: expected 8 fields, saw 9

Skipping line 144058: expected 8 fields, saw 9
Skipping line 150789: expected 8 fields, saw 9
Skipping line 157128: expected 8 fields, saw 9
Skipping line 180189: expected 8 fields, saw 9
Skipping line 185738: expected 8 fields, saw 9

Skipping line 209388: expected 8 fields, saw 9
Skipping line 220626: expected 8 fields, saw 9
Skipping line 227933: expected 8 fields, saw 11
Skipping line 228957: expected 8 fields, saw 10
Skipping line 245933: expected 8 fields, saw 9
Skipping line 251296: expected 8 fields, saw 9
Skipping line 259941: expected 8 fields, saw 9
Skipping line 261529: expected 8 fields, saw 9



In [None]:
users.head()

In [None]:
books.head()

In [None]:
ratings.head()

In [None]:
print("  Users: {} \n  Books: {}\n  Ratings: {}".format(len(users), len(books), len(ratings)))


In [None]:
users.columns = users.columns.str.lower().str.replace('-', '_')
books.columns = books.columns.str.lower().str.replace('-', '_')
ratings.columns = ratings.columns.str.lower().str.replace('-', '_')

### 2.1. Data de usuarios

In [None]:
users.head()

In [None]:
users["age"].describe()

In [None]:
# Ejemplo de remoción de outliers
IQR = np.nanpercentile(users['age'], 75) - np.nanpercentile(users['age'], 25)
lower_threshold = np.nanpercentile(users['age'], 50) - 1.5*IQR
upper_threshold = np.nanpercentile(users['age'], 50) + 1.5*IQR

users = users[(users['age'] > lower_threshold) & (users['age'] < upper_threshold)]

In [None]:
# Establecer el estilo de Seaborn (opcional)
sns.set(style="whitegrid")

# Crear el gráfico de barras
plt.figure(figsize=(12, 5))  # Ajusta el tamaño de la figura si es necesario
ax = sns.countplot(data=users, x='age', color='lightblue')

# Personalizar el eje x
ax.set_xticklabels(ax.get_xticklabels(), rotation=90, ha='right')

# Ajustar el tamaño de fuente de las etiquetas del eje x
ax.tick_params(axis='x', labelsize=8)

# Agregar etiquetas y título
plt.xlabel('Edad', fontsize=12)
plt.ylabel('Cantidad', fontsize=12)
plt.title('Distribución de Edad de usuarios', fontsize=14)

# Mostrar el gráfico
plt.tight_layout()
plt.show()


### 2.2. Data de libros

In [None]:
#dropping the image columns
books.drop(columns=['image_url_s', 'image_url_m', 'image_url_l'], inplace=True) # drop image-url columns

In [None]:
books.head()

In [None]:
books[books.book_title == 'The Lovely Bones: A Novel']

In [None]:
#converting years of publication to integer
books.year_of_publication = pd.to_numeric(books.year_of_publication, errors='coerce')

In [None]:
#replacing all years of publication that are 0 with NaN
books.year_of_publication.replace(0, np.nan, inplace=True)

In [None]:
books.year_of_publication.describe()

In [None]:
# Ejemplo de remoción de outliers
lower_threshold = 1964
upper_threshold = 2004

books = books[(books['year_of_publication'] >= lower_threshold) & (books['year_of_publication'] <= upper_threshold)]
books.year_of_publication = books.year_of_publication.astype(int)

In [None]:
# Establecer el estilo de Seaborn (opcional)
sns.set(style="whitegrid")

# Crear el gráfico de barras
plt.figure(figsize=(12, 5))  # Ajusta el tamaño de la figura si es necesario
ax = sns.countplot(data=books, x='year_of_publication', color='lightblue')

# Personalizar el eje x
ax.set_xticklabels(ax.get_xticklabels(), rotation=90, ha='right')

# Ajustar el tamaño de fuente de las etiquetas del eje x
ax.tick_params(axis='x', labelsize=8)

# Agregar etiquetas y título
plt.xlabel('Año de Publicación', fontsize=12)
plt.ylabel('Cantidad', fontsize=12)
plt.title('Distribución de Años de Publicación de Libros', fontsize=14)

# Mostrar el gráfico
plt.tight_layout()
plt.show()


In [None]:
#correcting publisher names and assigning the name 'Other' to those with missing publisher names
books.publisher= books.publisher.str.replace('&amp;', '&', regex=False)

In [None]:
books.publisher.replace(np.nan,'Other', inplace = True)

In [None]:
#replacing the NaN in for book_author with Unknown
books.book_author.replace(np.nan,"Unknown", inplace=True)

In [None]:
#dropping the rows with NaN year of publication
books = books.dropna(how='any', axis = 0)

### 2.3. Data de Ratings

In [None]:
ratings.head()

In [None]:
#removing the rows with an implicit book_rating of 0
ratings = ratings[ratings.book_rating!=0]

In [None]:
ratings.book_rating.hist()

In [None]:
# Establecer el estilo de Seaborn (opcional)
sns.set(style="whitegrid")

# Crear el gráfico de barras
plt.figure(figsize=(12, 5))  # Ajusta el tamaño de la figura si es necesario
ax = sns.countplot(data=ratings, x='book_rating', color='lightblue')

# Personalizar el eje x
ax.set_xticklabels(ax.get_xticklabels(), rotation=90, ha='right')

# Ajustar el tamaño de fuente de las etiquetas del eje x
ax.tick_params(axis='x', labelsize=8)

# Agregar etiquetas y título
plt.xlabel('Rating del libro', fontsize=12)
plt.ylabel('Cantidad', fontsize=12)
plt.title('Distribución de Rating de libros', fontsize=14)

# Mostrar el gráfico
plt.tight_layout()
plt.show()


### 2.4. Unificando data

In [None]:
df_unified = pd.merge(users[['user_id', 'age']], ratings, on = 'user_id', how = 'inner')
df_unified = pd.merge(df_unified, books[['isbn', 'book_title']], on = 'isbn', how = 'inner')

df_unified.head()

In [None]:
df_unified.loc[df_unified.user_id ==  387]

In [None]:
most_popular = df_unified.groupby('book_title')[['isbn']].count().reset_index()
most_popular.rename(columns = {'isbn' : 'popularity'}, inplace = True)
most_popular.sort_values(by = 'popularity', ascending = False, inplace = True)


In [None]:
print(len(most_popular), 'diferentes ítems en el sistema')

In [None]:
#Nos quedaremos con los ítems con cierta materialidad de popularidad
print(len(most_popular[most_popular.popularity > 217]), 'diferentes ítems utilizados en el sistema')
items = most_popular[most_popular.popularity > 217].book_title.tolist()

10 diferentes ítems utilizados en el sistema


In [None]:
df_unified_filtered = df_unified[df_unified.book_title.isin(items)]
df_unified_filtered.head()

In [None]:
df_unified_filtered.book_title.value_counts()

The Lovely Bones: A Novel                                           456
Wild Animus                                                         453
The Da Vinci Code                                                   353
The Secret Life of Bees                                             266
Bridget Jones's Diary                                               257
The Nanny Diaries: A Novel                                          242
Harry Potter and the Chamber of Secrets (Book 2)                    241
Life of Pi                                                          241
Angels &amp; Demons                                                 240
Harry Potter and the Sorcerer's Stone (Harry Potter (Paperback))    218
Name: book_title, dtype: int64

# 3. K-Nearest Neighbors

K-Nearest Neighbors (KNN) es un algoritmo de machine learning que también se puede utilizar en sistemas de recomendación. La idea detrás del uso de KNN en sistemas de recomendación es encontrar usuarios o elementos similares en función de sus calificaciones o comportamientos previos y utilizar esa similitud para hacer recomendaciones.



* <b>Matriz de usuario-elemento:</b> Se crea una matriz que representa las calificaciones de los usuarios para los elementos. Cada fila de la matriz representa un usuario, y cada columna representa un elemento. Los valores de la matriz son las calificaciones dadas por los usuarios a los elementos.

* <b>Recomendación:</b>  Se utilizan las calificaciones de los K usuarios o elementos más cercanos para generar recomendaciones para el usuario o elemento en cuestión. Esto se puede hacer de varias maneras, como calcular un promedio ponderado de las calificaciones de los vecinos o identificar los elementos mejor calificados por los vecinos.

* <b> Evaluación:</b>  Se evalúa el rendimiento del sistema de recomendación utilizando métricas como RMSE (Root Mean Squared Error) o MAE (Mean Absolute Error) en un conjunto de datos de prueba para medir cuán precisas son las recomendaciones.

---


### 3.1. Muestreo de datos


El conjunto de datos en machine learning se divide típicamente en dos partes: el conjunto de entrenamiento (train) y el conjunto de prueba (test). Estas divisiones se utilizan para entrenar y evaluar los modelos.



<b>Train:</b> El conjunto de entrenamiento se utiliza para entrenar el modelo de machine learning. Es aquí donde el modelo "aprende" los patrones y relaciones en los datos para poder hacer predicciones o clasificaciones.

<b>Test:</b> El conjunto de prueba se utiliza para evaluar el rendimiento del modelo en datos no vistos durante el entrenamiento. Es una medida objetiva de la capacidad del modelo para generalizar y realizar predicciones precisas en nuevos datos.

In [None]:
# Muestreo
#La función train_test_split de scikit-learn se utiliza para dividir un conjunto de datos en subconjuntos de train y test.
from sklearn.model_selection import train_test_split

train, test = train_test_split(df_unified_filtered, # Base de datos
                               stratify = df_unified_filtered.book_title,
                               train_size = 0.7, # Especificar el tamaño de train/test
                               random_state = 123) # Semilla aleatoria



In [None]:
train.book_title.value_counts()

The Lovely Bones: A Novel                                           319
Wild Animus                                                         317
The Da Vinci Code                                                   247
The Secret Life of Bees                                             186
Bridget Jones's Diary                                               180
Harry Potter and the Chamber of Secrets (Book 2)                    169
The Nanny Diaries: A Novel                                          169
Life of Pi                                                          169
Angels &amp; Demons                                                 168
Harry Potter and the Sorcerer's Stone (Harry Potter (Paperback))    152
Name: book_title, dtype: int64

In [None]:
test.book_title.value_counts()

The Lovely Bones: A Novel                                           137
Wild Animus                                                         136
The Da Vinci Code                                                   106
The Secret Life of Bees                                              80
Bridget Jones's Diary                                                77
The Nanny Diaries: A Novel                                           73
Angels &amp; Demons                                                  72
Life of Pi                                                           72
Harry Potter and the Chamber of Secrets (Book 2)                     72
Harry Potter and the Sorcerer's Stone (Harry Potter (Paperback))     66
Name: book_title, dtype: int64

In [None]:
# Crear una matriz pivot para el conjunto de entrenamiento
pivot_table_entrenamiento = train.pivot(index='user_id', columns='isbn', values='book_rating').fillna(0)

# Crear una matriz pivot para el conjunto de prueba
pivot_table_prueba = test.pivot(index='user_id', columns='isbn', values='book_rating').fillna(0)


In [None]:
# Asegurémonos de que las columnas sean las mismas en ambos conjuntos
common_columns = pivot_table_entrenamiento.columns.intersection(pivot_table_prueba.columns)
pivot_table_entrenamiento = pivot_table_entrenamiento[common_columns]
pivot_table_prueba = pivot_table_prueba[common_columns]

### 3.2. KNN recommender


In [None]:
from sklearn.neighbors import NearestNeighbors

In [None]:

# Crear un modelo k-NN con 30 vecinos más cercanos
k = 30
model_knn = NearestNeighbors(n_neighbors=k, metric='cosine')
model_knn.fit(pivot_table_entrenamiento)



In [None]:
pivot_table_entrenamiento.head()

isbn,014028009X,0141000198,0142001740,0151008116,0156027321,0312195516,0312278586,0312291639,0316666343,0330332775,...,059035342X,0670032379,0670880728,0670894605,0671027360,0739302043,0739307312,0743486226,0971880107,184195425X
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
114,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,10.0,0.0,0.0,0.0,0.0,0.0
254,0.0,0.0,9.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
709,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
805,0.0,0.0,0.0,0.0,9.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
899,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0


In [None]:
# Función para obtener recomendaciones para un usuario específico
def get_recommendations(user_ratings):
    distances, indices = model_knn.kneighbors([user_ratings], n_neighbors=k+1)  # +1 para excluir el propio usuario

    # Obtener los índices de los usuarios más cercanos (excluyendo el propio usuario)
    neighbor_indices = indices[0][1:]

    # Filtrar las calificaciones de los vecinos más cercanos
    neighbor_ratings = pivot_table_entrenamiento.iloc[neighbor_indices]

    # Calcular la puntuación promedio de los libros no calificados por el usuario
    book_scores = neighbor_ratings.mean()

    # Filtrar los libros que el usuario aún no ha calificado
    user_unrated_books = book_scores.index[~np.isnan(book_scores) & (user_ratings == 0)]

    # Ordenar los libros por puntuación promedio en orden descendente para obtener las recomendaciones
    recommendations = book_scores[user_unrated_books].sort_values(ascending=False)

    return recommendations

# Crear una tabla para almacenar las recomendaciones
recomendaciones_tabla = pd.DataFrame(columns=['user_id', 'isbn', 'puntuacion'])

# Para cada usuario en el conjunto de prueba, obtener sus recomendaciones
for user_id in pivot_table_prueba.index:
    user_ratings = pivot_table_prueba.loc[user_id].values
    recommendations = get_recommendations(user_ratings)
    # Agregar las recomendaciones a la tabla
    for isbn, score in recommendations.head(10).items():  # Tomar las 10 mejores recomendaciones
      recomendaciones_tabla = recomendaciones_tabla.append({'user_id': user_id, 'isbn': isbn, 'puntuacion': score}, ignore_index=True)



In [None]:
recomendaciones_tabla_f = pd.merge(recomendaciones_tabla, books, on = 'isbn', how = 'left')

In [None]:
recomendaciones_tabla_f.book_title.value_counts()

Bridget Jones's Diary                                               2249
The Secret Life of Bees                                             1588
Angels &amp; Demons                                                 1520
The Da Vinci Code                                                    818
Harry Potter and the Sorcerer's Stone (Harry Potter (Paperback))     742
Wild Animus                                                          673
Harry Potter and the Chamber of Secrets (Book 2)                     420
Life of Pi                                                            91
The Lovely Bones: A Novel                                             81
The Nanny Diaries: A Novel                                            58
Name: book_title, dtype: int64

In [None]:
test.book_title.value_counts()

The Lovely Bones: A Novel                                           137
Wild Animus                                                         136
The Da Vinci Code                                                   106
The Secret Life of Bees                                              80
Bridget Jones's Diary                                                77
The Nanny Diaries: A Novel                                           73
Angels &amp; Demons                                                  72
Life of Pi                                                           72
Harry Potter and the Chamber of Secrets (Book 2)                     72
Harry Potter and the Sorcerer's Stone (Harry Potter (Paperback))     66
Name: book_title, dtype: int64

In [None]:
recomendaciones_tabla_f[recomendaciones_tabla_f.user_id == 32761].sort_values(by = 'puntuacion', ascending = False)

Unnamed: 0,user_id,isbn,puntuacion,book_title,book_author,year_of_publication,publisher
910,32761,0156027321,1.5,Life of Pi,Yann Martel,2003,Harvest Books
911,32761,0316666343,1.166667,The Lovely Bones: A Novel,Alice Sebold,2002,"Little, Brown"
912,32761,0142001740,0.966667,The Secret Life of Bees,Sue Monk Kidd,2003,Penguin Books
913,32761,0439064864,0.9,Harry Potter and the Chamber of Secrets (Book 2),J. K. Rowling,1999,Scholastic
914,32761,0671027360,0.666667,Angels &amp; Demons,Dan Brown,2001,Pocket Star
915,32761,059035342X,0.666667,Harry Potter and the Sorcerer's Stone (Harry P...,J. K. Rowling,1999,Arthur A. Levine Books
916,32761,0439064872,0.666667,Harry Potter and the Chamber of Secrets (Book 2),J. K. Rowling,2000,Scholastic
917,32761,0971880107,0.6,Wild Animus,Rich Shapero,2004,Too Far
918,32761,0312278586,0.6,The Nanny Diaries: A Novel,Emma McLaughlin,2002,St. Martin's Press
919,32761,0385504209,0.533333,The Da Vinci Code,Dan Brown,2003,Doubleday


In [None]:
test[test.user_id == 32761].head()

Unnamed: 0,user_id,age,isbn,book_rating,book_title
113020,32761,20.0,184195425X,8,Life of Pi


In [None]:
recsys = pd.merge(recomendaciones_tabla_f, test, on = ['user_id', 'book_title'], how = 'left')
recsys = recsys[~recsys.book_rating.isnull()]
recsys[recsys.puntuacion > 0].head()

Unnamed: 0,user_id,isbn_x,puntuacion,book_title,book_author,year_of_publication,publisher,age,isbn_y,book_rating
137,3509,671027360,0.366667,Angels &amp; Demons,Dan Brown,2001,Pocket Star,29.0,0743486226,8.0
225,6563,142001740,0.633333,The Secret Life of Bees,Sue Monk Kidd,2003,Penguin Books,31.0,0670032379,9.0
257,7125,671027360,0.366667,Angels &amp; Demons,Dan Brown,2001,Pocket Star,28.0,0743486226,4.0
911,32761,156027321,1.5,Life of Pi,Yann Martel,2003,Harvest Books,20.0,184195425X,8.0
1276,43910,142001740,0.333333,The Secret Life of Bees,Sue Monk Kidd,2003,Penguin Books,43.0,0670894605,8.0


---
## Gracias por completar este laboratorio!