# Recomendador de libros en Goodreads

En este proyecto elaboré un recomendador de libros. El recomendador utiliza la información del perfil de un usuario, así como de sus amigos y personas a las que sigue, para sugerirle al usuario cuál es próximo libro que debe leer. Para recopilar la información que alimenta al recomendador, utilicé la API de Goodreads. 

#### Algunos aspectos que me gustaría incluir después:
- Incluir en el análisis los usuarios con forbidden access.
- Extraer automáticamente la lista de amigos de un usuario y que se incluyan en el análisis.

#### Mejoras pendientes a mi código:
- Hay libros cuyo título está en inglés y que otros leyeron en español.
- La fórmula para recomendar libros puede que no esté calibrada correctamente. Temo que le esté dando mucho peso a ciertos libros y muy poco peso a libros de las personas con las que tengo correlación negativa. 
- Quizá mi fórmula de weighted_rating no es del todo correcta.


## I. Obtener información de varios usuarios

### 1.1 Función para extraer información de un usuario

Las siguientes funciones (en particular `extract_info`) permiten extraer toda la información del estante de libros leídos de un usuario. La información se arroja como un diccionario.

In [1]:
# Importar librerías
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd
import re
import numpy as np
import scipy.stats as st

In [2]:
# Claves para acceder al API
CONSUMER_KEY = 'PnnwwD2CW9RtBv6YqsjYw'
url = "https://www.goodreads.com/"

In [3]:
def shelf_info(user_id, shelf, page):
  
    """Arroja un BeautifulSoup object de una página del librero de un usuario"""
    
    time.sleep(1.1) # Para cumplir con los términos y condiciones de Goodreads
    info = requests.get(f'{url}/review/list?v=2&id={user_id}&shelf={shelf}&sort=title&page={page}&per_page=200&key={CONSUMER_KEY}')
    print('Status code: ', info.status_code)
    info_content = info.content
    soup = BeautifulSoup(info_content, 'lxml')
    return soup

def paginas_por_estante(libros_en_estante):
    
    """Nos dice cuántas páginas se requieren para mostrar todos los libros del estante"""
    
    if libros_en_estante <= 200:
        return 1
    
    elif libros_en_estante <= 400:
        return 2
    
    elif libros_en_estante <= 600:
        return 3
    
    elif libros_en_estante <= 800:
        return 4
    
    elif libros_en_estante <= 1000:
        return 5
    
    elif libros_en_estante <= 1200:
        return 6

    elif libros_en_estante <= 1400:
        return 7
    
    elif libros_en_estante <= 1600:
        return 8
    
    elif libros_en_estante <= 1800:
        return 9
    
    elif libros_en_estante <= 2000:
        return 10
    
def extract_info(user_id, shelf, libros_en_estante):
    
    """ Extrae toda la información de un usuario y la arroja en un diccionario"""
    
    diccionario = {}
    
    # Definir variables de mis tags para ir agregando información mientras avanzo por varias páginas.
    isbn = []
    title = []
    num_pages = []
    publisher = []
    publication_year = []
    name = []
    rating = []
    average_rating = []
    ratings_count = []
    links = []
    
    #Determinar cuántas páginas consideraremos dentro del estante.
    paginas_to_scrap = paginas_por_estante(libros_en_estante)
    
    # Extraer información de cada una de las páginas
    for x in range(1, paginas_to_scrap+1):
        
        # Obtener código html en formato Soup
        page = shelf_info(user_id, shelf=shelf, page=x)
        
        # Obtener información de tags que no se repiten
        
        isbn_info = page.find_all(f'isbn')
        isbn_info = [elem.get_text() for elem in isbn_info]
        isbn.append(isbn_info)
        
        title_info = page.find_all(f'title')
        title_info = [elem.get_text() for elem in title_info]
        title.append(title_info)
        
        publisher_info = page.find_all(f'publisher')
        publisher_info = [elem.get_text() for elem in publisher_info]
        publisher.append(publisher_info)
        
        num_pages_info = page.find_all(f'num_pages')
        num_pages_info = [elem.get_text() for elem in num_pages_info]
        num_pages.append(num_pages_info)
        
        publication_year_info = page.find_all(f'publication_year')
        publication_year_info = [elem.get_text() for elem in publication_year_info]
        publication_year.append(publication_year_info)
        
        name_info = page.find_all(f'name')
        name_info = [elem.get_text() for elem in name_info]
        name.append(name_info)
        
        rating_info = page.find_all(f'rating')
        rating_info = [elem.get_text() for elem in rating_info]
        rating.append(rating_info)
        
        # Obtener información de tags que se repiten
        review_blocks = page.find_all('review')
        link_pattern = re.compile(r'www.goodreads.com.*')
        
        for review in review_blocks: 
            average_rating_info = review.find(f'average_rating').get_text()
            average_rating.append(average_rating_info)

            ratings_count_info = review.find(f'ratings_count').get_text()
            ratings_count.append(ratings_count_info)
            
            # Obtener links        
            if link_pattern.search(review.get_text()):
                link = re.findall(link_pattern, review.get_text()) 
                links.append(link)
    
            else: 
                print('Missing: ', review.title)
    
    # Aplanar variables con listas dentro de una lista
    isbn = [elem for listt in isbn for elem in listt]
    title = [elem for listt in title for elem in listt]
    num_pages = [elem for listt in num_pages for elem in listt]
    publisher = [elem for listt in publisher for elem in listt]
    publication_year = [elem for listt in publication_year for elem in listt]
    name = [elem for listt in name for elem in listt]
    rating = [elem for listt in rating for elem in listt]
    links = [elem[0] for elem in links]
    
    # Pasar todo a un diccionario
    diccionario[f'user_id'] = [user_id for x in range(0, len(isbn))]
    diccionario[f'shelf'] = [shelf for x in range(0, len(isbn))]
    
    diccionario[f'isbn'] = isbn
    diccionario[f'title'] = title
    diccionario[f'author'] = name
    diccionario[f'num_pages'] = num_pages
    diccionario[f'publication_year'] = publication_year
    diccionario[f'publisher'] = publisher
    diccionario[f'my_rating'] = rating
    
    diccionario[f'average_rating'] = average_rating
    diccionario[f'ratings_count'] = ratings_count
    diccionario[f'links'] = links
        
    return diccionario


### 1.2 Extraer información del usuario y sus contactos

A continuación, se extraerá la información del usuario 'Francisco Galán', así como la de diez de sus contactos.

In [4]:
# Información del usuario principal
francisco_galan = extract_info('40732498', 'read', 276)

Status code:  200
Status code:  200


In [5]:
# Información de siete amigos
nicolas_papa = extract_info('85738242', 'read', 87)
fernando_lamoyi = extract_info('22410395', 'read', 104)
cova_sv = extract_info('72222895', 'read', 52)
mario_carballo = extract_info('18141767', 'read', 142)  
andrea_raisman = extract_info('63716476', 'read', 416)
vanessa_romero = extract_info('16421531', 'read', 96)  
maria_lama = extract_info('68889321', 'read', 137)

Status code:  200
Status code:  200
Status code:  200
Status code:  200
Status code:  200
Status code:  200
Status code:  200
Status code:  200
Status code:  200


In [6]:
# Información de tres personas a las que sigue
eduardo_rosas = extract_info('51214176', 'read', 158)  
stefan_schubert = extract_info('27953287', 'read', 142)
bill_gates = extract_info('23470', 'read', 228)

Status code:  200
Status code:  200
Status code:  200
Status code:  200


In [7]:
# Usuarios con forbidden access (para una versión posterior).
# srdjan_miletic = extract_info('11055732', 'read', 350)  
# pablo_staforini = extract_info('3093249', 'read', 1846)
# alvaro_migoya = extract_info('57665930', 'read', 63)  

Transformemos ahora la información a bases de datos en pandas:

In [8]:
data_francisco = pd.DataFrame(francisco_galan)
data_nicolas = pd.DataFrame(nicolas_papa)
data_fernando = pd.DataFrame(fernando_lamoyi)
data_cova_sv = pd.DataFrame(cova_sv)
data_mario = pd.DataFrame(mario_carballo)
data_andrea = pd.DataFrame(andrea_raisman)
data_vanessa = pd.DataFrame(vanessa_romero)
data_maria = pd.DataFrame(maria_lama)
data_eduardo = pd.DataFrame(eduardo_rosas)
data_stefan = pd.DataFrame(stefan_schubert)
data_bill = pd.DataFrame(bill_gates)

Ejemplo:

In [9]:
data_francisco.head(3)

Unnamed: 0,user_id,shelf,isbn,title,author,num_pages,publication_year,publisher,my_rating,average_rating,ratings_count,links
0,40732498,read,,1984,George Orwell,328,1950,New American Library,4,4.19,3278939,www.goodreads.com/book/show/5470.1984
1,40732498,read,451457994.0,"2001: A Space Odyssey (Space Odyssey, #1)",Arthur C. Clarke,297,2000,Roc,3,4.15,266673,www.goodreads.com/book/show/70535.2001
2,40732498,read,307465357.0,"The 4-Hour Workweek: Escape 9-5, Live Anywhere...",Timothy Ferriss,396,2009,Harmony,3,3.9,198044,www.goodreads.com/book/show/6444424-the-4-hour...


## II. Unir múltiples bases de datos en una sola

### 2.1 Crear columna con el score de cada persona

Al momento de unir las bases de datos, la columna `my_rating` se va a repetir en todas las bases de datos. Por ello, conviene cambiarle el nombre según el usuario.

In [10]:
# Crear listas con nombres de contactos, datasets y nombres de las columnas.
contactos = ['francisco', 'nicolas', 'fernando', 'cova', 'mario', 'andrea', 'vanessa', 'maria', 'eduardo', 'stefan', 'bill']
data_contactos = [data_francisco, data_nicolas, data_fernando, data_cova_sv, data_mario, data_andrea, data_vanessa, data_maria, data_eduardo, data_stefan ,data_bill]
columnas_rating = [x + '_rating' for x in contactos]

In [11]:
# Modificar el nombre de las columnas en los datasets respectivos.
n = -1
for contacto in data_contactos:
    n += 1
    new_name = columnas_rating[n]
    contacto.rename(columns={'my_rating': new_name}, inplace=True)

In [12]:
# Checar que funcionó
print(data_vanessa.columns)

Index(['user_id', 'shelf', 'isbn', 'title', 'author', 'num_pages',
       'publication_year', 'publisher', 'vanessa_rating', 'average_rating',
       'ratings_count', 'links'],
      dtype='object')


En este caso, la nueva columna es `vanessa_rating`, por lo que el cambio fue exitoso.

### 2.2 Quitar columnas irrelevantes

In [13]:
# Enlistar las columnas que no me interesan.
columnas_irrelevantes = ['isbn', 'user_id', 'shelf', 'publisher', 'links', 'num_pages', 'publication_year', 'ratings_count']

In [14]:
# Quitar columnas irrelevantes en los datasets respectivos.
for contacto in data_contactos:
    for columna in columnas_irrelevantes:
        del contacto[columna]

Ejemplo: 

In [15]:
data_vanessa.head(3)

Unnamed: 0,title,author,vanessa_rating,average_rating
0,La hija única,Guadalupe Nettel,2,4.22
1,1984,George Orwell,5,4.19
2,21 Lessons for the 21st Century,Yuval Noah Harari,5,4.16


### 2.3 Unir datasets

In [16]:
# Combinar todos los datasets en uno solo
data_total = data_francisco.copy()

for dataset in data_contactos[1:]:
    data_total = data_total.merge(dataset, how="outer", on=['title', 'author', 'average_rating'])

In [17]:
# Checar que se unieron.
data_total.head(3)

Unnamed: 0,title,author,francisco_rating,average_rating,nicolas_rating,fernando_rating,cova_rating,mario_rating,andrea_rating,vanessa_rating,maria_rating,eduardo_rating,stefan_rating,bill_rating
0,1984,George Orwell,4,4.19,4.0,4.0,,4.0,4.0,5.0,4.0,,,2.0
1,"2001: A Space Odyssey (Space Odyssey, #1)",Arthur C. Clarke,3,4.15,,,,,,,,,,
2,"The 4-Hour Workweek: Escape 9-5, Live Anywhere...",Timothy Ferriss,3,3.9,,,,,,,,,,


### 2.4 Eliminar duplicados

Hay algunos libros que están repetidos porque varía ligeramente el nombre del libro. Ejemplo:

In [18]:
match = "How to Win"
data_total.loc[data_total['title'].str.match(match), :]

Unnamed: 0,title,author,francisco_rating,average_rating,nicolas_rating,fernando_rating,cova_rating,mario_rating,andrea_rating,vanessa_rating,maria_rating,eduardo_rating,stefan_rating,bill_rating
119,How to Win Friends & Influence People,Dale Carnegie,3.0,4.21,,,,,,,,,,
314,How to Win Friends and Influence People,Dale Carnegie,,4.21,4.0,,,,,,,,3.0,


A continuación, identificamos los libros duplicados, fusionamos las calificaciones de los usuarios en una misma fila y eliminamos la fila duplicada. 

In [19]:
# Creando un dataset de copia para experimentar con la función de duplicados.
data_test = data_total.copy()
data_test.shape

(1595, 14)

In [20]:
def clean_title(title):  

    """Arroja un título limpio para facilitar la comparación"""
    
    #Vi que todo lo que viene después de dos puntos o punto puede variar, aun si se trata del mismo libro.
    # Por ello, solo seleccionamos lo que viene antes de esos caracteres.
    clean = re.split(r':', title)[0]
    
    # Limpiamos el string restante
    clean = title.strip().lower()
    clean = clean.replace('&', 'and')
    caracteres_especiales = [',', '#', '(', ')']
    for caracter in caracteres_especiales:
        clean = clean.replace(f'{caracter}', '')
    
    return clean


In [21]:
# Seleccionar una fila
row_num = 0
for i in range(len(data_test)):
    row_num += 1 
        
    # Seleccionar la fila contra la que se va a comparar. 
    for x in range(row_num, len(data_test)):
            
        # Verificar que la fila seleccionada y la otra sí existen, pues pudieron haber sido eliminadas.
        if (i in data_test.index) & (x in data_test.index):
                
            # Verificar si hay un match
            original = data_test.loc[i, 'title']
            otro_libro = data_test.loc[x, 'title']
                
            #Limpiar el título de los libros para la comparación. 
            original_clean = clean_title(original)
            otro_libro_clean = clean_title(otro_libro)
                
            if original_clean == otro_libro_clean:
                print(f'\nBook: {original}')
                print(f'Match | Row: {i} , Row: {x}')
                
                # Tomar todos los ratings de otros usuarios que haya en la fila duplicada e incorporarlos a la fila original
                for usuario in columnas_rating[1:]:
                    if pd.notnull(data_test.loc[x, usuario]):
                        data_test.loc[i, usuario] = data_test.loc[x, usuario]
                        print(f'Usuario: {usuario} | Score: {data_test.loc[x, usuario]}')
                        
                #Eliminar la columna duplicada
                data_test.drop(x, axis=0, inplace=True)


Book: El Alquimista
Match | Row: 8 , Row: 451
Usuario: cova_rating | Score: 0

Book: Cuentos
Match | Row: 45 , Row: 668
Usuario: andrea_rating | Score: 3

Book: How to Win Friends & Influence People
Match | Row: 119 , Row: 314
Usuario: nicolas_rating | Score: 4
Usuario: stefan_rating | Score: 3

Book: Nudge: Improving Decisions About Health, Wealth, and Happiness
Match | Row: 171 , Row: 172
Usuario: fernando_rating | Score: 3
Usuario: stefan_rating | Score: 4

Book: Viaje Al Centro de La Tierra
Match | Row: 255 , Row: 935
Usuario: andrea_rating | Score: 4

Book: Born a Crime: Stories from a South African Childhood
Match | Row: 286 , Row: 371
Usuario: fernando_rating | Score: 5

Book: The Gene: An Intimate History
Match | Row: 391 , Row: 392
Usuario: fernando_rating | Score: 5

Book: Ready Player One (Ready Player One, #1)
Match | Row: 426 , Row: 427
Usuario: fernando_rating | Score: 0
Usuario: mario_rating | Score: 4

Book: Sapiens: A Brief History of Humankind
Match | Row: 432 , Row:

Checando que sí funcionó:

In [22]:
data_test.iloc[[119], :]

Unnamed: 0,title,author,francisco_rating,average_rating,nicolas_rating,fernando_rating,cova_rating,mario_rating,andrea_rating,vanessa_rating,maria_rating,eduardo_rating,stefan_rating,bill_rating
119,How to Win Friends & Influence People,Dale Carnegie,3,4.21,4,,,,,,,,3,


In [23]:
data_test.shape

(1580, 14)

### 2.5 Reiniciar índices

In [24]:
data_test = data_test.reset_index(drop=True)

### 2.6 Cambiar tipo de datos

Algunas columnas numéricas están como `object`, así que pasémoslas a un formato adecuado:

In [25]:
data_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1580 entries, 0 to 1579
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   title             1580 non-null   object
 1   author            1580 non-null   object
 2   francisco_rating  277 non-null    object
 3   average_rating    1580 non-null   object
 4   nicolas_rating    88 non-null     object
 5   fernando_rating   100 non-null    object
 6   cova_rating       52 non-null     object
 7   mario_rating      141 non-null    object
 8   andrea_rating     415 non-null    object
 9   vanessa_rating    96 non-null     object
 10  maria_rating      136 non-null    object
 11  eduardo_rating    158 non-null    object
 12  stefan_rating     142 non-null    object
 13  bill_rating       249 non-null    object
dtypes: object(14)
memory usage: 172.9+ KB


In [26]:
columnas = list(data_test.columns)
for columna in columnas[2:]:
    data_test[columna] = data_test[columna].astype('float')

In [27]:
data_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1580 entries, 0 to 1579
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   title             1580 non-null   object 
 1   author            1580 non-null   object 
 2   francisco_rating  277 non-null    float64
 3   average_rating    1580 non-null   float64
 4   nicolas_rating    88 non-null     float64
 5   fernando_rating   100 non-null    float64
 6   cova_rating       52 non-null     float64
 7   mario_rating      141 non-null    float64
 8   andrea_rating     415 non-null    float64
 9   vanessa_rating    96 non-null     float64
 10  maria_rating      136 non-null    float64
 11  eduardo_rating    158 non-null    float64
 12  stefan_rating     142 non-null    float64
 13  bill_rating       249 non-null    float64
dtypes: float64(12), object(2)
memory usage: 172.9+ KB


### 2.7 Obtener dataset adicional con libros no leídos del usuario

Usaremos este dataset para uno de los pasos finales en el recomendador de libros. 

In [28]:
data_por_leer = data_test.copy()
data_por_leer.shape

(1580, 14)

In [29]:
for i in range(len(data_por_leer)):
        
    #Checar si la fila todavía existe
    if i in data_test.index:
    
        # Checar si el usuario ya leyó el libro:
        if pd.notnull(data_por_leer.loc[i, 'francisco_rating']):
            data_por_leer.drop(i, axis=0, inplace=True)

In [30]:
data_por_leer = data_por_leer.reset_index(drop=True)

In [31]:
data_por_leer.shape

(1303, 14)

In [32]:
data_por_leer.head(3)

Unnamed: 0,title,author,francisco_rating,average_rating,nicolas_rating,fernando_rating,cova_rating,mario_rating,andrea_rating,vanessa_rating,maria_rating,eduardo_rating,stefan_rating,bill_rating
0,21 Lessons for the 21st Century,Yuval Noah Harari,,4.16,3.0,,,,,5.0,2.0,,,
1,After Europe,Ivan Krastev,,4.13,4.0,,,,,,,,,
2,"Altered Carbon (Takeshi Kovacs, #1)",Richard K. Morgan,,4.05,3.0,,,,,,,,,


### 2.8 Limpiar valores de cero en las columnas

Hay veces en que un usuario lee un libro pero no le pone calificación. En esos casos, Goodreads le asigna un valor de cero al rating. Ejemplo:

In [33]:
data_test['francisco_rating'].value_counts()

3.0    101
2.0     67
4.0     57
5.0     24
1.0     20
0.0      8
Name: francisco_rating, dtype: int64

Mejor, cambiemos esos valores de cero a NaN para que no alteren otros cálculos:

In [34]:
data = data_test.copy()

In [35]:
for columna in columnas[2:]:
    data[columna] = data[columna].replace(0, np.NaN)
    
for columna in columnas[2:]:
    data_por_leer[columna] = data_por_leer[columna].replace(0, np.NaN)

In [36]:
data['francisco_rating'].value_counts()

3.0    101
2.0     67
4.0     57
5.0     24
1.0     20
Name: francisco_rating, dtype: int64

In [37]:
data_por_leer['fernando_rating'].value_counts()

4.0    33
3.0    21
5.0    20
2.0     3
Name: fernando_rating, dtype: int64

## III. Elaborar sistema de recomendaciones

### 3.1 Obtener correlación con cada contacto

In [38]:
data_corr = data.copy()
data_corr = data_corr.drop(['author'], axis=1)

In [39]:
corr_matrix = data_corr.corr()
corr_matrix

Unnamed: 0,francisco_rating,average_rating,nicolas_rating,fernando_rating,cova_rating,mario_rating,andrea_rating,vanessa_rating,maria_rating,eduardo_rating,stefan_rating,bill_rating
francisco_rating,1.0,0.275385,0.142857,-0.29364,,,0.316139,1.0,-0.291748,0.461538,-0.244444,-0.555556
average_rating,0.275385,1.0,0.578669,0.267712,0.411053,0.446408,0.345828,0.072917,0.229372,0.31303,0.374527,0.460766
nicolas_rating,0.142857,0.578669,1.0,0.333333,,,0.176777,,0.158777,-0.27735,,
fernando_rating,-0.29364,0.267712,0.333333,1.0,,0.217407,0.0,0.327327,-0.733799,0.0,,-0.101015
cova_rating,,0.411053,,,1.0,,,,,,,
mario_rating,,0.446408,,0.217407,,1.0,-0.183186,,,-0.405465,,
andrea_rating,0.316139,0.345828,0.176777,0.0,,-0.183186,1.0,-0.456435,-0.10692,,0.316228,0.428174
vanessa_rating,1.0,0.072917,,0.327327,,,-0.456435,1.0,0.522233,,,-0.866025
maria_rating,-0.291748,0.229372,0.158777,-0.733799,,,-0.10692,0.522233,1.0,-0.57735,-0.205652,
eduardo_rating,0.461538,0.31303,-0.27735,0.0,,-0.405465,,,-0.57735,1.0,-0.210042,


In [40]:
corr_matrix['francisco_rating'].reset_index(level=0)

Unnamed: 0,index,francisco_rating
0,francisco_rating,1.0
1,average_rating,0.275385
2,nicolas_rating,0.142857
3,fernando_rating,-0.29364
4,cova_rating,
5,mario_rating,
6,andrea_rating,0.316139
7,vanessa_rating,1.0
8,maria_rating,-0.291748
9,eduardo_rating,0.461538


In [41]:
# Pasar las correlaciones del usuario 'Francisco Galán' a un solo dataframe
correlaciones = corr_matrix['francisco_rating']
correlaciones = correlaciones.drop('francisco_rating', axis=0)
correlaciones = correlaciones.reset_index(level=0)
correlaciones = correlaciones.reset_index(drop=True)
correlaciones = correlaciones.rename(columns={'index': 'usuario', 'francisco_rating': 'corr'})
correlaciones

Unnamed: 0,usuario,corr
0,average_rating,0.275385
1,nicolas_rating,0.142857
2,fernando_rating,-0.29364
3,cova_rating,
4,mario_rating,
5,andrea_rating,0.316139
6,vanessa_rating,1.0
7,maria_rating,-0.291748
8,eduardo_rating,0.461538
9,stefan_rating,-0.244444


Los valores `NaN` son probablemente usuario con los que no tengo ningún libro en común. En tal caso, démosle una correlación de cero a esos usuarios:

In [42]:
correlaciones = correlaciones.fillna(0)
correlaciones

Unnamed: 0,usuario,corr
0,average_rating,0.275385
1,nicolas_rating,0.142857
2,fernando_rating,-0.29364
3,cova_rating,0.0
4,mario_rating,0.0
5,andrea_rating,0.316139
6,vanessa_rating,1.0
7,maria_rating,-0.291748
8,eduardo_rating,0.461538
9,stefan_rating,-0.244444


### 3.2 Estandarizar ratings

Al calificar, cada usuario tiene un estándar de qué es un buen libro y qué es un mal libro, y esta percepción no siempre coincide con una clasificación numérica. Por esa razón, conviene ver qué usuarios tienden a calificar más alto y quiénes, más bajo. 

In [43]:
avg_rating = data_corr.describe().T[['mean', 'std']][1:]
avg_rating = avg_rating.reset_index(level=0).rename(columns={'index': 'usuario'})
avg_rating

Unnamed: 0,usuario,mean,std
0,average_rating,3.96398,0.30538
1,nicolas_rating,3.816092,0.994505
2,fernando_rating,3.91954,0.865601
3,cova_rating,4.842105,0.50146
4,mario_rating,3.965517,0.93594
5,andrea_rating,3.757282,0.856815
6,vanessa_rating,3.810811,1.081294
7,maria_rating,3.343511,0.926291
8,eduardo_rating,4.11465,1.031356
9,stefan_rating,3.721429,0.814154


Ahora bien, para ajustar cada rating según el promedio de un usuario, podemos suponer que la distribución de sus ratings se distribuye de manera normal. Bajo este supuesto, podemos inferir a cuántas desviaciones estándar se encuentra un rating de la media (z-score). Al hacerlo, es posible estandarizar las distribuciones de calificaciones de todos los usuarios y compararlas entre sí:

In [44]:
def weighted_rating(columna_contacto, rating):

    """Ajusta un determinado rating según el rating promedio del usuario"""
    
    #Definir variables
    media = float(avg_rating.loc[avg_rating['usuario'] == columna_contacto, 'mean'])
    std = float(avg_rating.loc[avg_rating['usuario'] == columna_contacto, 'mean'])
    
    #Calcular z-score
    z_score = (rating - media) / std 
    
    # 
    weighted_rating = (rating + z_score) / rating
    return weighted_rating

Ejemplo:

In [45]:
weighted_rating('fernando_rating', 5)

1.0551319648093842

### 3.3 Ajustar el rating según las correlaciones

Tomemos ahora el puntaje ajustado de cada contacto y calibrémoslo según la correlación que hay con cada respectivo contacto.

In [46]:
def correlation_weighted(columna_contacto, rating):  
    
    """Ajusta el weighted_rating de un contacto según la correlación que hubo"""
    
    #Checar si se pasó un rating nulo
    if np.isnan(rating):
        return 0
    
    else: 
        #Definir variables
        w_rating = weighted_rating(columna_contacto, rating)
        correlacion = correlaciones.loc[correlaciones['usuario'] == columna_contacto, 'corr']
        
        # Sacar el weighted_rating ajustado por correlación
        correlation_weighted = w_rating * correlacion
              
        return float(correlation_weighted)

Ejemplo:

In [47]:
correlation_weighted('average_rating', 1)

0.06947175592482899

### 3.4 Score de recomendación por libro

Ahora que ya tenemos todas nuestras funciones de ajuste, calculemos el score de recomendación para un libro:

In [48]:
def score_de_recomendacion(fila):
    
    """Arroja el score de recomendación de un libro"""
    
    columnas_contactos = list(data_por_leer.columns)[3:]
    score = 0
    
    for contacto in columnas_contactos:
        x = data_por_leer.loc[fila, contacto]
        x = correlation_weighted(contacto, x)
        score += x
        
    return score

Ejemplo:

In [49]:
score_de_recomendacion(298)

0.2768601822516058

### 3.5 Scores de recomendación de todos los libros

In [50]:
columnas_contactos = list(data_por_leer.columns)[3:]
data_final = data_por_leer.copy()

In [51]:
for i in range(0, len(data_final)):
    data_final.loc[i, 'score_de_recomendacion'] = score_de_recomendacion(i)

In [52]:
data_final.head(3)

Unnamed: 0,title,author,francisco_rating,average_rating,nicolas_rating,fernando_rating,cova_rating,mario_rating,andrea_rating,vanessa_rating,maria_rating,eduardo_rating,stefan_rating,bill_rating,score_de_recomendacion
0,21 Lessons for the 21st Century,Yuval Noah Harari,,4.16,3.0,,,,,5.0,2.0,,,,1.240611
1,After Europe,Ivan Krastev,,4.13,4.0,,,,,,,,,,0.422756
2,"Altered Carbon (Takeshi Kovacs, #1)",Richard K. Morgan,,4.05,3.0,,,,,,,,,,0.409534


## IV. Veredicto final

In [53]:
top_5 = data_final.sort_values(by='score_de_recomendacion', ascending=False).head()
top_5

Unnamed: 0,title,author,francisco_rating,average_rating,nicolas_rating,fernando_rating,cova_rating,mario_rating,andrea_rating,vanessa_rating,maria_rating,eduardo_rating,stefan_rating,bill_rating,score_de_recomendacion
423,Frankenstein: The 1818 Text,Mary Wollstonecraft Shelley,,3.82,,,,,5.0,5.0,,,,,1.672229
52,Normal People,Sally Rooney,,3.86,2.0,,,,,5.0,,,,,1.444789
697,Las mujeres que luchan se encuentran: Manual d...,Catalina Ruiz-Navarro,,4.52,,,,,,5.0,,,,,1.346342
709,Nuestra parte de noche,Mariana Enríquez,,4.51,,,,,,5.0,,,,,1.346207
728,Tell Me How It Ends: An Essay in Forty Questions,Valeria Luiselli,,4.43,,,,,,5.0,,,,,1.345104


En conclusión, según el sistema de recomendación, los cinco libros que debería leer, en ese orden, son estos:

In [55]:
for i in range(len(top_5)):
    libro = top_5.iloc[i, 0]
    autor = top_5.iloc[i, 1]
    print(f"- {i+1}: {libro} - {autor}")

- 1: Frankenstein: The 1818 Text - Mary Wollstonecraft Shelley
- 2: Normal People - Sally Rooney
- 3: Las mujeres que luchan se encuentran: Manual de feminismo pop latinoamericano - Catalina Ruiz-Navarro
- 4: Nuestra parte de noche - Mariana Enríquez
- 5: Tell Me How It Ends: An Essay in Forty Questions - Valeria Luiselli
