In [23]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import ipywidgets as widgets
from IPython.display import display, clear_output

Lo primero es importar los datos con información de libros para poder generar el dataset que usaremos para el sistema de recomendación. A su vez añado una nueva columna con el valor "Score" que tiene en cuenta las valoraciones de la gente y el número de valoraciones realizadas (mediante la media IMDB): *CAMBIAR DIRECCIÓN DEL FICHERO CSV

In [24]:
datos_libros_base=pd.read_csv('/Users/adri/downloads/Goodreads_books_with_genres.csv')
d=datos_libros_base.copy()
corte_votos= d['ratings_count'].quantile(0.5)
b= d[d.ratings_count >= corte_votos]
media = b.average_rating.mean()
media

def media_imdb(x, m=corte_votos, C=media):
    v = x['ratings_count']
    R = x['average_rating']
    # Calculamos el weighted score
    return round((R*v + C*m) / (v+m),2)
b['score']=b.apply(media_imdb,axis=1)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  b['score']=b.apply(media_imdb,axis=1)


Procedo a realizar una limpieza de los datos con la finalidad de que no hayan problemas a la hora de emplear el sistema de recomendación. Cada una de las razones por las que decido aplicar estos cambios/filtros al dataset viene explicado junto al comando:

In [25]:
b.dropna(subset=['genres'], inplace=True)
b = b[b['num_pages'] != 0] #Eliminar aquellos libros que aparezca 0 paginas
b = b[b['ratings_count'] != 0] #Eliminar aquellos libros sin valoraciones
b = b[b['language_code'] == 'eng'] #Solo libros en lengua inglesa
b['Author']=b['Author'].str.split('/').str[0] #Tomar solo el escritor de los libros
b['Title'] = b['Title'].str.lower()
b['Author'] = b['Author'].str.lower()

# Luego, elimina los duplicados
b = b.drop_duplicates(subset=['Title', 'Author']) #Eliminar aquellos libros cuyo titulo y autor sea identico

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  b.dropna(subset=['genres'], inplace=True)


Puesto que el dataset del que dispongo la información más relevante para poder realizar las recomendaciones es el género de los libros y su autor, voy a emplear un algoritmo basado en el contenido, empleando CountVectorizer. De haber tenido acceso a la sinopsis de los libros, habría podido emplear otro tipo de recomendadores que estuvieran basados en esta para encontrar mayor similitud entre los libros.

In [26]:
count = CountVectorizer()

count_matrix = count.fit_transform(b['genres'])
similitud_coseno = cosine_similarity(count_matrix, count_matrix)
indices = b.reset_index(drop=True)
indices = pd.Series(indices.index, index=b['Title'])

Ahora que ya esta calculada la similitud del coseno voy a definir una serie de funciones para poder realizar las recomendaciones. La primera función esta pensada para que el usuario ponga el título de un libro y el sistema le recomiende títulos que tengan una temática similar. He añadido unas lineas de código para que el sistema encuentre algún título similar en caso de que no coincida exactamente con ninguno del dataframe. En caso de no haber coincidencias el sistema informará de que el título no se encuentra en el dataframe:

In [27]:
def content_recommender(title, cosine_sim=similitud_coseno, df=b, indices=indices):
    # Busca el índice del libro que contiene el título dado (sin importar mayúsculas/minúsculas)
    try:
        id_ = next(index for index, book_title in enumerate(df['Title']) if title.lower() in book_title.lower())
    except StopIteration:
        print("El título proporcionado no se encuentra en el DataFrame.")
        return None

    # Obtén las puntuaciones de similitud para el libro seleccionado
    scores = list(enumerate(cosine_sim[id_]))

    # Ordena las puntuaciones en orden descendente
    scores = sorted(scores, key=lambda x: x[1], reverse=True)

    # Toma los 20 libros más similares (excluyendo el libro en sí mismo)
    scores = scores[0:20]

    # Obtén los índices de los libros recomendados
    indices = [i[0] for i in scores]

    # Obtener los libros recomendados con títulos y otras columnas
    recommended = df.iloc[indices][['Title', 'genres', 'Author', 'score']].reset_index(drop=True)

    # Limitar la columna 'genres' a los primeros 5 géneros
    def limit_genres(genres):
        genres_list = genres.split(';')
        return ';'.join(genres_list[:5])

    recommended['genres'] = recommended['genres'].apply(limit_genres)

    return recommended


 Repetimos el proceso pero para que se realice a partir del nombre del autor. Puesto que no tengo acceso a la sinopsis de los libros, la similitud se realizará en función del género que suele escribir el autor, recomendando libros con género similar:

In [28]:
def content_recommender2(Author, cosine_sim=similitud_coseno, df=b, indices=indices):
    # Busca el índice del libro que contiene el título dado (sin importar mayúsculas/minúsculas)
    try:
        id_ = next(index for index, book_title in enumerate(df['Author']) if Author.lower() in book_title.lower())
    except StopIteration:
        print("El autor proporcionado no se encuentra en el DataFrame.")
        return None

    # Obtén las puntuaciones de similitud para el libro seleccionado
    scores = list(enumerate(cosine_sim[id_]))

    # Ordena las puntuaciones en orden descendente
    scores = sorted(scores, key=lambda x: x[1], reverse=True)

    # Toma los 20 libros más similares (excluyendo el libro en sí mismo)
    scores = scores[0:20]

    # Obtén los índices de los libros recomendados
    indices = [i[0] for i in scores]

    # Obtener los libros recomendados con títulos y otras columnas
    recommended2 = df.iloc[indices][['Title', 'genres', 'Author', 'score']].reset_index(drop=True)

    # Limitar la columna 'genres' a los primeros 5 géneros
    def limit_genres(genres):
        genres_list = genres.split(';')
        return ';'.join(genres_list[:5])

    recommended2['genres'] = recommended2['genres'].apply(limit_genres)

    return recommended2

Por último, realizamos una serie de botones que nos permitan decidir bajo que aspecto queremos recibir las recomendaciones y de que manera queremos que se muestren los datos. Para este caso he considerado relevante que se muestre por pantalla el título de la obra, el género, su autor, el score de esta y la cantidad de valoraciones:

In [29]:
def show_input_fields(button):
    clear_output(wait=True)  # Limpia la salida anterior

    # Muestra el widget de entrada correspondiente y su botón
    if button.description == "Autor":
        display(author_input)
        display(submit_author_button)
    elif button.description == "Género":
        display(genre_input)
        display(submit_genre_button)
    elif button.description == "Libro similar":
        display(libro_input)
        display(submit_libro_button)
    
    # Mostrar los botones para elegir entre Autor, Género o libro
    display(button_author)
    display(button_genre)
    display(button_libro)

def show_recommendations(button):
    clear_output(wait=True)  # Limpia la salida anterior
    
    if button.description == "Buscar Autor":
        author_name = author_input.value  # Obtén el valor de la entrada del autor
        recommended2 = content_recommender2(author_name)
        if recommended2 is not None:
            display(recommended2)
            
    elif button.description == "Buscar Género":
        genre_name = genre_input.value  # Obtén el valor de la entrada del género
        genre_books = b[b['genres'].str.contains(genre_name, case=False, na=False)]
        recommended_books = genre_books.sort_values('score', ascending=False).head(20)
        
        def limit_genres(genres):
            genres_list = genres.split(';')
            return ';'.join(genres_list[:5])

        recommended_books['genres'] = recommended_books['genres'].apply(limit_genres)
        result = recommended_books[['Title', 'genres', 'Author', 'score', 'ratings_count']].reset_index(drop=True)
        
        # Mostrar los resultados
        display(result)

        # Guardar los resultados globalmente para que se puedan acceder en la función de ordenar
        global nombreoriginal
        nombreoriginal = genre_name

        # Mostrar el botón de ordenar por popularidad
        display(sort_by_popularity_button)
    
    elif button.description == "Buscar por libro":
        libro_name = libro_input.value  # Obtén el valor de la entrada del libro
        recommended = content_recommender(libro_name)
        if recommended is not None:
            display(recommended)
        
    # Volver a mostrar los botones de selección
    display(button_author)
    display(button_genre)
    display(button_libro)

def sort_by_popularity(button):
    clear_output(wait=True)  # Limpia la salida anterior
    genre_name = nombreoriginal  # Obtén el valor de la entrada del género
    genre_books = b[b['genres'].str.contains(genre_name, case=False, na=False)]
    recommended_books = genre_books.sort_values('ratings_count', ascending=False).head(20)
        
    def limit_genres(genres):
        genres_list = genres.split(';')
        return ';'.join(genres_list[:5])

    recommended_books['genres'] = recommended_books['genres'].apply(limit_genres)
    result2 = recommended_books[['Title', 'genres', 'Author', 'score', 'ratings_count']].reset_index(drop=True)
    
    
    # Mostrar los resultados ordenados
    display(result2)

    # Volver a mostrar los botones de selección
    display(button_author)
    display(button_genre)
    display(button_libro)

# Crear widgets de entrada para autor, género y libro
author_input = widgets.Text(description="Autor:")
genre_input = widgets.Text(description="Género:")
libro_input = widgets.Text(description="Libro:")

# Crear los botones para seleccionar Autor, Género o Libro
button_author = widgets.Button(description="Autor")
button_genre = widgets.Button(description="Género")
button_libro = widgets.Button(description="Libro similar")

# Crear los botones de búsqueda
submit_author_button = widgets.Button(description="Buscar Autor")
submit_genre_button = widgets.Button(description="Buscar Género")
submit_libro_button = widgets.Button(description="Buscar por libro")

# Crear el botón para ordenar por popularidad
sort_by_popularity_button = widgets.Button(description="Ordenar por popularidad")

# Asignar las funciones a los botones
button_author.on_click(show_input_fields)
button_genre.on_click(show_input_fields)
button_libro.on_click(show_input_fields)
submit_author_button.on_click(show_recommendations)
submit_genre_button.on_click(show_recommendations)
submit_libro_button.on_click(show_recommendations)
sort_by_popularity_button.on_click(sort_by_popularity)

# Mostrar solo los botones de selección al inicio
display(button_author)
display(button_genre)
display(button_libro)


Text(value='Horror;Fiction;Fantasy', description='Género:')

Button(description='Buscar Género', style=ButtonStyle())

Button(description='Autor', style=ButtonStyle())

Button(description='Género', style=ButtonStyle())

Button(description='Libro similar', style=ButtonStyle())

Para poder emplear el sistema por "Libro similar" es necesario que los títulos de las obras estén en inglés. Para poder emplear la pestaña "Género" es necesario ponerlo en inglés. Si se desea añadir más de un género debe realizarse de la siguiente manera: Horror;Fiction;Fantasy