## Sistema de Recomendação de Livros  

### 1. Introdução

Sistemas de recomendação são ferramentas que ajudam as pessoas a encontrar itens que possam ser do seu interesse, com base em suas preferências e histórico de comportamento. Esses sistemas são usados em diversos contextos, desde lojas online até serviços de streaming de música e vídeo. Um exemplo comum é o sistema de recomendação de livros, que sugere títulos com base em livros que uma pessoa já leu e gostou. Por exemplo, se uma pessoa leu e gostou de "O Hobbit", o sistema pode recomendar outros livros de fantasia, como "As Crônicas de Nárnia" ou "O Senhor dos Anéis". Esse tipo de sistema é muito útil para ajudar as pessoas a descobrir novos livros que possam ser interessantes para elas, especialmente quando há muitas opções disponíveis.

### 2. Definição técnica

Do ponto de vista do aprendizado de máquina, sistemas de recomendação são geralmente construídos utilizando algoritmos de aprendizado supervisionado ou não supervisionado. O objetivo é criar um modelo que possa aprender a partir dos dados históricos dos usuários e gerar previsões sobre os itens que possam ser do interesse deles.

No caso de livros, por exemplo, o modelo pode ser treinado com base em dados de histórico de leitura e avaliações de usuários. A partir desses dados, o modelo pode identificar padrões e relações entre livros e criar um perfil de preferência para cada usuário. Com base nesses perfis, o modelo pode recomendar novos livros que possam agradar a cada usuário individualmente.

Existem diversos algoritmos de aprendizado de máquina que podem ser usados para construir sistemas de recomendação, como a filtragem colaborativa, a decomposição de valores singulares (SVD) e as redes neurais. Cada algoritmo tem suas vantagens e desvantagens, e a escolha do melhor algoritmo para um determinado problema depende das características do conjunto de dados e dos requisitos do sistema de recomendação.

Para o caso da nossa aplicação, iremos utilizar o KNN de maneira não supervisionada,ou seja, treinar features e conseguir determinar clusters para definir gostos semelhantes ao do usuário.

### 3. Objetivo

O objetivo principal de um sistema de recomendação de livros é ajudar os usuários a descobrir novos livros que possam ser do seu interesse, com base em suas preferências e histórico de comportamento. Essa ferramenta é muito útil para ajudar as pessoas a superar o problema da sobrecarga de informação, que acontece quando há muitas opções disponíveis e é difícil escolher qual livro ler em seguida.

Além disso, o sistema de recomendação de livros pode ajudar a melhorar a experiência do usuário em uma loja online de livros, por exemplo, aumentando as chances de uma compra ser realizada. Quando os usuários se sentem bem atendidos por um sistema de recomendação que apresenta livros de acordo com suas preferências, eles podem se sentir mais inclinados a explorar a loja e a fazer compras adicionais.

Outro objetivo importante do sistema de recomendação de livros é ajudar a loja a melhorar suas estratégias de marketing, identificando tendências de compra e de interesse do público. Com as informações geradas pelo sistema de recomendação, a loja pode entender melhor as preferências e necessidades dos seus clientes e ajustar seu estoque e estratégias de marketing para atendê-las.

### 4. Aplicações

Existem diversas aplicações práticas do sistema de recomendação de livros, principalmente em lojas online de livros e bibliotecas digitais. Algumas das principais aplicações são:
<div>
    <li> Recomendação personalizada de livros: o sistema de recomendação pode sugerir livros com base no histórico de leitura do usuário, suas avaliações e suas preferências. Dessa forma, o usuário pode descobrir novos livros que se encaixem em seu perfil de leitura.

<li> Listas de livros recomendados: a loja online de livros pode criar listas de livros recomendados com base em temas específicos ou em tendências de mercado. Essas listas podem ser uma fonte de inspiração para os usuários que desejam explorar novos títulos.

<li> Sistemas de classificação e avaliação: o sistema de recomendação pode ajudar os usuários a avaliar livros e a compartilhar suas opiniões com outros leitores. Dessa forma, é possível criar um ambiente de discussão e interação em torno dos livros, o que pode incentivar ainda mais as compras.

<li> Análise de dados e tendências: a loja online de livros pode usar os dados gerados pelo sistema de recomendação para entender melhor as tendências de mercado e as preferências dos usuários. Com essa informação, a loja pode ajustar seu estoque e sua estratégia de marketing para atender melhor as necessidades dos seus clientes.

</div>



### 5 Máquina preditiva

Com base nas escolhas de outras pessoas que leram o mesmo livro, o sistema de recomendação pode prever se um usuário vai gostar ou não de um determinado livro. Para isso, o sistema de recomendação pode usar um modelo de aprendizado de máquina que aprenda a partir dos dados históricos dos usuários e gere previsões sobre os livros que possam ser do interesse deles.

### 6. Reflexão

<li> Se você receber uma recomendação certeira, a chance de você comprar o livro é muito maior. Por isso, é importante que o sistema de recomendação seja preciso e confiável.
<li>Se mais pessoas comprarem, maior será o fafturamento da empresa?
<li> O sistema de recomendação pode ajudar a melhorar a experiência do usuário em uma loja online de livros, por exemplo, aumentando as chances de uma compra ser realizada. Quando os usuários se sentem bem atendidos por um sistema de recomendação que apresenta livros de acordo com suas preferências, eles podem se sentir mais inclinados a explorar a loja e a fazer compras adicionais.

### 7.Nosso dataset

#### 7.1. Descrição do dataset

O dataset Book Recommender System foi criado por Ahmadullah Siddiqui e está disponível no Kaggle. O dataset contém dados de 271370 livros e 1149779 avaliações de usuários e mais de 240000 usuários. Os dados foram coletados do Goodreads e do Amazon e estão disponíveis no Kaggle.

#### 7.2. Dicionário de dados

<li> BX-Users.csv: contem as colunas User-ID(id_usuário), Location(localização), Age(idade)
<li> BX-Books.csv: contem as colunas ISBN(id_livro), Book-Title(título), Book-Author(autor), Year-Of-Publication(ano de publicação), Publisher(editora), Image-URL-S(imagem da capa pequena), Image-URL-M(imagem da capa média), Image-URL-L(imagem da capa grande)
<li> BX-Book-Ratings.csv: contem as colunas User-ID(id_usuário), ISBN(id_livro), Book-Rating(avaliação do livro)

<li> Link: https://www.kaggle.com/datasets/rxsraghavagrawal/book-recommender-system

### 8. Analise exploratória

###

In [1]:
#importando as bibliotecas
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')


In [2]:
##importando dataset
books = pd.read_csv('BX/BX-Books.csv', error_bad_lines=False,encoding="latin-1",sep=";")
users = pd.read_csv('BX/BX-Users.csv', error_bad_lines=False,encoding="latin-1",sep=";")
ratings = pd.read_csv('BX/BX-Book-Ratings.csv', error_bad_lines=False,encoding="latin-1",sep=";")

Skipping line 6452: expected 8 fields, saw 9
Skipping line 43667: expected 8 fields, saw 10
Skipping line 51751: expected 8 fields, saw 9

Skipping line 92038: expected 8 fields, saw 9
Skipping line 104319: expected 8 fields, saw 9
Skipping line 121768: expected 8 fields, saw 9

Skipping line 144058: expected 8 fields, saw 9
Skipping line 150789: expected 8 fields, saw 9
Skipping line 157128: expected 8 fields, saw 9
Skipping line 180189: expected 8 fields, saw 9
Skipping line 185738: expected 8 fields, saw 9

Skipping line 209388: expected 8 fields, saw 9
Skipping line 220626: expected 8 fields, saw 9
Skipping line 227933: expected 8 fields, saw 11
Skipping line 228957: expected 8 fields, saw 10
Skipping line 245933: expected 8 fields, saw 9
Skipping line 251296: expected 8 fields, saw 9
Skipping line 259941: expected 8 fields, saw 9
Skipping line 261529: expected 8 fields, saw 9



In [3]:
#livros
books

Unnamed: 0,ISBN,Book-Title,Book-Author,Year-Of-Publication,Publisher,Image-URL-S,Image-URL-M,Image-URL-L
0,0195153448,Classical Mythology,Mark P. O. Morford,2002,Oxford University Press,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...
1,0002005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...
2,0060973129,Decision in Normandy,Carlo D'Este,1991,HarperPerennial,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...
3,0374157065,Flu: The Story of the Great Influenza Pandemic...,Gina Bari Kolata,1999,Farrar Straus Giroux,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...
4,0393045218,The Mummies of Urumchi,E. J. W. Barber,1999,W. W. Norton &amp; Company,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...
...,...,...,...,...,...,...,...,...
271355,0440400988,There's a Bat in Bunk Five,Paula Danziger,1988,Random House Childrens Pub (Mm),http://images.amazon.com/images/P/0440400988.0...,http://images.amazon.com/images/P/0440400988.0...,http://images.amazon.com/images/P/0440400988.0...
271356,0525447644,From One to One Hundred,Teri Sloat,1991,Dutton Books,http://images.amazon.com/images/P/0525447644.0...,http://images.amazon.com/images/P/0525447644.0...,http://images.amazon.com/images/P/0525447644.0...
271357,006008667X,Lily Dale : The True Story of the Town that Ta...,Christine Wicker,2004,HarperSanFrancisco,http://images.amazon.com/images/P/006008667X.0...,http://images.amazon.com/images/P/006008667X.0...,http://images.amazon.com/images/P/006008667X.0...
271358,0192126040,Republic (World's Classics),Plato,1996,Oxford University Press,http://images.amazon.com/images/P/0192126040.0...,http://images.amazon.com/images/P/0192126040.0...,http://images.amazon.com/images/P/0192126040.0...


In [4]:
#usuários
users

Unnamed: 0,User-ID,Location,Age
0,1,"nyc, new york, usa",
1,2,"stockton, california, usa",18.0
2,3,"moscow, yukon territory, russia",
3,4,"porto, v.n.gaia, portugal",17.0
4,5,"farnborough, hants, united kingdom",
...,...,...,...
278853,278854,"portland, oregon, usa",
278854,278855,"tacoma, washington, united kingdom",50.0
278855,278856,"brampton, ontario, canada",
278856,278857,"knoxville, tennessee, usa",


In [5]:
#avaliacoes
ratings

Unnamed: 0,User-ID,ISBN,Book-Rating
0,276725,034545104X,0
1,276726,0155061224,5
2,276727,0446520802,0
3,276729,052165615X,3
4,276729,0521795028,6
...,...,...,...
1149775,276704,1563526298,9
1149776,276706,0679447156,0
1149777,276709,0515107662,10
1149778,276721,0590442449,10


### 9. Limpeza dos dados

In [6]:
#renomeando colunas
books = books[['ISBN', 'Book-Title', 'Book-Author', 'Year-Of-Publication', 'Publisher']]
books.rename(columns={'Book-Title':'title','Year-Of-Publication': 'year','Book-Author':'author'}, inplace=True)
users.rename(columns={'User-ID':'user_id','Location':'location','Age':'age'}, inplace=True)
ratings.rename(columns={'User-ID':'user_id','Book-Rating':'rating'}, inplace=True)

In [7]:
###limpando dados dataset books valores nulos
books['year'] = pd.to_numeric(books['year'], errors='coerce')
books['year'].fillna(books['year'].median(), inplace=True)
books['author'].fillna('unknown', inplace=True)
books['Publisher'].fillna('unknown', inplace=True)
###limpando dados dataset users valores nulos
users['age'] = pd.to_numeric(users['age'], errors='coerce')
users['age'].fillna(users['age'].median(), inplace=True)
users['location'].fillna('unknown', inplace=True)
###limpando dados dataset ratings valores nulos
ratings['rating'] = pd.to_numeric(ratings['rating'], errors='coerce')
ratings['rating'].fillna(ratings['rating'].median(), inplace=True)



### 10. Entendimento dos dados e filtragens de dados

In [8]:
#verificando quantidade de usuarios 
ratings['user_id'].value_counts().reset_index()

Unnamed: 0,index,user_id
0,11676,13602
1,198711,7550
2,153662,6109
3,98391,5891
4,35859,5850
...,...,...
105278,116180,1
105279,116166,1
105280,116154,1
105281,116137,1


In [9]:
#verificando quantidade de avaliacoes por livro para usuarios com mais de 100 avaliacoes
ratings_more_100=ratings['user_id'].value_counts()>100
ratings_more_100

11676      True
198711     True
153662     True
98391      True
35859      True
          ...  
116180    False
116166    False
116154    False
116137    False
276723    False
Name: user_id, Length: 105283, dtype: bool

In [10]:
##avalaicoes para usuarios com mais de  100 avaliacoes
user_ids=ratings_more_100[ratings_more_100].index
ratings=ratings[ratings['user_id'].isin(user_ids)]

In [11]:
#mergeando datasets
ratings_books=pd.merge(ratings,books,on='ISBN')
ratings_books

Unnamed: 0,user_id,ISBN,rating,title,author,year,Publisher
0,276925,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
1,277427,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
2,3363,002542730X,0,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
3,10030,002542730X,7,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
4,11676,002542730X,6,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
...,...,...,...,...,...,...,...
604849,276680,089587167X,7,Something Blue,Jean Christopher Spaugh,1997.0,John F. Blair Publisher
604850,276680,1402201435,4,The One True Ocean,Sarah Beth Martin,2003.0,Sourcebooks Landmark
604851,276680,1564407284,0,"The Old Sturbridge Village Cookbook, 2nd : Aut...",Caroline Sloat,1995.0,Globe Pequot
604852,276680,1582343594,0,City of Masks : A Cree Black Novel,Daniel Hecht,2004.0,Bloomsbury USA


In [12]:
##retirando ano 0
ratings_books=ratings_books[ratings_books['year']!=0] 
ratings_books

Unnamed: 0,user_id,ISBN,rating,title,author,year,Publisher
0,276925,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
1,277427,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
2,3363,002542730X,0,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
3,10030,002542730X,7,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
4,11676,002542730X,6,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc
...,...,...,...,...,...,...,...
604849,276680,089587167X,7,Something Blue,Jean Christopher Spaugh,1997.0,John F. Blair Publisher
604850,276680,1402201435,4,The One True Ocean,Sarah Beth Martin,2003.0,Sourcebooks Landmark
604851,276680,1564407284,0,"The Old Sturbridge Village Cookbook, 2nd : Aut...",Caroline Sloat,1995.0,Globe Pequot
604852,276680,1582343594,0,City of Masks : A Cree Black Novel,Daniel Hecht,2004.0,Bloomsbury USA


In [13]:
#quantidade de avaliacoes por livro
number_rating_per_book=ratings_books.groupby('title')['rating'].count().reset_index().rename(columns={'rating':'number_rating_per_book'})
number_rating_per_book

Unnamed: 0,title,number_rating_per_book
0,A Light in the Storm: The Civil War Diary of ...,3
1,Always Have Popsicles,1
2,Apple Magic (The Collector's series),1
3,Beyond IBM: Leadership Marketing and Finance ...,1
4,Clifford Visita El Hospital (Clifford El Gran...,1
...,...,...
179772,Ã?Â?berraschung am Valentinstag.,1
179773,Ã?Â?lpiraten.,1
179774,Ã?Â?rger mit Produkt X. Roman.,2
179775,Ã?Â?stlich der Berge.,1


In [14]:
#juntando datasets ratings_books e number_rating_per_book
ratings_books=ratings_books.merge(number_rating_per_book,on='title')
ratings_books

Unnamed: 0,user_id,ISBN,rating,title,author,year,Publisher,number_rating_per_book
0,276925,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
1,277427,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
2,3363,002542730X,0,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
3,10030,002542730X,7,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
4,11676,002542730X,6,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
...,...,...,...,...,...,...,...,...
598255,276680,089587167X,7,Something Blue,Jean Christopher Spaugh,1997.0,John F. Blair Publisher,1
598256,276680,1402201435,4,The One True Ocean,Sarah Beth Martin,2003.0,Sourcebooks Landmark,1
598257,276680,1564407284,0,"The Old Sturbridge Village Cookbook, 2nd : Aut...",Caroline Sloat,1995.0,Globe Pequot,1
598258,276680,1582343594,0,City of Masks : A Cree Black Novel,Daniel Hecht,2004.0,Bloomsbury USA,1


In [15]:
###limpando avaliacoes duplicatas ou valores nulos
ratings_books=ratings_books.drop_duplicates(['user_id','title'])
ratings_books

Unnamed: 0,user_id,ISBN,rating,title,author,year,Publisher,number_rating_per_book
0,276925,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
1,277427,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
2,3363,002542730X,0,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
3,10030,002542730X,7,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
4,11676,002542730X,6,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
...,...,...,...,...,...,...,...,...
598255,276680,089587167X,7,Something Blue,Jean Christopher Spaugh,1997.0,John F. Blair Publisher,1
598256,276680,1402201435,4,The One True Ocean,Sarah Beth Martin,2003.0,Sourcebooks Landmark,1
598257,276680,1564407284,0,"The Old Sturbridge Village Cookbook, 2nd : Aut...",Caroline Sloat,1995.0,Globe Pequot,1
598258,276680,1582343594,0,City of Masks : A Cree Black Novel,Daniel Hecht,2004.0,Bloomsbury USA,1


In [16]:
#retirar livros com menos de 50 avaliacoes
ratings_books=ratings_books[ratings_books['number_rating_per_book']>=50]
ratings_books

Unnamed: 0,user_id,ISBN,rating,title,author,year,Publisher,number_rating_per_book
0,276925,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
1,277427,002542730X,10,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
2,3363,002542730X,0,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
3,10030,002542730X,7,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
4,11676,002542730X,6,Politically Correct Bedtime Stories: Modern Ta...,James Finn Garner,1994.0,John Wiley &amp; Sons Inc,105
...,...,...,...,...,...,...,...,...
361306,185233,067081458X,5,The Eyes of the Dragon,Stephen King,1987.0,Viking Books,62
361308,211426,067081458X,0,The Eyes of the Dragon,Stephen King,1987.0,Viking Books,62
361309,236283,067081458X,10,The Eyes of the Dragon,Stephen King,1987.0,Viking Books,62
361310,245371,067081458X,0,The Eyes of the Dragon,Stephen King,1987.0,Viking Books,62


#### 10.1. Pivot table

In [17]:
##pivot table
books_pivot=ratings_books.pivot_table(columns='user_id',index='title',values='rating')
books_pivot.fillna(0,inplace=True)
books_pivot

user_id,183,254,507,882,1424,1435,1733,1903,2033,2110,...,276018,276463,276680,276925,277427,277478,277639,278137,278188,278418
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1984,0.0,9.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1st to Die: A Novel,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2010: Odyssey Two,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
204 Rosewood Lane,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
24 Hours,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,10.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Year of Wonders,0.0,0.0,0.0,0.0,7.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
You Belong To Me,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Zen and the Art of Motorcycle Maintenance: An Inquiry into Values,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Zoya,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


### 11. Machine Learning e maquina preditiva

In [18]:
##sparse matrix
from scipy.sparse import csr_matrix
books_sparse_matrix=csr_matrix(books_pivot)

#### 11.1 Algoritmo KNN 

In [19]:
import numpy as np
from sklearn.neighbors import NearestNeighbors

def recommend_books_KNN(books_sparse_matrix, book_index,n):
    # Cria um objeto do tipo NearestNeighbors com k=6 (seis vizinhos mais próximos)
    model = NearestNeighbors(n_neighbors=n, metric='cosine')
    # Treina o modelo com os dados de avaliação de livros
    model.fit(books_sparse_matrix)
    # Calcula as distâncias e os índices dos seis livros mais similares ao livro selecionado
    distances, indices = model.kneighbors(books_pivot.iloc[book_index,:].values.reshape(1,-1))
    # Imprime as recomendações
    for i in range(0,len(distances.flatten())):
        if i == 0:
            print('Recommendations for {0} of index {1}:\n'.format(books_pivot.index[book_index],book_index))
        else:
            print('{0}: {1}, with distance of {2}'.format(i, books_pivot.index[indices.flatten()[i]], distances.flatten()[i]))


### 11.2 Algoritmo KDTree

In [20]:
from sklearn.neighbors import KDTree


def recommend_books_KDTree(books_sparse_matrix, book_index,k):
    X=books_sparse_matrix.toarray()
    # Cria um objeto do tipo NearestNeighbors com k=6 (seis vizinhos mais próximos)
    model=KDTree(X, leaf_size=2,metric='euclidean')
    # Calcula as distâncias e os índices dos seis livros mais similares ao livro selecionado
    distances, indices = model.query(books_pivot.iloc[book_index,:].values.reshape(1,-1), k=k)
    # Imprime as recomendações
    for i in range(0,len(distances.flatten())):
        if i == 0:
            print('Recommendations for {0} of index {1}:\n'.format(books_pivot.index[book_index],book_index))
        else:
            print('{0}: {1}, with distance of {2}'.format(i, books_pivot.index[indices.flatten()[i]], distances.flatten()[i]))




### 12. Predição de dados

In [21]:
##test
query_index=np.random.choice(books_pivot.shape[0])
recommend_books_KNN(books_sparse_matrix,query_index,10)


Recommendations for Ahab's Wife: Or, The Star-Gazer: A Novel of index 52:

1: We Were the Mulvaneys, with distance of 0.7524710382208945
2: The Bluest Eye, with distance of 0.7608451511889448
3: Charming Billy, with distance of 0.7679586707455595
4: The Corrections, with distance of 0.7862121202797727
5: Love in the Time of Cholera (Penguin Great Books of the 20th Century), with distance of 0.7882492383528095
6: The Passion of Artemisia, with distance of 0.7889047703037912
7: The Hours : A Novel, with distance of 0.7974334621124841
8: A Patchwork Planet, with distance of 0.7984820812788316
9: House of Sand and Fog, with distance of 0.8062409626598522


In [22]:
##test
query_index=np.random.choice(books_pivot.shape[0])
recommend_books_KDTree(books_sparse_matrix,query_index,10)

Recommendations for Bridget Jones: The Edge of Reason of index 134:

1: In Pursuit of the Proper Sinner, with distance of 48.093658625644196
2: Tom Clancy's Op-Center: Games of State (Tom Clancy's Op Center (Paperback)), with distance of 48.40454524112379
3: Zoya, with distance of 48.4458460551573
4: Once in a Lifetime, with distance of 48.49742261192856
5: Ground Zero and Beyond, with distance of 48.53864439804639
6: Portrait of a Killer: Jack the Ripper-- Case Closed (Berkley True Crime), with distance of 48.662100242385755
7: Ruthless.Com (Tom Clancy's Power Plays (Paperback)), with distance of 48.79549159502341
8: I'll Take Manhattan, with distance of 48.80573736764972
9: Personal Injuries, with distance of 48.84669896727925


### 13. Análise de resultados


#### 13.1 silhouette_score

In [28]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

X=books_sparse_matrix.toarray()
model=KMeans(n_clusters=5,random_state=42)
labels=model.fit_predict(X)

print('Silhouette Score: {}'.format(round(silhouette_score(X,labels),3)))


Silhouette Score: -0.041


#### 13.2 calinski_harabasz_score

In [30]:
from sklearn.metrics import calinski_harabasz_score
print('Calinski Harabasz Score: {}'.format(round(calinski_harabasz_score(X,labels),3)))

Calinski Harabasz Score: 10.974


### 14.1 Gráficos interessantes


In [25]:
#histograma de avaliações
import plotly.express as px
px.histogram(ratings_books, x='rating', nbins=50, title='Histograma de Avaliações')

In [42]:
#histograma de avalaicoes
import plotly.express as px
px.histogram(ratings_books, x='number_rating_per_book', nbins=50, title='Histograma de Avaliações por Livro')

In [26]:
##funcao para fazer graficos de avaliacoes
def plot_ratings(ratings_books, groupby, top, title):
    fig = px.histogram(ratings_books.groupby(groupby)['rating'].count().sort_values(ascending=False).head(top), x='rating', nbins=50, title=title)
    fig.show()
##grafico de avaliacoes por ano
plot_ratings(ratings_books, 'year', 10, 'Histograma de Avaliações por Ano')
##grafico de avaliacoes por usuario
plot_ratings(ratings_books, 'user_id', 10, 'Histograma de Avaliações por Usuário')
##grafico de avaliacoes por livro
plot_ratings(ratings_books, 'title', 10, 'Histograma de Avaliações por Livro')
##grafico de avaliacoes por outro criterio
plot_ratings(ratings_books, 'author', 10, 'Histograma de Avaliações por Autor')

### 15. Conclusão   

Em conclusão, o projeto de sistemas de recomendação utilizando machine learning é extremamente útil em diversos setores, desde o comércio eletrônico até a indústria do entretenimento. Utilizando algoritmos avançados de aprendizado de máquina, é possível oferecer aos usuários recomendações personalizadas e relevantes, aumentando a satisfação do usuário e a fidelidade à plataforma.

Ao longo deste projeto, pudemos explorar diferentes técnicas de machine learning, desde algoritmos simples de filtragem colaborativa até modelos de deep learning mais complexos, como redes neurais. Além disso, foram discutidos os desafios enfrentados na construção de sistemas de recomendação, como o problema do "cold start" e a necessidade de dados de alta qualidade.

No final, foi possível construir um sistema de recomendação eficiente e preciso, capaz de sugerir itens relevantes aos usuários com base em suas preferências e histórico de interações. Com a crescente demanda por soluções de recomendação personalizadas, acreditamos que esse projeto tem grande potencial para ajudar empresas a melhorar a experiência do usuário e aumentar o engajamento em suas plataformas.

### 16. Proposta de Melhoria

Embora o modelo de sistemas de recomendação desenvolvido neste projeto tenha apresentado resultados promissores, sempre há espaço para melhorias e aprimoramentos. Aqui estão algumas sugestões de melhorias que poderiam ser exploradas:

<li> Incorporar técnicas de processamento de linguagem natural (NLP) para melhorar a compreensão das preferências dos usuários com base em suas avaliações e comentários.
<li> Explorar abordagens de aprendizado por reforço para otimizar o desempenho do sistema de recomendação ao longo do tempo.
<li> Introduzir técnicas de transferência de aprendizado para aproveitar modelos pré-treinados em grandes conjuntos de dados e melhorar a eficiência do modelo.
<li> Utilizar técnicas de interpretabilidade de modelos para entender melhor como o sistema de recomendação toma decisões e fornecer explicações aos usuários.

### 17. Próximos Passos

<li> Avaliar o desempenho do modelo em conjuntos de dados maiores e mais diversificados.
<li> Investigar abordagens de aprendizado federado que permitam treinar o modelo em dados distribuídos em vários locais sem a necessidade de compartilhar dados.
<li> Explorar a utilização de técnicas de aprendizado não supervisionado para descobrir padrões ocultos nos dados e melhorar a qualidade das recomendações.
<li> Incorporar feedback explícito e implícito dos usuários para melhorar a precisão e a relevância das recomendações.

### 18. Referências

<li> https://scikit-learn.org/stable/modules/neighbors.html#unsupervised-nearest-neighbors
<li> https://www.kaggle.com/datasets/rxsraghavagrawal/book-recommender-system   
<li> https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html#sklearn.metrics.davies_bouldin_score
<li> https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html#sklearn.metrics.silhouette_score
<li> https://scikit-learn.org/stable/modules/generated/sklearn.metrics.calinski_harabasz_score.html#sklearn.metrics.calinski_harabasz_score
