# SISTEMA DE RECOMENDAÇÃO

## Sobre

Imagine que você gosta de assistir filmes e séries, mas está sempre em dúvida sobre o que assistir em seguida. Um sistema de recomendação é como um assistente que sugere coisas para você com base no que você já viu e gostou.

Esses sistemas são usados por plataformas como Netflix, Amazon e Spotify para sugerir filmes, produtos ou músicas que você provavelmente gostará. Eles funcionam analisando seus gostos passados e os de outras pessoas semelhantes a você.

**Como Funcionam:**

Coleta de Dados: O sistema observa suas ações, como filmes assistidos, músicas ou produtos comprados. Ele também olha para o que outras pessoas com interesses semelhantes fizeram.

Análise de Padrões: Com base nesses dados, o sistema procura padrões. Ele tenta encontrar coisas que você gostou e que são semelhantes a outras coisas que pessoas com gostos parecidos também gostaram.

Recomendações: O sistema então faz recomendações. Se você gostou de filmes de ação, ele pode sugerir outros filmes do mesmo gênero. Se você comprou um livro de mistério, ele pode mostrar outros livros similares.

**Exemplo:**

Suponha que você assistiu a alguns filmes de comédia e aventura no passado. O sistema de recomendação pode perceber isso e sugerir um novo filme que seja uma mistura de comédia e aventura.

Tipos de Sistemas de Recomendação:

Existem diferentes abordagens para sistemas de recomendação:

Baseados em Conteúdo: Sugerem coisas similares ao que você já gostou. Por exemplo, se você comprou um livro de ficção científica, ele pode sugerir outros livros de ficção científica.
Filtragem Colaborativa: Usam os gostos de outras pessoas parecidas com você para sugerir coisas. Se alguém com gostos semelhantes comprou um item, ele pode ser sugerido a você também.
Filtragem Híbrida: Combinam várias abordagens para oferecer recomendações mais precisas.
Esses sistemas tornam sua vida mais fácil, ajudando você a descobrir coisas novas que provavelmente vai gostar!

## Estudo de caso

Vamos criar um sistema de recomendação de livros, um assunto que eu realmente adoro. A idéia é ter um assistente virtual que sugere livros com base nos gostos e preferências literárias do usuário. 

Isso pode ajudar a aumentar as vendas e o faturamento da empresa, além de proporcionar uma melhor experiência para o usuário.

## Problema de negócio

Para testar conhecimento, utilizaremo um método, dentre tantos, chamado **filtragem baseada em recomendação**, que se baseia nas escolhadas de leituras de pessoas com interesses similares.

Alguns sistemas que podem ser usados e as suas finalidades:

**- Sistemas de Recomendação Colaborativos:**<br> 
      1. Filtragem Colaborativa Baseada em Usuário: Sugere itens para um usuário com base nos gostos e preferências de outros usuários semelhantes.<br>
      2. Filtragem Colaborativa Baseada em Item: Sugere itens semelhantes aos que um usuário já gostou, com base em padrões de outros usuários.
      
**- Sistemas de Recomendação Baseados em Conteúdo:<br>**
Analisa as características dos itens e sugere itens semelhantes aos que o usuário já mostrou interesse. Pode ser usado para sugerir músicas, filmes, livros, produtos e muito mais.

**- Filtragem Híbrida:<br>**
Combina abordagens de filtragem colaborativa e baseada em conteúdo para oferecer recomendações mais precisas e personalizadas.

**- Sistemas de Recomendação por Popularidade:<br>**
Sugere itens com base em sua popularidade geral entre os usuários, sem levar em consideração as preferências individuais.

**- Filtragem Demográfica:<br>**
Sugere itens com base nas características demográficas do usuário, como idade, sexo, localização, etc.

**- Modelos de Fatorização de Matriz:<br>**
Usa técnicas matemáticas para decompor uma matriz de avaliações de usuários e itens em fatores latentes, que podem ser usados para fazer previsões de recomendação.

**- Sistemas de Recomendação Contextual:<br>**
Leva em consideração informações contextuais, como localização, horário do dia, clima, para fazer recomendações mais relevantes.

**- Sistemas de Recomendação em Tempo Real:<br>**
Faz recomendações em tempo real, como sugestões de produtos enquanto você navega em um site de compras.

**- Sistemas de Recomendação Sociais:<br>**
Usam informações de redes sociais para melhorar as recomendações, levando em conta as conexões e atividades sociais dos usuários.

**- Sistemas de Recomendação de Mídia Social:<br>**
Sugere conexões, amigos ou conteúdo para os usuários em plataformas de mídia social com base em suas interações e perfis.

### Sobre o Dataset

Um dataset com...


Fonte de dados: https://www.kaggle.com/datasets/rxsraghavagrawal/book-recommender-system

Desta vez, temos 3 arquivos para análise. Um com dados sobre as obras, outro com usuários e um outro com as avaliações.

## 01 Análise Exploratória

In [62]:
# Bibliotecas
import pandas as pd
import numpy as np

#### 01.1 Dataset de obras

**Variáveis**

- ISBN: uma espécie de "RG" para publicações
- Book-Title: título do livro
- Book-Author: autor(es)
- Year-Of-Publication: anod  epublicação
- Publisher: editora
- Image-URL-S: link da imagem pequena
- Image-URL-M: link da imagem média
- Image-URL-L: link da imagem grande

In [30]:
# Base de dados
books = pd.read_csv('BX-Books.csv', sep= ';', encoding= 'latin-1', error_bad_lines= False)
books



  books = pd.read_csv('BX-Books.csv', sep= ';', encoding= 'latin-1', error_bad_lines= False)
b'Skipping line 6452: expected 8 fields, saw 9\nSkipping line 43667: expected 8 fields, saw 10\nSkipping line 51751: expected 8 fields, saw 9\n'
b'Skipping line 92038: expected 8 fields, saw 9\nSkipping line 104319: expected 8 fields, saw 9\nSkipping line 121768: expected 8 fields, saw 9\n'
b'Skipping line 144058: expected 8 fields, saw 9\nSkipping line 150789: expected 8 fields, saw 9\nSkipping line 157128: expected 8 fields, saw 9\nSkipping line 180189: expected 8 fields, saw 9\nSkipping line 185738: expected 8 fields, saw 9\n'
b'Skipping line 209388: expected 8 fields, saw 9\nSkipping line 220626: expected 8 fields, saw 9\nSkipping line 227933: expected 8 fields, saw 11\nSkipping line 228957: expected 8 fields, saw 10\nSkipping line 245933: expected 8 fields, saw 9\nSkipping line 251296: expected 8 fields, saw 9\nSkipping line 259941: expected 8 fields, saw 9\nSkipping line 261529: expecte

Unnamed: 0,ISBN,Book-Title,Book-Author,Year-Of-Publication,Publisher,Image-URL-S,Image-URL-M,Image-URL-L
0,0195153448,Classical Mythology,Mark P. O. Morford,2002,Oxford University Press,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...
1,0002005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...
2,0060973129,Decision in Normandy,Carlo D'Este,1991,HarperPerennial,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...
3,0374157065,Flu: The Story of the Great Influenza Pandemic...,Gina Bari Kolata,1999,Farrar Straus Giroux,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...
4,0393045218,The Mummies of Urumchi,E. J. W. Barber,1999,W. W. Norton &amp; Company,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...
...,...,...,...,...,...,...,...,...
271355,0440400988,There's a Bat in Bunk Five,Paula Danziger,1988,Random House Childrens Pub (Mm),http://images.amazon.com/images/P/0440400988.0...,http://images.amazon.com/images/P/0440400988.0...,http://images.amazon.com/images/P/0440400988.0...
271356,0525447644,From One to One Hundred,Teri Sloat,1991,Dutton Books,http://images.amazon.com/images/P/0525447644.0...,http://images.amazon.com/images/P/0525447644.0...,http://images.amazon.com/images/P/0525447644.0...
271357,006008667X,Lily Dale : The True Story of the Town that Ta...,Christine Wicker,2004,HarperSanFrancisco,http://images.amazon.com/images/P/006008667X.0...,http://images.amazon.com/images/P/006008667X.0...,http://images.amazon.com/images/P/006008667X.0...
271358,0192126040,Republic (World's Classics),Plato,1996,Oxford University Press,http://images.amazon.com/images/P/0192126040.0...,http://images.amazon.com/images/P/0192126040.0...,http://images.amazon.com/images/P/0192126040.0...


In [31]:
books.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271360 entries, 0 to 271359
Data columns (total 8 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   ISBN                 271360 non-null  object
 1   Book-Title           271360 non-null  object
 2   Book-Author          271359 non-null  object
 3   Year-Of-Publication  271360 non-null  object
 4   Publisher            271358 non-null  object
 5   Image-URL-S          271360 non-null  object
 6   Image-URL-M          271360 non-null  object
 7   Image-URL-L          271357 non-null  object
dtypes: object(8)
memory usage: 16.6+ MB


In [32]:
books.isnull().sum()

ISBN                   0
Book-Title             0
Book-Author            1
Year-Of-Publication    0
Publisher              2
Image-URL-S            0
Image-URL-M            0
Image-URL-L            3
dtype: int64

#### 01.2 Dataset de usuários

**Variáveis**

- User-ID: id do usuário
- Location: origem do usuário
- Age: idade do usuário

In [33]:
users = pd.read_csv('BX-Users.csv', sep= ';', encoding= 'latin-1', error_bad_lines= False)
users



  users = pd.read_csv('BX-Users.csv', sep= ';', encoding= 'latin-1', error_bad_lines= False)


Unnamed: 0,User-ID,Location,Age
0,1,"nyc, new york, usa",
1,2,"stockton, california, usa",18.0
2,3,"moscow, yukon territory, russia",
3,4,"porto, v.n.gaia, portugal",17.0
4,5,"farnborough, hants, united kingdom",
...,...,...,...
278853,278854,"portland, oregon, usa",
278854,278855,"tacoma, washington, united kingdom",50.0
278855,278856,"brampton, ontario, canada",
278856,278857,"knoxville, tennessee, usa",


In [34]:
users.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 278858 entries, 0 to 278857
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   User-ID   278858 non-null  int64  
 1   Location  278858 non-null  object 
 2   Age       168096 non-null  float64
dtypes: float64(1), int64(1), object(1)
memory usage: 6.4+ MB


In [35]:
users.isnull().sum()

User-ID          0
Location         0
Age         110762
dtype: int64

#### 01.3 Dataset de avaliações

**Variáveis**

- User-ID: id do usuário
- ISBN: igual a um 'RG' de livros
- Book-Rating: nota do livro

In [36]:
rating = pd.read_csv('BX-Book-Ratings.csv', sep= ';', encoding= 'latin-1', error_bad_lines= False)
rating



  rating = pd.read_csv('BX-Book-Ratings.csv', sep= ';', encoding= 'latin-1', error_bad_lines= False)


Unnamed: 0,User-ID,ISBN,Book-Rating
0,276725,034545104X,0
1,276726,0155061224,5
2,276727,0446520802,0
3,276729,052165615X,3
4,276729,0521795028,6
...,...,...,...
1149775,276704,1563526298,9
1149776,276706,0679447156,0
1149777,276709,0515107662,10
1149778,276721,0590442449,10


In [37]:
rating.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1149780 entries, 0 to 1149779
Data columns (total 3 columns):
 #   Column       Non-Null Count    Dtype 
---  ------       --------------    ----- 
 0   User-ID      1149780 non-null  int64 
 1   ISBN         1149780 non-null  object
 2   Book-Rating  1149780 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 26.3+ MB


In [38]:
rating.isnull().sum()

User-ID        0
ISBN           0
Book-Rating    0
dtype: int64

> INSIGHT:

Já carregamos e avaliamos os tipos de dados e a presença de valores Nan. Com isso já obtemos uma boa visão geral dos dados e entendemos que não é necessária uma AED mais complexa

## 02 Pré-Processamento 

> INSIGH:

Renomearemos e excluiremos algumas colunas dos datasets, com o objetivo de diminuir o nome e descartar colunas como as com os links das imagens

In [39]:
# Dataset books
books.columns

Index(['ISBN', 'Book-Title', 'Book-Author', 'Year-Of-Publication', 'Publisher',
       'Image-URL-S', 'Image-URL-M', 'Image-URL-L'],
      dtype='object')

In [40]:
books = books[['ISBN', 'Book-Title', 'Book-Author', 'Year-Of-Publication', 'Publisher']]
books.rename(columns = {'Book-Title': 'title', 'Book-Author': 'author', 'Year-Of-Publication': 'year'}, inplace= True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  books.rename(columns = {'Book-Title': 'title', 'Book-Author': 'author', 'Year-Of-Publication': 'year'}, inplace= True)


In [41]:
# Dataset users
users.columns

Index(['User-ID', 'Location', 'Age'], dtype='object')

In [42]:
users.rename(columns= {'User-ID': 'users_id', 'Location': 'location', 'Age': 'age'}, inplace= True)
users

Unnamed: 0,users_id,location,age
0,1,"nyc, new york, usa",
1,2,"stockton, california, usa",18.0
2,3,"moscow, yukon territory, russia",
3,4,"porto, v.n.gaia, portugal",17.0
4,5,"farnborough, hants, united kingdom",
...,...,...,...
278853,278854,"portland, oregon, usa",
278854,278855,"tacoma, washington, united kingdom",50.0
278855,278856,"brampton, ontario, canada",
278856,278857,"knoxville, tennessee, usa",


In [43]:
# Dataset rating
rating.columns

Index(['User-ID', 'ISBN', 'Book-Rating'], dtype='object')

In [44]:
rating.rename(columns= {'User-ID': 'user_id', 'Book-Rating': 'rating'}, inplace = True)
rating

Unnamed: 0,user_id,ISBN,rating
0,276725,034545104X,0
1,276726,0155061224,5
2,276727,0446520802,0
3,276729,052165615X,3
4,276729,0521795028,6
...,...,...,...
1149775,276704,1563526298,9
1149776,276706,0679447156,0
1149777,276709,0515107662,10
1149778,276721,0590442449,10


#### Analisando os usuários que mais fazem avaliações

**Por que fazemos isso?**

Um caso hipotético seria de um usuário que nunca fez avaliações, se irritar com um título ou até mesmo com a entrega e avaliar uma única obra. Isso com certeza não traria qualquer insight importante sobre a avaliação.

In [45]:
rating['rating'].value_counts()

0     716109
8     103736
10     78610
7      76457
9      67541
5      50974
6      36924
4       8904
3       5996
2       2759
1       1770
Name: rating, dtype: int64

> INSGHT:

Notamos que tem usuário com mais de 70k avaliações. Convenhamos que são muitas avaliações para uma pessoa só (uma pessoa de 70 anos teria que ler 1k de livros em cada ano de vida), nesse caso seria necessário um estudo sobre esses usuários, suas avaliações e as causas desse número extremamente alto. Análise essa que será feita em um outro momento.

#### Usuários com mais de 200 avaliações

**Por que fazemos isso?**

Queremos saber quantos usuários fizeram mais de 200 avaliações, evitando assim 'outliers' de usuários que nos trariam poucos insghts

In [46]:
rating_200 = rating['user_id'].value_counts() > 200

In [47]:
# Contando esse número de usuários > 200
total_rating_200 = rating_200[rating_200].index
total_rating_200.shape

(899,)

#### Pegando os IDs dos Usuários com mais de 200 avaliações

In [48]:
all_id_rating_200 = rating[rating['user_id'].isin(total_rating_200)] #cria uma série booleana que indica se cada valor na coluna 'user_id' derating está presente na lista total_rating_200
all_id_rating_200

Unnamed: 0,user_id,ISBN,rating
1456,277427,002542730X,10
1457,277427,0026217457,0
1458,277427,003008685X,8
1459,277427,0030615321,0
1460,277427,0060002050,0
...,...,...,...
1147612,275970,3829021860,0
1147613,275970,4770019572,0
1147614,275970,896086097,0
1147615,275970,9626340762,8


#### Fazendo o join(criando relacionamento) das tabelas

In [49]:
rating_with_books = rating.merge(books, on = 'ISBN')  # on = ISBN seria a chave primária
rating_with_books

Unnamed: 0,user_id,ISBN,rating,title,author,year,Publisher
0,276725,034545104X,0,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books
1,2313,034545104X,5,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books
2,6543,034545104X,0,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books
3,8680,034545104X,5,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books
4,10314,034545104X,9,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books
...,...,...,...,...,...,...,...
1031131,276688,0517145553,0,Mostly Harmless,Douglas Adams,1995,Random House Value Pub
1031132,276688,1575660792,7,Gray Matter,Shirley Kennett,1996,Kensington Publishing Corporation
1031133,276690,0590907301,0,Triplet Trouble and the Class Trip (Triplet Tr...,Debbie Dadey,1997,Apple
1031134,276704,0679752714,0,A Desert of Pure Feeling (Vintage Contemporaries),Judith Freeman,1997,Vintage Books USA


#### Contando a quantidade de avaliações por livro

In [50]:
total_rating = rating_with_books.groupby('title')['rating'].count().reset_index()
total_rating

Unnamed: 0,title,rating
0,A Light in the Storm: The Civil War Diary of ...,4
1,Always Have Popsicles,1
2,Apple Magic (The Collector's series),1
3,"Ask Lily (Young Women of Faith: Lily Series, ...",1
4,Beyond IBM: Leadership Marketing and Finance ...,1
...,...,...
241066,Ã?Â?lpiraten.,2
241067,Ã?Â?rger mit Produkt X. Roman.,4
241068,Ã?Â?sterlich leben.,1
241069,Ã?Â?stlich der Berge.,3


#### Renomeando a coluna 'rating'

In [51]:
total_rating.rename(columns = {'rating': 'number_of_rating'}, inplace = True)
total_rating

Unnamed: 0,title,number_of_rating
0,A Light in the Storm: The Civil War Diary of ...,4
1,Always Have Popsicles,1
2,Apple Magic (The Collector's series),1
3,"Ask Lily (Young Women of Faith: Lily Series, ...",1
4,Beyond IBM: Leadership Marketing and Finance ...,1
...,...,...
241066,Ã?Â?lpiraten.,2
241067,Ã?Â?rger mit Produkt X. Roman.,4
241068,Ã?Â?sterlich leben.,1
241069,Ã?Â?stlich der Berge.,3


#### Fazendo o join das tabelas rating_with_books com total_rating

**Por que fazemos isso?**

Para deixarmos todas as informações em um único dataset

In [52]:
final_rating = rating_with_books.merge(total_rating, on = 'title')
final_rating

Unnamed: 0,user_id,ISBN,rating,title,author,year,Publisher,number_of_rating
0,276725,034545104X,0,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
1,2313,034545104X,5,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
2,6543,034545104X,0,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
3,8680,034545104X,5,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
4,10314,034545104X,9,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
...,...,...,...,...,...,...,...,...
1031131,276688,0425150526,0,Death Crosses the Border,Janice Steinberg,1995,Berkley Publishing Group,1
1031132,276688,0449907422,0,Jazz Funeral: A Skip Langdon Novel,Julie Smith,1993,Ballantine Books,1
1031133,276690,0590907301,0,Triplet Trouble and the Class Trip (Triplet Tr...,Debbie Dadey,1997,Apple,1
1031134,276704,0679752714,0,A Desert of Pure Feeling (Vintage Contemporaries),Judith Freeman,1997,Vintage Books USA,1


#### Filtrando livros com ao menos 50 avaliações

In [53]:
final_rating = final_rating[final_rating['number_of_rating'] >= 50]
final_rating

Unnamed: 0,user_id,ISBN,rating,title,author,year,Publisher,number_of_rating
0,276725,034545104X,0,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
1,2313,034545104X,5,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
2,6543,034545104X,0,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
3,8680,034545104X,5,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
4,10314,034545104X,9,Flesh Tones: A Novel,M. J. Rose,2002,Ballantine Books,60
...,...,...,...,...,...,...,...,...
730560,227447,0061092096,0,Love in Another Town,Barbara Taylor Bradford,1996,HarperTorch,68
730561,231210,0061092096,0,Love in Another Town,Barbara Taylor Bradford,1996,HarperTorch,68
730562,238781,0061092096,5,Love in Another Town,Barbara Taylor Bradford,1996,HarperTorch,68
730563,244349,0061092096,0,Love in Another Town,Barbara Taylor Bradford,1996,HarperTorch,68


#### Verificando e eliminando valores duplicados

**Por que fazemos isso?**

Para descartar aqueles usuários que tenham avaliado uma determinada obras mais de uma vez

In [54]:
final_rating.drop_duplicates(['user_id', 'title'], inplace = True)
final_rating.shape

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_rating.drop_duplicates(['user_id', 'title'], inplace = True)


(285518, 8)

#### Transposição das linhas (usuários) em colunas

**Por que fazemos isso?**

Como utilizaremos um algortimo que calcula a distância matemática é mais útil deixar cada usuário como uma variável explicativa para facilitar para a máquina preditiva, ou seja, inverteremos as linhas com as colunas.

In [57]:
# Transposição das linhas colunas
book_pivot = final_rating.pivot_table(columns= 'user_id', index = 'title', values = 'rating')
book_pivot

user_id,8,9,14,16,17,19,23,26,32,39,...,278820,278824,278828,278832,278836,278843,278844,278846,278851,278854
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10 Lb. Penalty,,,,,,,,,,,...,,,,,,,,,,
16 Lighthouse Road,,,,,,,,,,,...,,,,,,,,,,
1984,,,,,,,,,,,...,,,,,,,,,,
1st to Die: A Novel,,,,,,,,,,,...,,,,,,,,,,
2010: Odyssey Two,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Zen and the Art of Motorcycle Maintenance: An Inquiry into Values,,,,,,,,,,,...,,,,,,,,,,
Zoya,,,,,,,,,,,...,,,,,,,,,,
"\O\"" Is for Outlaw""",,,,,,,,,,,...,,,,,,,,,,
"\Surely You're Joking, Mr. Feynman!\"": Adventures of a Curious Character""",,,,,,,,,,,...,,,,,,,,,,


In [58]:
book_pivot.shape

(2444, 47994)

In [67]:
book_pivot

user_id,8,9,14,16,17,19,23,26,32,39,...,278820,278824,278828,278832,278836,278843,278844,278846,278851,278854
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10 Lb. Penalty,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
16 Lighthouse Road,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1984,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1st to Die: A Novel,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2010: Odyssey Two,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Zen and the Art of Motorcycle Maintenance: An Inquiry into Values,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Zoya,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
"\O\"" Is for Outlaw""",0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
"\Surely You're Joking, Mr. Feynman!\"": Adventures of a Curious Character""",0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### Eliminando os valores NaN

**Por que fazemos isso?**

A máquina preditiva para calcular a distância euclidiana não recebe valores NaN

In [59]:
book_pivot.fillna(0, inplace = True)

## 03 Máquina Preditiva

Como citamos anteriormente, utilizaremos para esse case uma máquina preditiva para calcular a distância euclidiana com o KNN (Nearest Neighboors Algroithm)

> PROBLEMA

- Ao substituirmos os valores NaN por 0 (zero) e considerando a sua grande quantidade de avaliações com esse valor, constatamos que a matriz ficou esparsa (matriz com muitos elementos iguais a 0). Estas podem ser difíceis de manipular.

- Por isso faremos um trabalho de pré-processamento , e converteremos essas matrizes esparsas para depois utiizá-la em nosso modelo.

In [61]:
from scipy.sparse import csr_matrix
book_sparse = csr_matrix(book_pivot)

#### Construindo a Máquina Preditiva

In [63]:
from sklearn.neighbors import NearestNeighbors

In [64]:
# Modelo 
model = NearestNeighbors(algorithm= 'brute') # 'brute' = booleano que controla se usaremos um algoritmo de força bruta para KNNs ou um algoritmo mais rápido

# Treinando a máquina preditiva
model.fit(book_sparse)

NearestNeighbors(algorithm='brute')

#### Predições

In [69]:
# Pegando um livro (no caso o do índice 0): '10 Lb. Penalty'
distances, sugestions = model.kneighbors(book_pivot.iloc[0, :].values.reshape(1, -1))  # reshape() redimensiona os dados para uma matriz de 1 linha e n colunas

# Obtém os 5 vizinhos mais próximos do primeiro livro na matriz 
# Armazena as distâncias entre o primeiro livro e seus vizinhos mais próximos na variável 'distances'
# Armazena os índices dos 5 vizinhos mais próximos do primeiro livro na variável 'sugestions'

In [71]:
# Predição dos livros com base no '10 Lb. Penalty'
for i in range(len(sugestions)):
    print(book_pivot.index[sugestions[i]])

Index(['10 Lb. Penalty', 'Ground Zero and Beyond', 'A Secret Affair',
       'The Blooding', 'About Face'],
      dtype='object', name='title')


### Autor: Jonatas A. Liberato
Fonte: Eduardo Rocha