<a href="https://colab.research.google.com/github/clferreira1985/Projetos_Python/blob/main/Sistema_de_Recomendacao_Livros.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Sistema de Recomendação - Livros

### **Objetivo do projeto**


Criar um modelo de recomendação personalizada de livros para fornecer sugestões precisas e relevantes aos usuários.


### **1. Problema de Negócio**
A necessidade de oferecer recomendações de leitura mais precisas e relevantes para cada cliente, considerando o crescimento do mercado de livros e a diversificação do público leitor.

Fonte: Esse notebook teve com base notebook publicado no freecodecamp


### **2. Justificativa**
Por quê: Com o aumento do mercado de livros e a diversificação dos gostos dos leitores, torna-se desafiador fornecer recomendações de leitura que sejam adequadas e relevantes para cada usuário. Um modelo de recomendação personalizada pode aumentar a satisfação dos usuários, impulsionar as vendas e fidelizar os clientes, oferecendo sugestões que estejam alinhadas com suas preferências individuais.
Como: Utilizando algoritmos de aprendizado de máquina e técnicas de recomendação, será possível analisar o comportamento e as preferências de cada usuário com base em seu histórico de compras e interações com os livros. O modelo de recomendação personalizada irá considerar essas informações para fazer sugestões de livros que sejam altamente relevantes e interessantes para cada usuário.
O quê: A solução consistirá na criação de um modelo de recomendação personalizada de livros, que irá analisar o histórico de compras e preferências de cada usuário para oferecer sugestões personalizadas.


### **3. Premissas**
O conjunto de dados de amostra resume o comportamento de 3.150 clientes da Amazon.

As variáveis originais do conjuto de dados são:

Variável	Definição
ISBN	Código
Book-Title	Nome do livro
Book-Author	Autor do livro
Year-Of-Publication	O ano que ele foi publicado
Publisher	Editora
Image-URL-S	URL
Image-URL-M	URL
Image-URL-L	URL

###**4. Planejamento da Solução**

*ENTENDIMENTO DO NEGÓCIO*

**Definição do problema:**

É importante definir claramente qual é o problema a ser resolvido ou a pergunta a ser respondida. É preciso entender o objetivo do projeto e a relevância do problema.

* Descrição do negócio
* Planejamento da solução


*IMPORTANDO AS BIBLIOTECAS*
Importação de bibliotecas: Nesta etapa, as bibliotecas necessárias para o desenvolvimento do modelo de machine learning são importadas. Isso inclui bibliotecas para manipulação de dados, visualização, modelagem e avaliação.

*COLETA DOS DADOS*
Coleta de dados: Nesta etapa, os dados são coletados a partir de diversas fontes, como bases de dados, APIs, arquivos de texto, imagens, etc.

*ANÁLISE EXPLORATÓRIA DOS DADOS*
Análise exploratória de dados: Nesta etapa, os dados são analisados para identificar possíveis padrões, tendências, correlações e informações relevantes que possam auxiliar na construção do modelo de machine learning. É importante entender os dados coletados, avaliar a qualidade dos dados e identificar quaisquer problemas ou limitações.

- **Passo 1:** Análise Descritiva dos Dados
    - Esta etapa consiste na descrição estatística dos dados coletados, como média, mediana, desvio padrão, entre outros.
- **Passo 2:** Exploração de Dados
    - Nesta etapa, os dados são visualizados e analisados graficamente para identificar padrões e relações entre as variáveis.   
     
*PRÉ-PROCESSAMENTO*

Preparação de dados ou Pré-processamento de dados: Nesta etapa, os dados são limpos, transformados e preparados para serem utilizados no modelo de machine learning. Isto inclui tarefas como normalização, codificação, preenchimento de valores ausentes, remoção de outliers, etc.

*TREINAMENTO ALGORITMOS DE MACHINE LEARNING*

Modelagem ou Seleção do modelo: Nesta etapa, um modelo de machine learning é escolhido com base na tarefa a ser realizada e nos dados disponíveis.

*IMPLEMENTAR O MODELO PARA A PRODUÇÃO*

Implantação: Nesta etapa, o modelo é implantado em um ambiente de produção para utilização em situações reais para resolver o problema.


## Import das bibliotecas

In [25]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Coleta dos dados

In [14]:
df_book = pd.read_csv("https://raw.githubusercontent.com/RafaelSilva89/Sistema_de_Recomendacao-Livros/main/Datasets/Books.csv")
df_rating = pd.read_csv("https://raw.githubusercontent.com/RafaelSilva89/Sistema_de_Recomendacao-Livros/main/Datasets/Ratings.csv")
df_user = pd.read_csv("https://raw.githubusercontent.com/RafaelSilva89/Sistema_de_Recomendacao-Livros/main/Datasets/Users.csv")

  df_book = pd.read_csv("https://raw.githubusercontent.com/RafaelSilva89/Sistema_de_Recomendacao-Livros/main/Datasets/Books.csv")


## ANÁLISE EXPLORATÓRIA DOS DADOS

In [15]:

#resumo do dataset book

print("resumo do dataset book\n")

print("Tamanho do dataset: ", df_book.shape)
print("_______________________________________")
print("Valores null: ")
print(df_book.isnull().sum())
print("_______________________________________")
print("Valores únicos: ")
print(df_book.nunique())

print("_______________________________________")
print("Informação do dataset: ")
print(df_book.info())


resumo do dataset book

Tamanho do dataset:  (271360, 8)
_______________________________________
Valores null: 
ISBN                   0
Book-Title             0
Book-Author            1
Year-Of-Publication    0
Publisher              2
Image-URL-S            0
Image-URL-M            0
Image-URL-L            3
dtype: int64
_______________________________________
Valores únicos: 
ISBN                   271360
Book-Title             242135
Book-Author            102023
Year-Of-Publication       202
Publisher               16807
Image-URL-S            271044
Image-URL-M            271044
Image-URL-L            271041
dtype: int64
_______________________________________
Informação do dataset: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271360 entries, 0 to 271359
Data columns (total 8 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   ISBN                 271360 non-null  object
 1   Book-Title           271360 non-null

In [16]:

#resumo do dataset rating

print("resumo do dataset book\n")

print("Tamanho do dataset: ", df_rating.shape)
print("_______________________________________")
print("Valores null: ")
print(df_rating.isnull().sum())
print("_______________________________________")
print("Valores únicos: ")
print(df_rating.nunique())

print("_______________________________________")
print("Informação do dataset: ")
print(df_rating.info())

print("_______________________________________")
print("Informação descritiva dos dados númericos: ")
print(df_rating.describe())

resumo do dataset book

Tamanho do dataset:  (1149780, 3)
_______________________________________
Valores null: 
User-ID        0
ISBN           0
Book-Rating    0
dtype: int64
_______________________________________
Valores únicos: 
User-ID        105283
ISBN           340556
Book-Rating        11
dtype: int64
_______________________________________
Informação do dataset: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1149780 entries, 0 to 1149779
Data columns (total 3 columns):
 #   Column       Non-Null Count    Dtype 
---  ------       --------------    ----- 
 0   User-ID      1149780 non-null  int64 
 1   ISBN         1149780 non-null  object
 2   Book-Rating  1149780 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 26.3+ MB
None
_______________________________________
Informação descritiva dos dados númericos: 
            User-ID   Book-Rating
count  1.149780e+06  1.149780e+06
mean   1.403864e+05  2.866950e+00
std    8.056228e+04  3.854184e+00
min    2.000000e+00 

In [17]:

#resumo do dataset user

print("resumo do dataset book\n")

print("Tamanho do dataset: ", df_user.shape)
print("_______________________________________")
print("Valores null: ")
print(df_user.isnull().sum())
print("_______________________________________")
print("Valores únicos: ")
print(df_user.nunique())

print("_______________________________________")
print("Informação do dataset: ")
print(df_user.info())

print("_______________________________________")
print("Informação descritiva dos dados númericos: ")
print(df_user.describe().round(1))

resumo do dataset book

Tamanho do dataset:  (278858, 3)
_______________________________________
Valores null: 
User-ID          0
Location         0
Age         110762
dtype: int64
_______________________________________
Valores únicos: 
User-ID     278858
Location     57339
Age            165
dtype: int64
_______________________________________
Informação do dataset: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 278858 entries, 0 to 278857
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   User-ID   278858 non-null  int64  
 1   Location  278858 non-null  object 
 2   Age       168096 non-null  float64
dtypes: float64(1), int64(1), object(1)
memory usage: 6.4+ MB
None
_______________________________________
Informação descritiva dos dados númericos: 
        User-ID       Age
count  278858.0  168096.0
mean   139429.5      34.8
std     80499.5      14.4
min         1.0       0.0
25%     69715.2      24.0
50%    139

In [18]:
df_rating.head()


Unnamed: 0,User-ID,ISBN,Book-Rating
0,276725,034545104X,0
1,276726,0155061224,5
2,276727,0446520802,0
3,276729,052165615X,3
4,276729,0521795028,6


In [19]:
df_book.head()

Unnamed: 0,ISBN,Book-Title,Book-Author,Year-Of-Publication,Publisher,Image-URL-S,Image-URL-M,Image-URL-L
0,195153448,Classical Mythology,Mark P. O. Morford,2002,Oxford University Press,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...
1,2005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...
2,60973129,Decision in Normandy,Carlo D'Este,1991,HarperPerennial,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...
3,374157065,Flu: The Story of the Great Influenza Pandemic...,Gina Bari Kolata,1999,Farrar Straus Giroux,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...
4,393045218,The Mummies of Urumchi,E. J. W. Barber,1999,W. W. Norton &amp; Company,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...


OBS.: O dataset user tem um número considerável valores nulos, o que dificulta na limpeza. Diferente dos outros banco de dados. Além dos problemas com ausência de informação temos idade de 244 anos, isso demonstra que temos outlier por erro de digitação ou algo do tipo.

In [20]:
# junto as três tabelas
df = df_book.merge(df_rating, on='ISBN').merge(df_user, on='User-ID')

# shape
df.shape

(1031136, 12)

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1031136 entries, 0 to 1031135
Data columns (total 12 columns):
 #   Column               Non-Null Count    Dtype  
---  ------               --------------    -----  
 0   ISBN                 1031136 non-null  object 
 1   Book-Title           1031136 non-null  object 
 2   Book-Author          1031135 non-null  object 
 3   Year-Of-Publication  1031136 non-null  object 
 4   Publisher            1031134 non-null  object 
 5   Image-URL-S          1031136 non-null  object 
 6   Image-URL-M          1031136 non-null  object 
 7   Image-URL-L          1031132 non-null  object 
 8   User-ID              1031136 non-null  int64  
 9   Book-Rating          1031136 non-null  int64  
 10  Location             1031136 non-null  object 
 11  Age                  753301 non-null   float64
dtypes: float64(1), int64(2), object(9)
memory usage: 102.3+ MB


In [42]:
# Identifico quais linhas estão nulas no ano
df[df['Year-Of-Publication'].isnull()]


287500    2003
352361    2000
467962    2000
469216    2000
Name: Book-Author, dtype: object

In [44]:
# Observei que o ano está preenchido no autor, então irei preencheros dados com essa informação.
df['Year-Of-Publication'] = df.apply(lambda row: row['Book-Author'] if pd.isnull(row['Year-Of-Publication']) else row['Year-Of-Publication'], axis=1)

#Confirmo se os valores nulos foram eliminados da coluna year
df[df['Year-Of-Publication'].isnull()]

Unnamed: 0,ISBN,Book-Title,Book-Author,Year-Of-Publication,Publisher,Image-URL-S,Image-URL-M,Image-URL-L,User-ID,Book-Rating,Location,Age


In [47]:
df['Year-Of-Publication'] = df['Year-Of-Publication'].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1031136 entries, 0 to 1031135
Data columns (total 12 columns):
 #   Column               Non-Null Count    Dtype  
---  ------               --------------    -----  
 0   ISBN                 1031136 non-null  object 
 1   Book-Title           1031136 non-null  object 
 2   Book-Author          1031135 non-null  object 
 3   Year-Of-Publication  1031136 non-null  int64  
 4   Publisher            1031134 non-null  object 
 5   Image-URL-S          1031136 non-null  object 
 6   Image-URL-M          1031136 non-null  object 
 7   Image-URL-L          1031132 non-null  object 
 8   User-ID              1031136 non-null  int64  
 9   Book-Rating          1031136 non-null  int64  
 10  Location             1031136 non-null  object 
 11  Age                  753301 non-null   float64
dtypes: float64(1), int64(3), object(8)
memory usage: 102.3+ MB


In [63]:
# Renomeio as colunas

columns = {"Book-Title": "Título",
           "Book-Author": "Autor",
           "Year-Of-Publication":"Ano da Publicação",
           "Publisher": "Editora",
           "User-ID": "ID do cliente",
           "Book-Rating": "Avaliação",
           "Location":"Localização",
           "Age": "Idade"}

df.rename(columns=columns, inplace=True)
df.head()


Unnamed: 0,ISBN,Título,Autor,Ano da Publicação,Editora,Image-URL-S,Image-URL-M,Image-URL-L,ID do cliente,Avaliação,Localização,Idade
0,195153448,Classical Mythology,Mark P. O. Morford,2002,Oxford University Press,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,2,0,"stockton, california, usa",18.0
1,2005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,8,5,"timmins, ontario, canada",
2,60973129,Decision in Normandy,Carlo D'Este,1991,HarperPerennial,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...,8,0,"timmins, ontario, canada",
3,374157065,Flu: The Story of the Great Influenza Pandemic...,Gina Bari Kolata,1999,Farrar Straus Giroux,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...,8,0,"timmins, ontario, canada",
4,393045218,The Mummies of Urumchi,E. J. W. Barber,1999,W. W. Norton &amp; Company,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...,8,0,"timmins, ontario, canada",
