In [157]:
#Importação de bibliotecas necessárias para análise dos dados
import numpy as np
import pandas as pd
import plotly
import plotly.express as px
import plotly.io as pio
import warnings
warnings.filterwarnings("ignore")


In [158]:
#Importação de dados referentes aos livros
dados = pd.read_csv("dados.csv", sep = ",", encoding = "UTF-8")


In [165]:
#Renomeando colunas e visualizando os tipos dos dados
#Alterando o cabeçalho das colunas, para simplificar manipulação
dados = dados.rename(columns={'Títulos':'titulos','Categorias':'categorias','Preços(£)':'precos','Avaliações':'avaliacoes','Estocagem':'estocagem'})
dados


Unnamed: 0,titulos,categorias,precos,avaliacoes,estocagem
0,A Light in the Attic,Poetry,Â51.77,Three,22
1,Tipping the Velvet,Historical Fiction,Â53.74,One,20
2,Soumission,Fiction,Â50.10,One,20
3,Sharp Objects,Mystery,Â47.82,Four,20
4,Sapiens: A Brief History of Humankind,History,Â54.23,Five,20
...,...,...,...,...,...
995,Alice in Wonderland (Alice's Adventures in Won...,Classics,Â55.53,One,1
996,"Ajin: Demi-Human, Volume 1 (Ajin: Demi-Human #1)",Sequential Art,Â57.06,Four,1
997,A Spy's Devotion (The Regency Spies of London #1),Historical Fiction,Â16.97,Five,1
998,1st to Die (Women's Murder Club #1),Mystery,Â53.98,One,1


In [160]:
#Tratamento dos dados referentes ao (preço dos livros) e as (avaliações dos livros)

#Para os preços
#Coluna de 'precos'
df_precos = dados['precos']

#Retirando caracteres especiais
def corrigir_precos(preco):
    preco = preco.replace('Â', '')
    return preco
df_precos = df_precos.apply(corrigir_precos)

#Transformando os valores em variáveis do tipo float
df_precos = df_precos.astype(float, errors = 'raise')
#Avaliando preço médio, máximo e mínimo
df_precos.describe()

count    1000.00000
mean       35.07035
std        14.44669
min        10.00000
25%        22.10750
50%        35.98000
75%        47.45750
max        59.99000
Name: precos, dtype: float64

In [167]:
#Tratamento dos dados referentes ao (preço dos livros) e as (avaliações dos livros)

#Para as avaliações
#Coluna de 'avaliacoes'
df_estrelas = dados['avaliacoes']

#Substituindo caracteres especiais
def corrigir_estrelas(estrela):
    estrela = estrela.replace('One','1')
    estrela = estrela.replace('Two','2')
    estrela = estrela.replace('Three','3')
    estrela = estrela.replace('Four','4')
    estrela = estrela.replace('Five','5')
    return estrela
df_estrelas = df_estrelas.apply(corrigir_estrelas)

#Transformando os valores em variáveis do tipo int
df_estrelas = df_estrelas.astype(int, errors = 'raise')

#Avaliando frequência do número de estrelas
df_estrelas.value_counts()


1    226
3    203
5    196
2    196
4    179
Name: avaliacoes, dtype: int64

In [170]:
#Reorganizando a tabela, agora com valores tratados

#Retirar colunas 'precos' e 'avaliacoes', para posteriormente colocar dados tratados
dados.drop(['precos','avaliacoes'], axis=1, inplace=True)

#Crio as colunas novamente agora com 'df_precos' e 'df_estrelas' cujo os dados estão em float e inteiro
dados['precos'] = df_precos
dados['avaliacoes'] = df_estrelas

display(dados)
dados.info()

TypeError: 'int' object is not callable

In [100]:
#Análise gráfica dos preços dos livros(biblioteca plotly)

#Visualizando valores para definir as faixas que serão usadas no gráfico
print(df_precos.mean())
print(df_precos.max())
print(df_precos.min())

35.07034999999999
59.99
10.0


In [101]:
# mean = 35,00 pounds , max. = 59,99 pounds e min. = 10,00 pounds  

#Faixas correspondentes:
# 45,00 até 59,99 £ --> Preços altos (faixa 1)

# 25,00 até 45,00 £ --> Preços médios (faixa 2)

# 10,00 até 25,00 £ --> Preços baixos (faixa 3)

#Criando a lista das faixas que serão usadas no gráfico pizza
faixas = []
for df in df_precos:
    if (df  >= 45.00):
        faixa1 = 'Preços altos ( 45,00 - 59,99 £)'
        faixas.append(faixa1)
        
    if (df >= 25.00 ) and (df < 45.00):
        faixa2 = 'Preços médios (25.00 - 44.99 £)'
        faixas.append(faixa2)
        
    if (df >= df_precos.min()) and (df < 25.00):
        faixa3 = 'Preços baixos (10,00 - 24,99 £)'
        faixas.append(faixa3)

#DataFrame para uso no gráfico
valores = pd.DataFrame({'precos':df_precos,'faixas':faixas})
display (valores) 

Unnamed: 0,precos,faixas
0,51.77,"Preços altos ( 45,00 - 59,99 £)"
1,53.74,"Preços altos ( 45,00 - 59,99 £)"
2,50.10,"Preços altos ( 45,00 - 59,99 £)"
3,47.82,"Preços altos ( 45,00 - 59,99 £)"
4,54.23,"Preços altos ( 45,00 - 59,99 £)"
...,...,...
995,55.53,"Preços altos ( 45,00 - 59,99 £)"
996,57.06,"Preços altos ( 45,00 - 59,99 £)"
997,16.97,"Preços baixos (10,00 - 24,99 £)"
998,53.98,"Preços altos ( 45,00 - 59,99 £)"


In [102]:
# Gráfico 'Pie Chart'

pie_chart = px.pie(
    
    data_frame = valores,
    values = 'precos' ,     #valores que definiram a porcentagem do gráfico, de acordo com a faixa pertencente
    names = 'faixas'     ,     #cada pedaço corresponde ao alerta criado
    color = 'faixas'     ,     #cores serão definidas pelas coluna 'faixas'
    
    
    #definindo o mapa de cores
    color_discrete_map = {'Preços altos (45,00 - 59,99 £)':'red','Preços médios (25,00 - 44,99 £)':'purple','Preços baixos (10,00 - 24,99 £)':'blue'},
    title = 'Classificação dos livros por preço', #título do gráfico
    
    #ajuste de legenda
    labels={'faixas':'Faixa','precos':'Preço total'},
    template = 'presentation',                       #templates disponíveis
    width = 700,                                     #largura em pixels
    height = 400,                                    #altura em pixels
    hole = 0.5                                       #espaço vazio(buraco) no meio do grafo
    
)

pio.show(pie_chart)

In [131]:
# Análise gráfica dentre os livros com (4 e 5 estrelas) quais categorias se destacam no Book Club
    
#Selecionando livros com avaliações de 4 e 5 estrelas
df = dados.loc[dados['avaliacoes'] >= 4]
df.drop(['titulos','estocagem','precos'], axis=1, inplace=True)#retira colunas desnecessárias ao gráfico 



df = df.sort_values(by = ['categorias']) #organiza o dataframe em ordem alfabética de categorias
df.reset_index(drop = True) #organiza a coluna de indexação


Unnamed: 0,categorias,avaliacoes
0,Add a comment,4
1,Add a comment,4
2,Add a comment,4
3,Add a comment,4
4,Add a comment,5
...,...,...
370,Young Adult,4
371,Young Adult,4
372,Young Adult,4
373,Young Adult,4


In [128]:
# Gráfico 'Bar Chart'
bar_chart = px.bar (

    x = df['categorias'],
    y = df['avaliacoes'],
    orientation='v',                                 # 'v','h': orientação
    barmode='relative' , 
    color = df['avaliacoes'], 
    opacity=0.9,# map your chosen colors
    title='Livros bem avaliados por categoria',       #título do gráfico
    width=1000,                                       # largura in pixels
    height=720,                                       # altura em pixels
    template='gridon',                                #template 
    labels={"x": 'Categoria',  #ajuste de legenda
    "y":"Estrelas"},
)

bar_chart.show()

In [141]:
#Sistema de recomendação por conteúdo (filtragem de notas)

#Criando filtro para livros mal avaliados -  frequência obtida na quinta célula do notebook

#1 estrela   -->   226 livros
#2 estrelas  -->   196 livros
#3 estrelas  -->   203 livros
#4 estrelas  -->   179 livros
#5 estrelas  -->   196 livros

                   #total de 1000 livros
# Para livros com '1 estrelas' --> (226/1000) * 100 = 22,6 % 
# Retira-se os livros com essa avaliação (filtro) do sistema de recomendação (ainda se tem 77,4% do total de livros)

#df_mask = dados_livros['preco'] <= dados_livros['preco'].mean()
#Dataframe somente com esses livros
#filtro1 = dados_livros[df_mask]
#display(filtro1)



filtro1 = dados.loc[dados['avaliacoes'] > 1]
display(filtro1)

TypeError: 'int' object is not callable

In [33]:
recomendacao = pd.DataFrame(filtro2)
recomendacao.reset_index(drop = True)


Unnamed: 0,categoria,titulo,preco,avaliacao
0,Travel,"1,000 Places to See ...",26.08,5
1,Mystery,Poisonous (Max Revere Novels ...,26.80,3
2,Mystery,Playing with Fire,13.71,3
3,Mystery,What Happened on Beale ...,25.37,5
4,Mystery,Delivering the Truth (Quaker ...,20.89,4
...,...,...,...,...
274,Spirituality,The Four Agreements: A ...,17.66,5
275,Spirituality,The Activist's Tao Te ...,32.24,5
276,Self Help,You Are a Badass: ...,12.08,3
277,Historical,All the Light We ...,29.87,5


In [34]:
#Após a análise de dados, idealizando um sistema de recomendação de acordo com a categoria dos livros
recomendacao.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 279 entries, 10 to 998
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   categoria  279 non-null    object 
 1   titulo     279 non-null    object 
 2   preco      279 non-null    float64
 3   avaliacao  279 non-null    object 
dtypes: float64(1), object(3)
memory usage: 10.9+ KB


In [42]:
#Usando sklearn para predição e transformado a coluna 'categoria' em um dado numerado 
from sklearn.preprocessing import LabelEncoder

# 'label_encoder' entende dados que são objetos em ordem alfábetica 
label_encoder = LabelEncoder()
recomendacao['categoria'] = label_encoder.fit_transform(recomendacao['categoria'])

recomendacao = recomendacao.sort_values(by=['categoria'])
print(recomendacao)



     categoria                              titulo  preco avaliacao
628          0   Shobu Samurai, Project Aryoku ...  29.06         3
624          0  The Mindfulness and Acceptance ...  23.89         4
626          0                 On a Midnight Clear  14.07         3
629          0                      Modern Romance  28.26         5
630          0            The White Queen (The ...  25.91         5
..         ...                                 ...    ...       ...
753         34      Frostbite (Vampire Academy #2)  29.99         5
749         34             A Fierce and Subtle ...  28.13         4
748         34                             Burning  28.81         3
796         34                          The Haters  27.89         5
794         34              New Moon (Twilight #2)  12.86         4

[279 rows x 4 columns]


In [43]:
#Transposição de linhas 'avaliacao' em coluna, 'categoria' é a variável escolhida para o modelo de máquina preditiva
recomendacao_pivot = recomendacao.pivot_table(columns = 'avaliacao', index = 'titulo', values = 'categoria')

#Retirando dados nulos
recomendacao_pivot.fillna(0, inplace = True )
display(recomendacao_pivot)


avaliacao,3,4,5
titulo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
#HigherSelfie: Wake Up Your ...,0.0,0.0,20.0
"1,000 Places to See ...",0.0,0.0,32.0
1491: New Revelations of ...,15.0,0.0,0.0
A Clash of Kings ...,0.0,0.0,0.0
A Distant Mirror: The ...,15.0,0.0,0.0
...,...,...,...
"Y: The Last Man, ...",0.0,29.0,0.0
You Are What You ...,0.0,24.0,0.0
You Are a Badass: ...,28.0,0.0,0.0
Zealot: The Life and ...,15.0,0.0,0.0


In [44]:
#Máquina preditiva 
from sklearn.neighbors import NearestNeighbors
model = NearestNeighbors(algorithm='brute')
model.fit(recomendacao_pivot)

NearestNeighbors(algorithm='brute')

In [49]:
#Testando a máquina preditiva
#(#HigherSelfie: Wake Up Your ... ) título escolhido para teste, para isso altera-se [0,:]...

distance, suggestions = model.kneighbors(recomendacao_pivot.iloc[0,:].values.reshape(1,-1))

In [50]:
for i in range(len(suggestions)):
    print(recomendacao_pivot.index[suggestions[i]])

Index(['Gratitude', 'Agnostic: A Spirited Manifesto',
       'Disrupted: My Misadventure in ...', '#HigherSelfie: Wake Up Your ...',
       'Call the Nurse: True ...'],
      dtype='object', name='titulo')
