# Introdução a Sistemas de Recomendação

Notes: Conhecer o histórico de compra de um cliente, por exemplo.
Insights: Provavelmente clientes que possuem o mesmo perfil tem a probabilidade de comprar também. 

A empresa pode se parametrizar por estes dados para oferecer produtos aos clientes de acordo com o seu perfil

## Bibliotecas utilizadas

In [1]:
import scipy
from scipy import stats
import numpy as np


In [2]:
# Criação dos dados que vamos utilizar

matrix = np.array([[8,0,3,4,6],[5,6,1,8,9],[8,0,0,5,10]]) # base de dados
novoUser =         [8,0,2,3,0] # base de novos usuário / nota dada pelo usuário / 0 = não assistiu
nao_assistidos =   [0,1,0,0,1] # base de filmes não assistido /nota dada pelo usuário
print(matrix)
nomeFilmes =       ['Round 6', 'A Invocação do Mal','9 Desconhecidos','You','La Casa de Papel']

# vamos tentar saber se há probabilidade dos novos usuários assistirem os filmes que estão na nossa base de dados, baseadas nas notas já atribuídas da BD


[[ 8  0  3  4  6]
 [ 5  6  1  8  9]
 [ 8  0  0  5 10]]


## Criação Vetor de Similaridade

In [3]:
#criando um vetor com 3 posições e preencher com zero (vamos colocar os valores da similaridade entre o novoUser e cada outro usuário da matriz )

# Aqui, estamos criando uma lista chamada similarity com 3 posições, e cada posição é inicialmente preenchida com o número 0. Essa lista vai guardar os resultados da similaridade entre o novo usuário e outros usuários.
similarity =[0] * 3


print(matrix[0][0])
print(matrix[1][0])
print(matrix[1,:])
#para cada usuário no sistema...
for i in range(0,3):
  #vamos pegar os dados desse usuário
  temp = matrix[i,:]

  #MAS QUEREMOS APENAS COMPARAR OS DADOS QUE O NOVO USER ASSISTIU (OU SEJA... QUE NOVOUSER != 0)
  tempUser= [t for n,t in zip(novoUser,temp) if n != 0]
  tempNovoUser= [n for n in novoUser if n != 0]

  #para verificar o processo
  print('user:',i)
  print(tempUser, tempNovoUser)

  #vamos usar a biblioteca scipy.stats que ja calcula o pearson!!! (coeficiente de correlação de Pearson)
  similarity[i] = scipy.stats.pearsonr(tempUser,tempNovoUser)[0] #a função retorna dois valores e o primeiro é o coefieciente de pearson
print()

print(similarity)

# A ideia é ver o quão parecido o novo usuário é com outros usuários baseando-se nas preferências compartilhadas.


8
5
[5 6 1 8 9]
user: 0
[8, 3, 4] [8, 2, 3]
user: 1
[5, 1, 8] [8, 2, 3]
user: 2
[8, 0, 5] [8, 2, 3]

[0.9994237971287663, 0.23621543814299703, 0.8723686098443353]


## Explicação do Resultado

*1.Dados da Matriz e Impressão:*

8
5
[5 6 1 8 9]

Esses valores indicam parte da matriz e os dados que estão sendo comparados. Aqui está o que cada linha representa:

8 e 5 são valores individuais da matriz (provavelmente dos índices [0][0] e [1][0]).
[5 6 1 8 9] é uma linha da matriz (provavelmente a linha 1).

*2.Comparação por Usuário:*

print('user:', i)
print(tempUser, tempNovoUser)

Para cada usuário, a comparação é feita entre os dados relevantes (tempUser) e os dados do novo usuário (tempNovoUser):

Usuário 0:

Dados do Usuário 0 (tempUser): [8, 3, 4]
Dados do Novo Usuário (tempNovoUser): [8, 2, 3]
A similaridade calculada é 0.9994237971287663.
Usuário 1:

Dados do Usuário 1 (tempUser): [5, 1, 8]
Dados do Novo Usuário (tempNovoUser): [8, 2, 3]
A similaridade calculada é 0.23621543814299703.
Usuário 2:

Dados do Usuário 2 (tempUser): [8, 0, 5]
Dados do Novo Usuário (tempNovoUser): [8, 2, 3]
A similaridade calculada é 0.8723686098443353.

*3.Similaridade Calculada:*

[0.9994237971287663, 0.23621543814299703, 0.8723686098443353]

Este vetor contém os coeficientes de correlação de Pearson calculados para cada usuário comparado com o novo usuário. Os valores correspondem às similaridades:

Usuário 0: Similaridade de aproximadamente 0.999 (muito alta, indicando que as preferências são bastante semelhantes).
Usuário 1: Similaridade de aproximadamente 0.236 (baixa, indicando que as preferências são pouco semelhantes).
Usuário 2: Similaridade de aproximadamente 0.872 (alta, indicando que as preferências são bastante semelhantes).

--*Resumo das Correspondências*--

Usuário 0 tem uma similaridade muito alta com o novo usuário (próxima de 1), indicando que suas preferências são quase iguais.
Usuário 1 tem uma similaridade baixa com o novo usuário (próxima de 0), indicando pouca semelhança nas preferências.
Usuário 2 tem uma similaridade alta com o novo usuário, mas não tão alta quanto o Usuário 0.
Esses resultados ajudam a determinar quais usuários são mais semelhantes ao novo usuário com base em suas preferências.


In [4]:
nota_peso = np.zeros((3,5))

for nUser in range(3):
  for nFilme in range(5):
    print('nota_peso[',nUser, '][',nFilme, '] = , nao_assistidos[',nFilme, '], * ,matrix[',nUser,'][',nFilme, '], * similarity[',nUser,']')
    print('nota_peso[',nUser, '][',nFilme, '] = ', nao_assistidos[nFilme], ' * ' ,matrix[nUser][nFilme], ' * ', similarity[nUser])
    nota_peso[nUser][nFilme] = nao_assistidos[nFilme] * matrix[nUser][nFilme] * similarity[nUser]

print(nota_peso)


nota_peso[ 0 ][ 0 ] = , nao_assistidos[ 0 ], * ,matrix[ 0 ][ 0 ], * similarity[ 0 ]
nota_peso[ 0 ][ 0 ] =  0  *  8  *  0.9994237971287663
nota_peso[ 0 ][ 1 ] = , nao_assistidos[ 1 ], * ,matrix[ 0 ][ 1 ], * similarity[ 0 ]
nota_peso[ 0 ][ 1 ] =  1  *  0  *  0.9994237971287663
nota_peso[ 0 ][ 2 ] = , nao_assistidos[ 2 ], * ,matrix[ 0 ][ 2 ], * similarity[ 0 ]
nota_peso[ 0 ][ 2 ] =  0  *  3  *  0.9994237971287663
nota_peso[ 0 ][ 3 ] = , nao_assistidos[ 3 ], * ,matrix[ 0 ][ 3 ], * similarity[ 0 ]
nota_peso[ 0 ][ 3 ] =  0  *  4  *  0.9994237971287663
nota_peso[ 0 ][ 4 ] = , nao_assistidos[ 4 ], * ,matrix[ 0 ][ 4 ], * similarity[ 0 ]
nota_peso[ 0 ][ 4 ] =  1  *  6  *  0.9994237971287663
nota_peso[ 1 ][ 0 ] = , nao_assistidos[ 0 ], * ,matrix[ 1 ][ 0 ], * similarity[ 1 ]
nota_peso[ 1 ][ 0 ] =  0  *  5  *  0.23621543814299703
nota_peso[ 1 ][ 1 ] = , nao_assistidos[ 1 ], * ,matrix[ 1 ][ 1 ], * similarity[ 1 ]
nota_peso[ 1 ][ 1 ] =  1  *  6  *  0.23621543814299703
nota_peso[ 1 ][ 2 ] = , nao_assi

In [5]:
#  Notas acumuladas

notas_acumuladas = np.sum(nota_peso.T, axis=1)
print(notas_acumuladas)


[ 0.          1.41729263  0.          0.         16.84616782]


In [7]:
temp_peso = nota_peso
temp_peso[nota_peso > 0] = 1
print(temp_peso)

# criando uma nova matriz / essa matriz tem 3 linhas e 5 colunas com todos os valores = 0
temp_similaridade = np.zeros((3,5))
for nUser in range(3): # preenchendo a matriz
    for nFilme in range(5):
        temp_similaridade[nUser][nFilme] = temp_peso[nUser][nFilme] * similarity[nUser]

# resultado da matriz acima        
print(temp_similaridade)

# somando os valores 
similaridade_acumulada = np.sum(temp_similaridade.T,axis=1) #matriz transposta para poder somar / troca as linhas pelas colunas
print(similaridade_acumulada)


[[0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 1.]
 [0. 0. 0. 0. 1.]]
[[0.         0.         0.         0.         0.9994238 ]
 [0.         0.23621544 0.         0.         0.23621544]
 [0.         0.         0.         0.         0.87236861]]
[0.         0.23621544 0.         0.         2.10800785]


## Predição dos Dados

Qual o tipo de similaridade que os novos usário tem referente aos usuários já existentes

In [8]:
nota_final = [0] * 5
# agora a normalização para cada filme com nota acumulada, eu normalizo pela soma dos pesos (similaridade)
for nFilme in range(5):
    if(similaridade_acumulada[nFilme] > 0):
        nota_final[nFilme] = notas_acumuladas[nFilme] / similaridade_acumulada[nFilme]
    else:
        nota_final[nFilme] = 0
        
print(nota_final)


[0, 6.0, 0, 0, 7.991510972567143]


## Ordenando as notas

In [9]:
nAssistidos = sum(nao_assistidos)

notasOrdenadasIndex = sorted(range(len(nota_final)),key=nota_final.__getitem__)[::-1][0:nAssistidos]
print(notasOrdenadasIndex)
# nomeFilmes = ['Round 6', 'A Invocação do Mal','9 Desconhecidos','You','La Casa de Papel']
for i in notasOrdenadasIndex:
  print(nomeFilmes[i], 'nota: ', nota_final[i])
  
  # [4,1] = A quarta posição é maior que a posição 1 / lembrando que no python começa tudo do zero


[4, 1]
La Casa de Papel nota:  7.991510972567143
A Invocação do Mal nota:  6.0
