## Bibliotecas

In [1]:
import numpy as np
import pandas as pd

## Leitura dos dados

In [2]:
avaliacoes = pd.read_csv("ratings.csv")
avaliacoes.head()

Unnamed: 0,UserId:ItemId,Rating
0,4baf0ac888:8b05db84f2,3
1,f3364fd7e6:8b05db84f2,2
2,72a8982204:8b05db84f2,5
3,d0171f7a9d:e40cec3cbe,5
4,e6dad08499:e40cec3cbe,5


## Pré-processamento

In [3]:
novas_colunas = avaliacoes["UserId:ItemId"].str.split(":", n = 1, expand = True)

avaliacoes["UserId"]= novas_colunas[0] 
avaliacoes["ItemId"]= novas_colunas[1] 
avaliacoes.drop(columns =["UserId:ItemId"], inplace = True) 

In [4]:
itens_media = avaliacoes.groupby('ItemId')['Rating'].mean()
itens_media = itens_media.round().astype(int)
itens_media

ItemId
0000c77f48    5
000215e0ca    1
00022a9224    4
0003d519bf    3
0004b4d629    2
             ..
fffbc894ec    5
fffce7315b    4
fffd938521    3
fffe241def    2
fffe850a56    5
Name: Rating, Length: 83767, dtype: int64

In [5]:
media_usuarios = avaliacoes.groupby('UserId')['Rating'].mean()

In [6]:
media_usuarios_coluna = avaliacoes.groupby('UserId')['Rating'].transform('mean')

In [7]:
avaliacoes['Rating - Mean'] = avaliacoes['Rating'] - media_usuarios_coluna

In [8]:
avaliacoes.head()

Unnamed: 0,Rating,UserId,ItemId,Rating - Mean
0,3,4baf0ac888,8b05db84f2,-0.75
1,2,f3364fd7e6,8b05db84f2,0.5
2,5,72a8982204,8b05db84f2,0.0
3,5,d0171f7a9d,e40cec3cbe,0.0
4,5,e6dad08499,e40cec3cbe,1.0


In [9]:
usuarios = set(avaliacoes.UserId.values)
itens = set(avaliacoes.ItemId.values)

In [10]:
itens_para_usuarios = avaliacoes.groupby('ItemId')['UserId'].apply(list).to_dict()

In [11]:
avaliacoes_usuarios = {}

for index, row in avaliacoes.iterrows():
    user_id = row['UserId']
    item_id = row['ItemId']
    rating_norm = row['Rating - Mean']
    
    if user_id not in avaliacoes_usuarios:
        avaliacoes_usuarios[user_id] = {}
    
    # Adicione o rating do item ao dicionário do usuário
    avaliacoes_usuarios[user_id][item_id] = rating_norm

In [12]:
alvos = pd.read_csv("targets.csv")
alvos.head()

Unnamed: 0,UserId:ItemId
0,33ce7ee122:34cb28c370
1,eab9e065e5:34cb28c370
2,f785763291:34cb28c370
3,5f8185d75d:34cb28c370
4,0eeef87507:1dfcdde662


In [13]:
novas_colunas = alvos["UserId:ItemId"].str.split(":", n = 1, expand = True)
alvos["UserId"] = novas_colunas[0]
alvos["ItemId"]= novas_colunas[1] 
alvos.drop("UserId:ItemId", axis = 1, inplace = True)

In [14]:
len(alvos["UserId"].unique())

38644

In [15]:
alvos

Unnamed: 0,UserId,ItemId
0,33ce7ee122,34cb28c370
1,eab9e065e5,34cb28c370
2,f785763291,34cb28c370
3,5f8185d75d,34cb28c370
4,0eeef87507,1dfcdde662
...,...,...
49625,435f4de184,8dba6546ea
49626,7593b90096,43d5d80b1b
49627,88a5a164b1,43d5d80b1b
49628,90df18a22b,58c3b27fe2


In [23]:
arq_saida = open("user_user_non_personalized_results.csv", "w")
arq_saida.write("UserId:ItemId,Rating\n")

21

## Filtragem Colaborativa User-User

In [24]:
def user_user_fc():

    for linha in alvos.itertuples(index=False):
    
        item_alvo = linha[1]
        usuario_alvo = linha[0]
        usuarios_consumidores_item = itens_para_usuarios[item_alvo]
    
        numerador_avaliacao = 0
        denominador_avaliacao = 0
        
        for usuario in usuarios_consumidores_item:
    
            numerador = 0
            denominador1 = 0
            denominador2 = 0
            
            itens_comuns = avaliacoes_usuarios[usuario_alvo].keys() & avaliacoes_usuarios[usuario].keys()
            
            for item in itens_comuns:
                avaliacao_usuario_alvo = avaliacoes_usuarios[usuario_alvo][item]
                avaliacao_usuario_consumidor = avaliacoes_usuarios[usuario][item]
    
                numerador += avaliacao_usuario_alvo*avaliacao_usuario_consumidor
                denominador1 += avaliacao_usuario_alvo*avaliacao_usuario_alvo
                denominador2 += avaliacao_usuario_consumidor*avaliacao_usuario_consumidor
    
            denominador = np.sqrt(denominador1)*np.sqrt(denominador2)
    
            if denominador != 0:  # Verifique se o denominador não é zero
                similaridade = numerador / denominador
            else:
                similaridade = 0
    
            
            numerador_avaliacao += similaridade * avaliacoes_usuarios[usuario][item_alvo]
            denominador_avaliacao += abs(similaridade)
        
        avaliacao = 0
    
        if denominador_avaliacao != 0:
            avaliacao += numerador_avaliacao/denominador_avaliacao + media_usuarios[usuario_alvo]
        else:
            avaliacao += itens_media[item_alvo]
        
        avaliacao = min(5, avaliacao)
        avaliacao = max(1, avaliacao)
        avaliacao = avaliacao
        
        arq_saida.write(linha[0] + ":" + linha[1] + "," + str(avaliacao)+"\n")

In [25]:
user_user_fc()
arq_saida.close()