##### DataFrame
- sample_df : 샘플
- sm_df : 유사도
- closer_count : 유사한 사용자 평균
- ms_df : 유사도 평균값
- pred_df : 예측값
- recommand_df : 추천 결과

##### Process
- 샘플데이터 만들기
- 유사도 행렬 구하기
- 유사도 평균값 행렬 구하기
- 기사 추천 리스트 구하기
- 성능측정

### 1. Sample Dataset - 샘플 데이터셋

In [1]:
import numpy as np
import pandas as pd
from scipy import spatial

# sample data set matrix
columns = ["article_1","article_2","article_3","article_4","article_5"]
index = ["user_1", "user_2", "user_3", "user_4"]

data = np.array([
    [5,3,0,0,2],
    [2,0,0,1,4],
    [0,0,4,3,1],
    [4,0,4,5,0],
])

sample_df = pd.DataFrame(data, columns=columns, index=index)
sample_df

Unnamed: 0,article_1,article_2,article_3,article_4,article_5
user_1,5,3,0,0,2
user_2,2,0,0,1,4
user_3,0,0,4,3,1
user_4,4,0,4,5,0


### 2. Similarity Matrix - 유사도 행렬

In [2]:
# 유클리디안 유사도
def euclidean_similarity(vector_1, vector_2):
    
    # vector_1 데이터가 0인 index를 제거
    idx = vector_1.nonzero()[0] # vector에서 value가 0이 아닌 index를 구함
    # index 값으로 vector의 요소를 필터링 함
    vector_1, vector_2 = np.array(vector_1)[idx], np.array(vector_2)[idx]
    
    return np.linalg.norm(vector_1 - vector_2)

In [3]:
# 코사인 유사도 구하는 함수
def cosine_similarity(vector_1, vector_2):

    # vector_1 데이터가 0인 index를 제거
    idx = vector_1.nonzero()[0] # vector에서 value가 0이 아닌 index를 구함
    # index 값으로 vector의 요소를 필터링 함
    vector_1, vector_2 = np.array(vector_1)[idx], np.array(vector_2)[idx]
    
    return 1 - spatial.distance.cosine(vector_1, vector_2)

In [4]:
# 유사도 행렬 함수
def similarity_matrix(sample_df, similarity_func):

    # index 데이터 저장
    index = sample_df.index
    
    # 데이터 프레임 전치 (index - article, columns - user)
    df = sample_df.T
    
    # 모든 user 데이터 사이의 유사도를 구해 행렬 생성 
    matrix = []
    for idx_1, value_1 in df.items():
        # row 데이터 저장
        row = []
        for idx_2, value_2 in df.items():
            # 두 user 사이의 유사도 구함
            row.append(similarity_func(value_1, value_2))
        matrix.append(row)
        
    return pd.DataFrame(matrix, columns=index, index=index)

sm_df = similarity_matrix(sample_df, cosine_similarity)
sm_df

Unnamed: 0,user_1,user_2,user_3,user_4
user_1,1.0,0.652929,0.324443,0.811107
user_2,0.729397,1.0,0.483046,0.443039
user_3,0.196116,0.332956,1.0,0.949474
user_4,0.529813,0.770054,0.82121,1.0


### 3. Mean Score - 유사도 평균값 행렬

In [5]:
# 추천할 대상 및 추천 대상과 유사한 몇개의 데이터까지 사용할지에 대해 설정
user, closer_count = "user_1", 2

# 본인 데이터 제거
ms_df = sm_df.drop(user)

# 유사도가 높은 순으로 sorting
ms_df = ms_df.sort_values(user, ascending=False)

# 위의 설정 대로 컨텐츠를 추천할 사용자와 유사도가 높은 사용자 필터링
ms_df = ms_df[:closer_count]

ms_df

Unnamed: 0,user_1,user_2,user_3,user_4
user_2,0.729397,1.0,0.483046,0.443039
user_4,0.529813,0.770054,0.82121,1.0


In [6]:
# use_1과 가까운 상위 2개 데이터
sample_df.loc[ms_df.index]

Unnamed: 0,article_1,article_2,article_3,article_4,article_5
user_2,2,0,0,1,4
user_4,4,0,4,5,0


In [7]:
mean = np.zeros(len(sample_df.columns))
for ms_user, sms_value in ms_df[user].items():
    mean += sample_df.loc[ms_user]
mean /= len(ms_df[user])

pred_df = pd.DataFrame(columns=sample_df.columns)
pred_df.loc["user"] = sample_df.loc[user]
pred_df.loc["mean"] = mean
pred_df

Unnamed: 0,article_1,article_2,article_3,article_4,article_5
user,5,3,0,0,2
mean,3,0,2,3,2


In [8]:
# 유사도가 높은 user에 대한 평균값 구하는 함수
def mean_score(sample_df, sm_df, target, closer_count):
    
    # 유사도 행렬에서 추천 user와 가까운 user의 유사도 데이터 프레임
    ms_df = sm_df.drop(target)
    ms_df = ms_df.sort_values(target, ascending=False)
    ms_df = ms_df[target][:closer_count]
    
    # 유사도가 높은 user를 나타내는 데이터 프레임
    ms_df = sample_df.loc[ms_df.index]
   
    # 결과 데이터 프레임 생성
    pred_df = pd.DataFrame(columns=sample_df.columns)
    pred_df.loc["user"] = sample_df.loc[target]
    pred_df.loc["mean"] = ms_df.mean()
    
    return pred_df

In [9]:
# 결과 데이터 - sample_df : sample dataframe, sm_df : similarity matrix dataframe
target, closer_count = "user_1", 2
pred_df = mean_score(sample_df, sm_df, target, closer_count)
pred_df

Unnamed: 0,article_1,article_2,article_3,article_4,article_5
user,5,3,0,0,2
mean,3,0,2,3,2


### 4. Recommend - 추천

In [10]:
# user가 읽지 않은 기사를 순서대로 나열 추천 기사 정렬 및 출력
recommand_df = pred_df.T
recommand_df = recommand_df[recommand_df["user"] == 0]
recommand_df = recommand_df.sort_values("mean", ascending=False)
print(list(recommand_df.index))
recommand_df

['article_4', 'article_3']


Unnamed: 0,user,mean
article_4,0,3
article_3,0,2


### 5. Performance Evaluation

##### MSE

In [11]:
def mse(value, pred):
    # user 데이터에서 0인 데이터 제거
    idx = value.nonzero()[0]
    value, pred = np.array(value)[idx], np.array(pred)[idx]

    # 수식 계산후 결과 리턴
    return sum((value - pred)**2) / len(idx)

mse(pred_df.loc["user"], pred_df.loc["mean"])

4.333333333333333

In [12]:
# 전체 user에 대한 평가
def evaluate(df, sm_df, closer_count, algorithm):
    
    # user 리스트
    users = df.index
    evaluate_list = []
    
    # 모든 user에 대해서 mae 값을 구함
    for target in users:
        result_df = mean_score(df, sm_df, target, closer_count)
        evaluate_list.append(algorithm(result_df.loc["user"], result_df.loc["mean"]))
    
    # 모든 user의 mae값의 평균을 리턴
    return np.average(evaluate_list)

evaluate(sample_df, sm_df, 2, mse)

4.5

##### RMSE

In [13]:
def rmse(value, pred):

    # user 데이터에서 0인 데이터 제거
    idx = value.nonzero()[0]
    value, pred = np.array(value)[idx], np.array(pred)[idx]

    # 수식 계산후 결과 리턴
    return np.sqrt(sum((value - pred)**2) / len(idx))

rmse(pred_df.loc["user"], pred_df.loc["mean"])

2.0816659994661326

In [14]:
evaluate(sample_df, sm_df, closer_count, rmse)

2.067791827548017

##### MAE

In [15]:
# 한명의 user에 대한 MAE 값
def mae(value, pred):
    
    # user 데이터에서 0인 데이터 제거
    idx = value.nonzero()[0]
    value, pred = np.array(value)[idx], np.array(pred)[idx]

    # 수식 계산후 결과 리턴
    return sum(np.absolute(value - pred)) / len(idx)

mae(pred_df.loc["user"], pred_df.loc["mean"])

1.6666666666666667

In [16]:
evaluate(sample_df, sm_df, closer_count, mae)

1.8333333333333335