In [58]:
import surprise
## 고유값(특이값)분해 방법
from surprise import SVD
## SGD(Stochastic 통계적인 Gradient 경사 하강법)
from surprise import Dataset, Reader
from surprise import accuracy
from surprise.model_selection import train_test_split
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances
import pandas as pd
import numpy as np

In [67]:
def get_dataframe():
    rating = pd.read_csv('ratings_trip.csv', index_col=0)
    area = pd.read_csv('place_trip.csv', index_col=0)
    user = pd.read_csv('user_trip.csv', index_col=0)
    return user, area, rating

In [73]:
def cal_RMSE(rating):
    algo = SVD()
    
    data = Dataset.load_from_df(rating[['userID', 'area', 'rating']], reader)
    trainset, testset = train_test_split(data, test_size=0.25, random_state=0)
    algo.fit(trainset)
    predictions = algo.test(testset)
    accuracy.rmse(predictions)
    return (algo, trainset, testset)

In [74]:
def get_recommendations(userID, algo, num_of_ppl=50, cosine_sim=cosine_sim):
    # model 호출    
    # 간단 전처리
    user_df = pd.get_dummies(user)
    col_data = user_df.iloc[:,1:].columns
    user_matrix = user_df.iloc[:,1:].to_numpy()
    cosine_sim = cosine_similarity(user_matrix,user_matrix)
    
    # 선택한 유저의 id로부터 해당 유저의 인덱스를 받아온다.
    userID_to_index = dict(zip(user_df['userID'], user.index))
    idx = userID_to_index[userID]

    # 해당 유저와 모든 유저와의 유사도를 가져온다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 유저들을 정렬한다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 50개의 유저를 받아온다.
    sim_scores = sim_scores[1:num_of_ppl+1]

    # 가장 유사한 10개의 유저의 인덱스를 얻는다.
    user_indices = [idx[0] for idx in sim_scores]

    # 가장 유사한 10개의 유저의 id을 r_list에 저장.
    rlist = list(user_df['userID'].iloc[user_indices])
    print("가장 유사한",num_of_ppl,"명의 userID:\n", rlist)
    ##비슷한 유저 num_of_ppl명
    similar_users = user_df[user_df['userID'].isin(rlist)]
    
    similarity = cosine_similarity(similar_users, similar_users)
    print("\n\n")
    print("비슷한 유저",num_of_ppl,"명을 비교한 cosine similarity:\n", similarity)
    
    ## 비슷한 사람들 20명이 4이상 점수를 준 여행지역
    df_sim = rating[(rating['userID'].isin(rlist)) & (rating['rating']>=4)]
    print("\n\n비슷한 사람들",num_of_ppl,"명이 4이상 점수를 준 여행지역:\n", df_sim)

    ## 유저가 여행지역에 줄 점수 예측
    result= [(algo.predict(userID, str(one), verbose=True)) for one in df_sim['area']]
    print("\n\n유저가 여행지역에 줄 점수 예측:")
    for i in result:
        print(i)
    
    result_est = [pred.est for pred in result]
    result_est = list(set(result_est))
    # print(result_est)
    
    ## 여행지역중 최대 평점 예측되는 지역 top 5
    top5 = sorted(range(len(result_est)), key=lambda i: result_est[i])[-5:]
    top5.reverse()
    
    ## top5여행지에 대한 유저 평가 예측
    recommendation = []
    print("\n\n top5여행지에 대한 유저 평가 예측:\n")
    for i in top5:
        print(result[i])
        recommendation.append(result[i][1])
    
    return recommendation


In [75]:
reader = Reader(rating_scale=(1,5.0)) # 1단위, 최대값 5

In [76]:
user, area, rating = get_dataframe()

In [77]:
algo, trainset, testset = cal_RMSE(rating)

RMSE: 0.4740


In [79]:
get_recommendations(1000203, algo, 50)

가장 유사한 50 명의 userID:
 [1002202, 1005502, 1000701, 1024002, 1021102, 1021802, 1023703, 1095702, 1034201, 1158002, 1039501, 1046001, 1069002, 1086902, 1038102, 1026402, 1028502, 1090702, 1243702, 1021101, 1013001, 1060204, 1004802, 1326002, 1104302, 1034501, 1004601, 1061001, 1114802, 1085202, 1005501, 1047501, 1125902, 1076003, 1166804, 1024001, 1100502, 1082902, 1202802, 1140302, 1112302, 1157302, 1193702, 1173202, 1270602, 1118702, 1127402, 1000702, 1008602, 1031701]



비슷한 유저 50 명을 비교한 cosine similarity:
 [[1.         1.         0.99999929 ... 0.99999986 0.99999963 0.99999679]
 [1.         1.         0.99999929 ... 0.99999986 0.99999963 0.99999679]
 [0.99999929 0.99999929 1.         ... 0.99999851 0.9999979  0.99999306]
 ...
 [0.99999986 0.99999986 0.99999851 ... 1.         0.99999995 0.999998  ]
 [0.99999963 0.99999963 0.9999979  ... 0.99999995 1.         0.9999986 ]
 [0.99999679 0.99999679 0.99999306 ... 0.999998   0.9999986  1.        ]]


비슷한 사람들 50 명이 4이상 점수를 준 여행지역:
        use

['충청북도 충주시', '경상북도 영덕군', '전라북도 전주시', '강원도 동해시', '경기도 이천시']

In [42]:
# pearson_sim = user_df.T.corr()
# np.array(pearson_sim)

가장 유사한 100 명의 userID:
 [1002202, 1005502, 1000701, 1024002, 1021102, 1021802, 1023703, 1095702, 1034201, 1158002, 1039501, 1046001, 1069002, 1086902, 1038102, 1026402, 1028502, 1090702, 1243702, 1021101, 1013001, 1060204, 1004802, 1326002, 1104302, 1034501, 1004601, 1061001, 1114802, 1085202, 1005501, 1047501, 1125902, 1076003, 1166804, 1024001, 1100502, 1082902, 1202802, 1140302, 1112302, 1157302, 1193702, 1173202, 1270602, 1118702, 1127402, 1000702, 1008602, 1031701, 1072802, 1025902, 1026702, 1106502, 1041001, 1060203, 1507902, 1181802, 1043001, 1050401, 1180902, 1253602, 1193701, 1001702, 1215103, 1001701, 1077402, 1061002, 1164502, 1083801, 1501504, 1063103, 1095701, 1078202, 1137902, 1183802, 1017002, 1268302, 1120401, 1140301, 1158101, 1237701, 1090701, 1100501, 1171702, 1024102, 1028602, 1047502, 1266202, 1127101, 1150401, 1001802, 1016401, 1101502, 1050101, 1058801, 1099501, 1124403, 1002201, 1149101]



비슷한 유저 100 명을 비교한 cosine similarity:
 [[1.         1.         0.99999929 

['경기도 수원시', '경기도 남양주시', '전라북도 전주시', '경상북도 청송군', '경기도 화성시']

In [52]:
 ## 유사한 유저 50명 정보 출력
# user[user_df['userID'].isin(rlist)]

In [46]:
# import seaborn as sns
# from matplotlib import pyplot as plt

# sns.heatmap(cosine_sim, xticklabels=similar_users['userID'], yticklabels=similar_users['userID'], cmap='viridis')
# plt.show()