https://www.fun-coding.org/recommend_basic2.html

# Recommendation 기본 알고리즘

## Popularity, High Rated Based
- 인기도, 높은 평점을 갖는 item 추천
- 모두에게 동일한 item 추천

In [1]:
ratings={
     'Dave':{'달콤한인생':5,'범죄도시':3,'샤인':3},
     'David':{'달콤한인생':5,'범죄도시':1,'샤인':4},
     'Alex':{'달콤한인생':0,'범죄도시':4,'샤인':5},
     'Andy':{'달콤한인생':2,'범죄도시':1,'샤인':5}
}

### 평점이 가장 높은 두 영화 출력

In [21]:
for rating in ratings :
    print(rating)

Dave
David
Alex
Andy


In [22]:
for rating in ratings :
    for movie in ratings[rating].keys() :
        print(movie)

달콤한인생
범죄도시
샤인
달콤한인생
범죄도시
샤인
달콤한인생
범죄도시
샤인
달콤한인생
범죄도시
샤인


In [6]:
movie_dict = dict()
for rating in ratings :
    for movie in ratings[rating].keys() : #movie 는 각 영화 제목
        if movie not in movie_dict :
            movie_dict[movie] = ratings[rating][movie] #없으면 평점과 함께 추가하고
        else :
            movie_dict[movie] = (movie_dict[movie] + ratings[rating][movie]) #있으면 있는 평점에 새로운 평점을 더함
            
for movie in ratings[rating].keys() :
    movie_dict[movie] = movie_dict[movie]/4 #점수의 평균을 냄

In [7]:
movie_dict

{'달콤한인생': 3.0, '범죄도시': 2.25, '샤인': 4.25}

In [8]:
import operator

In [10]:
sorted_x = sorted(movie_dict.items(), key = operator.itemgetter(1), reverse = True) #sorting
sorted_x

[('샤인', 4.25), ('달콤한인생', 3.0), ('범죄도시', 2.25)]

## Collaborative Filtering
1. 데이터 구성 : 평점을 사용하여 사용자-항목 레이팅 행렬을 만든다.
2. 유사도 계산
3. 예측값 및 추천 목록 생성

### 데이터 구성

In [17]:
ratings

{'Dave': {'달콤한인생': 5, '범죄도시': 3, '샤인': 3},
 'David': {'달콤한인생': 5, '범죄도시': 1, '샤인': 4},
 'Alex': {'달콤한인생': 0, '범죄도시': 4, '샤인': 5},
 'Andy': {'달콤한인생': 2, '범죄도시': 1, '샤인': 5}}

In [11]:
ratings.get('Dave')

{'달콤한인생': 5, '범죄도시': 3, '샤인': 3}

In [13]:
ratings['Dave']

{'달콤한인생': 5, '범죄도시': 3, '샤인': 3}

### 유사도 계산(피타고라스 거리 계산)

In [16]:
import math
def sim(i,j) :
    return math.sqrt(pow(i,2) + pow(j,2))

#### Alex가 평가한 범죄의 도시, 샤인을 모두 평가한 사용자와 유사도 구하기

In [19]:
ratings['Alex']

{'달콤한인생': 0, '범죄도시': 4, '샤인': 5}

In [20]:
for name in ratings :
    if name != 'Alex' :
        var1 = ratings['Alex']['범죄도시'] - ratings[name]['범죄도시']
        var2 = ratings['Alex']['샤인'] - ratings[name]['샤인']
        print(name, " : ", sim(var1, var2))

Dave  :  2.23606797749979
David  :  3.1622776601683795
Andy  :  3.0


#### 0~1로 스케일. 1에 가까울수록 유사도 높음

In [21]:
for name in ratings :
    if name != 'Alex' :
        var1 = ratings['Alex']['범죄도시'] - ratings[name]['범죄도시']
        var2 = ratings['Alex']['샤인'] - ratings[name]['샤인']
        print(name, " : ", 1/sim(var1, var2))

Dave  :  0.4472135954999579
David  :  0.31622776601683794
Andy  :  0.3333333333333333


#### Dave가 평가한 범죄의 도시, 샤인을 모두 평가한 사용자와 유사도 구하기

In [22]:
for name in ratings :
    if name != 'Dave' :
        var1 = ratings['Dave']['범죄도시'] - ratings[name]['범죄도시']
        var2 = ratings['Dave']['샤인'] - ratings[name]['샤인']
        print(name, " : ", 1/sim(var1, var2))

David  :  0.4472135954999579
Alex  :  0.4472135954999579
Andy  :  0.35355339059327373


# Similarity 계산 방식

### Mean Squared Difference Similarity
- user based
$$\text{msd}(u, v) = \frac{1}{|I_{uv}|} \cdot \sum\limits_{i \in I_{uv}} (r_{ui} - r_{vi})^2$$

$$\begin{split}\text{msd_sim}(u, v) &= \frac{1}{\text{msd}(u, v) + 1}\end{split}$$


- item based
$$\text{msd}(i, j) = \frac{1}{|U_{ij}|} \cdot \sum\limits_{u \in U_{ij}} (r_{ui} - r_{uj})^2$$

$$\begin{split}\text{msd_sim}(i, j) &= \frac{1}{\text{msd}(i, j) + 1}\end{split}$$


In [4]:
ratings

{'Dave': {'달콤한인생': 5, '범죄도시': 3, '샤인': 3},
 'David': {'달콤한인생': 5, '범죄도시': 1, '샤인': 4},
 'Alex': {'달콤한인생': 0, '범죄도시': 4, '샤인': 5},
 'Andy': {'달콤한인생': 2, '범죄도시': 1, '샤인': 5}}

In [10]:
for i in ratings :
    print(ratings[i].items())
    print(ratings[i].keys())
    print(ratings[i].values())

dict_items([('달콤한인생', 5), ('범죄도시', 3), ('샤인', 3)])
dict_keys(['달콤한인생', '범죄도시', '샤인'])
dict_values([5, 3, 3])
dict_items([('달콤한인생', 5), ('범죄도시', 1), ('샤인', 4)])
dict_keys(['달콤한인생', '범죄도시', '샤인'])
dict_values([5, 1, 4])
dict_items([('달콤한인생', 0), ('범죄도시', 4), ('샤인', 5)])
dict_keys(['달콤한인생', '범죄도시', '샤인'])
dict_values([0, 4, 5])
dict_items([('달콤한인생', 2), ('범죄도시', 1), ('샤인', 5)])
dict_keys(['달콤한인생', '범죄도시', '샤인'])
dict_values([2, 1, 5])


In [2]:
#user-based
#name1, name2 사람의 MSD 계산
def sim_msd_user(data, name1, name2) :
    sum =0 ; count=0
    
    #name1과 name2가 모두 관람한 모든 영화에 대하여
    for movies in data[name1] :
        if (data[name1][movies]>0) and (data[name2][movies]>0) : #평점을 내렸고, 같은 영화를 본 경우만
            sum += pow(data[name1][movies]- data[name2][movies], 2)
            count+=1
            
    return 1 / ( 1 + (sum / count) )


#item-based
#movie1, movie2 MSD 계산
def sim_msd_item(data, movie1, movie2) :
    sum =0; count=0
    
    #movie1과 movie2를 모두 평을 내린 모든 사람에 대하여
    for name in data :
        if (data[name][movie1] > 0) and (data[name][movie2] > 0) : #movie1, movie2 영화의 평점을 내린 경우만
            sum+=pow(data[name][movie1] - data[name][movie2], 2)
            count+=1
            
    return 1 / ( 1 + (sum / count) )

In [3]:
sim_msd_user(ratings, 'Dave','Andy')

0.15

In [4]:
sim_msd_item(ratings, '범죄도시', '샤인')

0.13333333333333333

### Cosine Similarity
- user based
$$\text{cosine_sim}(u, v) = \frac{
\sum\limits_{i \in I_{uv}} r_{ui} \cdot r_{vi}}
{\sqrt{\sum\limits_{i \in I_{uv}} r_{ui}^2} \cdot
\sqrt{\sum\limits_{i \in I_{uv}} r_{vi}^2}
}$$
- item based
$$\text{cosine_sim}(i, j) = \frac{
\sum\limits_{u \in U_{ij}} r_{ui} \cdot r_{uj}}
{\sqrt{\sum\limits_{u \in U_{ij}} r_{ui}^2} \cdot
\sqrt{\sum\limits_{u \in U_{ij}} r_{uj}^2}
}$$

In [5]:
import math

In [6]:
#user-based
#name1, name2 사람의 cosine similarity 계산
def sim_cosine_user(data, name1, name2) :
    s1 = 0; s2 =0; ss=0
    
    for movies in data[name1] :
        #if movies in data[name2]:
        if (data[name1][movies]>0) and (data[name2][movies]>0) : #평점을 내렸고, 같은 영화를 본 경우만
            s1 += pow(data[name1][movies], 2)
            s2 += pow(data[name2][movies], 2)
            ss += data[name1][movies]*data[name2][movies]
            
            return ss / (math.sqrt(s1)*math.sqrt(s2))
            
            
#item-based
#movie1, movie2  cosine similarity 계산
def simsim_cosine_item(data, movie1, movie2) :
    s1 = 0; s2 =0; ss=0
    
    for name in data :
        if (data[name][movie1] > 0) and (data[name][movie2] > 0) : #movie1, movie2 영화의 평점을 내린 경우만
            s1 += pow(data[name][movie1], 2)
            s2 += pow(data[name][movie2], 2)
            ss += data[name][movie1] * data[name][movie2]
            
            return ss / (math.sqrt(s1) * math.sqrt(s2))

In [7]:
ratings

{'Dave': {'달콤한인생': 5, '범죄도시': 3, '샤인': 3},
 'David': {'달콤한인생': 5, '범죄도시': 1, '샤인': 4},
 'Alex': {'달콤한인생': 0, '범죄도시': 4, '샤인': 5},
 'Andy': {'달콤한인생': 2, '범죄도시': 1, '샤인': 5}}

In [8]:
#?
sim_cosine_user(ratings, 'Dave','David')

1.0

In [9]:
simsim_cosine_item(ratings, '달콤한인생','범죄도시')

1.0

### Pearson Similarity
- user based
$$\text{pearson_sim}(u, v) = \frac{
\sum\limits_{i \in I_{uv}} (r_{ui} -  \mu_u) \cdot (r_{vi} - \mu_{v})}
{\sqrt{\sum\limits_{i \in I_{uv}} (r_{ui} -  \mu_u)^2} \cdot
\sqrt{\sum\limits_{i \in I_{uv}} (r_{vi} -  \mu_{v})^2}
}$$
- item based
$$\text{pearson_sim}(i, j) = \frac{
\sum\limits_{u \in U_{ij}} (r_{ui} -  \mu_i) \cdot (r_{uj} - \mu_{j})}
{\sqrt{\sum\limits_{u \in U_{ij}} (r_{ui} -  \mu_i)^2} \cdot
\sqrt{\sum\limits_{u \in U_{ij}} (r_{uj} -  \mu_{j})^2}
}$$

In [58]:
def sim_pearson(data, name1, name2):
    avg_name1 = 0
    avg_name2 = 0
    count = 0
    for movies in data[name1]:
        if movies in data[name2]: #같은 영화를 봤다면
            avg_name1 += data[name1][movies]
            avg_name2 += data[name2][movies]
            count += 1
    
    avg_name1 = avg_name1 / count
    avg_name2 = avg_name2 / count
    
    sum_name1 = 0
    sum_name2 = 0
    sum_name1_name2 = 0
    count = 0
    for movies in data[name1]:
        if movies in data[name2]: #같은 영화를 봤다면
            sum_name1 += pow(data[name1][movies] - avg_name1, 2)
            sum_name2 += pow(data[name2][movies] - avg_name2, 2)
            sum_name1_name2 += (data[name1][movies] - avg_name1) * (data[name2][movies] - avg_name2)
    
    return sum_name1_name2 / (math.sqrt(sum_name1)*math.sqrt(sum_name2))

In [11]:
#user-based
#name1, name2 사람의 pearson similarity 계산
def sim_pearson_user(data, name1, name2) :
    avg_name1 =0; avg_name2 =0
    count=0
    
    for movies in data[name1] :
        if (data[name1][movies]>0) and (data[name2][movies]>0) : #평점을 내렸고, 같은 영화를 본 경우만
            avg_name1 += data[name1][movies]
            avg_name2 += data[name2][movies]
            count+=1
            
    avg_name1 = avg_name1 / count
    avg_name2 = avg_name2 / count
    
    sum_name1 =0; sum_name2 =0; ss=0
    count=0
    
    for movies in data[name1] :
        if (data[name1][movies]>0) and (data[name2][movies]>0) : #평점을 내렸고, 같은 영화를 본 경우만
            sum_name1 += pow(data[name1][movies] - avg_name1, 2)
            sum_name2 += pow(data[name2][movies] - avg_name2, 2)
            ss += (data[name1][movies] - avg_name1) * (data[name2][movies] - avg_name2)
            
    return ss / (math.sqrt(sum_name1) * math.sqrt(sum_name2))


#item_based
#user-based
#movie1, movie2 사람의 pearson similarity 계산
def sim_pearson_item(data, movie1, movie2) :
    avg_movie1 =0; avg_movie2 =0
    count=0
    
    for name in data :
        if (data[name][movie1]>0) and (data[name][movie2]>0) : #평점을 내렸고, 같은 영화를 본 경우만
            avg_movie1 += data[name][movie1]
            avg_movie2 += data[name][movie2]
            count+=1
            
    avg_movie1 = avg_movie1 / count
    avg_movie2 = avg_movie2 / count
    
    sum_movie1 =0; sum_movie2 =0; ss=0
    count=0
    
    for name in data :
        if (data[name][movie1]>0) and (data[name][movie2]>0) : #평점을 내렸고, 같은 영화를 본 경우만
            sum_movie1 += pow(data[name][movie1] - avg_movie1, 2)
            sum_movie2 += pow(data[name][movie2] - avg_movie2, 2)
            ss += (data[name][movie1] - avg_movie1) * (data[name][movie2] - avg_movie2)
            
    return ss / (math.sqrt(sum_movie1) * math.sqrt(sum_movie2))

In [45]:
sim_pearson_user(ratings, 'Dave','David')

0.6933752452815364

In [46]:
sim_pearson_item(ratings, '범죄도시','샤인')

-0.058025885318565944

In [47]:
ratings

{'Dave': {'달콤한인생': 5, '범죄도시': 3, '샤인': 3},
 'David': {'달콤한인생': 5, '범죄도시': 1, '샤인': 4},
 'Alex': {'달콤한인생': 0, '범죄도시': 4, '샤인': 5},
 'Andy': {'달콤한인생': 2, '범죄도시': 1, '샤인': 5}}

### Top match

In [52]:
def top_match(data, name, index, sim_user_fn) :
    lst = []
    for i in data :
        if name!=i : #자기 자신이 아닐 때
            lst.append((sim_user_fn(data, name, i),i))
            
    lst.sort(reverse=True)
    return lst[:index]

In [59]:
top_match(ratings, 'Dave', 3, sim_pearson)

[(0.6933752452815364, 'David'),
 (-0.2773500981126146, 'Andy'),
 (-0.9819805060619655, 'Alex')]

# 유사도와 KNN을 활용한 예측 값 계산 및 춴 목록 생성 기법
- 사용자들 간의 유사도를 바탕으로 모든 항목에 대해 예측값을 계산하고 높은 에측값을 갖는 상위 N개 추천

In [57]:
ratings_expand = {
    '마동석': {
        '택시운전사': 3.5, '남한산성': 1.5,'킹스맨:골든서클': 3.0,
        '범죄도시': 3.5,'아이 캔 스피크': 2.5,'꾼': 3.0
    },
    '이정재': {
        '택시운전사': 5.0, '남한산성': 4.5, '킹스맨:골든서클': 0.5,
        '범죄도시': 1.5, '아이 캔 스피크': 4.5, '꾼': 5.0
    },
    '윤계상': {
        '택시운전사': 3.0, '남한산성': 2.5, '킹스맨:골든서클': 1.5,
        '범죄도시': 3.0, '꾼': 3.0, '아이 캔 스피크': 3.5
    },
    '설경구': {
        '택시운전사': 2.5, '남한산성': 3.0, '범죄도시': 4.5,
        '꾼': 4.0
    },
    '최홍만': {
        '남한산성': 4.5, '킹스맨:골든서클': 3.0, '꾼': 4.5,
        '범죄도시': 3.0, '아이 캔 스피크': 2.5
    },
    '홍수환': {
        '택시운전사': 3.0, '남한산성': 4.0, '킹스맨:골든서클': 1.0,
        '범죄도시': 3.0, '꾼': 3.5, '아이 캔 스피크': 2.0
    },
    '나원탁': {
        '택시운전사': 3.0, '남한산성': 4.0, '꾼': 3.0,
        '범죄도시': 5.0, '아이 캔 스피크': 3.5
    },
    '소이현': {
        '남한산성': 4.5, '아이 캔 스피크': 1.0, '범죄도시': 4.0
    }
}

## KNNBasic
- 단순 가중 평균. $N^k$ 는 k개의 가장 유사도가 큰 벡터의 집합
- user based
$$\hat{r}_{ui} = \frac{
        \sum\limits_{v \in N^k_i(u)} \text{sim}(u, v) \cdot r_{vi}}
        {\sum\limits_{v \in N^k_i(u)} \text{sim}(u, v)}
        $$
- item based
$$\hat{r}_{ui} = \frac{
        \sum\limits_{j \in N^k_u(i)} \text{sim}(i, j) \cdot r_{uj}}
        {\sum\limits_{j \in N^k_u(j)} \text{sim}(i, j)}
        $$