# Collaborative Filtering  

# 협업 필터링
--------
### Reference  

https://scvgoe.github.io/2017-02-01-%ED%98%91%EC%97%85-%ED%95%84%ED%84%B0%EB%A7%81-%EC%B6%94%EC%B2%9C-%EC%8B%9C%EC%8A%A4%ED%85%9C-(Collaborative-Filtering-Recommendation-System)/  

https://ko.wikipedia.org/wiki/%ED%98%91%EC%97%85_%ED%95%84%ED%84%B0%EB%A7%81#%EC%95%84%EC%9D%B4%ED%85%9C_%EA%B8%B0%EB%B0%98_%ED%95%84%ED%84%B0%EB%A7%81

https://kiyoja07.blogspot.com/2019/03/python.html

https://www.fun-coding.org/recommend_basic3.html

------

## 정의
추천 시스템에서의 협업 필터링은 많은 유저들로부터 모은 취향 정보들을 기반으로 하여 스스로 예측하는 기술을 말한다. 쉽게 말하면 **집단지성**.


## 종류
크게 Memory-based, Model-based, Hybrid가 있는데 이 중에서 가장 간단한 Memory-based 협업 필터링을 사용할 것이다.  

Memory-based 협업 필터링의 추천 시스템은 유사도를 기반으로 동작한다. 사용자-사용자 간의 유사도를 기준으로 하는 경우는 사용자 기반(User-Based), 아이템-아이템 간의 유사도를 기준으로 하는 경우는 **아이템 기반**(Item-Based)이다.  
  
## 적용
 우리는 칵테일-칵테일(혹은 음료-칵테일)간의 유사도를 살펴봐야 되기 때문에 **아이템 기반**의 Collaborative Filtering을 사용해야 할 것이다.  
  
 아이템 기반 필터링은 고객이 선호도를 입력한 기존의 상품들과 예측하고자 하는 상품과의 유사도(similarity)를 계산하여 고객의 선호도를 예측하는 방법이다.  
 즉, 고객이 높은 평가를 하였다면 그 상품도 높게 평가를 할 것이라고 예측하고, 낮은 평가를 하였다면 그 상품도 낮게 평가를 할 것이라고 예측하는 것이다.  
 여기서 아이템 기반 collaborative filtering은 상품들간의 유사도를 계산하기 위하여 두 상품에 모두 선호도를 입력한 고객들의 선호도를 사용한다.  
  
 요약을 하자면, **예측하고자 하는 상품**이 있고, **기존의 상품들**이 있는데, 이들 사이의 *유사도*를 알아봐야한다. 위에서는 그 기준을 고객들의 선호도로 정했다. 우리는 칵테일에 들어가는 재료를 기준으로 해야하므로, 재료(고객)와 그 재료가 들어가는 비율(고객의 선호도)로 생각하면 편하다.  
 
 다음 표를 보자.

음료|재료1|재료2|재료3  
-|-|-|-
칵테일1 | 0 | 0.2 | 0.7  
칵테일2 | ... | ... | ...  
칵테일3 | ... | ... | ...  

 여기서 0은 그 재료가 아예 안들어가는 경우를 의미할 것이다.  
   
 이제 예측하고자 하는 상품은 무엇이고, 기존의 상품들은 무엇으로 해야할지 생각해보자. 예측하고자 하는 상품은 **사람들이 평소 취향대로 고른 음료**일 것이고, 기존의 상품들은 **칵테일**이 될 것이다. 그렇다면 이 두 개를 어떻게 비교해야할까를 생각해보았을 때, 사람들이 평소 취향대로 고른 음료도 재료를 태그해줘야할 것이다. (비슷한 취향으로 추천해주는 시스템이기 때문에 크게 같은 계열의 여러 재료를 동시 태그해놓고, 가장 유사한 칵테일이 선정되도록 하면 상관 없을 듯 하다.)
  
 다음 그림처럼 유사도를 구했다고 치자.(유사도를 구하는 방법은 밑에!)  
 ![유사도](./sym.png)  
 이렇게, 유사도(similarity)를 구했으면, 이를 기반으로 예측 점수를 구할 수 있다. 예측 점수(prediction)를 구하는 방법은  
 1. 가장 유사한 항목들의 점수를 사용하여 예측 점수로 활용하거나, 
 2. 전체를 대상으로 유사도 기반의 weighted sum(가중합)을 예측 점수로 사용하는 방법이다.
  
-----

# 유사도

## 피어슨 상관계수

 상관계수란, 5주차 강의에서 배웠듯이, **변수와 변수의 관련성**을 수치화 한 것이다. (상관관계가 인과관계를 의미하진 않는다.)  
 그렇다면, 피어슨 상관계수란 무엇일까. 피어슨 상관계수는 두 변수간의 상관관계를 일차함수로 나타내어, 선형적 상관관계를 표현한 것이다.  
- -1.0과 -0.7 사이이면, 강한 음적 선형관계  
- -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계  
- -0.3과 -0.1 사이이면, 약한 음적 선형관계  
- -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계  
- +0.1과 +0.3 사이이면, 약한 양적 선형관계  
- +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계  
- +0.7과 +1.0 사이이면, 강한 양적 선형관계 
  
다음과 같은 선형관계를 가진다.  
  
두 변수가 완전히 동일하면 피어슨 상관계수는 1.0, 완전히 반대방향으로 동일하면 -1.0, 전혀 상관없으면 0이 될 것이다.

## 피어슨 유사도
피어슨 유사도는 두 벡터의 상관계수를 의미한다. 쉽게 말하면 벡터의 유사도인데, 코사인 유사도를 써도 크게 차이는 없을 것 같다.  
  
피어슨 유사도는 유사도가 가장 높을 경우 값이 1, 가장 낮을 경우 -1의 값을 가진다.  

식은 https://www.fun-coding.org/recommend_basic3.html 에서 확인 가능. 활용할 때 쓰자.  

## 적용
피어슨 상관계수를 강의에서 확인할 수 있는 부분은 heatmap이었다. 기억을 되살리기 위해 코드를 보면 다음과 같다.
```python
    import matplotlib.pyplot as plt
    %matplotlib inline
    
    import seaborn as sns
    sns.set()
    
    plt.figure(figsize=(20,15))
    sns.heatmap(house_data.corr(), annot=True,fmt='.2f',square=True)
    
    plt.show() 
```

결국, 피어슨 상관계수를 heatmap이 알아서 계산을 해준다는 사실을 알 수 있다.(heatmap 네모칸에 있는 값들이 피어슨 상관계수였음)  
  
https://kiyoja07.blogspot.com/2019/03/python.html 그래서 이 사이트를 참고해보면, 상관계수를 데이터프레임으로 바꿀 수 있다. 즉, sym.png와 같은 표를 코드로 구현해낼 수 있다는 것이다. 다음과 같은 방법으로 피어슨 상관계수를 구해서 유사도를 구했다면, 그 다음에 prediction을 이를 기반으로 구할 수 있을 것이다.