## 4장. 추천 엔진에서 사용되는 데이터 마이닝 기법

이번 장에서는 주로 데이터를 다루기 위한 테크닉을 다룰 것이다. 유사도 측정, 머신러닝부터 평가 방법까지 다양하게 다룬다.

1. 이웃 기반 기법
    - 유클리드 거리(Euclidean distance)
    - 코사인 유사도(Cosine similarity)
    - 자카드 유사도(Jaccard similarity)
    - 피어슨 상관계수(Pearson correlation coefficient) <br><br>
2. 수학적 모델링 기법 
    - 행렬 인수 분해(NMF)
    - 교대 최소 제곱(ALS)
    - 특이값 분해(SVD) <br><br>
3. 머신러닝 기법
    - 선형 회귀(Logistic Regression)
    - 분류 모델(Classification) <br><br>
4. 클러스터링 기법
    - K-mean 클러스터링 <br><br>
5. 차원 축소
    - 주성분 분석(PCA) <br><br>
6. 벡터 공간 모델 
    - 단어 빈도
    - 단어 빈도-역문서 빈도 <br><br>
7. 평가 기법
    - 평균 제곱근 오차(RMSE)
    - 평균 절대 오차(MAE)
    - 정밀도(Precision) 와 재현율(Recall) <br><br>

In [1]:
import numpy as np
from numpy.linalg import norm

### 민코우스키 거리

맨하튼 거리, 유클리드 거리 등의 기본이 되는 거리를 측정하는 식이다. 유클리드 거리, 맨하튼 거리의 일반화된 식이라고 보면 된다.

$\Bigg ( \sqrt{\displaystyle \sum_{i=1}^n \lvert x_i - y_i \rvert^p} \Bigg ) ^{\frac 1 p}$

### 유클리드 거리 

$Euclidean\ Distance(x, y) =  \sqrt{\displaystyle \sum_{i=1}^n \lvert x_i - y_i \rvert^2}$ <br>
*($x_i, y_i$는 같은 차원에 매칭되는 점이며 $n$은 데이터의 총 차원 수를 나타낸다.)* <br>

In [2]:
from scipy.spatial.distance import euclidean

x = np.array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], ndmin=2)
y = np.array([0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0], ndmin=2)

assert euclidean(x, y) == norm(x - y)

### 코사인 유사도 

$cos(\theta) = \dfrac {A \cdot B} {\lVert A \rVert \lVert B \rVert}$

scipy에서의 cosine 함수는 $1 - cos(\theta)$ 식(*dissimilarity*)를 사용한다. 

In [3]:
from scipy.spatial.distance import cosine

x = np.array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], ndmin=2)
y = np.array([0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0], ndmin=2)

assert cosine(x, y) == 1 - np.sum(x * y) / (norm(x) * norm(y))

### 자카드 유사도

$d_J(A, B) = 1 - J(A, B)$ $\bigg (J(A, B) = \dfrac {\lvert A \cap B \rvert} {\lvert A \cup B \rvert} \bigg )$

두 사용자와 아이템 사이의 합집합에 대한 교집합의 비율로 계산된다. 

In [4]:
from scipy.spatial.distance import jaccard

x = np.array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], ndmin=2)
y = np.array([0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0], ndmin=2)

assert jaccard(x, y) == 1 - ((x == 1) & (y == 1)).sum() / ((x == 1) | (y == 1)).sum()

### 피어슨 상관계수

$r_{xy} = \dfrac 1  {n - 1} \displaystyle \sum_{i=1}^n \bigg (\frac {x_i - \bar x} {s_x} \bigg ) \bigg (\frac {y_i - \bar y} {s_y} \bigg )$ <br>
*($n$은 데이터의 총 차원 수를, $x_i, y_i$는 같은 차원에 매칭되는 벡터의 i번째 점이며 $\bar x, \bar y$는 $x, y$의 벡터를 나타낸다. $s_x, s_y$는 각각 벡터 $x, y$의 표준편차이다. )* <br>

상관계수는 아래와 같이 두 변수의 공분산을 표준편차의 곱으로 나눠주는 방법으로 구할 수도 있다. <br>

$\rho_{X, Y} = \dfrac {cov(X, Y)} {\sigma_X \sigma_Y}$

In [5]:
from scipy.stats import pearsonr

x = np.array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])
y = np.array([0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0])

assert pearsonr(x, y)[0] == (np.cov(x, y, bias=True))[0][1] / (np.std(x)*np.std(y))

### 행렬 인수 분해 

Non-negative Matrix Factorization(NMF)를 이용하여 행렬 V를 행렬 W와 H의 곱으로 나타낸다.

논문: http://papers.nips.cc/paper/1861-algorithms-for-non-negative-matrix-factorization.pdf <br>
참고 사이트: http://vazic.me/non-negative-matrix-factorization-nmf/ <br>
scikit-learn 코드 수정(*nan value에 대해서 작동하게*): https://github.com/scikit-learn/scikit-learn/pull/8474 <br>

toy code로 Nan에 대해서도 작동하는지 확인 <br>
-> 기존 값들 정확하게 예측하고 nan에 해당되는 값들도 예측한다. 

In [48]:
from sklearn.decomposition import NMF

# 모델의 실행을 위해 toy data를 만든다. 
x = np.array([[5, 3, np.nan, 1], 
              [4, np.nan, np.nan, 1], 
              [1, 1, np.nan, 5], 
              [1, np.nan, np.nan, 4], 
              [np.nan, 1, 5, 4]])

model = NMF(n_components=2, init='random', random_state=0, max_iter=1000, solver='mu')
W = model.fit_transform(x)
H = model.components_

In [49]:
# reconstruction error를 check
model.reconstruction_err_

0.0022716977250445171

In [42]:
x

array([[  5.,   3.,  nan,   1.],
       [  4.,  nan,  nan,   1.],
       [  1.,   1.,  nan,   5.],
       [  1.,  nan,  nan,   4.],
       [ nan,   1.,   5.,   4.]])

In [43]:
np.dot(W, H)

array([[ 5.00001021,  2.99987694,  7.65165828,  1.00002874],
       [ 3.99995931,  2.41647477,  6.29329943,  1.00001158],
       [ 1.00030298,  0.99863188,  5.66008999,  5.00020773],
       [ 0.99980858,  0.91531625,  4.79902998,  4.00004091],
       [ 1.14799101,  1.0017324 ,  5.        ,  3.9996893 ]])

### TODO
사이즈가 좀 더 큰 데이터에 대해서 테스트 <br>
-> toy code로 했을 때만큼 기존 데이터를 재현하지 못한다. 사이즈가 커서 그런건가? 어느 정도 수렴한 뒤에 더 이상 움직이지 않는건가?

In [91]:
import pandas as pd
import numpy as np

# dataset의 column명을 가져온다. 
data_cols = ['user id','movie id','rating','timestamp']
item_cols = ['movie id','movie title','release date',
'video release date','IMDb URL','unknown','Action',
'Adventure','Animation','Childrens','Comedy','Crime',
'Documentary','Drama','Fantasy','Film-Noir','Horror',
'Musical','Mystery','Romance ','Sci-Fi','Thriller',
'War' ,'Western']
user_cols = ['user id','age','gender','occupation',
'zip code']

# ml-100k 데이터를 불러오자. 
users = pd.read_csv('./data/ml-100k/u.user', sep='|',
names=user_cols, encoding='latin-1')
item = pd.read_csv('./data/ml-100k/u.item', sep='|',
names=item_cols, encoding='latin-1')
data = pd.read_csv('./data/ml-100k/u.data', sep='\t',
names=data_cols, encoding='latin-1')

# 불러온 데이터를 merge해서 하나의 dataframe으로 만들어준다. 
dataset = pd.merge(pd.merge(item, data),users)
dataset = dataset.groupby(['user id', 'movie id'])[['rating']].mean().unstack().values

In [45]:
# NMF를 적용하자. 
model = NMF(n_components=2, init='random', random_state=0, max_iter=1000, solver='mu')
W = model.fit_transform(dataset)
H = model.components_

In [47]:
# reconstruction error를 check
model.reconstruction_err_

273.77299581089511

In [46]:
# W*H가 기존 데이터를 재현하는지 확인
np.dot(W, H)

array([[ 3.87402152,  3.04713887,  2.99439593, ...,  1.5847179 ,
         4.22659688,  3.32604187],
       [ 3.93575325,  3.16648342,  3.07518656, ...,  1.72123861,
         3.98283495,  3.48588179],
       [ 3.30014078,  2.71048621,  2.60442909, ...,  1.53031256,
         3.09622636,  3.0065066 ],
       ..., 
       [ 4.31366119,  3.53881755,  3.40237188, ...,  1.99385249,
         4.06513087,  3.92366317],
       [ 4.5230543 ,  3.94970497,  3.6792498 , ...,  2.46647368,
         3.21160582,  4.47500288],
       [ 3.88703535,  3.26798735,  3.10286165, ...,  1.92108897,
         3.31517116,  3.65508697]])

In [38]:
dataset.iloc[:, 0]

user id
1      5.0
2      4.0
3      NaN
4      NaN
5      4.0
6      4.0
7      NaN
8      NaN
9      NaN
10     4.0
11     NaN
12     NaN
13     3.0
14     NaN
15     1.0
16     5.0
17     4.0
18     5.0
19     NaN
20     3.0
21     5.0
22     NaN
23     5.0
24     NaN
25     5.0
26     3.0
27     NaN
28     NaN
29     NaN
30     NaN
      ... 
914    NaN
915    NaN
916    4.0
917    3.0
918    3.0
919    4.0
920    NaN
921    3.0
922    5.0
923    3.0
924    5.0
925    NaN
926    NaN
927    5.0
928    NaN
929    3.0
930    3.0
931    NaN
932    4.0
933    3.0
934    2.0
935    3.0
936    4.0
937    NaN
938    4.0
939    NaN
940    NaN
941    5.0
942    NaN
943    NaN
Name: (rating, 1), Length: 943, dtype: float64

### 교대 최소 제곱

`implicit` 이라는 패키지를 사용해서 교대 최소 제곱을 구해보자. 아래 블로그에 구현하는 예제가 있으니 보도록 하자.

참고 사이트: 

1. scratch: https://bugra.github.io/work/notes/2014-04-19/alternating-least-squares-method-for-collaborative-filtering/
2. package: https://github.com/benfred/implicit
3. example: http://www.benfrederickson.com/matrix-factorization/

### SVD

참고 사이트: 

1) SVD 설명: http://darkpgmr.tistory.com/106

In [203]:
a = np.array([[1, 1, 1, 0, 0],
              [3, 3, 3, 0, 0],
              [4, 4, 4, 0, 0],
              [5, 5, 5, 0, 0],
              [0, 2, 0, 4, 4],
              [0, 0, 0, 5, 5],
              [0, 1, 0, 2, 2]])

# set numpy printing options
np.set_printoptions(suppress=True)
np.set_printoptions(precision=3)

# Full SVD is taught more often. Here is a good explination of the different
# http://www.cs.cornell.edu/Courses/cs322/2008sp/stuff/TrefethenBau_Lec4_SVD.pdf
print("--- FULL ---")
U, s, VT = np.linalg.svd(a, full_matrices=True)

print("U:\n {}".format(U))
print("s:\n {}".format(s))
print("VT:\n {}".format(VT))

# the reduced or trucated SVD operation can save time by ignoring all the
# extremly small or exactly zero values. A good blog post explaing the benefits
# can be found here:
# http://blog.explainmydata.com/2016/01/how-much-faster-is-truncated-svd.html
print("--- REDUCED ---")

U, s, VT = np.linalg.svd(a, full_matrices=False)

print("U:\n {}".format(U))
print("s:\n {}".format(s))
print("VT:\n {}".format(VT))

--- FULL ---
U:
 [[-0.138  0.024  0.011  0.99  -0.    -0.     0.   ]
 [-0.413  0.071  0.032 -0.059 -0.885  0.192  0.   ]
 [-0.55   0.094  0.043 -0.079  0.424  0.707  0.   ]
 [-0.688  0.118  0.054 -0.099  0.192 -0.681  0.   ]
 [-0.153 -0.591 -0.654 -0.     0.    -0.    -0.447]
 [-0.072 -0.731  0.678  0.    -0.     0.     0.   ]
 [-0.076 -0.296 -0.327 -0.    -0.    -0.     0.894]]
s:
 [ 12.481   9.509   1.346   0.      0.   ]
VT:
 [[-0.562 -0.593 -0.562 -0.09  -0.09 ]
 [ 0.127 -0.029  0.127 -0.695 -0.695]
 [ 0.41  -0.805  0.41   0.091  0.091]
 [-0.707  0.     0.707 -0.     0.   ]
 [-0.     0.    -0.     0.707 -0.707]]
--- REDUCED ---
U:
 [[-0.138  0.024  0.011  0.99  -0.   ]
 [-0.413  0.071  0.032 -0.059 -0.885]
 [-0.55   0.094  0.043 -0.079  0.424]
 [-0.688  0.118  0.054 -0.099  0.192]
 [-0.153 -0.591 -0.654 -0.     0.   ]
 [-0.072 -0.731  0.678  0.    -0.   ]
 [-0.076 -0.296 -0.327 -0.    -0.   ]]
s:
 [ 12.481   9.509   1.346   0.      0.   ]
VT:
 [[-0.562 -0.593 -0.562 -0.09  -0.09 ]


### Gradient boosting

### Bootstrapping aggregation(Bagging)

### SVM, Linear regression, Logistic regression

### Ridge vs Lasso 

출처: https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-ridge-lasso-regression-python/