# Recommendation

* Last updated 20191126TUE1106

## S.1 학습내용

### S.1.1 목표

* 내용기반 추천, 협업 추천을 프로그래밍으로 구현
* matrix factorization

### S.1.2 목차

* S.2 문제의 이해
* S.3 추천이란
* S.4 collaborative filtering 방법
* S.4.1 Neighborhood Methods
* S.4.2 Latent Factor Methods
* S.5 Utility Matrix
* S.6 유사도
* S.6.1 Eculdean distance
* S.6.2 Manhatan distance
* S.6.3 L-form
* S.6.4 cosine 유사도
* S.6.5 similarity
* S.7 영화평가
* S.8 인지도 기반 추천
* S.9 matrix factorization
* S.10 SVD
* 문제 S-5: ALS 알고리즘으로 영화 추천

기계학습으로 다음 절차에 따라 사례별로 풀어보자.
* 1 단계: 데이터 수집
* 2 단계: 데이터 변환 - 탐색 및 ETL
* 3 단계: 모델링
* 4 단계: 예측
* 5 단계: 평가 - 평가 및 모델의 개선
    * n-folding cross-validation

### S.1.3 문제 

* 문제 M-5: Spark MLib movie recommendation 사례
* 문제 M-6: Ethereum
* 문제 M-7: Spark Streaming
* 문제 M-8: GraphX
* spark-submit (self-contained app in quick-start 참조) 

* 연습
    * KMeans
    * MDS Multi-Dimensional Scaling (MDS)
    * visualize


## S.2 문제의 이해

영화를 본다고 하자.
어떤 영화를 관람할지, 먼저 관람한 사람들의 **리뷰** 또는 **평점**을 보고 결정하기도 한다.
영화뿐만 아니라 음악, 책, 어떤 제품도 먼저 구매하거나 경험한 사람들의 평점이 구매에 영향을 미칠 수 있다.
평점이 높은 영화를 추천한다면, 그 영화를 선택하는데 매우 유용한 정보가 될 것이다.
일반적인 **인기도**에 따른 추천도 좋지만,
**내가 좋아하는, 개인의 특성에 맞는** 상품이나 콘텐츠를 추천할 수 있다면 더욱 효과적이겠다.
어떻게 하면 **내가 좋아할만한** 영화를 선택할 수 있을까?
**내가 듣고 싶은** 음악을 선택할 수 있을까?
이런 문제를 추천할 수 있는 방법에 대해 학습해보자.

## S.3 추천이란

### 인기도 기반
많은 사람들이 선호하는 상품을 추천하는 것이다. 
예를 들어 영화를 추천할 경우, 많이 본 영화 또는 평점이 높은 영화를 추천하는 것이다.
자신이 속한 연령대, 성별로 구분하여 인기 순위가 높은 영화를 추천하면 **세분화**되겠지만, **개인의 특성이 속한 그룹과 동일하다고 보기는 어렵다**.

### 상품기반
**내용기반 추천 Content Filtering**은 상품간에 유사도를 계산하여 추천을 하는 것이다.
영화의 예를 들면, 장르, 출연배우, 인기도 등에 따라 서로 유사한 영화를 선정하여 추천한다.

### 사용자 기반
**협업 추천 Collaborative Filtering**은 사용자와 상품 간 상호관련성에 따라 추천을 하게 된다.
사용자 A가 노래 P, Q, R을 좋아한다고 하자. 사용자 B도 영화 P, Q를 좋아한다고 하자. 그러면 사용자 A와 B는 서로 취향이 유사하고, 아직 관람하지 않은 영화 R을 추천하게 되는 것이다.


## S.4 추천 방법

### S.4.1 Neighborhood Methods

이 협업 추천 collaborative filtering 방법은 사용자의 상품 선호도에 대한 유사도가 서로 비슷한 사용자를 찾아서 추천한다.

단계:
* 유사도가 높은 사용자, **이웃 neighbors**를 식별
* 그 neighbors가 좋아하는 상품을 추천

### S.4.2  Matrix Factorization

앞서 사용자 또는 제품 간에 가까운 유사도를 찾고 이런 이웃이 선택했거나 좋아했던 아이템을 추천하는데 반해,
Matrix Factorization은 **분해 모델**이라고 할 수 있다.
MF는 원래의 모델을 분리해내는 기법으로, 무엇인가 숨겨진 요인을 찾아서 2개 또는 그 이상으로 분리해내고, 이들을 곱하면 원래의 매트릭스가 산출되도록 한다.
즉,
* **original matrix**를 **u**, **i**로 분리하고
* 분리된 속성 **u** x **i**를 곱하여 원래의 **original matrix**를 산출할 수 있다.


예를 들어, 사용자 U1부터 U5, 상품 D1부터 D4가 있고, 사용자의 상품에 대한 평가점수가 있다고 하자.
그렇다면 다음 표가 완성될 수 있다.
이 표에 비어있는 평가점수를 채워 넣어야 한다.
비슷한 사용자끼리 서로 비슷한 점수를 넣는다고 가정하고
숨겨진 latent features를 유추하고 나면, 이를 통해서 빈 값을 채워넣을 수 있다.

```python
	D1	D2	D3	D4
U1	5	3	-	1
U2	4	-	-	1
U3	1	1	-	5
U4	1	-	-	4
U5	-	1	5	4
```

MF는 뭔가 **숨겨진 평가항목 latent features**이 있어서 사용자의 평가점수를 결정한다고 가정한다.
예를 들어, 두 사용자가 어떤 영화를 다 같이 좋아한다고 하자.
그 영화가 액션영화라고 하면 **장르가 숨겨진 속성**이 되고
이러한 latent features를 발견할 수 있다면, 사용자의 상품에 대한 평가점수를, 즉 원래의 평가점수를 알아낼 수 있다.


Latent Factor는 숨겨진 요인을 의미하고,
사용자 x 상품의 선호도를 이 숨겨진 요인으로 분해하고, 그 유사도에 따라 추천한다.
그렇다면 숨겨진 요인을 '왜 찾는지', '어떻게 찾는지' 의문이 생기게 된다.
숨겨진 요인을 찾는 이유를 이해하면, 찾는 방법에 대해서도 자연히 대답이 되겠다.
**사용자의 영화에 대한 평점이 완성된 형태로 있기 어렵고, 비워진 값이 많기** 때문이다.
원래의 모델, 즉 사용자가 상품에 대한 평점을 모아 놓은 Utility Matrix에는 결측 값이 많을 수 밖에 없다.
이와 같이 모델을 분해하면, 비워진 값을 채우기 때문에 요인, 즉 **숨겨진 요인을 추가해서 그 결측 값을 채울 수** 있고,
사용자의 평점을 완성할 수 있다는 의미이다.
이를 통해서 추천으로 사용하게 된다.
MF는 vector에 존재하는 빈 값을 해결하기 위해 제시된 해법으로 Netflix Prize Challenge 이후로 많이 쓰이고 있다.
(Koren, Y., Bell, R., & Volinsky, C., 2009, "Matrix factorization techniques for recommender systems," Computer, 8, 30-37.)

이 방법으로는:
* Principal Component Analysis
* SVG
* 교대 최소자승법 ALS Alternating Least Squares
latent vectors는 사용자와 상품 벡터가 있는데, 이를 하나씩 고정시키고 문제를 푸는 방식이다. 즉 하나씩 번갈아 학습을 한다.
먼저 상품 벡터를 고정시키고, 사용자 벡터에 대해 오류를 최소화하는 값을 구한다. 다음은 고정시켰던 상품 벡터에 대해 오류를 최소화한다. 이런 방식이 최적화될 때까지 반복한다. ALS는 나중에 우리가 배울 Spark에서 쓰이고 있다.
* 경사도 하강법: 반복을 통해서 오류가 최소가 되는 값을 찾아내는 방식으로 프로그램으로 구현해 볼 것이다.

## S.5 유사도

### S.5.1 Eculdean distance

데이터 거리의 제곱을 계산한 값의 제곱근으로 구한다.

$\sqrt{\sum\limits_{i=1}^n (x_i - y_i)^2}$

In [2]:
import numpy as np

a=np.array([0,1,0,4,0])
b=np.array([0,4,0,2,3])
c=np.array([0,1,0,4,4])

In [3]:
from math import*
 
def euclideanDistance(x,y):
    return sqrt(sum(pow(a-b,2) for a, b in zip(x, y)))

print (euclideanDistance(a,b))

4.69041575982343


### S.5.2 Manhatan distance

거리의 절대 값

$\sum\limits_{i=1}^n |x_i - y_i|$

In [5]:
from math import *
 
def manhattanDistance(x,y): 
    return sum(abs(a-b) for a,b in zip(x,y))

print (manhattanDistance(a,b))

8


### S.5.3 L-form

$(\sum\limits_{i=1}^n |x_i - y_i|^p)^{\frac{1}{p}}$

p가 1이면 절대값 합계, 즉 L1이 되며, Manhatan distance와 같은 값이다.
p가 2일 경우에는 제곱합의 루트 L2가 되며, Eculdean distance과 동일하다.

numpy norm은 양수 값으로 만들어주는 함수를 말한다.
numpy norm으로 L-form을 계산할 수 있다.

1, 2, 3의 numpy norm은 각 절대 값을 더해서 계산된다.

$ |1| + |2| + |3| = 6$

In [6]:
x = np.array([1, 2, 3])
L1=np.linalg.norm(x, 1)
print (L1)

6.0


In [16]:
L1=np.linalg.norm(a-b, 1)
print L1

8.0


In [17]:
L2=np.sqrt(x[0]^2 + x[1]**2 + x[2]**2)
print L2

3.74165738677


In [18]:
L2=np.linalg.norm(a-b, 2)
print L2

4.69041575982


```norm()``` 함수의 default는 L2라서 생략할 수 있다.

In [9]:
np.linalg.norm(a-b)

4.6904157598234297

### S.5.4 cosine 유사도

$\cos(\theta) = \frac {A \cdot B }{||A|| \cdot ||B||} = \frac {\sum_{i=1}^{n}{A_i B_i}}{{\sqrt {\sum_{i=1}^{n} A_i^{2}}}{\sqrt {\sum_{i=1}^{n} B_{i}^{2}}}}$

In [7]:
from math import *
 
def cosSimilarity(x,y): 
    numerator = sum(a*b for a,b in zip(x,y))
    denominator = sqrt(sum([a*a for a in x])) * sqrt(sum([a*a for a in y]))
    return round(numerator/float(denominator),4)

print (cosSimilarity(a,b))

0.5405


In [8]:
cos_sim = np.dot(a, b)/(np.linalg.norm(a)*np.linalg.norm(b))
print (cos_sim)

0.540452818933254


In [3]:
from scipy.spatial.distance import cosine

print(1 - cosine(a, b))

0.540452818933254


In [3]:
from sklearn.metrics.pairwise import cosine_similarity

cosine_similarity([a, b, c])

array([[1.        , 0.54045282, 0.71774056],
       [0.54045282, 1.        , 0.77580982],
       [0.71774056, 0.77580982, 1.        ]])

* 상관관계

* Jaccard

$\frac{A \cap B}{A \cup B}$

In [4]:
from math import *
 
def jaccardSimilarity(x,y): 
    intersection_cardinality = len(set.intersection(*[set(x), set(y)]))
    union_cardinality = len(set.union(*[set(x), set(y)]))
    return intersection_cardinality/float(union_cardinality)

print (jaccardSimilarity(a,b))

0.4


### S.5.5 correlation

$$
   r = \frac{\sum\limits_{i=1}^n (X_i - \bar{X})(Y_i -
   \bar{Y})}{\sqrt{\sum\limits_{i=1}^n (X_i - \bar{X})^2} \sqrt{\sum
   \limits_{i=1}^n (Y_i - \bar{Y})^2}}
$$

### S.5.6 similarity

In [None]:
import numpy as np
R = np.array([
     [5,3,0,1],
     [4,0,0,1],
     [1,1,0,5],
     [1,0,0,4],
     [0,1,5,4],
    ])

rpd=pd.DataFrame(R)

rpd.iloc[0]

rpd.iloc[[0,3]]

rpd[[0,3]]

```pdist()``` 함수는 입력 변수의 쌍대비교

from scipy.spatial.distance import pdist
pdist(rpd.iloc[[0,1]])

from scipy.spatial.distance import pdist
pdist(rpd.iloc[[0,3]])

from scipy.spatial.distance import pdist
pdist(rpd.T)

np.linalg.norm(np.array([5,3,0,1])-np.array([4,0,0,1]))





from scipy.spatial.distance import pdist
pdist(_utility.loc[[2, 3]])

s2=_utility.loc[[2]]
s3=_utility.loc[[3]]

from math import*
 
def euclideanDistance(x,y):
    return sqrt(sum(pow(a-b,2) for a, b in zip(x, y)))

print euclideanDistance(s2,s3)

import numpy as np
np.linalg.norm(s2-s3)

## S.6 영화 평가

### S.6.1 데이터 내려받기

?https://inclass.kaggle.com/c/movie

MovieLens는 University of Minnesota에서 제공하는 프로젝트, [grouplens](https://grouplens.org/)이다.
영화평가 파일은 zip으로 되어 있다.

Harper, F. M., & Konstan, J. A. (2016). The movielens datasets: History and context. ACM transactions on interactive intelligent systems (tiis), 5(4), 19.

데이터는 4개의 CSV 파일로 구성되었다 ratings, movies, links and tags.
ratings 데이터는 100,836

movielens 사이트의 url에서 데이터를 직접 읽어오자.

In [5]:
import os
import urllib

ml_url = 'http://files.grouplens.org/datasets/movielens/ml-latest.zip'
ml_small_url = 'http://files.grouplens.org/datasets/movielens/ml-latest-small.zip'

```urllib.urlretrieve()``` 함수로 url에서 직접 읽어 주어진 파일명으로 저장한다. ```ml-latest.zip```와 ```ml-latest-small.zip``` 두 개의 파일이 있다.

In [7]:
ml_fname=os.path.join(os.getcwd(),'data','ml-latest.zip')
if(not os.path.exists(ml_fname)):
    print ("%s data does not exist! retrieving.." % ml_fname)
    ml_f=urllib.urlretrieve(ml_url,ml_fname)

In [8]:
ml_small_fname=os.path.join(os.getcwd(),'data','ml-latest-small.zip')
if(not os.path.exists(ml_small_fname)):
    print ("%s data does not exist! retrieving.." % ml_small_fname)
    ml_small_f=urllib.urlretrieve(ml_small_url,ml_small_fname)

```extractall()``` 함수는 ```data``` 디렉토리에 zip을 풀어서 저장한다.

In [None]:
import zipfile

zipfiles=[ml_fname,ml_small_fname]
for f in zipfiles:
    zip = zipfile.ZipFile(f)
    zip.extractall('data')

압축한 파일을 살펴 보자. 각 파일의 내용을 ```head```로 읽어보자.

In [9]:
!ls data/ml-latest-small/

links.csv  movies.csv  ratings.csv  README.txt	tags.csv


In [10]:
!head data/ml-latest-small/links.csv

movieId,imdbId,tmdbId
1,0114709,862
2,0113497,8844
3,0113228,15602
4,0114885,31357
5,0113041,11862
6,0113277,949
7,0114319,11860
8,0112302,45325
9,0114576,9091


In [6]:
!head data/ml-latest-small/movies.csv

movieId,title,genres
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy
6,Heat (1995),Action|Crime|Thriller
7,Sabrina (1995),Comedy|Romance
8,Tom and Huck (1995),Adventure|Children
9,Sudden Death (1995),Action


In [7]:
!head data/ml-latest-small/ratings.csv

userId,movieId,rating,timestamp
1,16,4.0,1217897793
1,24,1.5,1217895807
1,32,4.0,1217896246
1,47,4.0,1217896556
1,50,4.0,1217896523
1,110,4.0,1217896150
1,150,3.0,1217895940
1,161,4.0,1217897864
1,165,3.0,1217897135


In [8]:
!head data/ml-latest-small/tags.csv

userId,movieId,tag,timestamp
12,16,20060407,1144396544
12,16,robert de niro,1144396554
12,16,scorcese,1144396564
17,64116,movie to see,1234720092
21,260,action,1428011080
21,260,politics,1428011080
21,260,science fiction,1428011080
21,296,dark humor,1428788132
21,296,drugs,1428788132


### S.6.2 Pandas로 데이터 읽기

Pandas는 데이터를 분석하는 파이썬 라이브러리이다.
Dataframe은 엑셀과 같이 행과 열로 구성된 데이터 구조로서, 행과 열로 다양한 분석기능을 사용할 수 있다.

앞서 준비해 놓은 파일은 컴마로 데이터가 분리된 csv (comma separated values)이다.
```read_csv()```함수는 지정한 경로에서 csv 파일을 읽어온다.
경로는 현재 작업디렉토리를 의미하는 ```os.getcwd()```에서 시작하여, 접근하려는 디렉토리와 파일을 연속적으로 적어준다.
ml-latest는 데이터가 많아서 컴퓨터에 따라 분석에 제한이 될 수 있으므로, 축소판 ml-latest-small를 사용하기로 한다.

In [64]:
import pandas as pd
import os

#ratings = pd.read_csv(os.path.join(os.getcwd(),'data','ml-latest','ratings.csv'))
#movies = pd.read_csv(os.path.join(os.getcwd(),'data','ml-latest','movies.csv'))
ratings = pd.read_csv(os.path.join(os.getcwd(),'data','ml-latest-small','ratings.csv'))
movies = pd.read_csv(os.path.join(os.getcwd(),'data','ml-latest-small','movies.csv'))

사용자 평점과 영화파일이 잘 읽혀졌는지 첫 3행을 읽어보자.

In [65]:
ratings.head(3)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,16,4.0,1217897793
1,1,24,1.5,1217895807
2,1,32,4.0,1217896246


In [67]:
movies.head(3)

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance


파일 컬럼의 행에 붙여진 속성 이름인 column header를 알아보자.
* ratings는 사용자ID, 영화ID, 사용자 평점, 평가일시로 구성되어 있다.
* movies는 영화ID, 영화제목, 장르 데이터를 가지고 있다.

In [68]:
ratings.columns.values

array(['userId', 'movieId', 'rating', 'timestamp'], dtype=object)

In [69]:
movies.columns.values

array(['movieId', 'title', 'genres'], dtype=object)

### S.6.3 영화 검색

#### 열 읽기

Dataframe은 행 row, 열 column으로 구성된 데이터 저장소이다.
먼저 열로 영화를 조회해 보자.
영화는 컬럼명 'title'로 제목을 검색하고, 그 컬럼의 첫번째를 읽어보자.

In [51]:
movies['title'][0]

'Toy Story (1995)'

영화제목에 'Toy Story'가 포함되었는지 검색해보자.
```movies['title'].str.contains()``` 함수는 **정규표현식**을 사용해서 영화제목에 문자열이 포함되었는지 확인한다.

In [9]:
movies[movies['title'].str.contains("Toy Story")==True]

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2496,3114,Toy Story 2 (1999),Adventure|Animation|Children|Comedy|Fantasy
8599,78499,Toy Story 3 (2010),Adventure|Animation|Children|Comedy|Fantasy|IMAX


정규식 **```\d```**는 숫자를 의미하는 메타문자이다.
```.\d+.*```는 어떤 한 문자(.), 이어서 숫자 1개 이상(\d+), 그리고 여러 문자 (.*)가 뒤 따르는 패턴을 찾게 된다.
따라서 Toy Story 속편 2, 3이 검색된다.
정규식 패턴 ```.\d*.*```는 숫자가 없어도 찾아낸다.

In [17]:
movies[movies['title'].str.contains("Toy Story.\d+.*")==True]

Unnamed: 0,movieId,title,genres
2496,3114,Toy Story 2 (1999),Adventure|Animation|Children|Comedy|Fantasy
8599,78499,Toy Story 3 (2010),Adventure|Animation|Children|Comedy|Fantasy|IMAX


#### 행으로 데이터 읽기

행 데이터는 인덱스로 검색할 수 있다. ```[시작 인덱스:끝 인덱스]```를 적어주면 해당하는 행을 출력할 수 있다.

In [7]:
movies[1:3]

Unnamed: 0,movieId,title,genres
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance


두 명령어 **```loc```**, **```iloc```**를 사용할 수 있는데, 서로 비슷해서 조금 혼란스럽다.
우리가 다른 배열에서 사용하는 인덱스와 ```iloc```와 비슷하다.
**```iloc```** 인덱스의 위치로 검색한다. 1은 첫째 행을 의미한다.

In [11]:
movies.iloc[1] # first row

movieId                             2
title                  Jumanji (1995)
genres     Adventure|Children|Fantasy
Name: 1, dtype: object

In [9]:
movies.iloc[[2496,8599]]

Unnamed: 0,movieId,title,genres
2496,3114,Toy Story 2 (1999),Adventure|Animation|Children|Comedy|Fantasy
8599,78499,Toy Story 3 (2010),Adventure|Animation|Children|Comedy|Fantasy|IMAX


**```loc```**는 인덱스 **레이블**로 검색, 즉 인덱스의 레이블 값을 지칭한다.
인덱스가 1, 3은 첫번째, 세번째인 경우가 아니라, 인덱스 명이 1, 3인 경우가 해당한다.

In [10]:
movies.loc[[1,3]]

Unnamed: 0,movieId,title,genres
1,2,Jumanji (1995),Adventure|Children|Fantasy
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance


In [10]:
movies.loc[[2496,8599]]

Unnamed: 0,movieId,title,genres
2496,3114,Toy Story 2 (1999),Adventure|Animation|Children|Comedy|Fantasy
8599,78499,Toy Story 3 (2010),Adventure|Animation|Children|Comedy|Fantasy|IMAX


In [11]:
movies.loc[[2496,8599],['title']]

Unnamed: 0,title
2496,Toy Story 2 (1999)
8599,Toy Story 3 (2010)


### 반복문

**```iterrows()```** 함수는 Pandas의 ```Series``` 객체를 반환하기 때문에, 데이터프레임의 컬럼명으로 값을 조회할 수 있다.

In [60]:
for index,e in ratings.head().iterrows():
    print ("index: ", e['userId'], e['movieId'], e['rating'], e['timestamp'])

index:  1.0 169.0 2.5 1204927694.0
index:  1.0 2471.0 3.0 1204927438.0
index:  1.0 48516.0 5.0 1204927435.0
index:  2.0 2571.0 3.5 1436165433.0
index:  2.0 109487.0 4.0 1436165496.0


**```itertuples()```** 함수는 인덱스 순서대로 데이터를 조회하게 된다.

In [61]:
for e in ratings.head().itertuples():
    print (e[0], e[1], e[2], e[3], e[4])

0 1 169 2.5 1204927694
1 1 2471 3.0 1204927438
2 1 48516 5.0 1204927435
3 2 2571 3.5 1436165433
4 2 109487 4.0 1436165496


### S.6.4 missing values

결측 값이 있는 경우, 평균을 구하거나 통계분석에 있어 문제가 될 수 있다.
isnull() 함수는 결측 값인지 true, false를 반환한다.
결측 값인지 아닌지 반환 값을 sum()하게 되면 결측 개수를 알 수 있다.

In [4]:
ratings.isnull().sum()

userId       0
movieId      0
rating       0
timestamp    0
dtype: int64

unique()는 중복을 제거하고 유일한 값을 출력한다.
pandas의 DataFrame.shape은 차원을 출력하는데, 사용자는 668개, 영화는 10,325개를 가지고 있다.
사용자의 최대값과는 동일하지만, 영화는 사용자의 평점이 존재하지 않는 경우도 많아 최대 값과 149,352와 차이가 있다.

In [10]:
nUsers=ratings.userId.unique().shape[0]
nItems=ratings.movieId.unique().shape[0]

print ("Users \tN={}\tMax={}".format(nUsers, max(ratings.userId)))
print ("Movies \tN={}\tMax={}".format(nItems, max(ratings.movieId)))

Users 	N=668	Max=668
Movies 	N=10325	Max=149532


### S.6.5 ratings와 movies 데이터 합치기

```merge()```는 공통 속성 ```on```을 기준으로 dataframe을 병합한다.
```how```는 ```left, right, inner, outer``` 4가지 방법으로 병합할 수 있다.
* ```left```: 왼쪽 dataframe의 모든 행을 보존
* ```right```: 오른쪽 dataframe의 모든 행을 보존
* ```inner```: 기본 **```default```** 왼쪽 오른쪽 dataframe의 공통 값으로만 병합
* ```outer```: 왼쪽 오른쪽 dataframe의........ 행의 일치하는 값이 없는 경우 NaN


영화와 사용자평점에는 movieId라는 공통 속성이 있고, 이를 기준으로 두 파일을 합쳐보자.
how='left'이므로, 왼쪽인 ratings의 모든 속성을 보존하고, 영화정보를 병합한다.

In [72]:
ratingsMovie=pd.merge(ratings, movies, on='movieId', how='left')
ratingsMovie.head(10)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,16,4.0,1217897793,Casino (1995),Crime|Drama
1,1,24,1.5,1217895807,Powder (1995),Drama|Sci-Fi
2,1,32,4.0,1217896246,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
3,1,47,4.0,1217896556,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,4.0,1217896523,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
5,1,110,4.0,1217896150,Braveheart (1995),Action|Drama|War
6,1,150,3.0,1217895940,Apollo 13 (1995),Adventure|Drama|IMAX
7,1,161,4.0,1217897864,Crimson Tide (1995),Drama|Thriller|War
8,1,165,3.0,1217897135,Die Hard: With a Vengeance (1995),Action|Crime|Thriller
9,1,204,0.5,1217895786,Under Siege 2: Dark Territory (1995),Action


## S.7 인지도 기반 추천

인지도 기반 추천은 사람들이 높은 평점을 준 영화를 추천하는 방식을 말한다.
* 우선 영화의 평균 평점을 계산하고,
* 다음으로 그 가운데 높은 평점을 추천한다.

### 평균 평점 계산

groupby('title')는 영화제목별로 구분해서, 사용자 평점 mean() 평균을 구한다.

In [73]:
ratingsByTitle=pd.DataFrame(ratingsMovie.groupby('title')['rating'].mean())

### 정렬

평점이 높은 순으로 정렬해보자.
sort() 함수는 Pandas 0.20 버전 (2017-05-05) 이후 제거 되었고, sort_values()를 사용하면 된다.
sort_values() 함수에는 정렬할 컬럼명 'rating'과 내림차순, 오름차순을 정해준다.

In [74]:
ratingsByTitle.sort_values('rating', ascending=False).head(10)

Unnamed: 0_level_0,rating
title,Unnamed: 1_level_1
"Saddest Music in the World, The (2003)",5.0
Interstate 60 (2002),5.0
"Gunfighter, The (1950)",5.0
Heima (2007),5.0
Limelight (1952),5.0
"Plague Dogs, The (1982)",5.0
Love Me If You Dare (Jeux d'enfants) (2003),5.0
Syrup (2013),5.0
Interstella 5555: The 5tory of the 5ecret 5tar 5ystem (2003),5.0
Symbol (Shinboru) (2009),5.0


### Utility matrix

사용자 m, 상품 n이 있다고 하자. 
m x n 테이블이 만들어 지고, 그 셀에는 사용자의 항목에 대한 의견이 입력된다.


사용자 A는 영화 m2, m4에 대해 1점 4점 평점을 부여하였다.
평점은 5점 만점으로 3점은 보통, 1점은 부정적, 5점은 긍정적이다.

사용자 \ 영화 | m1 | m2 | m3 | m4 | m5
-----|-----|-----|-----|-----|-----
A | - | 1 | - | 4 | -
B | - | 4 | - | 2 | 3
C | - | 1 | - | 4 | 4

문제는 이 테이블에 빈 값이 많을 수 밖에 없다는 것이다. 이를 해결하는 방법은:
* 사용자로 하여금 모든 영화에 평점을 부여하도록 하거나
* 평점을 유추하는 것이다.

#### 사용자, 영화별 평점배열 생성

사용자 x 영화 배열을 새로이 생성하고, 각 셀을 해당하는 평점으로 채워줄 수 있다.
이 경우, 앞서 보았듯이 사용자ID는 일련번호로 비어 있는 값이 없으나, 영화ID는 듬성듬성 비어 있는 값이 많다.
numpy array을 가능한 최대의 값으로 shape을 정해서 갯수를 정해 주어야 한다.
그러나, 이 방법보다는 Pandas에서 지원하는 pivot_table() 함수를 사용하면 보다 쉽게 만들어 줄 수 있다.

피벗테이블 ```pivot_table```은 데이터를 그룹별로 구분하여 각 그룹의 갯수, 합계, 평균 등을 분석하는 방법이다.
영화의 사용자별, 영화별로 평점을 계산해 보자.
ratings를 ```pivot()``` 해보자. pivot은 행을 열로, 또는 열을 행으로 전환하여 데이터를 그룹핑해서 평균, 합계를 계산해준다.
* index에는 행이 되는 변수명으로, 'userId'를 적어준다. 
* columns는 열이 되는 값으로 'movidId'를 적어준다.
* values는 셀에 입력되는 값으로 'rating'의 평균을 출력한다.

fillna(0)는 NA값을 0으로 대체하게 된다.

**```pivot_table()```**은 셀에 **복수**의 값이 허용되고 (```pivot()```은 복수의 값이 허용되지 않는다), 그런 경우 ```numpy.mean()``` 평균 값을 **기본 default**로 채택한다.

In [75]:
utility = ratingsMovie.pivot_table(index='userId', columns='title', values='rating')

In [83]:
utility = utility.groupby('title').mean()

KeyError: 'title'

In [76]:
utility['Casino (1995)'][0:10]

userId
1     4.0
2     NaN
3     NaN
4     NaN
5     NaN
6     NaN
7     NaN
8     NaN
9     4.0
10    NaN
Name: Casino (1995), dtype: float64

In [77]:
utility.head()

title,'71 (2014),'Hellboy': The Seeds of Creation (2004),'Round Midnight (1986),'Til There Was You (1997),"'burbs, The (1989)",'night Mother (1986),(500) Days of Summer (2009),*batteries not included (1987),...And Justice for All (1979),10 (1979),...,[REC] (2007),[REC]² (2009),[REC]³ 3 Génesis (2012),a/k/a Tommy Chong (2005),eXistenZ (1999),loudQUIETloud: A Film About the Pixies (2006),xXx (2002),xXx: State of the Union (2005),¡Three Amigos! (1986),À nous la liberté (Freedom for Us) (1931)
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,,,,,,...,,,,,,,,,,


### 상관관계

corrwith() 함수는 행이나 컬럼끼리 상관관계를 계산한다. 
'Toy Story (1995)'와 상관관계를 계산해 보자.
상관관계를 계산하면서 RuntimeWarning: divide by zero가 발생할 수 있는데 이는 결측값 NaN이 남아 있어서 그렇다.

astype()으로 평점을 소수로 형변환해주면 그런 Warning이 사라진다.

앞서 fillna()로 결측값을 제거했다.

In [79]:
corrToyStory = pd.DataFrame(utility.corrwith(utility['Toy Story (1995)']), columns=['corr'])
corrToyStory.dropna(inplace=True)
corrToyStory.head()

  c = cov(x, y, rowvar)
  c *= np.true_divide(1, fact)


Unnamed: 0_level_0,corr
title,Unnamed: 1_level_1
"'burbs, The (1989)",0.470402
(500) Days of Summer (2009),0.301871
*batteries not included (1987),-0.058926
...And Justice for All (1979),-0.046829
10 (1979),0.0


In [80]:
corrToyStory.sort_values('corr', ascending=False).head()

Unnamed: 0_level_0,corr
title,Unnamed: 1_level_1
Two Mules for Sister Sara (1970),1.0
"Raven, The (1963)",1.0
Alice (2009),1.0
"Assassination of Richard Nixon, The (2004)",1.0
"Unvanquished, The (Aparajito) (1957)",1.0


### 평가건수

평가를 몇 건이나 받았는지 세어보자.
앞서 만든 ratingsMovie의 'title'별 'rating'의 건수를 세어보자.

In [81]:
countRatings = ratingsMovie.groupby('title')['rating'].count().to_frame('count')
countRatings.sort_values(by='count', ascending=False).head()

Unnamed: 0_level_0,count
title,Unnamed: 1_level_1
Pulp Fiction (1994),325
Forrest Gump (1994),311
"Shawshank Redemption, The (1994)",308
Jurassic Park (1993),294
"Silence of the Lambs, The (1991)",290


### merge


In [82]:
corrCountToyStory=pd.merge(corrToyStory, countRatings, on='title', how='left')

정렬을 2개할 경우에는 ['corr', 'count']와 같이 배열을 만들어서 넣어준다.

In [47]:
corrCountToyStory.sort_values(['corr', 'count'], ascending=[False, False]).head()

Unnamed: 0_level_0,corr,count
title,Unnamed: 1_level_1,Unnamed: 2_level_1
Toy Story (1995),1.0,232
Eve's Bayou (1997),1.0,10
"Nightmare on Elm Street 3: Dream Warriors, A (1987)",1.0,9
Wild Strawberries (Smultronstället) (1957),1.0,9
88 Minutes (2008),1.0,7


column 명을 변경한다.

In [29]:
corr_rcountToyStory.columns=['corr','ratingsCount']

In [40]:
corr_rcountToyStory.head(10)

Unnamed: 0_level_0,corr,ratingsCount
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"'burbs, The (1989)",0.470402,20
(500) Days of Summer (2009),0.301871,37
*batteries not included (1987),-0.058926,11
...And Justice for All (1979),-0.046829,10
10 (1979),0.0,3
10 Things I Hate About You (1999),0.34992,59
"10,000 BC (2008)",0.155556,11
101 Dalmatians (1996),0.161703,42
101 Dalmatians (One Hundred and One Dalmatians) (1961),0.439606,37
102 Dalmatians (2000),-0.519589,7


In [41]:
corr_rcountToyStory.sort('ratingsCount', ascending=False).head(10)

Unnamed: 0_level_0,corr,ratingsCount
title,Unnamed: 1_level_1,Unnamed: 2_level_1
Pulp Fiction (1994),0.154139,325
Forrest Gump (1994),0.092166,311
"Shawshank Redemption, The (1994)",0.118852,308
Jurassic Park (1993),0.417862,294
"Silence of the Lambs, The (1991)",0.071004,290
Star Wars: Episode IV - A New Hope (1977),0.148712,273
"Matrix, The (1999)",0.254059,261
Terminator 2: Judgment Day (1991),0.257904,253
Schindler's List (1993),0.313121,248
Braveheart (1995),0.183313,248


#### filtering

```[corr_rcountToyStory ['ratingsCount']>50]```는 컬럼명에 대한 조건을 넣어 데이터를 필터링을 할 수 있다.

In [47]:
corr_rcountToyStory[corr_rcountToyStory ['ratingsCount']>50].sort('corr', ascending=False).head()

Unnamed: 0_level_0,corr,ratingsCount
title,Unnamed: 1_level_1,Unnamed: 2_level_1
Toy Story (1995),1.0,232
Wallace & Gromit: A Close Shave (1995),0.725063,55
Toy Story 2 (1999),0.709677,104
"Client, The (1994)",0.695989,65
"Others, The (2001)",0.68152,53


pandas Dataframe을 numpy array로 변환하려면 단순히 ```values```해주면 된다.

## S.9 경사도 하강법

학습율 alpha
regularization $\lambda$
latent features K
http://www.albertauyeung.com/post/python-matrix-factorization/

#### 단계 1: p와 q를 초기화 한다.

원래 평점행렬을 분해하여 p, q를 구하려고 한다. 우선 p와 q를 임의의 값으로 초기화 하자.
* p는 $i \times k$ 사용자 벡터 ($i$는 사용자, $k$는 latent features의 갯수를 말한다.)
* q는 $k \times j$ 상품 벡터  ($j$는 상품, $k$는 latent features의 갯수)

#### 단계 2: 예측 값 계산

행렬을 분해하고 얻게 되는 p, q를 곱하게 되면 r의 예측 값을 계산할 수 있다.
물론 이 값은 첫 반복에는 만족스럽지 못할 것이고 반복을 통해 최적값에 접근하게 된다.
* $\hat{r}$은 $\hat{r}_{ij}$는 p와 q의 곱셈 연산으로 계산한다. ($\hat{r}$은 평점 **예측** 값)
* $\hat{r}_{ij} = \sum_{k=1}^K p_{ik} q_{kj}$

#### 단계 3: 오류 계산

예측 값과 실제 값의 차이가 오류가 되고, 이를 계산한다.
* 예측 값의 차이는 MSE Mean Square Error로 다음과 같이 계산된다.
    * $e_{ij} = (r_{ij} - \hat{r_{ij}})^2 = (r_{ij} - \sum_{k=1}^K p_{ik} q_{kj})^2$

* 또는 overfitting을 피하기 위해, MSE에 Regularization 식을 더해 계산할 수도 있다. $\beta$는 regularization 계수이다.
    * $e_{ij}=(r_{ij} - \sum_{k=1}^K p_{ik} q_{kj})^2 + \frac{1}{2}\beta \sum_{k=1}^K (||p||^2 + ||q||^2)$


#### 단계 4: 경사도 계산

오류를 최소화하기 위해서는 경사도를 찾아 갱신해야 한다. 위 MSE 오류식을 p, q에 대해 편미분해서 경사도를 찾는다.
오류 regularization을 사용하려면, 그 계산식을 편미분해야 한다.
이를 **경사도하강법 Gradient Descent**이라고 한다.

* $\frac{\partial e}{\partial{p_j}} = 2 \times (r_{ij} - \sum_{k=1}^K p_{ik} q_{kj}) \times -q_{kj}$
* $\frac{\partial e}{\partial{q_j}} = 2 \times (r_{ij} - \sum_{k=1}^K p_{ik} q_{kj}) \times -q_{kj}$

#### 단계 5: Update rules

실제 - 예측의 차이는 오류이다. 그 오류에 학습비율 $\alpha$을 곱해서 갱신한다. 
$\alpha$ 값이 너무 크게 되면 오류의 최저점을 통과할 수 있게 되고, 너무 작게 되면 최저점을 찾는 횟수가 늘어날 수 밖에 없다.
반복이 거듭되면 오류가 차즘 줄어들고, 어떤 값에 수렴하게 된다.

* $p_{new} = p_{old} - \alpha \times 2 \times (r - \sum_{k=1}^K p_{ik} q_{jk}) \times -q = p_{old} + 2 \alpha q (r - \sum_{k=1}^K p_{ik} q_{jk})$
* $q_{new} = q_{old} - \alpha \times 2 \times (r - \sum_{k=1}^K p_{ik} q_{jk}) \times -p = q_{old} + 2 \alpha p (r - \sum_{k=1}^K p_{ik} q_{jk})$

### S.9.2 풀어보기

```python
5 2 4 4 3
3 1 2 4 1
2 3 1 4
2 5 4 3 5
4 4 5 4
```

#### 단계 1, 2: 예측 값

P, Q를 1로 초기화하고, 곱해서 예측 값을 계산하자.


```python
p   1                           p+1 p+1 p+1 p+1 p+1
1   1     1   1   1   1   1     2   2   2   2   2
1   1     1   1   1   1   1     2   2   2   2   2
1   1                           2   2   2   2   2
1   1                           2   2   2   2   2
```

#### 단계 3: 오류 계산

오류를 계산하면:

$(5-(p+1))^2+(2-(p+1))^2+(4-(p+1))^2+(4-(p+1))^2+(3-(p+1))^2\\
=((4-p)+(1-p)+(3-p)+(3-p)+(2-p))^2$

#### 단계 4: 경사하강법

편미분하면:

$\frac{\partial e}{\partial{p}} = -2 ((4-p)+(1-p)+(3-p)+(3-p)+(2-p)) = -2(13-5p) = -26 + 10p$

이를 0으로 놓으면 p=2.6

#### 단계 5: update

앞서 계산한 p=2.6으로 대체하면, $p_{new} = p_{old} + \alpha \times gradient = 1 + 1 \times 2.6 = 3.6$
편의상 $\alpha$는 1로 계산하자.

```python
2.6 1                           3.6 3.6 3.6 3.6 3.6
1   1     1   1   1   1   1     2   2   2   2   2
1   1     1   1   1   1   1     2   2   2   2   2
1   1                           2   2   2   2   2
1   1                           2   2   2   2   2
```

#### 단계 2 반복: 예측 값 계산

```dot()``` 계산을 하면:

```python
2.6 1                           2.6q+1 3.6 3.6 3.6 3.6
1   1     q   1   1   1   1     q+1    2   2   2   2
1   1     1   1   1   1   1     q+1    2   2   2   2
1   1                           q+1    2   2   2   2
1   1                           q+1    2   2   2   2
```

#### 단계 3 반복: 오류 계산

$(5-(2.6q+1))^2+(3-(q+1))^2+(2-(q+1))^2+(2-(q+1))^2+(4-(q+1))^2\\
=((4-2.6q)+(2-q)+(1-q)+(1-q)+(3-q))^2$

#### 단계 4 반복: 경사하강법

$\frac{\partial e}{\partial{p}} = -2 (2.6(4-2.6q)+(2-q)+(1-q)+(1-q)+(3-q)) = -2(17.4-10.76p) = -34.8 + 21.52p$
이를 0으로 놓으면 q=1.6171

#### 단계 5 반복: update

앞서 계산한 q=1.6171으로 대체하면:

```python
2.6 1                           5.204  3.6 3.6 3.6 3.6
1   1     1.617 1   1   1   1   2.617  2   2   2   2
1   1     1     1   1   1   1   2.617  2   2   2   2
1   1                           2.617  2   2   2   2
1   1                           2.617  2   2   2   2
```

### S.9.3 프로그램으로 풀어보기

R은 실제 값을 가지고 있는 배열이다.
0은 결측에 해당하는 경우에 넣은 값이다.

In [10]:
import numpy as np
R = np.array([
     [5,3,0,1],
     [4,0,0,1],
     [1,1,0,5],
     [1,0,0,4],
     [0,1,5,4],
    ])
R = np.array([
     [5,2,4,4,3],
     [3,1,2,4,1],
     [2,3,1,4,0],
     [2,5,4,3,5],
     [4,4,5,4,0],
    ])

R의 행과 열의 개수를 ```shape``` 명령어로 구할 수 있다.

In [11]:
row=R.shape[0]
col=R.shape[1]
row,col

(5, 5)

계산을 위해 필요한 계수의 값을 정하자.
* K는 숨겨진 특징으로 P의 열, Q의 행에 해당한다.
* $\alpha$는 학습율
* $\beta$는 regularization 계수

In [12]:
K = 2
alpha=0.0002
beta=0.02

#### 단계 1: P, Q 초기화

P, Q에 어떤 값으로든 입력하여 초기화해야 하는데, 무작위 숫자를 채워 넣어보자.

In [13]:
P = np.random.rand(row,K)
Q = np.random.rand(col,K)

In [14]:
print ("P\n{}\n\nQ\n{}".format(P, Q))

P
[[0.53880284 0.2704054 ]
 [0.64048924 0.13234048]
 [0.2095911  0.61574954]
 [0.75415146 0.0637908 ]
 [0.59786107 0.92084664]]

Q
[[0.1156839  0.09604362]
 [0.86361254 0.39224683]
 [0.36700913 0.75449041]
 [0.40500429 0.47125038]
 [0.6448252  0.04320448]]


P, Q의 첫째 행을 읽어보자. 뒤에 반복을 하게 되면, P, Q를 이렇게 나누어서 계산하게 된다.

In [15]:
P[0,:]

array([0.53880284, 0.2704054 ])

In [16]:
Q.T[:,0]

array([0.1156839 , 0.09604362])

In [17]:
P[0,:].shape, Q.T[:,0].shape

((2,), (2,))

#### 단계 2: 예측

rating의 예측 값은 5x4 행렬이어야 한다. P(5x2)와 Q.T(2x4)로 연산을 해야 5x4 행렬이 만들어진다.

우선 첫 번째 **```R[0,0]```**의 예측 값을 계산해 보자. 
R의 예측 값은 PQ의 dot으로 계산된다.
실제와 예측의 차이는 오류가 되고, 이 오류는 아직 큰 차이가 있고, 반복을 하면서 근사 값으로 갱신되게 된다.

In [18]:
rhat=np.dot(P[0,:],Q.T[:,0])
print ("R[0,0]: actual={} predicted={:.3f}".format(R[0,0], rhat))

R[0,0]: actual=5 predicted=0.088


#### 단계 3: 오류

오류는 실제와 예측의 차이이다.

In [19]:
eij=R[0,0]-rhat
print ("Error={:.3f}".format(eij))

Error=4.912


#### 단계 4: 경사도 하강법

P의 경사도 하강법으로 p를 계산해보자.

$\frac{\partial e}{\partial{p_j}} = 2 \times (r_{ij} - \sum_{k=1}^K p_{ik} q_{kj}) \times -q_{kj}$


In [22]:
#eij*Q[0][0]
np.dot(eij,Q[0][0])

0.5682044238655533

In [23]:
beta*P[0][0]

0.01077605670522022

In [31]:
for k in range(K):
    # MSE regularization
    pGradient=2*np.dot(eij,Q[k][0]) - beta*P[0][k]
    # MSE
    #pGradient=2*np.dot(eij,Q[k][0])
    print (pGradient),

1.1256327910258863
8.478200695018243


이번에는 Q gradient를 계산해 보자.

5x4, 5x2 -> 4x2

In [35]:
#eij*P[0][0]
np.dot(eij.T,P[0][0])

2.6464370638606263

In [36]:
beta*Q[0][0]

0.0023136779541622432

In [17]:
for k in xrange(K):
    qGradient=2*np.dot(eij,P[0][k]) - beta*Q[k][0]
    print qGradient,

2.27227636398 5.20692348493


#### 단계 5: update

이제 P, Q를 갱신해보자. 

In [47]:
for k in range(K):
    # MSE regularization
    pGradient=2*np.dot(eij,Q[k][0]) - beta*P[0][k]
    # MSE
    #pGradient=2*np.dot(eij,Q[k][0])
    P[0][k]+=alpha*pGradient
    print (P[0][k], end=" ")

0.5392634859937055 0.27228865387969575 

In [48]:
print (P)

[[0.53926349 0.27228865]
 [0.64048924 0.13234048]
 [0.2095911  0.61574954]
 [0.75415146 0.0637908 ]
 [0.59786107 0.92084664]]


In [46]:
for k in range(K):
    # MSE regularization
    qGradient=2*np.dot(eij,P[0][k]) - beta*Q.T[k][0]
    # MSE
    #qGradient=2*np.dot(eij,P[0][k])
    Q.T[k][0]+=alpha*qGradient
    print (Q[k][0], end=" ")

0.12097662732341785 0.863612541319265 

In [20]:
for k in xrange(K):
    qGradient=2*np.dot(eij,P[0][k]) - beta*Q.T[k][0]
    Q.T[k][0]+=alpha*qGradient
    print Q[k][0],

0.294515768862 0.091219295983


In [None]:
??? data confirm Q.T

In [49]:
print (Q)

[[0.12097663 0.09869982]
 [0.86361254 0.39224683]
 [0.36700913 0.75449041]
 [0.40500429 0.47125038]
 [0.6448252  0.04320448]]


행렬을 분해해서 P, Q를 갱신한 값을 서로 곱하면 원래의 행렬이 복원된다.
이 값은 예측 값으로 원행렬과의 차이만큼 오류가 된다.
물론 첫 반복에는 오류가 크겠지만 반복을 할수록 경사도가 하강하면서 그 값은 줄어들게 된다.

이제 1회 반복을 수행하였다.
이제 P, Q 행열의 각 요소에 대해 경사도하강법을 적용하고, 이를 적당한 횟수만큼 반복을 해보자.
전체 행렬 P ($5 \times 2$), Q ($2 \times 5$)의 ```dot()``` 연산을 하면 $5 \times 5$ 벡터가 계산된다.

In [None]:
? no regularizaiton
? error 계산 추가?

In [69]:
iters=2000
for iter in range(iters):
    for i in range(row):
        for j in range(col):
            if R[i][j] > 0:  # missing values were initialized to 0 
                rhat=np.dot(P[i,:],Q.T[:,j])
                eij = R[i][j] - rhat
                for k in range(K):
                    #pGradient=2*np.dot(eij,Q.T[k][j]) - beta*P[i][k]
                    pGradient=2*np.dot(eij,Q.T[k][j])
                    #qGradient=2*np.dot(eij,P[i][k]) - beta*Q.T[k][j]
                    qGradient=2*np.dot(eij,P[i][k])
                    P[i][k]+=alpha*pGradient
                    Q.T[k][j]+=alpha*qGradient

In [70]:
print ("P\n{}\n\nQ\n{}".format(P, Q))

P
[[2.25892813 0.67772939]
 [1.68408167 0.56390122]
 [0.12616897 2.0363746 ]
 [0.10005522 1.70455438]
 [1.33363082 1.70192238]]

Q
[[ 2.13818101  0.43563524]
 [ 0.88201385  0.36471101]
 [ 1.6551348   1.59036742]
 [-0.18546538  2.4014136 ]]



```python
    D1	D2	D3	D4
U1	4.97	2.98	2.18	0.98
U2	3.97	2.40	1.97	0.99
U3	1.02	0.93	5.32	4.93
U4	1.00	0.85	4.59	3.93
U5	1.36	1.07	4.89	4.12
```

In [67]:
print(R)

[[5 3 0 1]
 [4 0 0 1]
 [1 1 0 5]
 [1 0 0 4]
 [0 1 5 4]]


rhat

In [71]:
print (np.dot(P,Q.T))

[[5.12524002 2.23958127 4.8166693  1.20855561]
 [3.84652668 1.69104434 3.6841923  1.0418212 ]
 [1.15688862 0.85397101 3.44741047 4.86677768]
 [0.95650012 0.70991983 2.87647263 4.07478329]
 [3.59296144 1.79699068 4.91402069 3.8396772 ]]


In [68]:
np.dot(P,Q.T)

array([[3.43902697, 1.62132958, 4.17615947, 3.24074575],
       [2.57425665, 1.21953785, 3.12441851, 2.43402867],
       [2.92673254, 1.37525163, 3.55530291, 2.7516646 ],
       [2.43105925, 1.26689575, 2.91914894, 2.45849898],
       [4.02082253, 1.89213568, 4.88361007, 3.78416569]])

error

In [25]:
pow(R-np.dot(P,Q.T),2)

array([[  0.30173149,   0.72056269,   6.1796671 ,   0.85056945],
       [  0.63235716,   2.32879456,   4.42874814,   0.5634959 ],
       [  1.23921656,   0.01957108,  11.51007959,   2.27626859],
       [  0.39145506,   0.39912471,   9.12161071,   0.69892524],
       [ 15.1545202 ,   0.50919565,   0.2720112 ,   0.13460719]])

http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-in-python/#source-code

In [3]:
"""
@INPUT:
    R     : a matrix to be factorized, dimension N x M
    P     : an initial matrix of dimension N x K
    Q     : an initial matrix of dimension M x K
    K     : the number of latent features
    steps : the maximum number of steps to perform the optimisation
    alpha : the learning rate
    beta  : the regularization parameter
@OUTPUT:
    the final matrices P and Q
"""
def matrixFactorization(R, P, Q, K, iters=5000, alpha=0.0002, beta=0.02):
    Q = Q.T
    row=R.shape[0]
    col=R.shape[1]
    for iter in range(iters):
        for i in range(row):
            for j in range(col):
                if R[i][j] > 0:
                    rhat=np.dot(P[i,:],Q[:,j])
                    eij = R[i][j] - rhat
                    for k in range(K):
                        #pGradient=2*np.dot(eij,Q[k][j]) - beta*P[i][k]
                        #pGradient=2*eij*Q[k][j] - beta*P[i][k]
                        pGradient=2*np.dot(eij,Q[k][j])
                        #pGradient=2*eij*Q[k][j]
                        #qGradient=2*np.dot(eij,P[i][k]) - beta*Q[k][j]
                        #qGradient=2*eij*P[i][k] - beta*Q[k][j]
                        qGradient=2*np.dot(eij,P[i][k])
                        #qGradient=2*eij*P[i][k]
                        P[i][k]+=alpha*pGradient
                        Q[k][j]+=alpha*qGradient
        #eR = np.dot(P,Q)
        #e = 0
        #for i in range(len(R)):
        #    for j in range(len(R[i])):
        #        if R[i][j] > 0:
        #            e = e + pow(R[i][j] - np.dot(P[i,:],Q[:,j]), 2)
        #            for k in range(K):
        #                e = e + (beta/2) * ( pow(P[i][k],2) + pow(Q[k][j],2) )
        #if e < 0.001:
        #    break
    return P, Q.T

In [7]:
"""
@INPUT:
    R     : a matrix to be factorized, dimension N x M
    P     : an initial matrix of dimension N x K
    Q     : an initial matrix of dimension M x K
    K     : the number of latent features
    steps : the maximum number of steps to perform the optimisation
    alpha : the learning rate
    beta  : the regularization parameter
@OUTPUT:
    the final matrices P and Q
"""
def matrixFactorization2(R, P, Q, K, steps=5000, alpha=0.0002, beta=0.02):
    Q = Q.T
    for step in range(steps):
        for i in range(len(R)):
            for j in range(len(R[i])):
                if R[i][j] > 0:
                    eij = R[i][j] - np.dot(P[i,:],Q[:,j])
                    for k in range(K):
                        P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])
                        Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])
        eR = np.dot(P,Q)
        e = 0
        for i in range(len(R)):
            for j in range(len(R[i])):
                if R[i][j] > 0:
                    e = e + pow(R[i][j] - np.dot(P[i,:],Q[:,j]), 2)
                    for k in range(K):
                        e = e + (beta/2) * ( pow(P[i][k],2) + pow(Q[k][j],2) )
        if e < 0.001:
            break
    return P, Q.T

In [8]:
import numpy as np


R = np.array([
     [5,3,0,1],
     [4,0,0,1],
     [1,1,0,5],
     [1,0,0,4],
     [0,1,5,4],
    ])
R = np.array([
     [5,2,4,4,3],
     [3,1,2,4,1],
     [2,3,1,4,0],
     [2,5,4,3,5],
     [4,4,5,4,0],
    ])
N = len(R)
M = len(R[0])
K = 2

# random
P = np.random.rand(N,K)
Q = np.random.rand(M,K)

#P=np.ones((N,K))
#Q=np.ones((N,K))
nP, nQ = matrixFactorization2(R, P, Q, K)

In [5]:
nP

array([[ 1.33839939,  1.65660438],
       [ 0.60173652,  1.5107834 ],
       [ 1.18974955,  0.60022464],
       [ 2.37651055, -0.35964263],
       [ 2.17922256,  0.73521941]])

In [87]:
N, M

(5, 4)

In [88]:
import numpy as np
np.random.rand(N,K)

array([[0.23036159, 0.18000042],
       [0.81038103, 0.82600249],
       [0.48486926, 0.00947757],
       [0.65192864, 0.97694153],
       [0.29982883, 0.75137995]])

In [9]:
nR = np.dot(nP, nQ.T)
print(nR)

[[4.54208679 2.25902028 3.6056191  4.6978022  2.78854302]
 [3.42070024 0.80312512 2.2065994  3.34432892 1.24564688]
 [2.35345211 2.41135047 2.57120226 2.70165897 2.62530212]
 [2.06570265 4.98278765 3.88063984 2.98929251 5.03102193]
 [3.86222321 4.20974895 4.36262333 4.48810166 4.54856789]]


In [32]:
nR = np.dot(nP, nQ.T)
print nR

[[ 5.0354243   2.85096871  5.08329796  0.98640713]
 [ 3.92591948  2.22472243  4.12481818  1.00843566]
 [ 1.13457634  0.68064953  4.33973884  4.95476714]
 [ 0.9340535   0.55954221  3.50508312  3.97883394]
 [ 2.42256887  1.40049285  4.85579601  4.04530207]]


In [None]:
R = np.array([
     [5,2,4,4,3],
     [3,1,2,4,1],
     [2,3,1,4,0],
     [2,5,4,3,5],
     [4,4,5,4,0],
    ])

### utility matrix를 변환

In [3]:
import numpy as np
R = np.array([
     [5,3,0,1],
     [4,0,0,1],
     [1,1,0,5],
     [1,0,0,4],
     [0,1,5,4],
    ])

In [4]:
row=R.shape[0]
col=R.shape[1]
ratingsUI=np.zeros([row*col,3])

In [5]:
counter=0
for r in range(row):
    for c in range(col):
        ratingsUI[counter]=[r,c,R[r,c]]
        print "r:{0} c:{1} ratings:{2} Rij:{3}\n".format(r,c,ratingsUI[counter],R[r,c]),
        counter+=1

r:0 c:0 ratings:[ 0.  0.  5.] Rij:5
r:0 c:1 ratings:[ 0.  1.  3.] Rij:3
r:0 c:2 ratings:[ 0.  2.  0.] Rij:0
r:0 c:3 ratings:[ 0.  3.  1.] Rij:1
r:1 c:0 ratings:[ 1.  0.  4.] Rij:4
r:1 c:1 ratings:[ 1.  1.  0.] Rij:0
r:1 c:2 ratings:[ 1.  2.  0.] Rij:0
r:1 c:3 ratings:[ 1.  3.  1.] Rij:1
r:2 c:0 ratings:[ 2.  0.  1.] Rij:1
r:2 c:1 ratings:[ 2.  1.  1.] Rij:1
r:2 c:2 ratings:[ 2.  2.  0.] Rij:0
r:2 c:3 ratings:[ 2.  3.  5.] Rij:5
r:3 c:0 ratings:[ 3.  0.  1.] Rij:1
r:3 c:1 ratings:[ 3.  1.  0.] Rij:0
r:3 c:2 ratings:[ 3.  2.  0.] Rij:0
r:3 c:3 ratings:[ 3.  3.  4.] Rij:4
r:4 c:0 ratings:[ 4.  0.  0.] Rij:0
r:4 c:1 ratings:[ 4.  1.  1.] Rij:1
r:4 c:2 ratings:[ 4.  2.  5.] Rij:5
r:4 c:3 ratings:[ 4.  3.  4.] Rij:4


In [6]:
ratingsUI

array([[ 0.,  0.,  5.],
       [ 0.,  1.,  3.],
       [ 0.,  2.,  0.],
       [ 0.,  3.,  1.],
       [ 1.,  0.,  4.],
       [ 1.,  1.,  0.],
       [ 1.,  2.,  0.],
       [ 1.,  3.,  1.],
       [ 2.,  0.,  1.],
       [ 2.,  1.,  1.],
       [ 2.,  2.,  0.],
       [ 2.,  3.,  5.],
       [ 3.,  0.,  1.],
       [ 3.,  1.,  0.],
       [ 3.,  2.,  0.],
       [ 3.,  3.,  4.],
       [ 4.,  0.,  0.],
       [ 4.,  1.,  1.],
       [ 4.,  2.,  5.],
       [ 4.,  3.,  4.]])

pandas를 경유해서 dataframe으로 변환한다.

In [7]:
import pandas as pd
pdf = pd.DataFrame(ratingsUI)

In [8]:
df = spark.createDataFrame(pdf, ["user", "item", "rating"])

In [9]:
df.count()

20

In [10]:
df.show(df.count())

+----+----+------+
|user|item|rating|
+----+----+------+
| 0.0| 0.0|   5.0|
| 0.0| 1.0|   3.0|
| 0.0| 2.0|   0.0|
| 0.0| 3.0|   1.0|
| 1.0| 0.0|   4.0|
| 1.0| 1.0|   0.0|
| 1.0| 2.0|   0.0|
| 1.0| 3.0|   1.0|
| 2.0| 0.0|   1.0|
| 2.0| 1.0|   1.0|
| 2.0| 2.0|   0.0|
| 2.0| 3.0|   5.0|
| 3.0| 0.0|   1.0|
| 3.0| 1.0|   0.0|
| 3.0| 2.0|   0.0|
| 3.0| 3.0|   4.0|
| 4.0| 0.0|   0.0|
| 4.0| 1.0|   1.0|
| 4.0| 2.0|   5.0|
| 4.0| 3.0|   4.0|
+----+----+------+



In [11]:
from pyspark.ml.recommendation import ALS

als = ALS(rank=10, maxIter=5, seed=0,
         userCol="user", itemCol="item", ratingCol="rating")
model = als.fit(df)

userFactors는 id, features를 저장한 DataFrame

In [13]:
model.userFactors.orderBy("id").collect()

[Row(id=0, features=[0.6518023014068604, -0.3774568438529968, 0.45830395817756653, 0.5326328277587891, 0.5370028614997864, -0.13303984701633453, 0.9978336691856384, -0.049184586852788925, 1.2127164602279663, -0.44631215929985046]),
 Row(id=1, features=[0.7823089957237244, 0.055251941084861755, -0.1760573387145996, -0.35000845789909363, 0.5918315649032593, 0.006784677039831877, -0.25240689516067505, -0.01705523021519184, 1.1433072090148926, -0.03908538073301315]),
 Row(id=2, features=[-0.4606591463088989, -0.3179605305194855, 0.6577496528625488, -0.1826791912317276, 0.36359283328056335, -0.898631751537323, -0.4057735800743103, 0.5501425266265869, 0.24210044741630554, -0.7884545922279358]),
 Row(id=3, features=[-0.22923962771892548, -0.12811774015426636, 0.32501572370529175, -0.41224557161331177, 0.36770564317703247, -0.6602339744567871, -0.6686253547668457, 0.4330856502056122, 0.3078712821006775, -0.5111319422721863]),
 Row(id=4, features=[-0.43931934237480164, -0.9368381500244141, 0.24

In [13]:
test = spark.createDataFrame([(0, 2), (1, 0), (2, 0)], ["user", "item"])

In [17]:
test.show()

+----+----+
|user|item|
+----+----+
|   0|   2|
|   1|   0|
|   2|   0|
+----+----+



In [14]:
predictions = sorted(model.transform(test).collect(), key=lambda r: r[0])

In [None]:
[[ 5.0354243   2.85096871  5.08329796  0.98640713]
 [ 3.92591948  2.22472243  4.12481818  1.00843566]
 [ 1.13457634  0.68064953  4.33973884  4.95476714]
 [ 0.9340535   0.55954221  3.50508312  3.97883394]
 [ 2.42256887  1.40049285  4.85579601  4.04530207]]

In [15]:
for p in predictions:
    print p

[Row(user=0, item=2, prediction=0.018792565912008286),
 Row(user=1, item=0, prediction=3.712459087371826),
 Row(user=2, item=0, prediction=1.0534387826919556)]

### 평가

In [20]:
from pyspark.ml.evaluation import RegressionEvaluator


evaluator=RegressionEvaluator(metricName="rmse",labelCol="rating",predictionCol="prediction")

In [22]:
predictions=model.transform(df)
rmse=evaluator.evaluate(predictions)
print("RMSE="+str(rmse))
predictions.show()

RMSE=0.167463491628
+----+----+------+------------+
|user|item|rating|  prediction|
+----+----+------+------------+
| 1.0| 1.0|   0.0|   0.2648269|
| 3.0| 1.0|   0.0| 0.114437595|
| 4.0| 1.0|   1.0|  0.97063005|
| 2.0| 1.0|   1.0|   0.9153577|
| 0.0| 1.0|   3.0|   2.6919935|
| 1.0| 3.0|   1.0|  0.99896544|
| 3.0| 3.0|   4.0|   3.7990217|
| 4.0| 3.0|   4.0|   3.9464648|
| 2.0| 3.0|   5.0|    4.758358|
| 0.0| 3.0|   1.0|   1.0506728|
| 1.0| 2.0|   0.0|-0.041997816|
| 3.0| 2.0|   0.0|  0.10027863|
| 4.0| 2.0|   5.0|    4.657796|
| 2.0| 2.0|   0.0|  0.15604466|
| 0.0| 2.0|   0.0| 0.018792566|
| 1.0| 0.0|   4.0|    3.712459|
| 3.0| 0.0|   1.0|   0.9773247|
| 4.0| 0.0|   0.0| 0.026058678|
| 2.0| 0.0|   1.0|   1.0534388|
| 0.0| 0.0|   5.0|    4.826267|
+----+----+------+------------+



## S.10 SVD

SVD는 어떤 매트릭스라도 3개의 매트릭스로 분할하는 것을 말한다.
예를 들어 57은 1 3 19 

A = U D V.T
m x n = m x r  r x r  r x n

3 x 2 = 3 x 3  3 x 2  2 x 2


* U 사용자 x latent factors
* S는 대각선 매트릭스로 latent factor의 강도를 표현
* V는 상품 x latent factors

https://alyssaq.github.io/2015/20150426-simple-movie-recommender-using-svd/

>>> from scipy.sparse import csc_matrix
>>> from scipy.sparse.linalg import svds
>>> A = csc_matrix([[1, 0, 0], [5, 0, 2], [0, -1, 0], [0, 0, 3]], dtype=float)
>>> u, s, vt = svds(A, k=2) # k is the number of factors
>>> s
array([ 2.75193379,  5.6059665 ])

#https://datascience.stackexchange.com/questions/15457/svd-for-recommendation-engine
from numpy.linalg import svd

U, S, V = svd(R)

k = 2 #dimension reduction
A_k = U[:, :k] * np.diag(S[:k]) * V.T[:k, :]

In [14]:
import numpy as np
R = np.array([
     [5,3,0,1],
     [4,0,0,1],
     [1,1,0,5],
     [1,0,0,4],
     [0,1,5,4],
    ])

사용자 평점의 평균은 행으로 구한다.

In [42]:
rowMean=np.mean(R, 1)
print np.asarray(rowMean)

[ 2.25  1.25  1.75  1.25  2.5 ]


In [43]:
rowMean.shape=(5,1)

In [44]:
normalisedR=R - rowMean
print normalisedR

[[ 2.75  0.75 -2.25 -1.25]
 [ 2.75 -1.25 -1.25 -0.25]
 [-0.75 -0.75 -1.75  3.25]
 [-0.25 -1.25 -1.25  2.75]
 [-2.5  -1.5   2.5   1.5 ]]


In [50]:
A = normalisedR/ np.sqrt(R.shape[0] - 1)
print A

[[ 1.375  0.375 -1.125 -0.625]
 [ 1.375 -0.625 -0.625 -0.125]
 [-0.375 -0.375 -0.875  1.625]
 [-0.125 -0.625 -0.625  1.375]
 [-1.25  -0.75   1.25   0.75 ]]


In [51]:
U, D, V=np.linalg.svd(A)
print U.shape,D.shape,V.shape

TypeError: svd() got an unexpected keyword argument 'k'

In [34]:
V

array([[ 0.59393667,  0.3747321 , -0.25779275, -0.21147617, -0.62899588],
       [-0.18540429, -0.30892111, -0.69499063, -0.60844446,  0.13029336],
       [-0.10634084,  0.80626825, -0.31668765,  0.0876219 ,  0.480265  ],
       [ 0.76820725, -0.21663394,  0.06947398, -0.07635481,  0.59352393],
       [-0.106835  ,  0.25912323,  0.58771865, -0.75601952,  0.06680341]])

In [37]:
from scipy.sparse import csc_matrix
A=csc_matrix([[1, 0, 0], [5, 0, 2], [0, -1, 0], [0, 0, 3]], dtype=float)

In [39]:
A

<4x3 sparse matrix of type '<type 'numpy.float64'>'
	with 5 stored elements in Compressed Sparse Column format>

In [42]:
import numpy as np
A = np.array([[7, 2], [3, 4], [5, 3]])
U, D, V = np.linalg.svd(A)
U

array([[-0.69366543,  0.59343205, -0.40824829],
       [-0.4427092 , -0.79833696, -0.40824829],
       [-0.56818732, -0.10245245,  0.81649658]])

In [14]:
from scipy.sparse.linalg import svds
U,sigma,Vt=svds(r_demeaned,k=50)

In [19]:
np.dot(U,sigma).T.shape, Vt.shape

((668,), (50, 10325))

In [15]:
np.dot(np.dot(U,sigma),Vt)

ValueError: shapes (668,) and (50,10325) not aligned: 668 (dim 0) != 50 (dim 0)

* Rating
    * 추천에서 사용한다.
    * 사용자, 제품, 평가 항목으로 구성한다.


from pyspark.mllib.recommendation import Rating
Rating(1, 2, 5.0)

## 문제 S-5: ALS 알고리즘으로 영화 추천

### 문제

함께 영화를 보러 간다고 하자.
어떤 영화를 볼까? 묻지 않고 영화를 고르면 좋아할까?
그렇다면 어떤 영화를 좋아하는지 직접 묻지 않고 어떻게 알 수 있을까?
영화에 대한 선호도를 모른다 하더라도, 추정할 수 있는 방법이 있다.
추천 알고리즘인 Matrix Factorization을 푸는 방식으로 ALS Alternating Least Squares를 추천해 보자.

참조: [spark recommendation](https://www.codementor.io/spark/tutorial/building-a-recommender-with-apache-spark-python-example-app-part1)

* 주 13 - spark 추천 영화 음악? 
    * amazon similarity lookup http://blogs.gartner.com/martin-kihn/how-to-build-a-recommender-system-in-python/
    * https://www.codementor.io/spark/tutorial/building-a-web-service-with-apache-spark-flask-example-app-part2
    * https://github.com/grahamjenson/list_of_recommender_systems
        * content-based filtering
        * collaborative filtering


## IPython Notebook에서 SparkSession 생성하기

Jupyter Notebook에서 Spark를 사용하려면 몇 가지 설정이 필요하다.
Spark 실행에 필요한 라이브러리를 경로에서 찾을 수 있게 설정해야 한다.
아래와 같이 ```sys.path.insert()``` 함수를 사용하면 라이브러리를 Python 경로에 추가할 수 있다.

In [1]:
import os
import sys 
os.environ["SPARK_HOME"]=os.path.join(os.environ['HOME'],'Downloads','spark-2.0.0-bin-hadoop2.7')
os.environ["PYLIB"]=os.path.join(os.environ["SPARK_HOME"],'python','lib')
sys.path.insert(0,os.path.join(os.environ["PYLIB"],'py4j-0.10.1-src.zip'))
sys.path.insert(0,os.path.join(os.environ["PYLIB"],'pyspark.zip'))

In [4]:
import pyspark
myConf=pyspark.SparkConf()
spark = pyspark.sql.SparkSession.builder\
    .master("local")\
    .appName("myApp")\
    .config(conf=myConf)\
    .getOrCreate()

## 데이터

사용자의 영화에 대한 평가가 저장되어 있는 ```ratings```, 영화정보를 가지고 있는 ```movies``` 파일을 읽어서, RDD를 생성한다.

### ratings

```ratings```는 사용자, 영화, 평점, 시간 정보를 가지고 있는데, 이 파일을 읽어보자.

In [14]:
import os
small_ratings = os.path.join('data', 'ml-latest-small', 'ratings.csv')

RDD는 sparkContext의 ```textFile(파일)``` 함수로부터 생성한다.
보통 파일은 헤더와 내용으로 구성된다. 첫 줄을 읽어서, 데이터 헤더를 확인하자.

In [34]:
small_ratings_rdd = spark.sparkContext.textFile(small_ratings)

In [35]:
print small_ratings_rdd.take(1)

[u'userId,movieId,rating,timestamp']


In [36]:
small_ratings_rdd_header = small_ratings_rdd.take(1)

In [37]:
print small_ratings_rdd_header[0]

userId,movieId,rating,timestamp


파일의 첫째 줄이 header이므로 이를 ```filter()```한다.
데이터는 4개의 컬럼으로 구성된다. 이를 컴마로 분리하고 처음 3개만 RDD로 만든다.


```python
userId,movieId,rating,timestamp
1,16,4.0,1217897793
1,24,1.5,1217895807
1,32,4.0,1217896246
...
```

아래 ```cache()``` 함수는 필요한 경우에 사용한다.
RDD는 lazy 연산을 한다. ```collect()```, ```count()``` 등과 같은 action 함수와 같이, 실제 데이터로부터 연산이 필요하기 전까지는 lazy 연산을 한다. ```cache()``` 함수는 메모리에 올려놓는다는 의미이다. cache는 연산이 일어나면 메모리에 데이터를 올려놓고, 다음부터 그 cache에 저장된 것을 사용하게 되므로 빠르다.


In [7]:
small_ratings_data = small_ratings_rdd\
    .filter(lambda line: line!=small_ratings_rdd_header)\
    .map(lambda line: line.split(","))\
    .map(lambda tokens: (tokens[0],tokens[1],tokens[2]))\
    .cache()

In [8]:
small_ratings_data.take(3)

[(u'1', u'16', u'4.0'), (u'1', u'24', u'1.5'), (u'1', u'32', u'4.0')]

이를 ```csvRdd()``` 함수로 만들어 ratings, movies 데이터를 만들어 보자.

RDD는 lazy 연산을 한다. ```collect()```, ```count()``` 등과 같은 action 함수와 같이, 실제 데이터로부터 연산이 필요하기 전까지는 lazy 연산을 한다. ```cache()``` 함수는 메모리에 올려놓는다는 의미이다. cache는 연산이 일어나면 메모리에 데이터를 올려놓고, 다음부터 그 cache에 저장된 것을 사용하게 되므로 빠르다.
```cache()```는 필요한 경우에 사용한다.

In [38]:
def csvRdd(csvpath):
    _rdd = spark.sparkContext.textFile(csvpath)
    _rdd_header = _rdd.take(1)[0]
    print "header: %s" % _rdd_header
    rdd = _rdd\
        .filter(lambda line: line!=_rdd_header) \
        .map(lambda line: line.split(",")) \
        .map(lambda tokens: (tokens[0],tokens[1],tokens[2])) \
        .cache()
    return rdd

In [None]:
#ratingspath = os.path.join(datapath, 'ml-latest-small', 'ratings.csv')
#ratings=csvRdd(ratingspath)
ratings=csvRdd(small_ratings)

In [20]:
ratings.take(3)

header: userId,movieId,rating,timestamp


[(u'1', u'16', u'4.0'), (u'1', u'24', u'1.5'), (u'1', u'32', u'4.0')]

### movies

```movies``` 파일은 영화제목, 장르 정보를 가지고 있다.

In [39]:
moviespath = os.path.join('data', 'ml-latest-small', 'movies.csv')
movies=csvRdd(moviespath)
movies.take(3)

header: movieId,title,genres


[(u'1', u'Toy Story (1995)', u'Adventure|Animation|Children|Comedy|Fantasy'),
 (u'2', u'Jumanji (1995)', u'Adventure|Children|Fantasy'),
 (u'3', u'Grumpier Old Men (1995)', u'Comedy|Romance')]

### train, test

훈련, 테스트 데이터를 분리해 보자. ```randomSplit(weights, seed=None)``` 함수는 weights, seed를 인자로 받는다.
* weights: ```ratings``` 데이터의 분할하는 비율을 설정하고, 정규화해서 합계를 1.0으로 만들어 준다.
* seed: 샘플링하는 숫자

구분 | 비율
-----|-----
train | 6
validation | 2
test | 2

In [22]:
from pyspark.mllib.recommendation import ALS
import math

_train, _validation, _test=ratings.randomSplit([6, 2, 2], seed=0L)

In [23]:
_validation_01 = _validation.map(lambda x: (x[0], x[1]))

In [24]:
_test_01 = _test.map(lambda x: (x[0], x[1]))

### ALS 모델링

ALS는 mllib, ml 패키지 모두 제공되고 있으나, 서로 사용하는 방법이 다르므로 주의가 필요하다.
RDD 기반 API는 Spark 3.0에서는 제외될 예정이다.

```python
#----------------ml package------------------
from pyspark.ml.recommendation import ALS
als = ALS(rank=10, maxIter=20, userCol="user", itemCol="item", ratingCol="rating")
model = als.fit(trainDf)
predictions = model.transform(testDf)

#----------------mllib package----------------
from pyspark.mllib.recommendation import ALS
model = ALS.train(trainRdd, 10, seed=3, iterations=20)
predictions = model.predictAll(testRdd).map(lambda r: (r.user, r.product, r.rating))
```



ALS는 mllib, ml 패키지 모두 제공되고 있으나, 서로 사용하는 방법이 다르므로 주의가 필요하다.
RDD 기반 API는 Spark 3.0에서는 제외될 예정이다.

```python
#----------------ml package------------------
from pyspark.ml.recommendation import ALS
als = ALS(rank=10, maxIter=20, userCol="user", itemCol="item", ratingCol="rating")
model = als.fit(trainDf)
predictions = model.transform(testDf)

#----------------mllib package----------------
from pyspark.mllib.recommendation import ALS
model = ALS.train(trainRdd, 10, seed=3, iterations=20)
predictions = model.predictAll(testRdd).map(lambda r: (r.user, r.product, r.rating))
```

ALS 모델에 필요한 설정이 있다.
* rank는 숨겨진 요인 latent factors의 수
* iterations 반복회수
* lambda는 regularization 계수 (높으면 regularizaton 높음...

In [78]:
seed = 5L
iterations = 10
regularization_parameter = 0.1

errors = [0, 0, 0]
err = 0
tolerance = 0.02

min_error = float('inf')
best_rank = -1
best_iteration = -1

rank=4
# start for
# ranks = [4, 8, 12]
# for rank in ranks:
model = ALS.train(_train,rank,seed=seed,iterations=iterations,lambda_=0.1)

### 예측

#### 전체

```predictAll()``` 함수는 ```ratings``` 평가점수를 예측한다. 즉 사용자의 영화에 대한 평가점수가 없는 경우, 몇 점인지 예측하게 된다.

In [79]:
predictions = model.predictAll(_validation_01)

predictions은 RDD이므로, 예측 결과 값은 아래와 같이 ```take()```, ```collect()``` 함수를 바로 사용하거나, ```map()``` 함수를 사용해서 추출할 수 있다.

In [80]:
type(predictions)

pyspark.rdd.RDD

In [81]:
predictions.take(2)

[Rating(user=475, product=81132, rating=1.208942277934203),
 Rating(user=469, product=667, rating=2.287210521555096)]

In [82]:
predictions.map(lambda r: ((r[0], r[1]), r[2])).take(2)

[((475, 81132), 1.208942277934203), ((469, 667), 2.287210521555096)]

실제와 예측을 나란히 비교해 보자.
먼저 예측을 저장하고, 이를 ```map()``` 함수로 실제 값을 출력하고 ```join()``` 함수로 나란히 출력해 보자.

In [83]:
predictions=predictions.map(lambda r: ((r[0], r[1]), r[2]))

In [84]:
rates_and_preds = _validation\
    .map(lambda r: ((int(r[0]), int(r[1])), float(r[2])))\
    .join(predictions)

In [85]:
rates_and_preds.take(3)

[((627, 30793), (3.5, 3.3273636051642086)),
 ((668, 4030), (1.5, 1.8208563455773858)),
 ((332, 2528), (4.0, 4.088212813873781))]

In [88]:
model.userFeatures()

PythonRDD[1214] at RDD at PythonRDD.scala:48

#### 사용자별 예측

userId, moveId를 넣으면, 평가점수를 예측할 수 있다.
예를 들어, 1번 사용자, 24번 영화에 대한 rating은 약 2.04이다.

In [70]:
model.predict(1,24)

2.477817297611674

* 1번 사용자, 상위 10개 상품 추천

In [92]:
top10for1 = model.recommendProducts(1,10)

In [93]:
type(top10for1)

list

In [94]:
top10for1

[Rating(user=1, product=5147, rating=5.417326172972089),
 Rating(user=1, product=3272, rating=5.272865359188067),
 Rating(user=1, product=103980, rating=5.221125234610412),
 Rating(user=1, product=90603, rating=5.199192419824584),
 Rating(user=1, product=6583, rating=5.131635645196752),
 Rating(user=1, product=105844, rating=5.127320038146992),
 Rating(user=1, product=714, rating=5.094333621153465),
 Rating(user=1, product=917, rating=5.076105430608997),
 Rating(user=1, product=59810, rating=5.037403608152832),
 Rating(user=1, product=104177, rating=5.037403608152832)]

In [96]:
top10for1[2][1]

103980

In [99]:
movies.lookup

<bound method PipelinedRDD.lookup of PythonRDD[273] at RDD at PythonRDD.scala:48>

### 오류

MSE Mean Squared Error을 출력해보자.

In [90]:
error = math.sqrt(rates_and_preds
                  .map(lambda r: (r[1][0]-r[1][1])**2)\
                  .mean()
                 )

In [91]:
print error

0.919837162894


In [None]:
# errors[err] = error
#err += 1
#print 'For rank %s the RMSE is %s' % (rank, error)
#if error < min_error:
#    min_error = error
#    best_rank = rank
# end for
# print 'The best model was trained with rank %s' % best_rank

### 묶으면

In [77]:

model = ALS.train(_train, best_rank, seed=seed, iterations=iterations,lambda_=regularization_parameter)
predictions = model.predictAll(_test_01).map(lambda r: ((r[0], r[1]), r[2]))
rates_and_preds = _test\
    .map(lambda r: ((int(r[0]), int(r[1])), float(r[2])))\
    .join(predictions)
error = math.sqrt(rates_and_preds.map(lambda r: (r[1][0] - r[1][1])**2).mean())

print 'For testing data the RMSE is %s' % (error)


NameError: name 'regularization_parameter' is not defined

In [14]:
new_user_ratings = [
     (0,260,4), # Star Wars (1977)
     (0,1,3), # Toy Story (1995)
     (0,16,3), # Casino (1995)
     (0,25,4), # Leaving Las Vegas (1995)
     (0,32,4), # Twelve Monkeys (a.k.a. 12 Monkeys) (1995)
     (0,335,1), # Flintstones, The (1994)
     (0,379,1), # Timecop (1994)
     (0,296,3), # Pulp Fiction (1994)
     (0,858,5) , # Godfather, The (1972)
     (0,50,4) # Usual Suspects, The (1995)
    ]

In [16]:
new_user_ratings_RDD = spark.sparkContext.parallelize(new_user_ratings)

In [27]:
complete_data_with_new_ratings_RDD=ratings.union(new_user_ratings_RDD)

complete_data_with_new_ratings_RDD.collect()

## Visualising London Bike Hire Journey Lengths with Python and OSRM
http://sensitivecities.com/bikeshare.html#.WUTJphPyiL4

### 문제 M-6: Ethereum

In [None]:
base_url = Template('http://www.gutenberg.org/files/$book_id/$book_id.txt')
r = requests.get('http://www.gutenberg.org/browse/scores/top')

* [spark flask](https://www.codementor.io/spark/tutorial/building-a-web-service-with-apache-spark-flask-example-app-part2)
