# 14장 특이 값 분해로 데이터 간소화하기
---
    추천 알고리즘
    여러 식당을 분류할 때 인위적으로 분류하는 것이 아니라 사람들의 의견을 통하여 유사성을 판단해 보자


## 14.1 SVD 응용 프로그램
---
    SVD를 통하여 데이터 차원 축소
    * 특이값 분해(Singular value decomposition, SVD)
    원본 데이터 집합을 아주 작은 데이터 집합으로 표현하여 노이즈와 불필요한 정보 제거
    행렬 차원에서의 PCA

    장점: 데이터를 간소화하고, 노이즈를 제거하며, 알고리즘의 결과를 개선
    단점: 변환된 데이터는 이해하기 어려울 수도 있다.
    활용: 수치형 값


### 14.1.1 잠재적 의미 색인
---
    SVD는 잠재적 의미 색인 중 하나
    * 잠재적 의미 색인 (latent semantic indexing, LSI) / 잠재적 의미 분석(latent semactic analysis)
    문서와 단어들을 통하여 행렬을 구성
    => 특이값들의 집합 생성: 문서에 포함된 개념이나 주제를 대표
    단점: 철자 틀린경우, 동음이의어

### 14.1.2 추천 시스템
---
    아이템 간의 유사성 vs 사람들 간의 유사성
    유사성을 계산하기 위하여 SVD사용
    Ex)
![img](1.png)

    원래 7X5차원
    하지만 자세히 보면 BBQ차원과 일본음식의 두 차원으로 나뉠 수 있다. 
    실제 데이터는 이렇게 명백하게 나타나지는 않음
    넷플릭스 100만달러 추천 콘테스트 -> SVD

## 14.2 행렬 인수분해
---
    * 숫자의 인수분해
    12 = 1x12 = 2x6 = 3x4  

    * 행렬의 인수분해  
    자세한 설명은 생략  
$${Data}_{m \times n} = {U}_{m \times m} \cdot  {\Sigma}_{m \times n} \cdot  {{V}^{T}}_{n \times n}$$  
${\Sigma}_{m \times n}$는 대각 원소만을 가지고 나머지는 0  
${\Sigma}_{m \times n}$를 큰 것에서 작은것으로 정렬  

대각 원소: 특이 값(Singular values) cf) PCA의 Eigen Value  
관계: $Data \times {Data}^{T}$  
참고: https://ko.wikipedia.org/wiki/%ED%8A%B9%EC%9E%87%EA%B0%92, 수치형 선형대수학
    

## 14.3 파이썬 SVD
---


In [2]:
from numpy import *
U, Sigma, VT = linalg.svd([[1,1],[7,7]])
print U
print
print Sigma
print
print VT

[[-0.14142136 -0.98994949]
 [-0.98994949  0.14142136]]

[  1.00000000e+01   2.82797782e-16]

[[-0.70710678 -0.70710678]
 [ 0.70710678 -0.70710678]]


In [3]:
Sigma * eye(2)

array([[  1.00000000e+01,   0.00000000e+00],
       [  0.00000000e+00,   2.82797782e-16]])

In [7]:
def loadExData():
    return[[0, 0, 0, 2, 2],
           [0, 0, 0, 3, 3],
           [0, 0, 0, 1, 1],
           [1, 1, 1, 0, 0],
           [2, 2, 2, 0, 0],
           [5, 5, 5, 0, 0],
           [1, 1, 1, 0, 0]]
    
Data = loadExData()
U, Sigma, VT = linalg.svd(Data)
print Sigma
print sum(Sigma[0:3])/sum(Sigma)

[  9.64365076e+00   5.29150262e+00   6.51609210e-16   2.14818942e-16
   5.18511491e-17]
1.0


    앞에 세개의 값은 다른값들보다 훨씬 크다 => 3X3으로 축소 가능
![img](2.png)    
    
$${Data}_{m \times n} = {U}_{m \times 3} \cdot  {\Sigma}_{3 \times 3} \cdot  {{V}^{T}}_{3 \times n}$$  


In [21]:
Sig3 = mat([[Sigma[0],0,0], [0,Sigma[1], 0], [0,0, Sigma[2]]])
print Sig3

[[  9.64365076e+00   0.00000000e+00   0.00000000e+00]
 [  0.00000000e+00   5.29150262e+00   0.00000000e+00]
 [  0.00000000e+00   0.00000000e+00   6.51609210e-16]]


In [23]:
U[:,:3]* Sig3 * VT[:3,:]

matrix([[ -4.37395897e-16,   1.04047305e-15,   1.22370145e-15,
           2.00000000e+00,   2.00000000e+00],
        [ -6.64717157e-16,   3.85916933e-16,   2.78800224e-16,
           3.00000000e+00,   3.00000000e+00],
        [ -1.99303530e-16,   1.22205100e-16,   7.70984294e-17,
           1.00000000e+00,   1.00000000e+00],
        [  1.00000000e+00,   1.00000000e+00,   1.00000000e+00,
          -7.27982527e-17,  -7.16286297e-17],
        [  2.00000000e+00,   2.00000000e+00,   2.00000000e+00,
          -1.15127656e-16,  -1.11630659e-16],
        [  5.00000000e+00,   5.00000000e+00,   5.00000000e+00,
           4.54084131e-17,   4.34259903e-17],
        [  1.00000000e+00,   1.00000000e+00,   1.00000000e+00,
          -5.75638278e-17,  -5.58153296e-17]])

    * 정보 보유도 조절: 
    특이값의 전체 합에서 선택한 특이값들의 합이 90%를 차지할 때 까지 
    or
    최대 2/3000개로 유지
    

## 14.4 협력적 여과 기반 추천 엔진
---
    * 협력적 여과(Collaborative filtering)
    유사도 측정을 통하여 알려지지 않은 선호도 예측
    선호도 예측 기반 추천
    아이템 기반 vs 사용자 기반


### 14.4.1 유사도 측정
---
Ex)
![img](3.png)

#### (1) Euclidean Distance

    * 풀드 포크와 트리 팁간의 유사도
$$\sqrt{{(4-4)}^{2}+{(3-3)}^{2}+{(2-1)}^{2}} = 1$$

    * 유사도를 0~1사이 값으로 전환
    유사도 = 1/(1+거리)
    
#### (2) Pearson correlation

    * 상관 계수를 사용
    corrcoef() -1 ~ +1

    * 유사도를 0~1사이 값으로 전환
    0.5+0.5*corrcoef()

#### (3) Cosine similarity

    * 두 벡터간의 각도에 대한 코사인 값을 측정
$$cos\theta = \frac{A\cdot B}{\begin{Vmatrix}A\end{Vmatrix}\cdot \begin{Vmatrix}B\end{Vmatrix}}$$

    * 유사도를 0~1사이 값으로 전환
    0.5+0.5*cos


In [9]:
from numpy import linalg as la

def ecludSim(inA,inB):
    return 1.0/(1.0 + la.norm(inA - inB))

def pearsSim(inA,inB):
    if len(inA) < 3 : return 1.0
    return 0.5+0.5*corrcoef(inA, inB, rowvar = 0)[0][1]

def cosSim(inA,inB):
    num = float(inA.T*inB)
    denom = la.norm(inA)*la.norm(inB)
    return 0.5+0.5*(num/denom)

In [32]:
myMat = mat(loadExData())
print ecludSim(myMat[:,0], myMat[:,4])
print
print ecludSim(myMat[:,0], myMat[:,0])
print
print pearsSim(myMat[:,0], myMat[:,4])
print
print pearsSim(myMat[:,0], myMat[:,0])
print
print cosSim(myMat[:,0], myMat[:,4])
print
print cosSim(myMat[:,0], myMat[:,0])

0.129731907557

1.0

0.205965381738

1.0

0.5

1.0


    칼럼벡터를 사용한 것은, 우리가 앞으로 아이템 기반 유사도를 사용하게 될 것이라는 것을 뜻함

### 14.4.2 아이템 기반 유사도와 사용자 기분 유사도
---
    아이템 기반vs 사용자 기반 유사도
    - 둘 중에서 보유하고 있는 데이터 수가 적은 것을 기준으로 하는 것이 좋다
    - 보통 아이템수 < 아이템 구매한 사람 수

### 14.4.3 추천 엔진 평가하기
---
    * 교차 검증
    기존에 사용자가 매긴 점수를 데이터의 결과값으로 한 다음 이 값을 예측 => 오차를 측정
    오차의 제곱 평균 제곱근(RMSE, root mean squared error)
    

## 14.5 예제: 레스토랑 메뉴 추천 엔진 구축하기
---
    기본적인 추천 엔진 생성
    SVD를 통하여 추천 개선
    UI로 포장
    문제점 논의

### 14.5.1 맛보지 못한 음식 추천하기
---
    가장 좋은 N개의 추천 목록을 반황
    1. 사용자가 아직 점수를 매기지 않은 아이템을 찾음. (0)
    2. 0에 대하여 예상 점수를 구한다.
    3. 점수를 내림차순으로 정렬하고 위에서 부터 N개의 아이템 반환

In [37]:
def standEst(dataMat, user, simMeas, item):
    n = shape(dataMat)[1]
    simTotal = 0.0; ratSimTotal = 0.0
    for j in range(n):
        userRating = dataMat[user,j]
        if userRating == 0: continue
        overLap = nonzero(logical_and(dataMat[:,item].A>0, \
                                      dataMat[:,j].A>0))[0] # 1. 사용자에 의해 점수가 매겨진 두 아이템을 찾음
        if len(overLap) == 0: similarity = 0
        else: similarity = simMeas(dataMat[overLap,item], \
                                   dataMat[overLap,j])
        print 'the %d and %d similarity is: %f' % (item, j, similarity)
        simTotal += similarity
        ratSimTotal += similarity * userRating
    if simTotal == 0: return 0
    else: return ratSimTotal/simTotal
    
def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst):
    unratedItems = nonzero(dataMat[user,:].A==0)[1]#2. 점수를 매기지 않은 아이템을 찾음
    if len(unratedItems) == 0: return 'you rated everything'
    itemScores = []
    for item in unratedItems:
        estimatedScore = estMethod(dataMat, user, simMeas, item)
        itemScores.append((item, estimatedScore))
    return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[:N]# 점수를 매기지 않은 아이템 중 상위 N개를 반환

In [35]:
myMat = mat(loadExData())
myMat[0,1] = myMat[0,0] = myMat[1,0] = myMat[2,0] = 4
myMat[3,3] = 2
print myMat

[[4 4 0 2 2]
 [4 0 0 3 3]
 [4 0 0 1 1]
 [1 1 1 2 0]
 [2 2 2 0 0]
 [5 5 5 0 0]
 [1 1 1 0 0]]


In [38]:
recommend(myMat,2)

the 1 and 0 similarity is: 1.000000
the 1 and 3 similarity is: 0.928746
the 1 and 4 similarity is: 1.000000
the 2 and 0 similarity is: 1.000000
the 2 and 3 similarity is: 1.000000
the 2 and 4 similarity is: 0.000000


[(2, 2.5), (1, 2.0243290220056256)]

In [42]:
recommend(myMat, 2, simMeas = ecludSim)

the 1 and 0 similarity is: 1.000000
the 1 and 3 similarity is: 0.309017
the 1 and 4 similarity is: 0.333333
the 2 and 0 similarity is: 1.000000
the 2 and 3 similarity is: 0.500000
the 2 and 4 similarity is: 0.000000


[(2, 3.0), (1, 2.8266504712098603)]

In [44]:
recommend(myMat, 2, simMeas = pearsSim)

the 1 and 0 similarity is: 1.000000
the 1 and 3 similarity is: 1.000000
the 1 and 4 similarity is: 1.000000
the 2 and 0 similarity is: 1.000000
the 2 and 3 similarity is: 1.000000
the 2 and 4 similarity is: 0.000000


[(2, 2.5), (1, 2.0)]

### 14.5.2 SVD로 추천 개선하기
---
![img](5.png)

In [45]:
def loadExData2():
    return[[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],
           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],
           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],
           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],
           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],
           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],
           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],
           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],
           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],
           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],
           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]
Data = loadExData2()
U, Sigma, VT = linalg.svd(Data)
print Sigma

[ 15.77075346  11.40670395  11.03044558   4.84639758   3.09292055
   2.58097379   1.00413543   0.72817072   0.43800353   0.22082113
   0.07367823]


In [49]:
Sig2 = Sigma **2
print sum(Sig2)
print sum(Sig2) * 0.9
print sum(Sig2[:2])
print sum(Sig2[:3])

542.0
487.8
378.829559511
500.500289128


In [50]:
def svdEst(dataMat, user, simMeas, item):
    n = shape(dataMat)[1]
    simTotal = 0.0; ratSimTotal = 0.0
    U,Sigma,VT = la.svd(dataMat)
    Sig4 = mat(eye(4)*Sigma[:4]) #arrange Sig4 into a diagonal matrix
    xformedItems = dataMat.T * U[:,:4] * Sig4.I  #create transformed items
    for j in range(n):
        userRating = dataMat[user,j]
        if userRating == 0 or j==item: continue
        similarity = simMeas(xformedItems[item,:].T,\
                             xformedItems[j,:].T)
        print 'the %d and %d similarity is: %f' % (item, j, similarity)
        simTotal += similarity
        ratSimTotal += similarity * userRating
    if simTotal == 0: return 0
    else: return ratSimTotal/simTotal

recommend(myMat, 1, estMethod = svdEst)

the 1 and 0 similarity is: 0.498142
the 1 and 3 similarity is: 0.498131
the 1 and 4 similarity is: 0.509974
the 2 and 0 similarity is: 0.552670
the 2 and 3 similarity is: 0.552976
the 2 and 4 similarity is: 0.217301


[(2, 3.4177569186592378), (1, 3.3307171545585641)]

In [51]:
recommend(myMat, 1, estMethod = svdEst, simMeas = pearsSim)

the 1 and 0 similarity is: 0.280908
the 1 and 3 similarity is: 0.948940
the 1 and 4 similarity is: 0.606039
the 2 and 0 similarity is: 0.556905
the 2 and 3 similarity is: 0.552447
the 2 and 4 similarity is: 0.214974


[(2, 3.4205197987866822), (1, 3.1530093683701286)]

### 14.5.3 추천 엔진이 가지고 있는 과제
---
    데이터 집합이 클 경우 SVD를 사용하면 처리속도를 감소할 수 있음
    * SVD를 매번 계산하는 것이 비효율적
    한번 계산해 놓고 일주일에 한번정도 업데이트
    * 초기 정보가 없을 때(Cold-start)
    아이템들의 특징(콘텐츠 기반)을 기반으로 유사도를 측정

## 예제: SVD로 이미지 압축하기
---

In [10]:
def printMat(inMat, thresh=0.8):
    for i in range(32):
        for k in range(32):
            if float(inMat[i,k]) > thresh:
                print 1,
            else: print 0,
        print ''

def imgCompress(numSV=3, thresh=0.8):
    myl = []
    for line in open('0_5.txt').readlines():
        newRow = []
        for i in range(32):
            newRow.append(int(line[i]))
        myl.append(newRow)
    myMat = mat(myl)
    print "****original matrix******"
    printMat(myMat, thresh)
    U,Sigma,VT = la.svd(myMat)
    SigRecon = mat(zeros((numSV, numSV)))
    for k in range(numSV):#construct diagonal matrix from vector
        SigRecon[k,k] = Sigma[k]
    reconMat = U[:,:numSV]*SigRecon*VT[:numSV,:]
    print "****reconstructed matrix using %d singular values******" % numSV
    printMat(reconMat, thresh)
    
imgCompress(2)

****original matrix******
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 
0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 