In [1]:
critics = { 
    'Lisa Rose': {
        'Lady in the Water': 2.5, 
        'Snakes on a Plane': 3.5, 
        'Just My Luck': 3.0, 
        'Superman Returns': 3.5, 
        'You, Me and Dupree': 2.5, 
        'The Night Listener': 3.0 
    }, 
    'Gene Seymour': {
        'Lady in the Water': 3.0, 
        'Snakes on a Plane': 3.5, 
        'Just My Luck': 1.5, 
        'Superman Returns': 5.0, 
        'The Night Listener': 3.0, 
        'You, Me and Dupree': 3.5 
    }, 'Michael Phillips': {
        'Lady in the Water': 2.5, 
        'Snakes on a Plane': 3.5, 
        'Superman Returns': 3.5, 
        'The Night Listener': 4.0 
    }, 'Claudia Puig': {
        'Snakes on a Plane': 3.5, 
        'Just My Luck': 3.0, 
        'The Night Listener': 4.5, 
        'Superman Returns': 4.0, 
        'You, Me and Dupree': 2.5 
    }, 'Mick LaSalle': { 
        'Lady in the Water': 3.0, 
        'Snakes on a Plane': 4.0, 
        'Just My Luck': 2.0, 
        'Superman Returns': 3.0, 
        'The Night Listener': 3.0, 
        'You, Me and Dupree': 2.0 
    }, 'Jack Mattheuws': { 
        'Lady in the Water': 3.0, 
        'Snakes on a Plane': 4.0, 
        'The Night Listener': 3.0, 
        'Superman Returns': 5.0, 
        'You, Me and Dupree': 3.5 
    }, 'Toby': {
        'Snakes on a Plane': 4.5, 
        'You, Me and Dupree': 1.0, 
        'Superman Returns': 4.0 
    } 
}

In [4]:
from math import sqrt

In [12]:
# 유클리디안 거리점수(Euclidean Distance)

# sqrt(pow(x1 - x2) + pow(y1 - y2))
# 1 / (1 + sqrt(pow(x1 - x2) + pow(y1 - y2)))

def sim_distance(prefs, person1, person2):
    
    # 공통 항목 추출
    si = dict()
    
    for item in prefs[person1]:
        if item in prefs[person2]:
            si[item] = 1
            
    # 공통 평가 항목이 없는 경우 0 리턴
    if len(si) == 0:
        return 0
    
    # person1의 item이 person2에서도 존재한다면, person1과 person2의 item 평점 차이의
    # 제곱한 값을 더한 후 제곱 근을 계산
    sum_of_squared = sum([(prefs[person1][item] - prefs[person2][item])**2 for item in prefs[person1] if item in prefs[person2]])
    
    return 1 / 1 + (sqrt(sum_of_squared))

In [16]:
for item in critics:
    print ('Toby and', item, sim_distance(critics, 'Toby', item))

Toby and Lisa Rose 2.8708286933869704
Toby and Gene Seymour 3.8722813232690143
Toby and Michael Phillips 2.118033988749895
Toby and Claudia Puig 2.802775637731995
Toby and Mick LaSalle 2.5
Toby and Jack Mattheuws 3.7386127875258306
Toby and Toby 1.0


In [21]:
# 피어슨 상관계수(Pearson correlation coefficient)

# 1. 두 평론가가 공통으로 평가한 영화들을 찾는다.
# 2. 각각의 평론가가 평가한 영화 점수들을 합한다.
# 3. 각각의 평론가가 평가한 영화 점수의 제곱의 합을 구한다.
# 4. 두 평론가가 평가한 영화 점수의 곱의 합을 구한다.
# 5. 아래의 공식을 이용해 피어슨 상관계수를 구한다.
# 결과값 r은 -1 ~ 1 사이의 값을 가질 수 있고, 
# x와 y가 완전 동일하면 1, 전혀 다르면 0, 반대 방향으로 완전 동일하면 -1 값을 가진다.

def sim_person2(prefs, p1, p2):
    
    # 같이 평가한 항목들의 목록을 구함
    si = dict()
    
    for item in prefs[p1]:
        if item in prefs[p2]: si[item] = 1
            
    # 공통 항목 개수
    n = len(si)
    
    # 공통 항목이 없으면 0 리턴
    if n == 0:
        return 0
    
    # 모든 선호도를 합산
    sum1 = sum([prefs[p1][it] for it in si])
    sum2 = sum([prefs[p2][it] for it in si])
    
    # 제곱의 합을 계산
    sum1Sq = sum([(prefs[p1][it])**2 for it in si])
    sum2Sq = sum([(prefs[p2][it])**2 for it in si])
    
    # 곱의 합을 계산
    pSum = sum([prefs[p1][it] * prefs[p2][it] for it in si])
    
    # 피어슨 점수 계산
    num = pSum - (sum1 * sum2 / n)
    den = sqrt((sum1Sq - pow(sum1, 2) / n) * (sum2Sq - pow(sum2, 2) / n))
    
    if den == 0:
        return 0
    
    r = num / den
    
    return r

In [22]:
for item in critics:
    print ('Lisa Rose and', item, sim_person2(critics, 'Lisa Rose', item))

Lisa Rose and Lisa Rose 1.0
Lisa Rose and Gene Seymour 0.39605901719066977
Lisa Rose and Michael Phillips 0.6225430174794672
Lisa Rose and Claudia Puig 0.5669467095138396
Lisa Rose and Mick LaSalle 0.5940885257860044
Lisa Rose and Jack Mattheuws 0.7470178808339965
Lisa Rose and Toby 0.9912407071619299
