*Ref. Recommender System Handbook (Springer)*

#### Must Reed Chapter
- Neighborhood-based Recommendation 107-140
- *Advances in Collaborative Filtering 145-184* อาจมาดูหลัง June ถ้าเวลาไม่พอ
- *Context-Aware RS 217-250*
- Applications and Evaluation of RSs 257(260-267)-294
- a Real Large-ScaleProductionEnvironment 299-329

# 1 Neighborhood-based Recommendation (114)

### Example Data

In [24]:
import pandas as pd

items = pd.DataFrame(data={'item_id': [1, 2, 3, 4, 5], 'name': ['The Matrix', 'Titanic', 'Die Hard', 'Forrest Gump', 'Wall-E']})
items

Unnamed: 0,item_id,name
0,1,The Matrix
1,2,Titanic
2,3,Die Hard
3,4,Forrest Gump
4,5,Wall-E


In [25]:
users = pd.DataFrame(data={'user_id': [1, 2, 3, 4], 'name': ['John', 'Lucy', 'Eric', 'Diane']})
users

Unnamed: 0,name,user_id
0,John,1
1,Lucy,2
2,Eric,3
3,Diane,4


In [26]:
rating = pd.DataFrame(data={'user_id': [1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4], 'item_id': [1,2,4,5,1,2,3,4,5,1,3,4,5,1,2,3,4], 'score': [5,1,2,2,1,5,2,5,5,2,3,5,4,4,3,5,3]})
rating.head()

Unnamed: 0,item_id,score,user_id
0,1,5,1
1,2,1,1
2,4,2,1
3,5,2,1
4,1,1,2


In [32]:
rating_x_users = pd.merge(rating, users, how='outer', on=['user_id'])
rating_x_users_x_items = pd.merge(rating_x_users, items, how='outer', on=['item_id'])
rating_x_users_x_items

Unnamed: 0,item_id,score,user_id,name_x,name_y
0,1,5,1,John,The Matrix
1,1,1,2,Lucy,The Matrix
2,1,2,3,Eric,The Matrix
3,1,4,4,Diane,The Matrix
4,2,1,1,John,Titanic
5,2,5,2,Lucy,Titanic
6,2,3,4,Diane,Titanic
7,4,2,1,John,Forrest Gump
8,4,5,2,Lucy,Forrest Gump
9,4,5,3,Eric,Forrest Gump


Pivot Table

In [35]:
pivot_table = rating_x_users_x_items.pivot(index='name_x', columns='name_y', values='score')
pivot_table

name_y,Die Hard,Forrest Gump,The Matrix,Titanic,Wall-E
name_x,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Diane,5.0,3.0,4.0,3.0,
Eric,3.0,5.0,2.0,,4.0
John,,2.0,5.0,1.0,2.0
Lucy,2.0,5.0,1.0,5.0,5.0


## 1.1 Item-based Recommendation (117)

เมื่อ  $N_{u}(i)$ คือ score ที่ user $u$ ให้กับ item $i$

และ predicted score ที่ user $u$ ให้กับ $i$ คำนวณจากค่าเฉลี่ยถ่วงน้ำหนัก(a weighted average)ที่ user $u$ เคยให้ไว้กับ item อื่นๆ (น้ำหนักมากหรือน้อยขึ้นกับความเหมือนของ item)

จะได้

$$\hat{r}_{ui} = \frac{\sum_{j \in N_{u}(i)} w_{ij}r_{uj} }{\sum_{j \in N_{u}(i)} |w_{ij}| }$$

สมมติว่าจากข้อมูลเราสนใจ predict rating ของ Eric ที่มีต่อ Titanic โดยเมื่อพิจารณา**ความเหมือน**ของ item ด้วย neareast-neighbors พบว่า item ที่เหมือน Titanic มากที่สุดคือ Forrest Gump และ Wall-E โดยมีค่า similarity อยู่ที่ 0.85 และ 0.75 ตามลำดับ เมื่อ Eric ให้ Score Forrest Gump ที่ 5 และ Wall-E ที่ 4 

จะได้ $$\hat{r} = \frac{0.85x5 + 0.75x4}{0.85+0.75} \approx 4.53$$

ทีนี้ตอนที่จะทำให้หลายๆคนพร้อมๆกัน ปัญหาอย่างนึงที่จะเจอคือ แต่ละคนมีมาตรฐานแตกต่างกัน บางคนรู้สึกดีให้ score 3 ขณะที่บางคนให้ 5 ดังนั้นเพื่อปรับ scale score ให้เหมือนๆกันก็ต้องทำ normalization กับ rating score ของแต่ละคนก่อนจะได้

$$\hat{r}_{ui} = h^{-1}\Bigg(\frac{\sum_{j \in N_{u}(i)} w_{ij}h(r_{uj}) }{\sum_{j \in N_{u}(i)} |w_{ij}| }\Bigg)$$

สมการข้างบนคือ prediction rating แบบ **Item-based Regression** เมื่อ data score ที่เราเก็บมาเป็น continuous แต่หากเป็น data score เป็น discrete เช่น like, unlike หรือ buy, not buy ก็จะต้อง predict score ด้วย **Item-based Classification**

### Item-based Classification

ในกรณีนี้ เมื่อ j คือ items ที่ user เคยให้ score ไว้แล้ว i คือ item ใหม่ที่ยังไม่มี score และเราต้องการ predict จากน้ำหนักความ similarity ระหว่าง i และ j ได้สมการที่ normalized แล้วของ Item-based Classification ดังนี้

$$\hat{r}_{ui} = h^{-1}\Bigg(  \arg\max_{r \in S'} \sum_{j \in N_{u}(i)} \delta(h(r_{uj}) = r)w_{ij} \Bigg)$$

ซึ่งคือการหา r ที่ทำให้ $\sum_{j \in N_{u}(i)} \delta(h(r_{uj}) = r)w_{ij}$ มีค่ามากที่สุด

เมื่อ $\delta(r_{vi} = r)$ is 1 if $r_{vi} = r$ ,and 0 otherwise.

## 1.2 Component of Neighborhood Methods (120-141)

### 1.2.1 Rating Normalization (121)

#### 1.2.1.1 Mean-centering (121)

$$h(r_{ui}) = r_{ui} - \bar{r}_{i}$$

เมื่อ $\bar{r}_{i}$ คือ ค่าเฉลี่ยของ score ที่ user $u$ ให้กับ item $i$ ต่างๆ

สุดท้ายเมื่อนำไป predict ค่า $\hat{r}_{ui}$ จะได้

$$\hat{r}_{ui} = h^{-1}\Bigg(\frac{\sum_{j \in N_{u}(i)} w_{ij}h(r_{uj}) }{\sum_{j \in N_{u}(i)} |w_{ij}| }\Bigg) = \bar{r}_i + \frac{\sum_{j \in N_{u}(i)} w_{ij}(r_{uj} - \bar{r}_{j}) }{\sum_{j \in N_{u}(i)} |w_{ij}| } $$

สร้าง function หาค่า $h(r_{ui})$

**Before**

In [38]:
pivot_table

name_y,Die Hard,Forrest Gump,The Matrix,Titanic,Wall-E
name_x,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Diane,5.0,3.0,4.0,3.0,
Eric,3.0,5.0,2.0,,4.0
John,,2.0,5.0,1.0,2.0
Lucy,2.0,5.0,1.0,5.0,5.0


**After**

ดึงมาเฉพาะค่าที่เป็นเลข

In [110]:
item_scores = pivot_table.values
item_scores

array([[  5.,   3.,   4.,   3.,  nan],
       [  3.,   5.,   2.,  nan,   4.],
       [ nan,   2.,   5.,   1.,   2.],
       [  2.,   5.,   1.,   5.,   5.]])

สร้างฟังก์ชั่นที่หา mean ของแต่ละ array (คิดเฉพาะที่มีค่า ไม่คิด nan)

In [128]:
import numpy as np

def mean_of_array(x):
    valid_value = x[~np.isnan(x)]
    return np.mean(valid_value)

user mean-centered ratings

In [143]:
def user_based_mean_centered(pivot_score_table):
    mean_of_each_row = np.apply_along_axis(mean_of_array , axis=1, arr=pivot_score_table)
    user_mean_centered_rating = (pivot_score_table.transpose() - mean_of_each_row).transpose()
    return user_mean_centered_rating

In [144]:
user_based_mean_centered(item_scores)

array([[ 1.25, -0.75,  0.25, -0.75,   nan],
       [-0.5 ,  1.5 , -1.5 ,   nan,  0.5 ],
       [  nan, -0.5 ,  2.5 , -1.5 , -0.5 ],
       [-1.6 ,  1.4 , -2.6 ,  1.4 ,  1.4 ]])

ผลถูกต้องตามเฉลย

item mean-centered ratings

In [145]:
def item_based_mean_centered(pivot_score_table):
    mean_of_each_column = np.apply_along_axis(mean_of_array , axis=0, arr=pivot_score_table)
    item_mean_centered_rating = pivot_score_table - mean_of_each_column
    return item_mean_centered_rating

In [146]:
item_based_mean_centered(item_scores)

array([[ 1.66666667, -0.75      ,  1.        ,  0.        ,         nan],
       [-0.33333333,  1.25      , -1.        ,         nan,  0.33333333],
       [        nan, -1.75      ,  2.        , -2.        , -1.66666667],
       [-1.33333333,  1.25      , -2.        ,  2.        ,  1.33333333]])

ผลถูกต้องตามเฉลย

#### 1.2.1.2 Z-score normalization (122)

สำหรับ user-based พิจารณาข้อมูลของแต่ละ user $u$ จะได้ว่า
$$h(r_{ui}) = \frac{r_{ui}-\bar{r}_{u}}{\sigma_u}$$

สร้าง function หา std ของแต่ละ array

In [147]:
import numpy as np

def std_of_array(x):
    valid_value = x[~np.isnan(x)]
    return np.std(valid_value)

In [150]:
std_of_array(np.array([1,2]))

0.5

สร้างฟังก์ชั่นหา Z-score normalization สำหรับ Model ทั้งแบบ user-based และ item-based

In [173]:
def user_based_z_score_normalize(pivot_score_table):
    mean_of_each_row = np.apply_along_axis(mean_of_array , axis=1, arr=pivot_score_table)
    std_of_each_row = np.apply_along_axis(std_of_array , axis=1, arr=pivot_score_table)
    z_score_normalized = ((pivot_score_table.transpose() - mean_of_each_row)/std_of_each_row).transpose()
    return z_score_normalized

In [180]:
user_based_z_score_normalize(item_scores)

array([[ 1.50755672, -0.90453403,  0.30151134, -0.90453403,         nan],
       [-0.4472136 ,  1.34164079, -1.34164079,         nan,  0.4472136 ],
       [        nan, -0.33333333,  1.66666667, -1.        , -0.33333333],
       [-0.91766294,  0.80295507, -1.49120227,  0.80295507,  0.80295507]])

In [177]:
def item_based_z_score_normalize(pivot_score_table):
    mean_of_each_column = np.apply_along_axis(mean_of_array , axis=0, arr=pivot_score_table)
    std_of_each_column = np.apply_along_axis(std_of_array , axis=0, arr=pivot_score_table)
    z_score_normalized = (pivot_score_table - mean_of_each_column)/std_of_each_column
    return z_score_normalized

In [179]:
item_based_z_score_normalize(item_scores)

array([[ 1.33630621, -0.57735027,  0.63245553,  0.        ,         nan],
       [-0.26726124,  0.96225045, -0.63245553,         nan,  0.26726124],
       [        nan, -1.34715063,  1.26491106, -1.22474487, -1.33630621],
       [-1.06904497,  0.96225045, -1.26491106,  1.22474487,  1.06904497]])

โดยทั่วไปแล้วการทำ Normalize แบบ Z-score ให้ผลที่ดีกว่า 

### 1.2.2 Similarity Weight Computation'

#### Cosine Vector (CV) similarity
$$\text{cos}(\textbf{x}_a,\textbf{x}_b) = \frac{\textbf{x}_a^T\textbf{x}_b}{||\textbf{x}_a||||\textbf{x}_b||}$$

หรือ อีกรูปหนึ่งคือ  $$CV(u,v) = \text{cos}(\textbf{x}_u,\textbf{x}_v) = \frac{\sum_{i \in I_{uv}}r_{ui}r_{vi}}{\sqrt{\sum_{i \in I_{u}}r_{ui}^2 \sum_{j \in I_{v}}r_{vj}^2}}$$

#### Pearson Correlation (PC) similarity**

- user-based เอาข้อมูลการโหวตให้ item ของ user $u$ และ $v$ มาเทียบกัน
$$PC(u,v) = \frac{\sum_{i \in I_{uv}} (r_{ui}-\bar{r}_u) (r_{vi}-\bar{r}_v)}{\sqrt{\sum_{i \in I_{uv}}(r_{ui}-\bar{r}_u)^2 \sum_{i \in I_{uv}}(r_{vi}-\bar{r}_v)^2}}$$

- item-based เอาข้อมูลการโหวตของ item $i$ และ $j$ จากคนทั้งเว็บมาเทียบกัน
$$PC(i,j) = \frac{\sum_{u \in U_{ij}} (r_{ui}-\bar{r}_i) (r_{uj}-\bar{r}_j)}{\sqrt{\sum_{u \in U_{ij}}(r_{ui}-\bar{r}_i)^2 \sum_{u \in U_{ij}}(r_{uj}-\bar{r}_j)^2}}$$


โดยที่ 
- $I_u$ คือข้อมูลการโหวตให้ item ทั้งหมดของ user $u$
- $I_v$ คือข้อมูลการโหวตให้ item ทั้งหมดของ user $v$
- $I_{uv}$ คือข้อมูลการโหวตที่ตรงกันของ user $u$ และ user $v$ จะได้ $I_{uv} = (I_u \cap I_v)$ && is not NaN
- $U_i$ คือข้อมูลการโหวตให้ item $i$ จากคนในเซต U ทั้งหมด
- $U_j$ คือข้อมูลการโหวตให้ item $j$ จากคนในเซต U ทั้งหมด
- $U_{ij}$ คือข้อมูลการโหวตที่ตรงกันของ item $i$ และ item $j$ จะได้ $U_{ij} = (U_i \cap U_j)$ && is not NaN

ในที่นี้จะเลือกหา similarity ด้วย Pearson เหตุผลคือ เพราะมีความสมเหตุสมผลมากกว่า โดยที่ pearson พิจารณาความเหมือน-ต่างที่ score ที่มีการโหวตให้ทั้งสอง item เท่านั้น แต่ CV จะพิจารณาข้อมูลที่**ไม่มีการโหวตเหมือนกัน ของข้อมูล**ด้วย ซึ่งเมื่อพิจารณาตามนิยมของ RSs แล้วพบว่าแบบ Pearson สอดคล้องมากกว่า

In [199]:
pivot_table

name_y,Die Hard,Forrest Gump,The Matrix,Titanic,Wall-E
name_x,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Diane,5.0,3.0,4.0,3.0,
Eric,3.0,5.0,2.0,,4.0
John,,2.0,5.0,1.0,2.0
Lucy,2.0,5.0,1.0,5.0,5.0


In [307]:
z_score_pivot_table = item_based_z_score_normalize(pivot_table[:])
z_score_pivot_table

name_y,Die Hard,Forrest Gump,The Matrix,Titanic,Wall-E
name_x,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Diane,1.336306,-0.57735,0.632456,0.0,
Eric,-0.267261,0.96225,-0.632456,,0.267261
John,,-1.347151,1.264911,-1.224745,-1.336306
Lucy,-1.069045,0.96225,-1.264911,1.224745,1.069045


ทดลองใช้ฟังก์ชั่นของ Pandas 

In [308]:
z_score_pivot_table.corr(method='pearson', min_periods=1)

name_y,Die Hard,Forrest Gump,The Matrix,Titanic,Wall-E
name_y,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Die Hard,1.0,-0.944911,1.0,-1.0,-1.0
Forrest Gump,-0.944911,1.0,-0.973729,0.981981,0.944911
The Matrix,1.0,-0.973729,1.0,-0.960769,-0.995871
Titanic,-1.0,0.981981,-0.960769,1.0,1.0
Wall-E,-1.0,0.944911,-0.995871,1.0,1.0


แต่ได้ผลออกมาไม่ตรง จึงสร้างฟังก์ชั่นเองดังนี้

จาก item-based method เอาข้อมูลการโหวตของ item $i$ และ $j$ จากคนทั้งเว็บมาเทียบกัน
$$PC(i,j) = \frac{\sum_{u \in U_{ij}} (r_{ui}-\bar{r}_i) (r_{uj}-\bar{r}_j)}{\sqrt{\sum_{u \in U_{ij}}(r_{ui}-\bar{r}_i)^2 \sum_{u \in U_{ij}}(r_{uj}-\bar{r}_j)^2}}$$


In [309]:
def pearson_correlation_between_item(pivot_table_df):
    number_of_item = pivot_table_df.shape[1]
    pc = np.zeros([number_of_item, number_of_item])
    for i in range(number_of_item):
        rui = pivot_table_df.values[:,i]
        ri = mean_of_array(rui)
        deltai = rui - ri
        for j in range(number_of_item):
            ruj = pivot_table_df.values[:,j]
            rj = mean_of_array(ruj)
            deltaj = ruj-rj

            ij_set = ~np.isnan(deltai*deltaj)
            upper = sum((deltai*deltaj)[ij_set])
            lower_left = sum((deltai*deltai)[ij_set])
            lower_right = sum((deltaj*deltaj)[ij_set])
            pc[i,j] = upper/np.sqrt(lower_left*lower_right)
            
    column_name_list = list(pivot_table_df)
    pc_df = pd.DataFrame(pc, index=column_name_list, columns=column_name_list)
    return pc_df

In [310]:
pearson_correlation_between_item(z_score_pivot_table)

Unnamed: 0,Die Hard,Forrest Gump,The Matrix,Titanic,Wall-E
Die Hard,1.0,-0.803543,0.881917,-0.624695,-1.0
Forrest Gump,-0.803543,1.0,-0.973729,0.931381,0.930484
The Matrix,0.881917,-0.973729,1.0,-0.942809,-0.977255
Titanic,-0.624695,0.931381,-0.942809,1.0,0.993884
Wall-E,-1.0,0.930484,-0.977255,0.993884,1.0


### 1.2.3 Neighborhood Selection

### 1.2.4 Advanced Techniques

- Bayesian Clustering 
- Latent Semantic Analysis
- Latent Dirichlet Allocation
- Maximum Entropy
- Boltzmann Machines
- SVMs
- Singular Value Decomposition 