In [2]:
import pandas as pd
import numpy as np
from math import sqrt

RATING_DATA_PATH = 'data/ratings.csv'  # 받아올 평점 데이터 경로 정의

np.set_printoptions(precision=2)  # 소수점 둘째 자리까지만 출력

def distance(user_1, user_2):
    """유클리드 거리를 계산해주는 함수"""
    return sqrt(np.sum((user_1 - user_2)**2))
    
    
def filter_users_without_movie(rating_data, movie_id):
    """movie_id 번째 영화를 평가하지 않은 유저들은 미리 제외해주는 함수"""
    return rating_data[~np.isnan(rating_data[:,movie_id])]
    
    
def fill_nan_with_user_mean(rating_data):
    """평점 데이터의 빈값들을 각 유저 평균 값으로 체워주는 함수"""
    filled_data = np.copy(rating_data)  # 평점 데이터를 훼손하지 않기 위해 복사
    row_mean = np.nanmean(filled_data, axis=0)  # 유저 평균 평점 계산
    
    inds = np.where(np.isnan(filled_data))  # 비어 있는 인덱스들을 구한다
    filled_data[inds] = np.take(row_mean, inds[1])  #빈 인덱스를 유저 평점으로 채운다
    
    return filled_data
    

In [8]:
rating_data = pd.read_csv(RATING_DATA_PATH, index_col='user_id').values
rating_data

array([[ 2.,  3.,  4., nan,  2.,  3., nan, nan, nan,  4.,  4., nan, nan,
         1., nan, nan,  2.,  5.,  2., nan],
       [nan, nan, nan,  4., nan,  5., nan, nan,  2., nan,  4., nan,  1.,
        nan, nan, nan, nan,  5., nan, nan],
       [ 2., nan,  1., nan, nan,  5.,  5., nan, nan, nan, nan,  5.,  3.,
         3., nan,  3.,  3.,  4., nan, nan],
       [nan,  3.,  5., nan, nan, nan,  4.,  3., nan,  5.,  3., nan,  4.,
        nan, nan,  2., nan, nan, nan,  2.],
       [nan, nan, nan,  5., nan, nan,  2.,  2.,  2., nan,  3.,  4.,  2.,
         5.,  4., nan, nan, nan,  4.,  2.],
       [nan,  4.,  3., nan, nan,  5., nan, nan, nan,  3.,  2., nan, nan,
        nan,  1., nan,  4.,  3., nan,  5.],
       [ 3., nan, nan, nan,  4.,  5.,  2.,  2., nan,  3., nan,  4., nan,
        nan,  2.,  4., nan, nan, nan,  1.],
       [nan,  5.,  1.,  4., nan, nan, nan,  3.,  1., nan,  1., nan, nan,
         4., nan, nan,  2., nan, nan,  4.],
       [nan,  3.,  1.,  1., nan,  3., nan,  4., nan,  1.,  1., n

In [7]:
filtered_data = filter_users_without_movie(rating_data, 3)
filtered_data

array([[nan, nan, nan,  4., nan,  5., nan, nan,  2., nan,  4., nan,  1.,
        nan, nan, nan, nan,  5., nan, nan],
       [nan, nan, nan,  5., nan, nan,  2.,  2.,  2., nan,  3.,  4.,  2.,
         5.,  4., nan, nan, nan,  4.,  2.],
       [nan,  5.,  1.,  4., nan, nan, nan,  3.,  1., nan,  1., nan, nan,
         4., nan, nan,  2., nan, nan,  4.],
       [nan,  3.,  1.,  1., nan,  3., nan,  4., nan,  1.,  1., nan,  4.,
         4.,  2., nan, nan,  5.,  3., nan],
       [ 1.,  1., nan,  1.,  1., nan, nan, nan, nan, nan, nan,  2., nan,
        nan,  1., nan, nan, nan,  4., nan],
       [ 3., nan, nan,  5.,  4., nan, nan,  4.,  5.,  3., nan,  1.,  2.,
         1.,  1., nan, nan, nan,  4., nan],
       [nan, nan,  2.,  5., nan, nan, nan, nan, nan, nan, nan, nan,  1.,
        nan, nan, nan,  3.,  1.,  5.,  2.],
       [nan,  5., nan,  5.,  3., nan, nan,  3.,  2.,  4.,  2., nan,  4.,
         4.,  5.,  4.,  2., nan,  1.,  3.],
       [ 2., nan, nan,  2.,  5., nan,  2., nan,  2.,  1., nan, n

In [5]:
filled_data = fill_nan_with_user_mean(filtered_data)

In [6]:
filled_data

array([[2.  , 3.5 , 1.33, 4.  , 3.25, 5.  , 2.  , 3.2 , 2.  , 2.25, 4.  ,
        2.33, 1.  , 3.33, 2.5 , 3.5 , 2.33, 5.  , 3.14, 2.6 ],
       [2.  , 3.5 , 1.33, 5.  , 3.25, 4.  , 2.  , 2.  , 2.  , 2.25, 3.  ,
        4.  , 2.  , 5.  , 4.  , 3.5 , 2.33, 3.67, 4.  , 2.  ],
       [2.  , 5.  , 1.  , 4.  , 3.25, 4.  , 2.  , 3.  , 1.  , 2.25, 1.  ,
        2.33, 2.71, 4.  , 2.5 , 3.5 , 2.  , 3.67, 3.14, 4.  ],
       [2.  , 3.  , 1.  , 1.  , 3.25, 3.  , 2.  , 4.  , 2.33, 1.  , 1.  ,
        2.33, 4.  , 4.  , 2.  , 3.5 , 2.33, 5.  , 3.  , 2.6 ],
       [1.  , 1.  , 1.33, 1.  , 1.  , 4.  , 2.  , 3.2 , 2.33, 2.25, 2.2 ,
        2.  , 2.71, 3.33, 1.  , 3.5 , 2.33, 3.67, 4.  , 2.6 ],
       [3.  , 3.5 , 1.33, 5.  , 4.  , 4.  , 2.  , 4.  , 5.  , 3.  , 2.2 ,
        1.  , 2.  , 1.  , 1.  , 3.5 , 2.33, 3.67, 4.  , 2.6 ],
       [2.  , 3.5 , 2.  , 5.  , 3.25, 4.  , 2.  , 3.2 , 2.33, 2.25, 2.2 ,
        2.33, 1.  , 3.33, 2.5 , 3.5 , 3.  , 1.  , 5.  , 2.  ],
       [2.  , 5.  , 1.33, 5.  , 3.  , 4. 

In [9]:
filled_data = np.copy(filtered_data)
filled_data

array([[nan, nan, nan,  4., nan,  5., nan, nan,  2., nan,  4., nan,  1.,
        nan, nan, nan, nan,  5., nan, nan],
       [nan, nan, nan,  5., nan, nan,  2.,  2.,  2., nan,  3.,  4.,  2.,
         5.,  4., nan, nan, nan,  4.,  2.],
       [nan,  5.,  1.,  4., nan, nan, nan,  3.,  1., nan,  1., nan, nan,
         4., nan, nan,  2., nan, nan,  4.],
       [nan,  3.,  1.,  1., nan,  3., nan,  4., nan,  1.,  1., nan,  4.,
         4.,  2., nan, nan,  5.,  3., nan],
       [ 1.,  1., nan,  1.,  1., nan, nan, nan, nan, nan, nan,  2., nan,
        nan,  1., nan, nan, nan,  4., nan],
       [ 3., nan, nan,  5.,  4., nan, nan,  4.,  5.,  3., nan,  1.,  2.,
         1.,  1., nan, nan, nan,  4., nan],
       [nan, nan,  2.,  5., nan, nan, nan, nan, nan, nan, nan, nan,  1.,
        nan, nan, nan,  3.,  1.,  5.,  2.],
       [nan,  5., nan,  5.,  3., nan, nan,  3.,  2.,  4.,  2., nan,  4.,
         4.,  5.,  4.,  2., nan,  1.,  3.],
       [ 2., nan, nan,  2.,  5., nan,  2., nan,  2.,  1., nan, n

In [10]:
row_mean = np.nanmean(filled_data, axis=0)
row_mean

array([2.  , 3.5 , 1.33, 3.56, 3.25, 4.  , 2.  , 3.2 , 2.33, 2.25, 2.2 ,
       2.33, 2.71, 3.33, 2.5 , 3.5 , 2.33, 3.67, 3.14, 2.6 ])

In [11]:
inds = np.where(np.isnan(filled_data))
inds

(array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4,
        4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6,
        6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8,
        8, 8, 8], dtype=int64),
 array([ 0,  1,  2,  4,  6,  7,  9, 11, 13, 14, 15, 16, 18, 19,  0,  1,  2,
         4,  5,  9, 15, 16, 17,  0,  4,  5,  6,  9, 11, 12, 14, 15, 17, 18,
         0,  4,  6,  8, 11, 15, 16, 19,  2,  5,  6,  7,  8,  9, 10, 12, 13,
        15, 16, 17, 19,  1,  2,  5,  6, 10, 15, 16, 17, 19,  0,  1,  4,  5,
         6,  7,  8,  9, 10, 11, 13, 14, 15,  0,  2,  5,  6, 11, 17,  1,  2,
         5,  7, 10, 11, 16, 17], dtype=int64))

In [12]:
np.isnan(filled_data)

array([[ True,  True,  True, False,  True, False,  True,  True, False,
         True, False,  True, False,  True,  True,  True,  True, False,
         True,  True],
       [ True,  True,  True, False,  True,  True, False, False, False,
         True, False, False, False, False, False,  True,  True,  True,
        False, False],
       [ True, False, False, False,  True,  True,  True, False, False,
         True, False,  True,  True, False,  True,  True, False,  True,
         True, False],
       [ True, False, False, False,  True, False,  True, False,  True,
        False, False,  True, False, False, False,  True,  True, False,
        False,  True],
       [False, False,  True, False, False,  True,  True,  True,  True,
         True,  True, False,  True,  True, False,  True,  True,  True,
        False,  True],
       [False,  True,  True, False, False,  True,  True, False, False,
        False,  True, False, False, False, False,  True,  True,  True,
        False,  True],
       [ T

In [13]:
filled_data[inds] = np.take(row_mean, inds[1])
filled_data[inds]

array([2.  , 3.5 , 1.33, 3.25, 2.  , 3.2 , 2.25, 2.33, 3.33, 2.5 , 3.5 ,
       2.33, 3.14, 2.6 , 2.  , 3.5 , 1.33, 3.25, 4.  , 2.25, 3.5 , 2.33,
       3.67, 2.  , 3.25, 4.  , 2.  , 2.25, 2.33, 2.71, 2.5 , 3.5 , 3.67,
       3.14, 2.  , 3.25, 2.  , 2.33, 2.33, 3.5 , 2.33, 2.6 , 1.33, 4.  ,
       2.  , 3.2 , 2.33, 2.25, 2.2 , 2.71, 3.33, 3.5 , 2.33, 3.67, 2.6 ,
       3.5 , 1.33, 4.  , 2.  , 2.2 , 3.5 , 2.33, 3.67, 2.6 , 2.  , 3.5 ,
       3.25, 4.  , 2.  , 3.2 , 2.33, 2.25, 2.2 , 2.33, 3.33, 2.5 , 3.5 ,
       2.  , 1.33, 4.  , 2.  , 2.33, 3.67, 3.5 , 1.33, 4.  , 3.2 , 2.2 ,
       2.33, 2.33, 3.67])

In [14]:
np.take(row_mean, inds[1])

array([2.  , 3.5 , 1.33, 3.25, 2.  , 3.2 , 2.25, 2.33, 3.33, 2.5 , 3.5 ,
       2.33, 3.14, 2.6 , 2.  , 3.5 , 1.33, 3.25, 4.  , 2.25, 3.5 , 2.33,
       3.67, 2.  , 3.25, 4.  , 2.  , 2.25, 2.33, 2.71, 2.5 , 3.5 , 3.67,
       3.14, 2.  , 3.25, 2.  , 2.33, 2.33, 3.5 , 2.33, 2.6 , 1.33, 4.  ,
       2.  , 3.2 , 2.33, 2.25, 2.2 , 2.71, 3.33, 3.5 , 2.33, 3.67, 2.6 ,
       3.5 , 1.33, 4.  , 2.  , 2.2 , 3.5 , 2.33, 3.67, 2.6 , 2.  , 3.5 ,
       3.25, 4.  , 2.  , 3.2 , 2.33, 2.25, 2.2 , 2.33, 3.33, 2.5 , 3.5 ,
       2.  , 1.33, 4.  , 2.  , 2.33, 3.67, 3.5 , 1.33, 4.  , 3.2 , 2.2 ,
       2.33, 2.33, 3.67])

In [15]:
filled_data

array([[2.  , 3.5 , 1.33, 4.  , 3.25, 5.  , 2.  , 3.2 , 2.  , 2.25, 4.  ,
        2.33, 1.  , 3.33, 2.5 , 3.5 , 2.33, 5.  , 3.14, 2.6 ],
       [2.  , 3.5 , 1.33, 5.  , 3.25, 4.  , 2.  , 2.  , 2.  , 2.25, 3.  ,
        4.  , 2.  , 5.  , 4.  , 3.5 , 2.33, 3.67, 4.  , 2.  ],
       [2.  , 5.  , 1.  , 4.  , 3.25, 4.  , 2.  , 3.  , 1.  , 2.25, 1.  ,
        2.33, 2.71, 4.  , 2.5 , 3.5 , 2.  , 3.67, 3.14, 4.  ],
       [2.  , 3.  , 1.  , 1.  , 3.25, 3.  , 2.  , 4.  , 2.33, 1.  , 1.  ,
        2.33, 4.  , 4.  , 2.  , 3.5 , 2.33, 5.  , 3.  , 2.6 ],
       [1.  , 1.  , 1.33, 1.  , 1.  , 4.  , 2.  , 3.2 , 2.33, 2.25, 2.2 ,
        2.  , 2.71, 3.33, 1.  , 3.5 , 2.33, 3.67, 4.  , 2.6 ],
       [3.  , 3.5 , 1.33, 5.  , 4.  , 4.  , 2.  , 4.  , 5.  , 3.  , 2.2 ,
        1.  , 2.  , 1.  , 1.  , 3.5 , 2.33, 3.67, 4.  , 2.6 ],
       [2.  , 3.5 , 2.  , 5.  , 3.25, 4.  , 2.  , 3.2 , 2.33, 2.25, 2.2 ,
        2.33, 1.  , 3.33, 2.5 , 3.5 , 3.  , 1.  , 5.  , 2.  ],
       [2.  , 5.  , 1.33, 5.  , 3.  , 4. 

In [16]:
distance_data = np.copy(filled_data)

In [17]:
distance_data = np.append(distance_data, np.zeros((distance_data.shape[0], 1)), axis=1)
distance_data

array([[2.  , 3.5 , 1.33, 4.  , 3.25, 5.  , 2.  , 3.2 , 2.  , 2.25, 4.  ,
        2.33, 1.  , 3.33, 2.5 , 3.5 , 2.33, 5.  , 3.14, 2.6 , 0.  ],
       [2.  , 3.5 , 1.33, 5.  , 3.25, 4.  , 2.  , 2.  , 2.  , 2.25, 3.  ,
        4.  , 2.  , 5.  , 4.  , 3.5 , 2.33, 3.67, 4.  , 2.  , 0.  ],
       [2.  , 5.  , 1.  , 4.  , 3.25, 4.  , 2.  , 3.  , 1.  , 2.25, 1.  ,
        2.33, 2.71, 4.  , 2.5 , 3.5 , 2.  , 3.67, 3.14, 4.  , 0.  ],
       [2.  , 3.  , 1.  , 1.  , 3.25, 3.  , 2.  , 4.  , 2.33, 1.  , 1.  ,
        2.33, 4.  , 4.  , 2.  , 3.5 , 2.33, 5.  , 3.  , 2.6 , 0.  ],
       [1.  , 1.  , 1.33, 1.  , 1.  , 4.  , 2.  , 3.2 , 2.33, 2.25, 2.2 ,
        2.  , 2.71, 3.33, 1.  , 3.5 , 2.33, 3.67, 4.  , 2.6 , 0.  ],
       [3.  , 3.5 , 1.33, 5.  , 4.  , 4.  , 2.  , 4.  , 5.  , 3.  , 2.2 ,
        1.  , 2.  , 1.  , 1.  , 3.5 , 2.33, 3.67, 4.  , 2.6 , 0.  ],
       [2.  , 3.5 , 2.  , 5.  , 3.25, 4.  , 2.  , 3.2 , 2.33, 2.25, 2.2 ,
        2.33, 1.  , 3.33, 2.5 , 3.5 , 3.  , 1.  , 5.  , 2.  , 0.  ],

In [18]:
rating_data

array([[ 2.,  3.,  4., nan,  2.,  3., nan, nan, nan,  4.,  4., nan, nan,
         1., nan, nan,  2.,  5.,  2., nan],
       [nan, nan, nan,  4., nan,  5., nan, nan,  2., nan,  4., nan,  1.,
        nan, nan, nan, nan,  5., nan, nan],
       [ 2., nan,  1., nan, nan,  5.,  5., nan, nan, nan, nan,  5.,  3.,
         3., nan,  3.,  3.,  4., nan, nan],
       [nan,  3.,  5., nan, nan, nan,  4.,  3., nan,  5.,  3., nan,  4.,
        nan, nan,  2., nan, nan, nan,  2.],
       [nan, nan, nan,  5., nan, nan,  2.,  2.,  2., nan,  3.,  4.,  2.,
         5.,  4., nan, nan, nan,  4.,  2.],
       [nan,  4.,  3., nan, nan,  5., nan, nan, nan,  3.,  2., nan, nan,
        nan,  1., nan,  4.,  3., nan,  5.],
       [ 3., nan, nan, nan,  4.,  5.,  2.,  2., nan,  3., nan,  4., nan,
        nan,  2.,  4., nan, nan, nan,  1.],
       [nan,  5.,  1.,  4., nan, nan, nan,  3.,  1., nan,  1., nan, nan,
         4., nan, nan,  2., nan, nan,  4.],
       [nan,  3.,  1.,  1., nan,  3., nan,  4., nan,  1.,  1., n

In [20]:
rating_data_ = pd.read_csv(RATING_DATA_PATH, index_col='user_id')
rating_data_

Unnamed: 0_level_0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,2.0,3.0,4.0,,2.0,3.0,,,,4.0,4.0,,,1.0,,,2.0,5.0,2.0,
1,,,,4.0,,5.0,,,2.0,,4.0,,1.0,,,,,5.0,,
2,2.0,,1.0,,,5.0,5.0,,,,,5.0,3.0,3.0,,3.0,3.0,4.0,,
3,,3.0,5.0,,,,4.0,3.0,,5.0,3.0,,4.0,,,2.0,,,,2.0
4,,,,5.0,,,2.0,2.0,2.0,,3.0,4.0,2.0,5.0,4.0,,,,4.0,2.0
5,,4.0,3.0,,,5.0,,,,3.0,2.0,,,,1.0,,4.0,3.0,,5.0
6,3.0,,,,4.0,5.0,2.0,2.0,,3.0,,4.0,,,2.0,4.0,,,,1.0
7,,5.0,1.0,4.0,,,,3.0,1.0,,1.0,,,4.0,,,2.0,,,4.0
8,,3.0,1.0,1.0,,3.0,,4.0,,1.0,1.0,,4.0,4.0,2.0,,,5.0,3.0,
9,1.0,1.0,,1.0,1.0,,,,,,,2.0,,,1.0,,,,4.0,


In [21]:
len(distance_data)

9