## 최선 접근법
    - 협업 필터링과 KNN을 사용하여 구현
    * 주요 개념 이해
    * 최선 접근법 구현

## 주요 개념 이해
    * 협업 필터링(collaborative filtering)
        - 두가지 유형
        1. 기억 기반 협업 필터링(memory-based CF)
            - 유사도 기반 기술을 사용(KNN 알고리즘)
            1) 사용자-사용자 협업 필터링
                - 특정 사용자 고려하여 비슷한 사용자를 찾아 추천
                - 구매 패턴 및 품목 평가 패턴을 관찰해 유사한 사용자를 찾는다
                - 여러분과 비슷한 사용자가 x 및 y 품목을 좋아한다는 점을 고려
            2) 품목-품목 협업 필터링
                - 품목 고려하여 사용자 또는 유사한 사용자들이 좋아하고 구입한 특정 품목이나 
                  그 밖의 품목을 좋아하는 사용자를 찾는다
                - y 품목뿐만 아니라 x 품목도 좋아하는 사용자를 고려
        2. 모델 기반 협업 필터링
            - 머신러닝 기반 기술을 사용해 사용자, 특히 평가되지 않은 품목에 대한 추천을 예측
            1) 행령 인수분해 기반 알고리즘(matrix-factorization-based algorithm)
                - 사용자의 선호도(preferences)가 행령 연산에 의해 결정될 수 있다
                - 적은 수의 은닉 요인이나 잠재요인을 정의해야한다
                - 이 행렬을 요인(factor) or 임베딩(embedding)이라 한다.
                - 임배딩행렬 정의
                    -> 값을 무작위로 초기화한 다음 임베딩 행렬과 도서 임베딩 행렬을 점곱을 수행
                    -> 결과 행렬은 어떤 책을 어떤 사용자에게 추천할 수 있는지 예측할 수 있는 방식으로 생성
                - 행렬 인수분해 경우 결과 행렬에 음이 아닌 원소가 필요
                - 잠재 가치를 학인하기 위해 특잇값 분해(singular value decomposition, SVD)모델 사용
            2) 딥러닝

## 최선 접근법 구현
    1. 데이터셋 적재
    2. 데이터 프레임 병합
    3. 병합된 데이터 프레임의 EDA
    4. 위치 정보를 기반으로 데이터 선별
    5. KNN 알고리즘 적용
    6. KNN 알고리즘을 사용한 추천
    7. 행렬 인수분해 적용
    8. 행렬 인수분해 이용한 추천

In [1]:
import numpy as np
import pandas as pd
from scipy.sparse import csr_matrix
from sklearn.decomposition import TruncatedSVD

***데이터셋 적재***

In [2]:
books = pd.read_csv('./data/BX-Books.csv', sep=';', error_bad_lines=False, encoding='latin-1')
books.columns = ['ISBN', 'bookTitle', 'bookAuthor', 'yearOfPublication', 'publisher', 'imageUrlS', 'ImageUrlM', 'ImageUrlL']
users = pd.read_csv('./data/BX-Users.csv', sep=';', error_bad_lines=False, encoding='latin-1')
users.columns = ['userID', 'Location', 'Age']
ratings = pd.read_csv('./data/BX-Book-Ratings.csv', sep=';', error_bad_lines=False, encoding='latin-1')
ratings.columns = ['userID', 'ISBN', 'bookRating']

b'Skipping line 6452: expected 8 fields, saw 9\nSkipping line 43667: expected 8 fields, saw 10\nSkipping line 51751: expected 8 fields, saw 9\n'
b'Skipping line 92038: expected 8 fields, saw 9\nSkipping line 104319: expected 8 fields, saw 9\nSkipping line 121768: expected 8 fields, saw 9\n'
b'Skipping line 144058: expected 8 fields, saw 9\nSkipping line 150789: expected 8 fields, saw 9\nSkipping line 157128: expected 8 fields, saw 9\nSkipping line 180189: expected 8 fields, saw 9\nSkipping line 185738: expected 8 fields, saw 9\n'
b'Skipping line 209388: expected 8 fields, saw 9\nSkipping line 220626: expected 8 fields, saw 9\nSkipping line 227933: expected 8 fields, saw 11\nSkipping line 228957: expected 8 fields, saw 10\nSkipping line 245933: expected 8 fields, saw 9\nSkipping line 251296: expected 8 fields, saw 9\nSkipping line 259941: expected 8 fields, saw 9\nSkipping line 261529: expected 8 fields, saw 9\n'
  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


***데이터 프레임 병합***

In [46]:
combine_book_rating =pd.merge(ratings, books, on='ISBN')
columns = ['yearOfPublication', 'bookAuthor', 'publisher', 'imageUrlS', 'ImageUrlM', 'ImageUrlL']
combine_book_rating = combine_book_rating.drop(columns, axis=1)
combine_book_rating.head()

Unnamed: 0,userID,ISBN,bookRating,bookTitle
0,276725,034545104X,0,Flesh Tones: A Novel
1,2313,034545104X,5,Flesh Tones: A Novel
2,6543,034545104X,0,Flesh Tones: A Novel
3,8680,034545104X,5,Flesh Tones: A Novel
4,10314,034545104X,9,Flesh Tones: A Novel


In [47]:
combine_book_rating = combine_book_rating.dropna(axis=0, subset=['bookTitle'])

In [48]:
book_ratingCount = (combine_book_rating.
                    groupby(by=['bookTitle'])['bookRating'].
                   count().
                   reset_index().
                   rename(columns = {'bookRating': 'totalRatingCount'})
                   [['bookTitle', 'totalRatingCount']] 
                )
book_ratingCount.head()

Unnamed: 0,bookTitle,totalRatingCount
0,A Light in the Storm: The Civil War Diary of ...,4
1,Always Have Popsicles,1
2,Apple Magic (The Collector's series),1
3,"Ask Lily (Young Women of Faith: Lily Series, ...",1
4,Beyond IBM: Leadership Marketing and Finance ...,1


In [49]:
# 도서 평가 점수 생성
rating_with_totalRatingCount = combine_book_rating.merge(book_ratingCount,
                                                        left_on = 'bookTitle',
                                                        right_on = 'bookTitle',
                                                        how='left')
rating_with_totalRatingCount.head()

Unnamed: 0,userID,ISBN,bookRating,bookTitle,totalRatingCount
0,276725,034545104X,0,Flesh Tones: A Novel,60
1,2313,034545104X,5,Flesh Tones: A Novel,60
2,6543,034545104X,0,Flesh Tones: A Novel,60
3,8680,034545104X,5,Flesh Tones: A Novel,60
4,10314,034545104X,9,Flesh Tones: A Novel,60


***병합된 데이터 프레임 EDA***

    - 총 평가 수에 대한 데이터 분석을 수행
    - 도서의 평가에 대한 분위수(quantile)값 추출
    - 분위수 값은 데이터 분포를 잘 드러낸다
    
    -> 책의 1%만 사용자 평가 50 이상을 받았다

In [50]:
pd.set_option('display.float_format', lambda x: '%.3f' % x)
print(book_ratingCount['totalRatingCount'].describe())

count   241071.000
mean         4.277
std         16.739
min          1.000
25%          1.000
50%          1.000
75%          3.000
max       2502.000
Name: totalRatingCount, dtype: float64


In [51]:
print(book_ratingCount['totalRatingCount'].quantile(np.arange(.9, 1, .01)))

0.900    7.000
0.910    8.000
0.920    9.000
0.930   10.000
0.940   11.000
0.950   13.000
0.960   16.000
0.970   20.000
0.980   29.000
0.990   50.000
Name: totalRatingCount, dtype: float64


In [52]:
popularity_threshold = 50
rating_popular_book = rating_with_totalRatingCount.query('totalRatingCount >= @popularity_threshold')
rating_popular_book.head()

Unnamed: 0,userID,ISBN,bookRating,bookTitle,totalRatingCount
0,276725,034545104X,0,Flesh Tones: A Novel,60
1,2313,034545104X,5,Flesh Tones: A Novel,60
2,6543,034545104X,0,Flesh Tones: A Novel,60
3,8680,034545104X,5,Flesh Tones: A Novel,60
4,10314,034545104X,9,Flesh Tones: A Novel,60


***위치 정보 기반 데이터 선별***

    - 미국 및 캐나다 지역으로 제한
    - 해당 필터로 계산속도 증가

In [53]:
combined = rating_popular_book.merge(users, left_on='userID', right_on='userID', how='left')

us_canada_user_rating = combined[combined['Location'].str.contains('usa|canada')]
us_canada_user_rating = us_canada_user_rating.drop('Age', axis=1)
us_canada_user_rating.head()

Unnamed: 0,userID,ISBN,bookRating,bookTitle,totalRatingCount,Location
0,276725,034545104X,0,Flesh Tones: A Novel,60,"tyler, texas, usa"
1,2313,034545104X,5,Flesh Tones: A Novel,60,"cincinnati, ohio, usa"
2,6543,034545104X,0,Flesh Tones: A Novel,60,"strafford, missouri, usa"
3,8680,034545104X,5,Flesh Tones: A Novel,60,"st. charles county, missouri, usa"
4,10314,034545104X,9,Flesh Tones: A Novel,60,"beaverton, oregon, usa"


In [56]:
if not us_canada_user_rating[us_canada_user_rating.duplicated(['userID', 'bookTitle'])].empty:
    initial_rows = us_canada_user_rating.shape[0]

    print('Initial dataframe shape {0}'.format(us_canada_user_rating.shape))
    us_canada_user_rating = us_canada_user_rating.drop_duplicates(['userID', 'bookTitle'])
    current_rows = us_canada_user_rating.shape[0]
    print('New dataframe shape {0}'.format(us_canada_user_rating.shape))
    print('Removed {0} rows'.format(initial_rows - current_rows))

Initial dataframe shape (251615, 6)
New dataframe shape (248949, 6)
Removed 2666 rows


In [57]:
us_canada_user_rating_pivot = us_canada_user_rating.pivot(index = 'bookTitle', columns = 'userID', values = 'bookRating').fillna(0)
us_canada_user_rating_matrix = csr_matrix(us_canada_user_rating_pivot.values)

***KNN 알고리즘 적용***

In [63]:
from sklearn.neighbors import NearestNeighbors

model_knn = NearestNeighbors(metric='cosine', algorithm='brute')
model_knn.fit(us_canada_user_rating_matrix)

NearestNeighbors(algorithm='brute', metric='cosine')

***KNN 알고리즘을 사용한 추천***

In [67]:
query_index = np.random.choice(us_canada_user_rating_pivot.shape[0])
# distances, indices = model_knn.kneighbors(us_canada_user_rating_pivot.iloc[query_index, :].values.reshape(1, -1), n_neighbors = 6)
distances, indices = model_knn.kneighbors(us_canada_user_rating_pivot.iloc[1907, :].values.reshape(1, -1), n_neighbors = 6)

for i in range(0, len(distances.flatten())):
    if i == 0:
        print('Recommendations for {0}:\n'.format(us_canada_user_rating_pivot.index[1907]))
    else:
        print('{0}: {1}, with distance of {2}:'.format(i, us_canada_user_rating_pivot.index[indices.flatten()[i]], 
                                                      distances.flatten()[i]))

Recommendations for The Green Mile: Night Journey (Green Mile Series):

1: The Two Dead Girls (Green Mile Series), with distance of 0.2413022186886533:
2: The Green Mile: Coffey's Hands (Green Mile Series), with distance of 0.26063737394209996:
3: The Green Mile: The Mouse on the Mile (Green Mile Series), with distance of 0.26952377054292587:
4: The Green Mile: The Bad Death of Eduard Delacroix (Green Mile Series), with distance of 0.3212787692847636:
5: The Green Mile: Coffey on the Mile (Green Mile Series), with distance of 0.34034250405531474:


***행렬 인수분해 적용***

    * 미국 및 캐나다 사용자 평가 데이터 프레임을 2D 행렬로 변환
    * 해당 행렬은 유틸리티 행렬(utility matrix)이라고도 한다
    * 결측값을 0으로 대체