<a href="https://colab.research.google.com/github/mysend12/study/blob/main/2%EC%9E%A5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 추천 시스템

사용자의 과거 행동 데이터를 바탕으로 사용자에게 필요한 정보나 제품을 제시하는 시스템

## 소개

### 과거와 현재
과거
- 고객들의 취향을 그룹으로 나누어서 각 집단에 맞는 제품이나 서비스 제공


현재
- 집단의 크기를 세세하게 쪼개어 집단의 수를 늘리거나 한 사용자 대상 맞춤형 추천 서비스

### 사용 기술
- 협업 필터링(Collaborative Filtering, CF)
- 내용 기반 필터링(Content-Based Filtering, CB)
- 지식 기반 필터링(Knowledge-Based Filtering)
- 딥러닝(Deep Learning, DL)
- 하이브리드 필터링(협업필터링 & 딥러닝)

## 주요 추천 알고리즘

### 협업 필터링
구매 및 소비한 제품에 대한 소비자의 평가 패턴이 비슷한 집단 속에서 서로 접하지 않은 제품을 추천하는 기술

### 내용 기반 필터링
제품의 내용을 분석해서 추천하는 기술
- 사용자가 선택한 제품과 유사한 제품을 추천
- 뉴스나 책 등을 추천할때 많이 사용

### 지식 기반 필터링
특정 분야의 전문가의 도움을 받아서 그 분야에 대한 전제적인 지식 구조를 만들어서 활용하는 방법
- 체계도를 만들어서 활용
-- PC를 구매했으면, 마우스를 추천해준다.
- 각 분야의 전문가가 필요한데, 모든 분야의 전문가를 모집하기는 힘들다.

장점
- 협업 필터링과 내용 기반 필터링은 서비스를 추천해줄 수는 있지만, 왜 추천해야하는지는 알 수 없다.

### 딥러닝 추천 기술
AI 알고리즘 중에 현재 가장 많이 사용되는 딥러닝 방법 사용


### 하이브리드(Hybrid) 기술
두 가지 이상의 알고리즘 혼합을 통한 하이브리드 형태

In [80]:
# 사용자 u.user 파일을 DataFrame으로 읽기

import os
import pandas as pd

base_src = 'drive/MyDrive/RecoSys/Data'
u_user_src = os.path.join(base_src, 'u.user')
u_cols = ['user_id', 'age', 'sex', 'occupation', 'zip_code']
users = pd.read_csv(
    u_user_src,
    sep='|',
    names=u_cols,
    encoding='latin-1'
)

users = users.set_index('user_id')
users.head()

Unnamed: 0_level_0,age,sex,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
2,53,F,other,94043
3,23,M,writer,32067
4,24,M,technician,43537
5,33,F,other,15213


In [81]:
# u.item 파일을 DataFrame으로 읽기
u_item_src = os.path.join(base_src, 'u.item')
i_cols = ['movie_id', 'title', 'release data', 'video release data', 'IMDB URL', 'unknown', 'Action', 'Adventure', 'Animation',
          'Children\'s', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi',
          'Thriller', 'War', 'Western'
          ]
movies = pd.read_csv(u_item_src, sep='|', names=i_cols, encoding='latin-1')
movies = movies.set_index('movie_id')
movies.head()


Unnamed: 0_level_0,title,release data,video release data,IMDB URL,unknown,Action,Adventure,Animation,Children's,Comedy,...,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
movie_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [82]:
# 사용자 u.data 파일을 DataFrame으로 읽기

u_data_src = os.path.join(base_src, 'u.data')
u_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv(
    u_data_src,
    sep='\t',
    names=u_cols,
    encoding='latin-1'
)

ratings = ratings.set_index('user_id')
ratings.head()

Unnamed: 0_level_0,movie_id,rating,timestamp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
196,242,3,881250949
186,302,3,891717742
22,377,1,878887116
244,51,2,880606923
166,346,1,886397596


# 인기제품 방식

- 개별 사용자 정보 X
- 간단한 추천 제공
- 인기 제품을 추천하는 방식

In [83]:
# 인기 제품 방식 추천 function

def recom_movie(n_items):
  movie_mean = ratings.groupby(['movie_id'])['rating'].mean()
  movie_sort = movie_mean.sort_values(ascending=False)[:n_items]
  recom_movies = movies.loc[movie_sort.index]
  recommendations = recom_movies['title']
  return recommendations

recom_movie(5)


movie_id
814                         Great Day in Harlem, A (1994)
1599                        Someone Else's America (1995)
1201           Marlene Dietrich: Shadow and Light (1996) 
1122                       They Made Me a Criminal (1939)
1653    Entertaining Angels: The Dorothy Day Story (1996)
Name: title, dtype: object

# 추천 시스템의 정확도 측정

추천 시스템의 성능 = 정확성

데이터
- 훈련 데이터
- 테스트 데이터

RMSE
(실제값 - 예측값)^2의 전체합 * (1 / 예측할 데이터의 숫자) 에 루트를 씌워준다.


In [84]:
# 100k 영화 평점에 대해서 실제값과 best-seller 방식으로 구한 예측값의 RMSE를 계산하는 코드

import numpy as np

def RMSE(y_true,y_pred):
  return np.sqrt(
      np.mean(
          (np.array(y_true) - np.array(y_pred))**2
      )
  )

# 정확도 계산
rmse = []
movie_mean = ratings.groupby(['movie_id'])['rating'].mean()

for user in set(ratings.index):
  y_true = ratings.loc[user]['rating']
  # best-seller 방식
  y_pred = movie_mean[ratings.loc[user]['movie_id']]
  accuracy = RMSE(y_true, y_pred)
  rmse.append(accuracy)

# RMSE 계산
print(np.mean(rmse))

0.996007224010567


사용자 집단별 추천

전체 사용자로 평점을 만든다면, 집단별 차이가 존재한다면 이에의한 노이즈가 많이 발생한다.
- 남자가 좋아하는 영화 장르
- 여자가 좋아하는 영화 장르

그렇기때문에, 집단을 잘 구분하기 위한 작업이 필요하다.

In [85]:
# 데이터 읽어오기(user, item, data)
base_src = 'drive/MyDrive/RecoSys/Data'

# user
u_user_src = os.path.join(base_src, 'u.user')
u_cols = ['user_id', 'age', 'sex', 'occupation', 'zip_code']
users = pd.read_csv(
    u_user_src,
    sep='|',
    names=u_cols,
    encoding='latin-1'
)

# item
u_item_src = os.path.join(base_src, 'u.item')
i_cols = ['movie_id', 'title', 'release data', 'video release data', 'IMDB URL', 'unknown', 'Action', 'Adventure', 'Animation',
          'Children\'s', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi',
          'Thriller', 'War', 'Western'
          ]
movies = pd.read_csv(u_item_src, sep='|', names=i_cols, encoding='latin-1')

# data
u_data_src = os.path.join(base_src, 'u.data')
u_cols = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_csv(
    u_data_src,
    sep='\t',
    names=u_cols,
    encoding='latin-1'
)


# ratings DataFrame에서 timestamp 제거
ratings = ratings.drop('timestamp', axis=1)
movies = movies[['movie_id', 'title']]

train_test_split

test_size = 0.25
train 데이터가 75%
test 데이터가 25%

stratify=y
데이터마다 숫자가 다른데, 이게 한쪽에 뭉칠 위험이 있다.
이를 방지하기 위해, 원천데이터의 y 환경을 train과 test set에 반영하기 위함


In [86]:
# 데이터 train, test set 분리
from sklearn.model_selection import train_test_split

x = ratings.copy()
y = ratings['user_id']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.25, stratify=y)

# 정확도 (RMSE)를 계산하는 함수
def RMSE(y_true, y_pred):
  return np.sqrt(np.mean((np.array(y_true) - np.array(y_pred))**2))


# 모델별 RMSE를 계산하는 함수
def score(model):
  id_pairs = zip(x_test['user_id'], x_test['movie_id'])
  y_pred = np.array([model(user,movie) for (user, movie) in id_pairs])
  y_true = np.array(x_test['rating'])
  return RMSE(y_true, y_pred)

# best_seller 함수를 이용한 정확도 계산
train_mean = x_train.groupby(['movie_id'])['rating'].mean()
def best_seller(user_id, movie_id):
  ## train에는 없지만 test에는 있는 영화가 있을 수 있음 -> 만약 영화가 존재하지 않으면, 3.0
  try:
    rating = train_mean[movie_id]

  except:
    rating = 3.0
  return rating

score(best_seller)

1.024902104209933

In [87]:
# 성별에 따른 예측값 계산
merged_ratings = pd.merge(x_train,users)

users = users.set_index('user_id')

g_mean = merged_ratings[['movie_id', 'sex', 'rating']].groupby(['movie_id', 'sex'])['rating'].mean()

rating_matrix = x_train.pivot(index='user_id', columns='movie_id', values='rating')
rating_matrix

movie_id,1,2,3,4,5,6,7,8,9,10,...,1670,1671,1672,1675,1676,1677,1678,1680,1681,1682
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,3.0,4.0,,,5.0,4.0,,5.0,,...,,,,,,,,,,
2,4.0,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,4.0,3.0,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
939,,,,,,,,,,,...,,,,,,,,,,
940,,,,2.0,,,4.0,5.0,3.0,,...,,,,,,,,,,
941,5.0,,,,,,,,,,...,,,,,,,,,,
942,,,,,,,,,,,...,,,,,,,,,,


In [88]:
#### Gender 기준 추천 ####
def cf_gender(user_id, movie_id):
  if movie_id in rating_matrix.columns:
    gender = users.loc[user_id]['sex']
    if gender in g_mean[movie_id].index:
      gender_rating = g_mean[movie_id][gender]
    else:
      gender_rating = 3.0
  else:
    gender_rating = 3.0
  return gender_rating

score(cf_gender)

1.0333953263996087