# 추천 시스템

인기차트는 어떻게 만들어질까요? 추천 시스템에 들어가는 알고리즘은 어떤 식으로 구현될까요? Python을 이용하여 기본적인 추천 시스템 알고리즘을 알아보겠습니다.

목차<br>
1. 추천 시스템 서론
2. Simple Recommender

# 1. 추천시스템 서론

<b>추천 시스템 구현 시 고려해야 할 사항</b><br>
1. 상품과 소비자의 관계<br>
:사용자 중 어떤 사람은 특정 상품을 선호하는 경향이 있음 ex) 축구를 좋아하는 사람은 축구 용품을 선호<br>
<br>
2. 상품과 상품의 관계<br>
: 어떤 상품끼리는 비슷한 특성이 있음 ex) 같은 장르의 영화, 책<br>
<br>
3. 사용자와 사용자의 관계<br>
: 어떤 사용자끼리는 비슷한 취향이 있음 ex) 비슷한 연령대, 배굥

<b>추천에 사용하는 데이터의 특징</b><br>
<br>
1. 사용자 행동<br>
: 별점, 클릭 수, 구매 기록 같은 사용자의 상품에 대한 관심<br>
<br>
2. 사용자의 정보<br>
: 사용자의 나이, 교육, 수입, 거주지 등 사용자에 대한 정보<br>
<br>
3. 상품의 특성<br>
: 상품의 장르, 개봉 연도와 같은 상품에 대한 정보<br>

<b>흔히 사용하는 유사성 척도</b><br>
상품 혹은 사용자 간의 유사성을 계산하는데 사용되는 대표적인 척도들<br>
<br>
1. Manhattan Distance
$d(x,y)=\sum_{i}^{n}|x_{i}-y_{i}|$
2. Euclidean Distance
$d(x,y)=\sqrt{\sum_{i}^{n}(x_{i}-y_{i})^{2}}$
3. Cosine Similiarity
$d(x,y)=\frac{ \mathbf{x}\cdot \mathbf{y}}{|| \mathbf{x}|||| \mathbf{y}||}$<br>
Cosine Smilarity는 (1,2)와 (100,200)가 유사하다고 진단하지만 Euclidean에서는 서로 다르다고 진단<br>
4. Pearson Correlation
5. Jaccard Similiarity
$d(A,B)=\frac{|A \cap B|}{|A \cup B|}$<br>
6. Hamming Distance
$d(x,y)=\sum_{i}^{n}I(x_{i}-y_{i})$<br>
서로 다르면 +1이 되게 함 => 범주형 데이터에 사용





# 1. Simple Recommender

- 많은 사람들에게 인기 있거나 평이 좋은 영화가 사람들이 좋아할 할 확률이 높지 않을까?
- 영화의 장르나 인기도에 기반하여 모든 사용자에게 똑같은 추천을 하는 방법
- IMDB Top 250에서 사용

영화 평점을 사용할 때의 문제점
- 영화의 대중성이나 인기도를 반영 못함
- 평점을 만 명이 8.9점 준 영화보다 10명이 9점을 준 영화가 더 좋게 추천 될 수 있음
- 평점을 높게 준 소수의 의견을 따르게 될 수 있음

가중 평균을 통한 보정<br>
$Weighted Average(WR)= (\frac{v}{v+m}\cdot R)+(\frac{m}{v+m}\cdot C)$<br>
v: 영화에 투표한 사람의 수<br>
m: 차트에 등재 되기 위한 최소 투표 수<br>
R: 영화 평균 평점<br>
C: 전체 평균 투표 수

In [37]:
import os
import pandas as pd
os.chdir('C:/Users/bki19/Desktop/recommender_system')
metadata =  pd.read_csv('./data/the-movies-dataset/movies_metadata.csv', low_memory=False)
metadata.head(5)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0
3,False,,16000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,1995-12-22,81452156.0,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34.0
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,1995-02-10,76578911.0,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173.0


데이터 소개
- Full MovieLens 데이터셋에서 45,000개의 영화에 대한 데이터
- 성인 영화 여부, 시리즈 여부, 예산, 장르, 홈페이지, 언어, 제목, 개봉일, 수입, 개봉 시간, 상영 시간, 개봉 여부, 태그라인, 비디오 출시 여부, 평점, 투표 수 

In [38]:
# Calculate C
C = metadata['vote_average'].mean()
print(C)

5.618207215134185


모든 영화의 평균 평점은 5.62

In [39]:
# Calculate the minimum number of votes required to be in the chart, m
m = metadata['vote_count'].quantile(0.90)
print(m)

160.0


최소로 필요한 득표수는 90th percentile로 지정 (최소 160표는 받아야 상위 10퍼센트)

In [40]:
# Filter out all qualified movies into a new DataFrame
q_movies = metadata.copy().loc[metadata['vote_count'] >= m]
q_movies.shape

(4555, 24)

In [41]:
# Function that computes the weighted rating of each movie
def weighted_rating(x, m=m, C=C):
    v = x['vote_count']
    R = x['vote_average']
    # Calculation based on the IMDB formula
    return (v/(v+m) * R) + (m/(m+v) * C)

In [42]:
# Define a new feature 'score' and calculate its value with `weighted_rating()`
q_movies['score'] = q_movies.apply(weighted_rating, axis=1)

In [43]:
#Sort movies based on score calculated above
q_movies = q_movies.sort_values('score', ascending=False)

#Print the top 15 movies
q_movies[['title', 'vote_count', 'vote_average', 'score']].head(15)

Unnamed: 0,title,vote_count,vote_average,score
314,The Shawshank Redemption,8358.0,8.5,8.445869
834,The Godfather,6024.0,8.5,8.425439
10309,Dilwale Dulhania Le Jayenge,661.0,9.1,8.421453
12481,The Dark Knight,12269.0,8.3,8.265477
2843,Fight Club,9678.0,8.3,8.256385
292,Pulp Fiction,8670.0,8.3,8.251406
522,Schindler's List,4436.0,8.3,8.206639
23673,Whiplash,4376.0,8.3,8.205404
5481,Spirited Away,3968.0,8.3,8.196055
2211,Life Is Beautiful,3643.0,8.3,8.187171


가중 평균 점수대로 배열한 결과 평점 순이랑 조금 다름을 알 수 있음

출처: 
- https://towardsdatascience.com/learning-to-make-recommendations-745d13883951
- https://www.datacamp.com/community/tutorials/recommender-systems-python

데이터 출처:
- https://nbviewer.jupyter.org/github/BadreeshShetty/Learnings-to-make-Recommedations/tree/master/Content%20Filtering/
- https://www.kaggle.com/rounakbanik/the-movies-dataset/data