## 추천 알고리즘 종류 
### Knowledge-based Fitering 
- 추천하고자 하는 분야의 도메인 지식을 활용해 추천하는 방식 
- ex : 성별/ 연령별로 많이 팔리는 상품들을 모아 추천에 활용

### Content-based Filtering 
- 추천하려는 아이템의 콘텐츠 정보를 분석하거나, 정리된 메타 정보를 활용해 콘텐츠별로 특징 정보를 만들고 이를 활용해 추천 
-  ex : 상품 페이지 하단에 같은 카테고리에 있는 인기 상품 추천

### Collaborative Filtering 
- 소비자들의 소비 이력을 사용해 소비하지 않은 새로운 아이템을 추천 
- ex : 클릭 이력을 바탕으로 소비자가 다음으로 클릭할 만한 상품을 추천 


## 추천 알고리즘 평가 방법
**오프라인 평가**
- 사용자의 아이템에 대한 선호 기록과 추천 시스템이 추천한 결과를 비교하여 품질을 평가

특징
- 별다른 비용 지출 없이 수집된 데이터만 이용하여 평가 가능
- 여러 모델을 동시에 평가할 수 있음
- 선호 기록이 기존에 사용하고 있는 추천 모델에 영향을 받을 수 있으므로 실제 사용자의 만족도와 평가 결과가 다를 수 있음 

**온라인 평가**
- 만들어진 추천 시스템을 직접 사용자에게 노출시켜 사용자의 반응을 수집하여 평가 

특징 
- 실제 사용자의 만족도를 측정한다는 측면에서 정확한 방식
- 비용이 비싼 평가 방식 (사용자의 만족도 감소 가능성 등) 

현업
- 모델을 개발할 때는 오프라인 평가
- 테스트를 할 때는 온라인 혹은 하이브리드(섞어서) 방식으로 진행함


## 아티클 함께 읽기 
[카카오AI리포트] 내 손안의 AI 비서, 추천 알고리듬: 카카오의 AI 추천 플랫폼, '토로스(TOROS)'


## Read Data

In [2]:
# 라이브러리 불러오기 

import pandas as pd 
import numpy as np 
import seaborn as sns 

In [8]:
movies = pd.read_csv("/content/drive/MyDrive/추천시스템/movies.csv",index_col = 'movieId')
rating = pd.read_csv("/content/drive/MyDrive/추천시스템/ratings.csv",index_col = 'userId')

In [17]:
# movies.head()
# movies.tail()
movies.sample(10)

Unnamed: 0_level_0,title,genres
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1
155358,Camino (2016),Action|Adventure|Thriller
72624,Garage (2007),Drama
3029,Nighthawks (1981),Action|Drama
60069,WALL·E (2008),Adventure|Animation|Children|Romance|Sci-Fi
130978,Love and Pigeons (1985),Comedy|Romance
2723,Mystery Men (1999),Action|Comedy|Fantasy
5134,Mean Machine (2001),Comedy|Drama
120637,Blackhat (2015),Action|Crime|Drama|Mystery|Thriller
1130,"Howling, The (1980)",Horror|Mystery
2585,"Lovers of the Arctic Circle, The (Los Amantes ...",Drama|Romance


In [12]:
movies.shape, rating.shape

((9742, 2), (100836, 3))

In [18]:
movies.columns

Index(['title', 'genres'], dtype='object')

In [19]:
rating.columns

Index(['movieId', 'rating', 'timestamp'], dtype='object')

In [16]:
movies.head()

Unnamed: 0_level_0,title,genres
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy


## Save Data

In [None]:
movies.to_csv('저장할 위치')

## 개봉 연도 분석 -- 데이터 정제하기

In [30]:
movies['year'] = movies['title'].str.extract('(\(\d\d\d\d\))')
movies['year'] = movies['title'].str.extract('(\d\d\d\d)')
movies

Unnamed: 0_level_0,title,genres,year
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1995
2,Jumanji (1995),Adventure|Children|Fantasy,1995
3,Grumpier Old Men (1995),Comedy|Romance,1995
4,Waiting to Exhale (1995),Comedy|Drama|Romance,1995
5,Father of the Bride Part II (1995),Comedy,1995
...,...,...,...
193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy,2017
193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy,2017
193585,Flint (2017),Drama,2017
193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation,2018


In [31]:
movies['year'].unique()

array(['1995', '1994', '1996', '1976', '1992', '1967', '1993', '1964',
       '1977', '1965', '1982', '1990', '1991', '1989', '1937', '1940',
       '1969', '1981', '1973', '1970', '1955', '1959', '3000', '1968',
       '1988', '1997', '1972', '1943', '1952', '1951', '1957', '1961',
       '1958', '1954', '1934', '1944', '1960', '1963', '1942', '1941',
       '1953', '1939', '1950', '2001', '1946', '1945', '1938', '1947',
       '1935', '1936', '1956', '1949', '1932', '1975', '1974', '1971',
       '1979', '1987', '1986', '1980', '1978', '1985', '1966', '1962',
       '1983', '1984', '1948', '1933', '1931', '1922', '1600', '1998',
       '2000', '1929', '1930', '1927', '1928', '2010', '1999', '1900',
       '1926', '1919', '1921', '1925', '1923', '2002', '1776', '2003',
       '1000', '1138', '1920', '1915', '1924', '2004', '1916', '1917',
       '1492', '2046', '2005', '2006', '1902', nan, '1903', '2007',
       '1408', '2008', '2009', '2012', '2011', '2013', '2014', '2015',
       '2

In [34]:
# 전체 테이블 결측값 확인하기 
movies.isnull().sum()

title      0
genres     0
year      12
dtype: int64

In [35]:
# 결측값 데이터 확인하기, NaN(Not a Number)
movies[movies['year'].isnull()]

Unnamed: 0_level_0,title,genres,year
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
40697,Babylon 5,Sci-Fi,
140956,Ready Player One,Action|Sci-Fi|Thriller,
143410,Hyena Road,(no genres listed),
147250,The Adventures of Sherlock Holmes and Doctor W...,(no genres listed),
149334,Nocturnal Animals,Drama|Thriller,
156605,Paterson,(no genres listed),
162414,Moonlight,Drama,
167570,The OA,(no genres listed),
171495,Cosmos,(no genres listed),
171631,Maria Bamford: Old Baby,(no genres listed),


In [36]:
 movies['year'] = movies['year'].fillna('2050')

In [48]:
# 데이터에 가장 많이 출현하는 개봉연도를 찾아주세요 
## 개봉연도 top10 
movies['year'].value_counts()[0:10]

2002    310
2006    296
2001    295
2000    290
2007    283
2009    281
2003    278
2014    278
2004    277
1996    275
Name: year, dtype: int64