# Knowledge Based Filtering

지식 기반 필터링(Knowledge-based Filtering)"은 사용자가 제공한 명시적인 요구 사항을 바탕으로 아이템을 추천하는 시스템입니다. 이 방법은 사용자의 과거 행동이나 명확한 선호도가 부족할 때 유용하며, 사용자가 특정 요구 사항을 입력함으로써 추천을 받게 됩니다.

예를 들어, 영화 추천 시스템에서 사용자가 선호하는 장르, 감독, 배우, 또는 영화의 특정 기능(예: 상영 시간, 연도 등)에 대한 선호도를 입력하면, 시스템은 이 정보를 기반으로 영화를 필터링하고 추천합니다.

지식 기반 필터링의 예제 코드를 작성하기 전에, 우리는 몇 가지 가정을 해야 합니다. 예를 들어, 우리에게는 영화에 대한 정보가 담긴 movies 데이터프레임과 사용자가 요구하는 조건을 충족하는 영화를 추천하는 함수가 필요합니다.

In [3]:
import pandas as pd

# MovieLens 데이터셋 로드
movies = pd.read_csv('data/ml-latest-small/movies.csv')
ratings = pd.read_csv('data/ml-latest-small/ratings.csv')

In [6]:
movies.head(2)

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy


In [7]:
ratings.head(2)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247


In [10]:
# 장르를 기반으로 필터링
movies['genres'].str.contains('Comedy')

0        True
1       False
2        True
3        True
4        True
        ...  
9737     True
9738     True
9739    False
9740    False
9741     True
Name: genres, Length: 9742, dtype: bool

In [18]:
# 연도를 기반으로 필터링
movies['title'].str.contains('\\(1995\\)')

0        True
1        True
2        True
3        True
4        True
        ...  
9737    False
9738    False
9739    False
9740    False
9741    False
Name: title, Length: 9742, dtype: bool

In [13]:
# 평점 정보를 가진 영화 list
ratings['movieId'].unique()

array([     1,      3,      6, ..., 160836, 163937, 163981], dtype=int64)

### 장르와 연도를 기반으로 영화를 추천하는 함수

In [20]:
def recommend_movies(movies, ratings, preferred_genre=None, year=None):
    filtered_movies = movies
    
    if preferred_genre:
        # 장르를 기반으로 필터링합니다.
        filtered_movies = filtered_movies[filtered_movies['genres'].str.contains(preferred_genre)]
    
    if year:
        # 연도를 기반으로 필터링합니다. 정규 표현식에서 괄호를 escape 처리합니다.
        year_pattern = f'\\({year}\\)'
        filtered_movies = filtered_movies[filtered_movies['title'].str.contains(year_pattern)]
    
    # 평점 정보를 가진 영화만을 최종적으로 선택합니다.
    rated_movie_ids = ratings['movieId'].unique()
    filtered_movies = filtered_movies[filtered_movies['movieId'].isin(rated_movie_ids)]
    
    return filtered_movies

# 사용자가 선호하는 장르와 연도를 기반으로 영화 추천 받기
recommended_movies = recommend_movies(movies, ratings, preferred_genre='Comedy', year=1995)

# 추천된 영화 출력
print(recommended_movies)

      movieId                                             title  \
0           1                                  Toy Story (1995)   
2           3                           Grumpier Old Men (1995)   
3           4                          Waiting to Exhale (1995)   
4           5                Father of the Bride Part II (1995)   
6           7                                    Sabrina (1995)   
...       ...                                               ...   
5594    26900  Last Wedding, The (Kivenpyörittäjän kylä) (1995)   
6159    44241                               Leprechaun 3 (1995)   
7978    96608                             Runaway Brain (1995)    
8066    99130                              Ice Cream Man (1995)   
9453   167772                    The Spirit of Christmas (1995)   

                                           genres  
0     Adventure|Animation|Children|Comedy|Fantasy  
2                                  Comedy|Romance  
3                            Comedy|Dra