**<div align='center'><font size="5" color='#353B47'>Movie Recommendation System</font></div>**
<br>
<hr>


**<font color="blue" size="5">About Dataset</font>**

**<font color="blue" size="4">Context</font>**  
These files contain metadata for all 45,000 movies listed in the Full MovieLens Dataset. The dataset consists of movies released on or before July 2017. Data points include cast, crew, plot keywords, budget, revenue, posters, release dates, languages, production companies, countries, TMDB vote counts and vote averages.

This dataset also has files containing 26 million ratings from 270,000 users for all 45,000 movies. Ratings are on a scale of 1-5 and have been obtained from the official GroupLens website.


**<font color="blue" size="4">Content</font>**  
This dataset consists of the following files:

**movies_metadata.csv:** The main Movies Metadata file. Contains information on 45,000 movies featured in the Full MovieLens dataset. Features include posters, backdrops, budget, revenue, release dates, languages, production countries and companies.

**keywords.csv:** Contains the movie plot keywords for our MovieLens movies. Available in the form of a stringified JSON Object.

**credits.csv:** Consists of Cast and Crew Information for all our movies. Available in the form of a stringified JSON Object.

**links.csv:** The file that contains the TMDB and IMDB IDs of all the movies featured in the Full MovieLens dataset.

**links_small.csv:** Contains the TMDB and IMDB IDs of a small subset of 9,000 movies of the Full Dataset.

**ratings_small.csv:** The subset of 100,000 ratings from 700 users on 9,000 movies.  

The Full MovieLens Dataset consisting of 26 million ratings and 750,000 tag applications from 270,000 users on all the 45,000 movies in this dataset can be accessed [here](https://grouplens.org/datasets/movielens/latest/)


**<font color="blue" size="5">Introducing- Surprise</font>**  
**Surprise** ย่อมาจาก **Simple Python Recommendation System Engine** เป็นส่วนหนึ่งของ `scikit-learn` ซึ่งเป็น `library` ใน python สำหรับนำมาวิเคราะห์และสร้างระบบแนะนำที่นำมาใช้จัดการข้อมูลที่มี `rating` โดย `Surprise` ถูกออกแบบมาเพื่อจุดประสงค์ดังนี้


1. ให้ผู้ใช้งานจัดการและควบคุมการทดลองได้ทั้งหมด จึงให้ความสำคัญกับการสร้างเอกสารเป็นอย่างมากเพื่อให้ผู้ใช้มีความชัดเจนในทุกรายละเอียดของอัลกอริทึม
2. ช่วยลดขั้นตอนที่ยุ่งยากในการจัดการกับข้อมูล ซึ่งผู้ใช้สามารถใช้ข้อมูลได้หลากหลาย
3. มีอัลกอริทึมใช้ทำนายและมาตราวัดความคล้ายคลึงกันที่พร้อมใช้ให้หลากหลาย
4. ช่วยให้การสร้างอัลกอริทึมง่ายขึ้น
5. มีเครื่องมือในการวัดผล วิเคราะห์ และเปรียบเทียบประสิทธิภาพของอัลกอริทึม


`Surprise` ไม่รองรับการสร้างระบบแบบ **Content-based filtering**

[ข้อมูลเพิ่มเติม](http://surpriselib.com/)

**<font color="blue" size="5">Introducing- Recommendation System</font>**  
**Recommendation system หรือ ระบบแนะนำสินค้า** สามารถพบเห็นได้ทั่วไปในแพลตฟอร์มออนไลน์ เช่น การแนะนำหนังใน Netflix หรือการแนะนำสินค้าใน Amazon จุดประสงค์หลักของระบบแนะนำสินค้านี้คือ การคัดกรองสินค้าที่คาดการณ์ว่า **ผู้ใช้งานน่าจะสนใจ** ซึ่งสามารถแบ่งได้เป็น 3 ประเภท ดังนี้

1. **Demographic Filtering** เป็นการแนะนำภาพยนต์ให้แก่ผู้ใช้ทุกคนโดยพิจารณาความนิยม (popular) และประเภท (genre) ของภาพยนต์ โดยหลักการ คือ ภาพยนต์ที่ได้รับความนิยม และได้รับเสียงวิจารณ์ชื่นชมมากจะมีโอกาสที่ผู้ใช้จะชอบ ซึ่งโมเดลนี้จะไม่ได้กรองข้อมูลแบบอิงผู้ใช้ (Collaborative Filtering)

2. **Content-based filtering (การคัดกรองผ่านลักษณะสินค้าที่เหมือนกัน)** เป็นการคัดกรองที่ระบบจะแนะนำสินค้าที่มีลักษณะคล้ายกับสิ่งที่ผู้ใช้งานคนนั้นเคยสนใจในอดีต  

3. **Collaborative filtering (การคัดกรองผ่านลักษณะของผู้ใช้งานที่เหมือนกัน)** เป็นการคัดกรองสินค้าโดยคำนึงถึงพฤติกรรมของผู้ใช้งานที่มีลักษณะคล้ายกับผู้ใช้งานผู้นี้ด้วย โดยมีสมมติฐานว่า ผู้ใช้ลักษณะคล้ายกันมีแนวโน้มจะชื่นชอบสินค้าคล้ายกัน 


![](https://bigdata.go.th/wp-content/uploads/2022/01/recommendation_system-1024x627.png)

<a id="8"></a> 
# Table of Contents  
**[1. Import Libraries](#1)       
[2. Import Dataset](#2)   
[3. Demographic Filtering](#3)   
[4. Content-based filtering](#4)       
[5. Collaborative filtering](#5)       
[6. Hybrid Recommender](#6)       
[7. Reference](#7)**

***

<a id="1"></a>
# 1. Import Libraries

In [1]:
# DataFrame
import pandas as pd
pd.options.display.max_columns = None
#pd.set_option('display.max_colwidth', 1000)
import numpy as np

# Matplot
import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
import seaborn as sns

# Scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.metrics.pairwise import linear_kernel, cosine_similarity

# NLTK
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer, WordNetLemmatizer

# surprise
import surprise
from surprise import Reader, Dataset, SVD
from surprise.model_selection import cross_validate

# Utility
import warnings
warnings.filterwarnings('ignore')
import ast
from ast import literal_eval


**[Back to Table of Contents](#8)**

***

<a id="2"></a> 
# 2. Import Dataset

In [2]:
movies_metadata = pd.read_csv('The Movies Dataset/movies_metadata.csv')

In [3]:
movies_metadata.head(5)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,popularity,poster_path,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",21.946943,/rhIRbceoE9lR4veEXuwCC2wARtG.jpg,"[{'name': 'Pixar Animation Studios', 'id': 3}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,/vzmL6fP7aPKNKPRTFnZmiUfciyV.jpg,"[{'name': 'TriStar Pictures', 'id': 559}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,11.7129,/6ksm1sjKMFLbO7UY2i6G1ju9SML.jpg,"[{'name': 'Warner Bros.', 'id': 6194}, {'name'...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0
3,False,,16000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",3.859495,/16XOMpEaLWkrcPqSQqhTmeJuqQl.jpg,[{'name': 'Twentieth Century Fox Film Corporat...,"[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-22,81452156.0,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34.0
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,8.387519,/e64sOI48hQXyru7naBFyssKFxVd.jpg,"[{'name': 'Sandollar Productions', 'id': 5842}...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-02-10,76578911.0,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173.0


In [4]:
movies_metadata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45466 non-null  object 
 1   belongs_to_collection  4494 non-null   object 
 2   budget                 45466 non-null  object 
 3   genres                 45466 non-null  object 
 4   homepage               7782 non-null   object 
 5   id                     45466 non-null  object 
 6   imdb_id                45449 non-null  object 
 7   original_language      45455 non-null  object 
 8   original_title         45466 non-null  object 
 9   overview               44512 non-null  object 
 10  popularity             45461 non-null  object 
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date           45379 non-null  object 
 15  re

In [5]:
movies_metadata.isna().sum()

adult                        0
belongs_to_collection    40972
budget                       0
genres                       0
homepage                 37684
id                           0
imdb_id                     17
original_language           11
original_title               0
overview                   954
popularity                   5
poster_path                386
production_companies         3
production_countries         3
release_date                87
revenue                      6
runtime                    263
spoken_languages             6
status                      87
tagline                  25054
title                        6
video                        6
vote_average                 6
vote_count                   6
dtype: int64

In [6]:
movies_metadata[movies_metadata['production_companies'].isna()]

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,popularity,poster_path,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
19729,False,,0,"[{'id': 28, 'name': 'Action'}, {'id': 53, 'nam...",,82663,tt0113002,en,Midnight Man,British soldiers force a recently captured IRA...,,,,,,,,,,,,,,
29502,False,"{'id': 122661, 'name': 'Mardock Scramble Colle...",0,"[{'id': 16, 'name': 'Animation'}, {'id': 878, ...",http://m-scramble.jp/exhaust/,122662,tt2423504,ja,マルドゥック・スクランブル 排気,Third film of the Mardock Scramble series.,,,,,,,,,,,,,,
35586,False,,0,"[{'id': 10770, 'name': 'TV Movie'}, {'id': 28,...",,249260,tt2622826,en,Avalanche Sharks,A group of skiers are terrorized during spring...,,,,,,,,,,,,,,


In [7]:
movies_metadata[movies_metadata['production_countries'].isna()]

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,popularity,poster_path,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
19729,False,,0,"[{'id': 28, 'name': 'Action'}, {'id': 53, 'nam...",,82663,tt0113002,en,Midnight Man,British soldiers force a recently captured IRA...,,,,,,,,,,,,,,
29502,False,"{'id': 122661, 'name': 'Mardock Scramble Colle...",0,"[{'id': 16, 'name': 'Animation'}, {'id': 878, ...",http://m-scramble.jp/exhaust/,122662,tt2423504,ja,マルドゥック・スクランブル 排気,Third film of the Mardock Scramble series.,,,,,,,,,,,,,,
35586,False,,0,"[{'id': 10770, 'name': 'TV Movie'}, {'id': 28,...",,249260,tt2622826,en,Avalanche Sharks,A group of skiers are terrorized during spring...,,,,,,,,,,,,,,


**[Back to Table of Contents](#8)**

***

<a id="3"></a> 
# 3. Demographic Filtering

Demographic Filtering เป็นการแนะนำภาพยนต์ให้แก่ผู้ใช้ทุกคนโดยพิจารณาความนิยม (popular) และประเภท (genre) ของภาพยนต์ โดยหลักการ คือ ภาพยนต์ที่ได้รับความนิยม และได้รับเสียงวิจารณ์ชื่นชมมากจะมีโอกาสที่ผู้ใช้จะชอบ ซึ่งโมเดลนี้จะไม่ได้กรองข้อมูลแบบอิงผู้ใช้ (Collaborative Filtering)

## 3.1 Cleaning the Dataset

In [8]:
movies_metadata['genres'][0]

"[{'id': 16, 'name': 'Animation'}, {'id': 35, 'name': 'Comedy'}, {'id': 10751, 'name': 'Family'}]"

In [9]:
movies_metadata['genres'] = movies_metadata['genres'].fillna('[]').apply(literal_eval).apply(lambda x: [i['name'] for i in x] if isinstance(x, list) else [])

In [10]:
movies_metadata['genres'][0]

['Animation', 'Comedy', 'Family']

In [11]:
movies_metadata['production_companies'] = movies_metadata['production_companies'].fillna('[]') \
.apply(literal_eval).apply(lambda x: [i['name'] for i in x] if isinstance(x, list) else [])

In [12]:
movies_metadata['production_countries'] = movies_metadata['production_countries'].fillna('[]') \
.apply(literal_eval).apply(lambda x: [i['name'] for i in x] if isinstance(x, list) else [])

In [13]:
movies_metadata['spoken_languages'] = movies_metadata['spoken_languages'].fillna('[]') \
.apply(literal_eval).apply(lambda x: [i['name'] for i in x] if isinstance(x, list) else [])

In [14]:
movies_metadata['year'] = pd.to_datetime(movies_metadata['release_date'], errors = 'coerce') \
.apply(lambda x: str(x).split('-')[0] if x != np.nan else np.nan)

In [15]:
movies_metadata.head(1)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,popularity,poster_path,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count,year
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[Animation, Comedy, Family]",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",21.946943,/rhIRbceoE9lR4veEXuwCC2wARtG.jpg,[Pixar Animation Studios],[United States of America],1995-10-30,373554033.0,81.0,[English],Released,,Toy Story,False,7.7,5415.0,1995


## 3.2 Calculate Weighted Rating (WR)

เราสามารถใช้ average ratings ของภาพยนตร์เป็นคะแนนได้ แต่การใช้สิ่งนี้จะไม่ยุติธรรมพอ เนื่องจากภาพยนตร์ที่มี average rating 8.9 และมีเพียง 3 vote ไม่สามารถถือว่าดีกว่าภาพยนตร์ที่มี average rating 7.8 แต่ได้ 40 vote ดังนั้น จะใช้การให้คะแนนแบบถ่วงน้ำหนัก (WR) ของ IMDB 

ใช้ IMDB Ratings เพื่อจัดอันดับภาพยนต์ (Top Movies Chart) โดยใช้สูตรการให้คะแนนแบบถ่วงน้ำหนักของ IMDB เพื่อสร้าง Chart มีสูตรทางคณิตศาสตร์ ดังนี้ 

                          Weighted Rating (WR) = (v / (v + m) * R) + (m / (v + m) * C)

โดย

                          R = the average rating of the movie = (Rating)
                          
                          v = the number of votes for the movie = (votes)
                          
                          m = the minimum votes required to be listed in the chart (Top 250) 
                          
                          C = the mean vote across the whole report 

ค่า R ได้จาก column: vote_average  
ค่า v ได้จาก column: vote_count  
ค่า C ได้จาก column: vote_average แล้วคำนวณหาค่าเฉลี่ย  
หาค่า m โดยกำหนด 95th percentile เป็นจุดตัด หมายถึง ภาพยนตร์ที่ติด Chart จะต้องมีคะแนนโหวตมากกว่าอย่างน้อย 95% ของภาพยนตร์ทั้งหมด  
สร้าง Top 250 Chart และกำหนด Genre โดยเฉพาะเจาะจง

In [16]:
vote_count2 = movies_metadata[movies_metadata['vote_count'].notnull()]['vote_count'].astype('int')

In [17]:
vote_average2 = movies_metadata[movies_metadata['vote_average'].notnull()]['vote_average'].astype('int')

In [18]:
C = vote_average2.mean()
print(f'The Mean value of the voting averages: {C}')

The Mean value of the voting averages: 5.244896612406511


In [19]:
m = vote_count2.quantile(0.95)
print(f'The minimum vote count for a movie to consider: {m}')

The minimum vote count for a movie to consider: 434.0


In [20]:
# Creating the qualified database-upon whom we shall perfrom the next estimations
qualified = movies_metadata[(movies_metadata['vote_count'] >= m) & (movies_metadata['vote_count'].notnull()) & (movies_metadata['vote_average'].notnull())][['title', 'year', 'vote_count', 'vote_average', 'popularity', 'genres']]

In [21]:
qualified['vote_count'] = qualified['vote_count'].astype('int')

In [22]:
qualified['vote_average'] = qualified['vote_average'].astype('int')

In [23]:
print(f'The structure of the qualified database is: {qualified.shape}')

The structure of the qualified database is: (2274, 6)


In [24]:
qualified[:5]

Unnamed: 0,title,year,vote_count,vote_average,popularity,genres
0,Toy Story,1995,5415,7,21.946943,"[Animation, Comedy, Family]"
1,Jumanji,1995,2413,6,17.015539,"[Adventure, Fantasy, Family]"
5,Heat,1995,1886,7,17.924927,"[Action, Crime, Drama, Thriller]"
9,GoldenEye,1995,1194,6,14.686036,"[Adventure, Action, Thriller]"
15,Casino,1995,1343,7,10.137389,"[Drama, Crime]"


*สรุป* 
- ภาพยนต์จะต้องมีคะแนนโหวตอย่างน้อย 494 votes ใน TMDB 
- average rating ของภาพยนต์ใน TMDB คือ 5.244 เต็ม 10 
- มี 2274 เรื่อง ที่ตรงตามคุณสมบัติที่กำหนดข้างต้น

In [25]:
def weighted_rating(x):
    v = x['vote_count']
    R = x['vote_average']
    return (v / (v + m) * R) + (m / (v + m) * C)

In [26]:
qualified['wr'] = qualified.apply(weighted_rating, axis = 1)

In [27]:
qualified = qualified.sort_values('wr', ascending = False).head(250)

## 3.4 Top Movies

In [28]:
qualified.head(10)

Unnamed: 0,title,year,vote_count,vote_average,popularity,genres,wr
15480,Inception,2010,14075,8,29.108149,"[Action, Thriller, Science Fiction, Mystery, A...",7.917588
12481,The Dark Knight,2008,12269,8,123.167259,"[Drama, Action, Crime, Thriller]",7.905871
22879,Interstellar,2014,11187,8,32.213481,"[Adventure, Drama, Science Fiction]",7.897107
2843,Fight Club,1999,9678,8,63.869599,[Drama],7.881753
4863,The Lord of the Rings: The Fellowship of the Ring,2001,8892,8,32.070725,"[Adventure, Fantasy, Action]",7.871787
292,Pulp Fiction,1994,8670,8,140.950236,"[Thriller, Crime]",7.86866
314,The Shawshank Redemption,1994,8358,8,51.645403,"[Drama, Crime]",7.864
7000,The Lord of the Rings: The Return of the King,2003,8226,8,29.324358,"[Adventure, Fantasy, Action]",7.861927
351,Forrest Gump,1994,8147,8,48.307194,"[Comedy, Drama, Romance]",7.860656
5814,The Lord of the Rings: The Two Towers,2002,7641,8,29.423537,"[Adventure, Fantasy, Action]",7.851924


*ข้อสังเกต*  
- ภาพยนตร์ของคริสโตเฟอร์ โนแลน 3 เรื่อง ได้แก่ Inception, The Dark Knight และ Interstellar ติดอันดับสูงสุดใน chart 
- chart ยังระบุถึงอคติที่รุนแรงของผู้ใช้ TMDB ที่มีต่อประเภทและผู้กำกับที่เฉพาะเจาะจง

## 3.3 Top Movies for particular genre

สร้าง chart สำหรับแต่ละประเภท (genre) ของแต่ละภาพยนต์ และใช้ 85th percentile 

In [29]:
genre_movies_metadata = movies_metadata 

In [30]:
genre_movies_metadata = genre_movies_metadata.explode('genres')

In [31]:
genre_movies_metadata[['title', 'year', 'vote_count', 'vote_average', 'popularity', 'genres']].head(10)

Unnamed: 0,title,year,vote_count,vote_average,popularity,genres
0,Toy Story,1995,5415.0,7.7,21.946943,Animation
0,Toy Story,1995,5415.0,7.7,21.946943,Comedy
0,Toy Story,1995,5415.0,7.7,21.946943,Family
1,Jumanji,1995,2413.0,6.9,17.015539,Adventure
1,Jumanji,1995,2413.0,6.9,17.015539,Fantasy
1,Jumanji,1995,2413.0,6.9,17.015539,Family
2,Grumpier Old Men,1995,92.0,6.5,11.7129,Romance
2,Grumpier Old Men,1995,92.0,6.5,11.7129,Comedy
3,Waiting to Exhale,1995,34.0,6.1,3.859495,Comedy
3,Waiting to Exhale,1995,34.0,6.1,3.859495,Drama


In [32]:
def build_chart(genre, percentile = 0.85):
    df = genre_movies_metadata[genre_movies_metadata['genres'] == genre]
    vote_count3 = df[df['vote_count'].notnull()]['vote_count'].astype('int')
    vote_average3 = df[df['vote_average'].notnull()]['vote_average'].astype('int')
    C = vote_average3.mean()
    m = vote_count3.quantile(percentile)
    
    qualified = df[(df['vote_count'] >= m) & (df['vote_count'].notnull()) & (df['vote_average'].notnull())][['title', 'year', 'vote_count', 'vote_average', 'popularity']]
    qualified['vote_count'] = qualified['vote_count'].astype('int')
    qualified['vote_average'] = qualified['vote_average'].astype('int')
    
    qualified['wr'] = qualified.apply(lambda x: (x['vote_count'] / (x['vote_count'] + m) * x['vote_average']) + (m / (x['vote_count'] + m) * C), axis = 1)
    qualified = qualified.sort_values('wr', ascending = False).head(250)
    
    return qualified

In [33]:
genre_movies_metadata['genres'].unique()

array(['Animation', 'Comedy', 'Family', 'Adventure', 'Fantasy', 'Romance',
       'Drama', 'Action', 'Crime', 'Thriller', 'Horror', 'History',
       'Science Fiction', 'Mystery', 'War', 'Foreign', nan, 'Music',
       'Documentary', 'Western', 'TV Movie', 'Carousel Productions',
       'Vision View Entertainment', 'Telescene Film Group Productions',
       'Aniplex', 'GoHands', 'BROSTA TV',
       'Mardock Scramble Production Committee', 'Sentai Filmworks',
       'Odyssey Media', 'Pulser Productions', 'Rogue State', 'The Cartel'],
      dtype=object)

### 3.3.1 Top Horror Movies

https://www.imdb.com/search/title/?genres=horror&title_type=feature&explore=genres

In [34]:
build_chart(genre = 'Horror').head(10)

Unnamed: 0,title,year,vote_count,vote_average,popularity,wr
1213,The Shining,1980,3890,8,19.611589,7.901294
1176,Psycho,1960,2405,8,36.826309,7.843335
1171,Alien,1979,4564,7,23.37742,6.941936
41492,Split,2016,4461,7,28.920839,6.940631
14236,Zombieland,2009,3655,7,11.063029,6.927969
1158,Aliens,1986,3282,7,21.761179,6.920081
21276,The Conjuring,2013,3169,7,14.90169,6.917338
42169,Get Out,2017,2978,7,36.894806,6.912248
1338,Jaws,1975,2628,7,19.726114,6.901088
8147,Shaun of the Dead,2004,2479,7,14.902948,6.895426


### 3.3.2 Top Romantic Movies

In [35]:
build_chart(genre = 'Romance').head(10)

Unnamed: 0,title,year,vote_count,vote_average,popularity,wr
10309,Dilwale Dulhania Le Jayenge,1995,661,9,34.457024,8.565285
351,Forrest Gump,1994,8147,8,48.307194,7.971357
876,Vertigo,1958,1162,8,18.20822,7.811667
40251,Your Name.,2016,1030,8,34.461252,7.789489
883,Some Like It Hot,1959,835,8,11.845107,7.745154
1132,Cinema Paradiso,1988,834,8,14.177005,7.744878
19901,Paperman,2012,734,8,7.198633,7.713951
37863,Sing Street,2016,669,8,10.672862,7.689483
882,The Apartment,1960,498,8,11.994281,7.599317
38718,The Handmaiden,2016,453,8,16.727405,7.566166


**[Back to Table of Contents](#8)**

***

<a id="4"></a> 
# 4. Content-based filtering

ระบบแนะนำภาพยนต์ที่ได้สร้างไว้ก่อนหน้านี้มีข้อจำกัด ได้แก่ การให้คำแนะนำแบบเดียวกับผู้ใช้ทุกคน โดยไม่ได้คำนึงถึงรสนิยมส่วนตัวของผู้ใช้ ถ้าคนที่รักภาพยนต์ประเภท Romance และไม่ชอบภาพยนต์ประเภท Action ได้ดู Top 10 Chart ก็จะไม่ชอบภาพยนต์เหล่านั้น และถ้าไปดู Chart ตาม Genre กก็ยังไม่ได้รับคำแนะนำที่ดีที่สุด เช่น ถ้าคนรัก Dilwale Dulhania Le Jayenge, My Name is Khan และ Kabhi Khushi Kabhi Gham สามารถอนุมานได้อย่างหนึ่งว่า บุคคลนั้นรักนักแสดง ชาห์รุกห์ ข่าน และผู้กำกับ การาน โจฮาร์ แม้ว่าเขาจะต้องเข้าถึง Chart Romance เขาจะไม่พบว่าสิ่งเหล่านี้เป็นคำแนะนำอันดับต้น ๆ


**Content-based filtering (การคัดกรองผ่านลักษณะสินค้าที่เหมือนกัน)** เป็นการคัดกรองที่ระบบจะแนะนำสินค้าที่มีลักษณะคล้ายกับสิ่งที่ผู้ใช้งานคนนั้นเคยสนใจในอดีต 

![](https://image.ibb.co/f6mDXU/conten.png)


We will build two Content Based Recommenders based on:

    1.) Movie Overviews and Taglines (Movie Description Based Recommender)
    2.) Movie Cast, Crew, Keywords and Genre (Director, Cast, Genres and Keywords Based Recommender)

## 4.1 Movie Description Based Recommender

### 4.1.1 Cleaning the Dataset

In [36]:
links_small = pd.read_csv('The Movies Dataset/links_small.csv')

In [37]:
links_small.head()

Unnamed: 0,movieId,imdbId,tmdbId
0,1,114709,862.0
1,2,113497,8844.0
2,3,113228,15602.0
3,4,114885,31357.0
4,5,113041,11862.0


In [38]:
links_small.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9125 entries, 0 to 9124
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   movieId  9125 non-null   int64  
 1   imdbId   9125 non-null   int64  
 2   tmdbId   9112 non-null   float64
dtypes: float64(1), int64(2)
memory usage: 214.0 KB


In [39]:
links_small.isna().sum()

movieId     0
imdbId      0
tmdbId     13
dtype: int64

In [40]:
links_small = links_small[links_small['tmdbId'].notnull()]['tmdbId'].astype('int')

In [41]:
links_small.head()

0      862
1     8844
2    15602
3    31357
4    11862
Name: tmdbId, dtype: int32

In [42]:
links_small.isna().sum()

0

In [43]:
# Deleting the unwanted input rows
movies_metadata = movies_metadata.drop([19730, 29503, 35587])

In [44]:
movies_metadata['id'] = movies_metadata['id'].astype('int')

In [45]:
movies_metadata_small = movies_metadata[movies_metadata['id'].isin(links_small)]

In [46]:
print(f'The structure of the movies metadata small is: {movies_metadata_small.shape}')

The structure of the movies metadata small is: (9099, 25)


### 4.1.2 Pre-Processing the overview and tagline columns

In [47]:
movies_metadata_small['tagline'] = movies_metadata_small['tagline'].fillna('')

In [48]:
movies_metadata_small['description'] = movies_metadata_small['overview'] + movies_metadata_small['tagline']
movies_metadata_small['description'] = movies_metadata_small['description'].fillna('')

In [49]:
movies_metadata_small['description'].head()

0    Led by Woody, Andy's toys live happily in his ...
1    When siblings Judy and Peter discover an encha...
2    A family wedding reignites the ancient feud be...
3    Cheated on, mistreated and stepped on, the wom...
4    Just when George Banks has recovered from his ...
Name: description, dtype: object

### 4.1.3 TF-IDF Vectoriser

`TF-IDF` หรือ **Term Frequency-Inverse Document Frequency** เป็นหนึ่งในวิธีหา “คำ(term)” ที่สำคัญ ใน “เอกสาร(document)” โดยดูจากเนื้อหาของเอกสารทั้งหมด โดยวัดจากค่าของ Term Frequency และ Inverse Document Frequency 

![](https://bigdata.go.th/wp-content/uploads/2020/09/TF-1.png)

![](https://bigdata.go.th/wp-content/uploads/2020/09/IDF-1-768x130.png)

![](https://bigdata.go.th/wp-content/uploads/2020/09/TFIDF-1-300x68.png)

In [50]:
tf = TfidfVectorizer(analyzer = 'word', 
                     ngram_range = (1, 2), 
                     min_df = 0, 
                     stop_words = 'english')
tfidf_matrix = tf.fit_transform(movies_metadata_small['description'])

In [51]:
print(f'No. of feature_words: {tfidf_matrix.shape}')

No. of feature_words: (9099, 268124)


*สรุป*  
มีการใช้คำ 268124 คำ เพื่ออธิบายภาพยนต์ 9099 เรื่อง

### 4.1.4 Cosine Similarity

`Cosine Similarity` หรือ **ความคล้ายคลึงแบบโคไซน์** คือ การหาความเหมือนของข้อมูล โดยใช้ค่าโคไซน์จากการวัดค่าข้อมูลเป็นลายลักษณ์อักษรในเทคนิคการกรองแบบอิงเนื้อหา (Content-Based Filtering) จะถูกใช้เพื่อวัดความเหมือนระหว่างเวกเตอร์ของน้ำหนัก TF-IDF ค่าโคไซน์จะมีค่าอยู่ระหว่าง 0 ถึง 1 ยกตัวอย่างเช่น ค่า 1 หมายถึง ข้อมูล A และข้อมูล B มีลักษณะข้อมูลที่เหมือนกัน และส่วนของค่า 0 นั้นหมายถึงข้อมูล A และข้อมูล B มีลักษณะข้อมูลที่ไม่เหมือนกัน โดยมีที่มาจากกฏสามเหลี่ยมคือ cos(θ) = ชิด/ฉาก โดยที่ A และ B คือรายการที่ต่างกัน 

ใช้ `cosine similarity` ในการคำนวณตัวเลขเชิงปริมาณที่แสดงถึงความคล้ายคลึงกันระหว่างภาพยนตร์สองเรื่อง เราใช้คะแนนความคล้ายคลึงกันของโคไซน์เนื่องจากไม่ขึ้นอยู่กับขนาดและคำนวณได้ง่ายและรวดเร็ว ในทางคณิตศาสตร์กำหนดไว้ดังนี้

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/0a4c9a778656537624a3303e646559a429868863)

![](https://media.licdn.com/dms/image/C4E12AQF9Q-nIc3bkhQ/article-inline_image-shrink_1500_2232/0/1535343574742?e=1687996800&v=beta&t=FagULUTkUOMLNoq7O_DoQQY-c5BQ_WdVq9GoIteg27o)

เนื่องจากเราใช้ `TF-IDF Vectorizer` การคำนวณ Dot Product จะทำให้เราได้คะแนนความคล้ายคลึงกันของโคไซน์โดยตรง ดังนั้น เราจะใช้ `linear_kernel` ของ `sklearn` แทน `cosine_similarities` เนื่องจากเร็วกว่ามาก

In [52]:
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

In [53]:
cosine_sim[0]

array([1.        , 0.00680476, 0.        , ..., 0.        , 0.00344913,
       0.        ])

### 4.1.5 Get Recommendations

In [54]:
movies_metadata_small = movies_metadata_small.reset_index()
titles = movies_metadata_small['title']
indices = pd.Series(movies_metadata_small.index, index = movies_metadata_small['title'])

In [55]:
# Function that takes in movie title as input and outputs most similar movies
def get_recommendations(title, cosine_sim = cosine_sim):
    # Get the index of the movie that matches the title
    idx = indices[title]

    # Get the pairwsie similarity scores of all movies with that movie
    sim_scores = list(enumerate(cosine_sim[idx]))

    # Sort the movies based on the similarity scores
    sim_scores = sorted(sim_scores, key = lambda x: x[1], reverse = True)

    # Get the scores of the 10 most similar movies
    sim_scores = sim_scores[1:11]

    # Get the movie indices
    movie_indices = [i[0] for i in sim_scores]

    # Return the top 10 most similar movies
    return titles.iloc[movie_indices]

In [56]:
movie = '3 Idiots'
print(f'Description of the Movie: {movie}')
print('---------------------------------------------------------------------')
print(movies_metadata_small[movies_metadata_small['title'] == movie]['overview'])
print('---------------------------------------------------------------------')
print(f'Recommendations: ')
get_recommendations(movie, cosine_sim = cosine_sim)

Description of the Movie: 3 Idiots
---------------------------------------------------------------------
7422    In the tradition of “Ferris Bueller’s Day Off”...
Name: overview, dtype: object
---------------------------------------------------------------------
Recommendations: 


2336                             Ferris Bueller's Day Off
8161                                  Student of the Year
262                                              Outbreak
2658                                  The Next Best Thing
4378    Come Back to the 5 & Dime, Jimmy Dean, Jimmy Dean
1861                                   Enemy of the State
3098                                          Bring It On
7866                                            Contagion
4543                                    What a Girl Wants
5373                                              College
Name: title, dtype: object

In [57]:
movie = 'The Dark Knight Rises'
print(f'Description of the Movie: {movie}')
print('---------------------------------------------------------------------')
print(movies_metadata_small[movies_metadata_small['title'] == movie]['overview'])
print('---------------------------------------------------------------------')
print(f'Recommendations: ')
get_recommendations(movie, cosine_sim = cosine_sim)

Description of the Movie: The Dark Knight Rises
---------------------------------------------------------------------
7931    Following the death of District Attorney Harve...
Name: overview, dtype: object
---------------------------------------------------------------------
Recommendations: 


132                              Batman Forever
6900                            The Dark Knight
1113                             Batman Returns
2579               Batman: Mask of the Phantasm
524                                      Batman
7565                 Batman: Under the Red Hood
7901                           Batman: Year One
8227    Batman: The Dark Knight Returns, Part 2
6144                              Batman Begins
8165    Batman: The Dark Knight Returns, Part 1
Name: title, dtype: object

In [58]:
movie = 'The Dark Knight'
print(f'Description of the Movie: {movie}')
print('---------------------------------------------------------------------')
print(movies_metadata_small[movies_metadata_small['title'] == movie]['overview'])
print('---------------------------------------------------------------------')
print(f'Recommendations: ')
get_recommendations(movie, cosine_sim = cosine_sim)

Description of the Movie: The Dark Knight
---------------------------------------------------------------------
6900    Batman raises the stakes in his war on crime. ...
Name: overview, dtype: object
---------------------------------------------------------------------
Recommendations: 


7931                      The Dark Knight Rises
132                              Batman Forever
1113                             Batman Returns
8227    Batman: The Dark Knight Returns, Part 2
7565                 Batman: Under the Red Hood
524                                      Batman
7901                           Batman: Year One
2579               Batman: Mask of the Phantasm
2696                                        JFK
8165    Batman: The Dark Knight Returns, Part 1
Name: title, dtype: object

*ข้อสังเกต*  
เห็นได้ว่าสำหรับ **The Dark Knight** ระบบแนะนำสามารถระบุได้ว่าภาพยนตร์เรื่องนี้เป็นภาพยนตร์ **Batman** และแนะนำภาพยนตร์ Batman เรื่องอื่นเป็นรายการแนะนำอันดับต้น ๆ ในภายหลัง การดำเนินการนี้ไม่มีประโยชน์มากนักสำหรับคนส่วนใหญ่ เนื่องจากไม่คำนึงถึงคุณสมบัติที่สำคัญมาก เช่น `cast` (นักแสดง), `crew` (ทีมงาน) `director` (ผู้กำกับ) และ `genre` (ประเภท) ซึ่งเป็นตัวกำหนดเรทติ้งและความนิยมของภาพยนตร์ คนที่ชอบ **The Dark Knight** อาจจะชอบเรื่องนี้มากกว่าเพราะ **Noland** และจะไม่ชอบ **Batman Forever** และหนังที่ไม่ได้มาตรฐานทุกเรื่องในแฟรนไชส์ **Batman**

*สรุป*  
ดังนั้น เราจะใช้ระบบแนะนำที่มากกว่า `Overview` และ `Tagline` ในส่วนถัดไป โดยสร้างระบบแนะนำที่ซับซ้อนขึ้นโดยคำนึงถึง `genre`, `keywords`, `cast`, `director` และ `crew`

## 4.2 Director, Cast, Genres and Keywords Based Recommender

### 4.2.1 Cleaning the Dataset

In [59]:
credits = pd.read_csv('The Movies Dataset/credits.csv')
keywords = pd.read_csv('The Movies Dataset/keywords.csv')

In [60]:
credits.head()

Unnamed: 0,cast,crew,id
0,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",862
1,"[{'cast_id': 1, 'character': 'Alan Parrish', '...","[{'credit_id': '52fe44bfc3a36847f80a7cd1', 'de...",8844
2,"[{'cast_id': 2, 'character': 'Max Goldman', 'c...","[{'credit_id': '52fe466a9251416c75077a89', 'de...",15602
3,"[{'cast_id': 1, 'character': ""Savannah 'Vannah...","[{'credit_id': '52fe44779251416c91011acb', 'de...",31357
4,"[{'cast_id': 1, 'character': 'George Banks', '...","[{'credit_id': '52fe44959251416c75039ed7', 'de...",11862


In [61]:
keywords.head()

Unnamed: 0,id,keywords
0,862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290,..."
1,8844,"[{'id': 10090, 'name': 'board game'}, {'id': 1..."
2,15602,"[{'id': 1495, 'name': 'fishing'}, {'id': 12392..."
3,31357,"[{'id': 818, 'name': 'based on novel'}, {'id':..."
4,11862,"[{'id': 1009, 'name': 'baby'}, {'id': 1599, 'n..."


In [62]:
credits.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   cast    45476 non-null  object
 1   crew    45476 non-null  object
 2   id      45476 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 1.0+ MB


In [63]:
keywords.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46419 entries, 0 to 46418
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        46419 non-null  int64 
 1   keywords  46419 non-null  object
dtypes: int64(1), object(1)
memory usage: 725.4+ KB


In [64]:
keywords['id'] = keywords['id'].astype('int')
credits['id'] = credits['id'].astype('int')
movies_metadata['id'] = movies_metadata['id'].astype('int')

movies_metadata.shape

(45463, 25)

In [65]:
movies_metadata = movies_metadata.merge(keywords, on = 'id')
movies_metadata = movies_metadata.merge(credits, on = 'id')

In [66]:
movies_metadata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 46628 entries, 0 to 46627
Data columns (total 28 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  46628 non-null  object 
 1   belongs_to_collection  4574 non-null   object 
 2   budget                 46628 non-null  object 
 3   genres                 46628 non-null  object 
 4   homepage               8009 non-null   object 
 5   id                     46628 non-null  int32  
 6   imdb_id                46611 non-null  object 
 7   original_language      46617 non-null  object 
 8   original_title         46628 non-null  object 
 9   overview               45633 non-null  object 
 10  popularity             46624 non-null  object 
 11  poster_path            46229 non-null  object 
 12  production_companies   46628 non-null  object 
 13  production_countries   46628 non-null  object 
 14  release_date           46540 non-null  object 
 15  re

In [67]:
movies_metadata_small = movies_metadata[movies_metadata['id'].isin(links_small)]
movies_metadata_small.shape

(9219, 28)

### 4.2.2 Pre-Processing the cast, crew and keywords columns

In [68]:
movies_metadata_small.head(1)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,popularity,poster_path,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count,year,keywords,cast,crew
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[Animation, Comedy, Family]",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",21.946943,/rhIRbceoE9lR4veEXuwCC2wARtG.jpg,[Pixar Animation Studios],[United States of America],1995-10-30,373554033.0,81.0,[English],Released,,Toy Story,False,7.7,5415.0,1995,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290,...","[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de..."


In [69]:
print(movies_metadata_small['cast'][0])

[{'cast_id': 14, 'character': 'Woody (voice)', 'credit_id': '52fe4284c3a36847f8024f95', 'gender': 2, 'id': 31, 'name': 'Tom Hanks', 'order': 0, 'profile_path': '/pQFoyx7rp09CJTAb932F2g8Nlho.jpg'}, {'cast_id': 15, 'character': 'Buzz Lightyear (voice)', 'credit_id': '52fe4284c3a36847f8024f99', 'gender': 2, 'id': 12898, 'name': 'Tim Allen', 'order': 1, 'profile_path': '/uX2xVf6pMmPepxnvFWyBtjexzgY.jpg'}, {'cast_id': 16, 'character': 'Mr. Potato Head (voice)', 'credit_id': '52fe4284c3a36847f8024f9d', 'gender': 2, 'id': 7167, 'name': 'Don Rickles', 'order': 2, 'profile_path': '/h5BcaDMPRVLHLDzbQavec4xfSdt.jpg'}, {'cast_id': 17, 'character': 'Slinky Dog (voice)', 'credit_id': '52fe4284c3a36847f8024fa1', 'gender': 2, 'id': 12899, 'name': 'Jim Varney', 'order': 3, 'profile_path': '/eIo2jVVXYgjDtaHoF19Ll9vtW7h.jpg'}, {'cast_id': 18, 'character': 'Rex (voice)', 'credit_id': '52fe4284c3a36847f8024fa5', 'gender': 2, 'id': 12900, 'name': 'Wallace Shawn', 'order': 4, 'profile_path': '/oGE6JqPP2xH4tN

In [70]:
print(movies_metadata_small['crew'][0])

[{'credit_id': '52fe4284c3a36847f8024f49', 'department': 'Directing', 'gender': 2, 'id': 7879, 'job': 'Director', 'name': 'John Lasseter', 'profile_path': '/7EdqiNbr4FRjIhKHyPPdFfEEEFG.jpg'}, {'credit_id': '52fe4284c3a36847f8024f4f', 'department': 'Writing', 'gender': 2, 'id': 12891, 'job': 'Screenplay', 'name': 'Joss Whedon', 'profile_path': '/dTiVsuaTVTeGmvkhcyJvKp2A5kr.jpg'}, {'credit_id': '52fe4284c3a36847f8024f55', 'department': 'Writing', 'gender': 2, 'id': 7, 'job': 'Screenplay', 'name': 'Andrew Stanton', 'profile_path': '/pvQWsu0qc8JFQhMVJkTHuexUAa1.jpg'}, {'credit_id': '52fe4284c3a36847f8024f5b', 'department': 'Writing', 'gender': 2, 'id': 12892, 'job': 'Screenplay', 'name': 'Joel Cohen', 'profile_path': '/dAubAiZcvKFbboWlj7oXOkZnTSu.jpg'}, {'credit_id': '52fe4284c3a36847f8024f61', 'department': 'Writing', 'gender': 0, 'id': 12893, 'job': 'Screenplay', 'name': 'Alec Sokolow', 'profile_path': '/v79vlRYi94BZUQnkkyznbGUZLjT.jpg'}, {'credit_id': '52fe4284c3a36847f8024f67', 'depart

In [71]:
print(movies_metadata_small['keywords'][0])

[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': 'toy'}, {'id': 5202, 'name': 'boy'}, {'id': 6054, 'name': 'friendship'}, {'id': 9713, 'name': 'friends'}, {'id': 9823, 'name': 'rivalry'}, {'id': 165503, 'name': 'boy next door'}, {'id': 170722, 'name': 'new toy'}, {'id': 187065, 'name': 'toy comes to life'}]


In [72]:
# Parse the stringified features into their corresponding python objects
features = ['cast', 'crew', 'keywords']
for feature in features:
    movies_metadata_small[feature] = movies_metadata_small[feature].apply(literal_eval)

***

**`Director`**

In [73]:
# Get the director's name from the crew feature. If director is not listed, return NaN
def get_director(x):
    for i in x:
        if i['job'] == 'Director':
            return i['name']
    return np.nan

In [74]:
movies_metadata_small['director'] = movies_metadata_small['crew'].apply(get_director)

In [75]:
movies_metadata_small['director'][:10]

0      John Lasseter
1       Joe Johnston
2      Howard Deutch
3    Forest Whitaker
4      Charles Shyer
5       Michael Mann
6     Sydney Pollack
7       Peter Hewitt
8        Peter Hyams
9    Martin Campbell
Name: director, dtype: object

***

**`Cast`**

In [76]:
# Returns the list top 4 elements or entire list; whichever is more.
def get_list(x):
    if isinstance(x, list):
        names = [i['name'] for i in x]
        # Check if more than 4 elements exist. If yes, return only first three. If no, return entire list.
        if len(names) >= 4:
            names = names[:4]
        return names

    # Return empty list in case of missing/malformed data
    return []

In [77]:
movies_metadata_small['cast'] = movies_metadata_small['cast'].apply(get_list)

In [78]:
movies_metadata_small['cast'][:10]

0      [Tom Hanks, Tim Allen, Don Rickles, Jim Varney]
1    [Robin Williams, Jonathan Hyde, Kirsten Dunst,...
2    [Walter Matthau, Jack Lemmon, Ann-Margret, Sop...
3    [Whitney Houston, Angela Bassett, Loretta Devi...
4    [Steve Martin, Diane Keaton, Martin Short, Kim...
5    [Al Pacino, Robert De Niro, Val Kilmer, Jon Vo...
6    [Harrison Ford, Julia Ormond, Greg Kinnear, An...
7    [Jonathan Taylor Thomas, Brad Renfro, Rachael ...
8    [Jean-Claude Van Damme, Powers Boothe, Dorian ...
9    [Pierce Brosnan, Sean Bean, Izabella Scorupco,...
Name: cast, dtype: object

***

**`keywords`**

In [79]:
movies_metadata_small['keywords'] = movies_metadata_small['keywords'].apply(lambda x: [i['name'] for i in x] if isinstance(x, list) else [])

In [80]:
movies_metadata_small['keywords'][:10]

0    [jealousy, toy, boy, friendship, friends, riva...
1    [board game, disappearance, based on children'...
2    [fishing, best friend, duringcreditsstinger, o...
3    [based on novel, interracial relationship, sin...
4    [baby, midlife crisis, confidence, aging, daug...
5    [robbery, detective, bank, obsession, chase, s...
6    [paris, brother brother relationship, chauffeu...
7                                                   []
8      [terrorist, hostage, explosive, vice president]
9    [cuba, falsely accused, secret identity, compu...
Name: keywords, dtype: object

In [81]:
movies_metadata_small[['title', 'cast', 'director', 'keywords', 'genres']].head(5)

Unnamed: 0,title,cast,director,keywords,genres
0,Toy Story,"[Tom Hanks, Tim Allen, Don Rickles, Jim Varney]",John Lasseter,"[jealousy, toy, boy, friendship, friends, riva...","[Animation, Comedy, Family]"
1,Jumanji,"[Robin Williams, Jonathan Hyde, Kirsten Dunst,...",Joe Johnston,"[board game, disappearance, based on children'...","[Adventure, Fantasy, Family]"
2,Grumpier Old Men,"[Walter Matthau, Jack Lemmon, Ann-Margret, Sop...",Howard Deutch,"[fishing, best friend, duringcreditsstinger, o...","[Romance, Comedy]"
3,Waiting to Exhale,"[Whitney Houston, Angela Bassett, Loretta Devi...",Forest Whitaker,"[based on novel, interracial relationship, sin...","[Comedy, Drama, Romance]"
4,Father of the Bride Part II,"[Steve Martin, Diane Keaton, Martin Short, Kim...",Charles Shyer,"[baby, midlife crisis, confidence, aging, daug...",[Comedy]


*next step*

- **Strip Spaces and Convert to Lowercase** from all our features. This way, our engine will not confuse between Johnny Depp and Johnny Galecki.

- **Mention Director 3 times** to give it more weight relative to the entire cast


In [82]:
movies_metadata_small['cast'] = movies_metadata_small['cast'].apply(lambda x: [str.lower(i.replace(" ", "")) for i in x])

In [83]:
movies_metadata_small['director'] = movies_metadata_small['director'].astype('str').apply(lambda x: str.lower(x.replace(" ", "")))
movies_metadata_small['director'] = movies_metadata_small['director'].apply(lambda x: [x, x, x])

In [84]:
movies_metadata_small[['title', 'cast', 'director', 'keywords', 'genres']].head(5)

Unnamed: 0,title,cast,director,keywords,genres
0,Toy Story,"[tomhanks, timallen, donrickles, jimvarney]","[johnlasseter, johnlasseter, johnlasseter]","[jealousy, toy, boy, friendship, friends, riva...","[Animation, Comedy, Family]"
1,Jumanji,"[robinwilliams, jonathanhyde, kirstendunst, br...","[joejohnston, joejohnston, joejohnston]","[board game, disappearance, based on children'...","[Adventure, Fantasy, Family]"
2,Grumpier Old Men,"[waltermatthau, jacklemmon, ann-margret, sophi...","[howarddeutch, howarddeutch, howarddeutch]","[fishing, best friend, duringcreditsstinger, o...","[Romance, Comedy]"
3,Waiting to Exhale,"[whitneyhouston, angelabassett, lorettadevine,...","[forestwhitaker, forestwhitaker, forestwhitaker]","[based on novel, interracial relationship, sin...","[Comedy, Drama, Romance]"
4,Father of the Bride Part II,"[stevemartin, dianekeaton, martinshort, kimber...","[charlesshyer, charlesshyer, charlesshyer]","[baby, midlife crisis, confidence, aging, daug...",[Comedy]


### 4.2.3 Stemming

`Stemming` คือ กระบวนการเรียนรู้แบบฮิวริสติก (heuristic process) ซึ่ง**คำลงท้ายจะถูกตัดออก** เป็นการยับยั้งเกิดจากคำพูดโดยที่ไม่รู้บริบท ตัวอย่างเช่น คำว่า jumped และ jumps อาจลดลงเป็น jump ในขณะที่ jumpiness อาจลดลงถึง jumpi

`Keywords`

In [85]:
s = movies_metadata_small.apply(lambda x: pd.Series(x['keywords']), axis = 1).stack().reset_index(level = 1, drop = True)
s.name = 'keyword'

In [86]:
s = s.value_counts()
s[:10]

independent film        610
woman director          550
murder                  399
duringcreditsstinger    327
based on novel          318
violence                264
love                    222
musical                 219
sex                     219
suspense                212
Name: keyword, dtype: int64

In [87]:
s = s[s > 1]

In [88]:
stemmer = SnowballStemmer('english')
stemmer.stem('sportingly'), stemmer.stem('dogs'), stemmer.stem('goodness')

('sport', 'dog', 'good')

In [89]:
def filter_keywords(x):
    words = []
    for i in x:
        if i in s:
            words.append(i)
    return words

In [90]:
movies_metadata_small['keywords'] = movies_metadata_small['keywords'].apply(filter_keywords)
movies_metadata_small['keywords'] = movies_metadata_small['keywords'].apply(lambda x: [stemmer.stem(i) for i in x])
movies_metadata_small['keywords'] = movies_metadata_small['keywords'].apply(lambda x: [str.lower(i.replace(" ", "")) for i in x])

In [91]:
movies_metadata_small[['title', 'cast', 'director', 'keywords', 'genres']].head(5)

Unnamed: 0,title,cast,director,keywords,genres
0,Toy Story,"[tomhanks, timallen, donrickles, jimvarney]","[johnlasseter, johnlasseter, johnlasseter]","[jealousi, toy, boy, friendship, friend, rival...","[Animation, Comedy, Family]"
1,Jumanji,"[robinwilliams, jonathanhyde, kirstendunst, br...","[joejohnston, joejohnston, joejohnston]","[boardgam, disappear, basedonchildren'sbook, n...","[Adventure, Fantasy, Family]"
2,Grumpier Old Men,"[waltermatthau, jacklemmon, ann-margret, sophi...","[howarddeutch, howarddeutch, howarddeutch]","[fish, bestfriend, duringcreditssting]","[Romance, Comedy]"
3,Waiting to Exhale,"[whitneyhouston, angelabassett, lorettadevine,...","[forestwhitaker, forestwhitaker, forestwhitaker]","[basedonnovel, interracialrelationship, single...","[Comedy, Drama, Romance]"
4,Father of the Bride Part II,"[stevemartin, dianekeaton, martinshort, kimber...","[charlesshyer, charlesshyer, charlesshyer]","[babi, midlifecrisi, confid, age, daughter, mo...",[Comedy]


### 4.2.4  CountVectorizer

`Count Vectorizer` คือ การนำกลุ่มของ token มาสร้างเป็น matrix โดยใช้กลุ่มของคำที่มีเป็นตัวอ้างอิง คำที่มีในประโยคจะถูกตั้งค่าเป็น 1 คำที่ไม่มีจะเป็น 0 เช่น   
มีกลุ่มของคำ `[“This”, “is”, “am”, “are”, “a”, “be”, “test”, “word”, “sentence”]`   
ประโยค `“This is a test sentence”`   
จะแปลงเป็น matrix ได้ดังนี้ `[1, 1, 0, 0, 1, 0, 1, 0 ,1]`  

ใช้ `CountVectorizer()` แทน `TF-IDF` เพราะ ไม่ต้องการลดน้ำหนักการแสดงของนักแสดง/ผู้กำกับ หากแสดงหรือกำกับภาพยนตร์ค่อนข้างมาก มันไม่สมเหตุสมผลเลย

**`soup`**

In [92]:
movies_metadata_small['soup'] = movies_metadata_small['keywords'] + movies_metadata_small['cast'] + movies_metadata_small['director'] + movies_metadata_small['genres']
movies_metadata_small['soup'] = movies_metadata_small['soup'].apply(lambda x: ' '.join(x))

In [93]:
movies_metadata_small[['title', 'cast', 'director', 'keywords', 'genres', 'soup']].head(5)

Unnamed: 0,title,cast,director,keywords,genres,soup
0,Toy Story,"[tomhanks, timallen, donrickles, jimvarney]","[johnlasseter, johnlasseter, johnlasseter]","[jealousi, toy, boy, friendship, friend, rival...","[Animation, Comedy, Family]",jealousi toy boy friendship friend rivalri boy...
1,Jumanji,"[robinwilliams, jonathanhyde, kirstendunst, br...","[joejohnston, joejohnston, joejohnston]","[boardgam, disappear, basedonchildren'sbook, n...","[Adventure, Fantasy, Family]",boardgam disappear basedonchildren'sbook newho...
2,Grumpier Old Men,"[waltermatthau, jacklemmon, ann-margret, sophi...","[howarddeutch, howarddeutch, howarddeutch]","[fish, bestfriend, duringcreditssting]","[Romance, Comedy]",fish bestfriend duringcreditssting waltermatth...
3,Waiting to Exhale,"[whitneyhouston, angelabassett, lorettadevine,...","[forestwhitaker, forestwhitaker, forestwhitaker]","[basedonnovel, interracialrelationship, single...","[Comedy, Drama, Romance]",basedonnovel interracialrelationship singlemot...
4,Father of the Bride Part II,"[stevemartin, dianekeaton, martinshort, kimber...","[charlesshyer, charlesshyer, charlesshyer]","[babi, midlifecrisi, confid, age, daughter, mo...",[Comedy],babi midlifecrisi confid age daughter motherda...


In [94]:
count = CountVectorizer(analyzer = 'word', 
                        ngram_range = (1, 2), 
                        min_df = 0, 
                        stop_words = 'english')
count_matrix = count.fit_transform(movies_metadata_small['soup'])

In [95]:
print(f'No. of feature_words: {count_matrix.shape}')

No. of feature_words: (9219, 119620)


*สรุป*  
มีการใช้คำ 119620 คำ เพื่ออธิบายภาพยนต์ 9219 เรื่อง

### 4.2.5 Cosine Similarity

ใช้ `cosine similarity` ในการคำนวณตัวเลขเชิงปริมาณที่แสดงถึงความคล้ายคลึงกันระหว่างภาพยนตร์สองเรื่อง เราใช้คะแนนความคล้ายคลึงกันของโคไซน์เนื่องจากไม่ขึ้นอยู่กับขนาดและคำนวณได้ง่ายและรวดเร็ว ในทางคณิตศาสตร์กำหนดไว้ดังนี้

![](https://wikimedia.org/api/rest_v1/media/math/render/svg/0a4c9a778656537624a3303e646559a429868863)



In [96]:
cosine_sim_2 = cosine_similarity(count_matrix, count_matrix)

In [97]:
cosine_sim_2[0]

array([1.        , 0.02328101, 0.02594996, ..., 0.        , 0.        ,
       0.        ])

### 4.2.6 Get Recommendations

In [98]:
movies_metadata_small = movies_metadata_small.reset_index()
titles = movies_metadata_small['title']
indices = pd.Series(movies_metadata_small.index, index = movies_metadata_small['title'])

In [99]:
movie = 'The Dark Knight'
print(f'Recommendations: ')
get_recommendations(movie, cosine_sim = cosine_sim_2)

Recommendations: 


8031         The Dark Knight Rises
6218                 Batman Begins
6623                  The Prestige
2085                     Following
7648                     Inception
4145                      Insomnia
3381                       Memento
8613                  Interstellar
7659    Batman: Under the Red Hood
1134                Batman Returns
Name: title, dtype: object

*สรุป*  
ระแบบแนะนำภาพยนต์อื่น ๆ ของ **Christopher Nolan** เป็นอันดับต้น ๆ ในรายการ เนื่องจาก `Director` มีน้ำหนักมาก 

*ตัวอย่างภาพยนต์ของ **Christopher Nolan***

    1.) Batman Begins (2005) แบทแมน บีกินส์
    2.) The Dark Knight (2008) แบทแมน อัศวินรัตติกาล
    3.) The Dark Knight Rises (2012) แบทแมน อัศวินรัตติกาล ผงาด
    4.) Dunkirk (2017) ดันเคิร์ก
    5.) Following (1998) แกะรอยอาชญากรซ่อนเขี้ยว
    6.) Inception (2010) จิตพิฆาตโลก
    7.) Memento (2000) ภาพหลอนซ่อนรอยมรณะ
    8.) Insomnia (2002) เกมเขย่าขั้วอำมหิต
    9.) The Prestige (2006) ศึกมายากลหยุดโลก
    10.) Interstellar (2014) ทะยานดาวกู้โลก

In [100]:
movie = 'Mean Girls'
print(f'Recommendations: ')
get_recommendations(movie, cosine_sim = cosine_sim_2)

Recommendations: 


3319               Head Over Heels
4763                 Freaky Friday
1329              The House of Yes
6277              Just Like Heaven
7905         Mr. Popper's Penguins
7332    Ghosts of Girlfriends Past
6959     The Spiderwick Chronicles
8883                      The DUFF
6698         It's a Boy Girl Thing
7377       I Love You, Beth Cooper
Name: title, dtype: object

### 4.2.7 Improve Recommendations

สิ่งหนึ่งที่เราสังเกตเห็นเกี่ยวกับระบบแนะนำของเรา คือ ระบบแนะนำภาพยนตร์โดยไม่คำนึงถึง **`Popularity and Ratings`** เป็นความจริงที่ **Batman and Robin** มีตัวละครที่คล้ายกันมากเมื่อเทียบกับ **The Dark Knight** แต่มันเป็นภาพยนต์ที่แย่มากที่ไม่ควรแนะนำให้ใครดู

ดังนั้นเราจะเพิ่มกลไกในการลบภาพยนตร์ที่ไม่ดี และส่งคืนภาพยนตร์ที่ได้รับความนิยมและได้รับการตอบรับอย่างดี

ใช้ภาพยนต์ 25 อันดับแรกมาวัดจากคะแนนความเหมือน และคำนวณคะแนนของภาพยนต์ 50th percentile จากนั้นใช้สิ่งนี้เป็นค่าของ m แล้วคำนวณการจัด rating แบบถ่วงน้ำหนักของภาพยนตร์แต่ละเรื่องโดยใช้สูตรของ IMDB เช่นเดียวกับที่ทำในส่วน Demographic Filtering

**`Popularity and Ratings`**

In [101]:
def improved_recommendations(title, cosine_sim = cosine_sim_2):
    idx = indices[title]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key = lambda x: x[1], reverse = True)
    sim_scores = sim_scores[1:26]
    movie_indices = [i[0] for i in sim_scores]
    
    movies = movies_metadata_small.iloc[movie_indices][['title', 'vote_count', 'vote_average', 'year']]
    vote_counts = movies[movies['vote_count'].notnull()]['vote_count'].astype('int')
    vote_averages = movies[movies['vote_average'].notnull()]['vote_average'].astype('int')
    C = vote_averages.mean()
    m = vote_counts.quantile(0.50)
    qualified = movies[(movies['vote_count'] >= m) & (movies['vote_count'].notnull()) & (movies['vote_average'].notnull())]
    qualified['vote_count'] = qualified['vote_count'].astype('int')
    qualified['vote_average'] = qualified['vote_average'].astype('int')
    qualified['wr'] = qualified.apply(weighted_rating, axis = 1)
    qualified = qualified.sort_values('wr', ascending = False).head(10)
    return qualified

In [102]:
movie = 'The Dark Knight'
print(f'Recommendations: ')
improved_recommendations(movie, cosine_sim = cosine_sim_2)

Recommendations: 


Unnamed: 0,title,vote_count,vote_average,year,wr
7648,Inception,14075,8,2010,7.917588
8613,Interstellar,11187,8,2014,7.897107
6623,The Prestige,4510,8,2006,7.758148
3381,Memento,4168,8,2000,7.740175
8031,The Dark Knight Rises,9263,7,2012,6.921448
6218,Batman Begins,7511,7,2005,6.904127
1134,Batman Returns,1706,6,1992,5.846862
4145,Insomnia,1181,6,2002,5.797081
132,Batman Forever,1529,5,1995,5.054144
9162,London Has Fallen,1656,5,2016,5.050854


In [103]:
movie = 'Mean Girls'
print(f'Recommendations: ')
improved_recommendations(movie, cosine_sim = cosine_sim_2)

Recommendations: 


Unnamed: 0,title,vote_count,vote_average,year,wr
1547,The Breakfast Club,2189,7,1985,6.709602
390,Dazed and Confused,588,7,1993,6.254682
8883,The DUFF,1372,6,2015,5.818541
3712,The Princess Diaries,1063,6,2001,5.781086
4763,Freaky Friday,919,6,2003,5.757786
6277,Just Like Heaven,595,6,2005,5.681521
6959,The Spiderwick Chronicles,593,6,2008,5.680901
6449,Aquamarine,372,5,2006,5.131867
2005,She's All That,425,5,1999,5.123731
7494,American Pie Presents: The Book of Love,454,5,2009,5.11969


In [104]:
improved_recommendations('Mrs. Doubtfire')

Unnamed: 0,title,vote_count,vote_average,year,wr
3840,Harry Potter and the Philosopher's Stone,7188,7,2001,6.900064
4366,Harry Potter and the Chamber of Secrets,5966,7,2002,6.880982
519,Home Alone,2487,7,1990,6.739228
2388,Home Alone 2: Lost in New York,2459,6,1992,5.886721
7538,Percy Jackson & the Olympians: The Lightning T...,2079,6,2010,5.869592
2553,Bicentennial Man,998,6,1999,5.771149
1958,Stepmom,286,6,1998,5.54484
837,Homeward Bound: The Incredible Journey,218,6,1993,5.49737
2833,Parenthood,177,6,1989,5.463642
1708,Adventures in Babysitting,169,6,1987,5.456526


**[Back to Table of Contents](#8)**

***

<a id="5"></a> 
# 5. Collaborative filtering

**Collaborative filtering (การคัดกรองผ่านลักษณะของผู้ใช้งานที่เหมือนกัน)** เป็นการคัดกรองสินค้าโดยคำนึงถึงพฤติกรรมของผู้ใช้งานที่มีลักษณะคล้ายกับผู้ใช้งานผู้นี้ด้วย โดยมีสมมติฐานว่า ผู้ใช้ลักษณะคล้ายกันมีแนวโน้มจะชื่นชอบสินค้าคล้ายกัน 


## 5.1 Import Dataset

In [105]:
ratings = pd.read_csv('The Movies Dataset/ratings_small.csv')

In [106]:
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144
1,1,1029,3.0,1260759179
2,1,1061,3.0,1260759182
3,1,1129,2.0,1260759185
4,1,1172,4.0,1260759205


In [107]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100004 entries, 0 to 100003
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100004 non-null  int64  
 1   movieId    100004 non-null  int64  
 2   rating     100004 non-null  float64
 3   timestamp  100004 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 3.1 MB


In [108]:
movies_metadata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 46628 entries, 0 to 46627
Data columns (total 28 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  46628 non-null  object 
 1   belongs_to_collection  4574 non-null   object 
 2   budget                 46628 non-null  object 
 3   genres                 46628 non-null  object 
 4   homepage               8009 non-null   object 
 5   id                     46628 non-null  int32  
 6   imdb_id                46611 non-null  object 
 7   original_language      46617 non-null  object 
 8   original_title         46628 non-null  object 
 9   overview               45633 non-null  object 
 10  popularity             46624 non-null  object 
 11  poster_path            46229 non-null  object 
 12  production_companies   46628 non-null  object 
 13  production_countries   46628 non-null  object 
 14  release_date           46540 non-null  object 
 15  re

## 5.2 Singular Value Decomposition (SVD)

`Singular Value Decomposition (SVD)` คือ วิธีแยกตัวประกอบยอดนิยม โดย SVD จะทำการแปลง matrix ขนาดใหญ่ ออกเป็น 3 matrix ขนาดเล็กกว่า ที่คูณกันแล้วได้เท่ากับ matrix ต้นทาง ซึ่งทั้ง 3 matrix ใหม่ที่ได้ออกมานั้นจะมีคุณสมบัติพิเศษบางอย่างทำให้สามาถรนำมาใช้งานวิเคราะห์ข้อมูลได้ดีขึ้น

![](https://upload.wikimedia.org/wikipedia/commons/thumb/c/c8/Singular_value_decomposition_visualisation.svg/412px-Singular_value_decomposition_visualisation.svg.png)

![](https://scontent.fhdy1-1.fna.fbcdn.net/v/t39.8562-6/240830512_3327345744159123_4259402309984662581_n.png?_nc_cat=108&ccb=1-7&_nc_sid=6825c5&_nc_eui2=AeGgzHC65zFO3E0mawDmDfw9VOsoDh6jg0RU6ygOHqODROBdbXiG9rbU3uPaiWhcdpEqjkWNagPXxK_GHaNX3t6d&_nc_ohc=vNxdBKQhcYAAX9xr1lQ&_nc_ht=scontent.fhdy1-1.fna&oh=00_AfAvq7WlhPCcRMaEx8MsjEJs4N0Mls-_6nTV7d3drvcykg&oe=64574D12)

[ข้อมูลเพิ่มเติม](https://www.bualabs.com/archives/2971/lsa-latent-semantic-analysis-text-classification-singular-value-decomposition-svd-non-negative-matrix-factorization-nmf-nlp-ep-4/)

In [109]:
reader = Reader()
data = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)

In [110]:
svd = SVD()

In [111]:
cross_validate = cross_validate(svd, data, measures = ['RMSE', 'MAE'], cv = 5)
cross_validate

{'test_rmse': array([0.88956128, 0.89472458, 0.90924076, 0.90255909, 0.89325499]),
 'test_mae': array([0.68535229, 0.68498445, 0.69969208, 0.69394879, 0.69049588]),
 'fit_time': (1.1200649738311768,
  1.149083137512207,
  1.11808443069458,
  1.2130913734436035,
  1.3551013469696045),
 'test_time': (0.14702296257019043,
  0.31502294540405273,
  0.15600919723510742,
  0.16351819038391113,
  0.17301464080810547)}

In [112]:
mean_rmse = cross_validate['test_rmse'].mean()
print(f'mean of RMSE: {mean_rmse:.4f}')

mean of RMSE: 0.8979


In [113]:
trainset = data.build_full_trainset()
svd.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x24cd2c08850>

In [114]:
user_rating = pd.merge(ratings, movies_metadata, left_on = 'movieId', right_on = 'id', how = 'inner')

In [115]:
user_ratings_final = user_rating[['userId', 'movieId', 'rating', 'original_title', 'genres']]

In [116]:
user_ratings = user_ratings_final.sort_values(by = 'userId')

In [117]:
user_ratings.head(10)

Unnamed: 0,userId,movieId,rating,original_title,genres
0,1,1371,2.5,Rocky III,[Drama]
93,1,2105,4.0,American Pie,"[Comedy, Romance]"
140,1,2193,2.0,My Tutor,"[Comedy, Drama, Romance]"
47,1,1405,1.0,Greed,"[Drama, History]"
182,1,2294,2.0,Jay and Silent Bob Strike Back,[Comedy]
235,1,2455,2.5,Vivement dimanche!,"[Drama, Comedy, Crime]"
2038,2,272,3.0,Batman Begins,"[Action, Crime, Drama]"
1965,2,266,5.0,Le Mépris,[Drama]
282,2,17,5.0,The Dark,"[Horror, Thriller, Mystery]"
5758,2,592,5.0,The Conversation,"[Crime, Drama, Mystery]"


## 5.3 Prediction

ตรวจสอบ `userId 7` ว่าให้ `rating` ภาพยนต์ที่ดูเท่าไร   
แล้ว `predicted` ว่า `userId 7` ให้ `rating` ภาพยนต์เรื่องใหม่เท่าไร ?

In [118]:
user_ratings[user_ratings['userId'] == 7]

Unnamed: 0,userId,movieId,rating,original_title,genres
18645,7,671,4.0,Harry Potter and the Philosopher's Stone,"[Adventure, Fantasy, Family]"
4200,7,500,3.0,Reservoir Dogs,"[Crime, Thriller]"
18739,7,745,5.0,The Sixth Sense,"[Mystery, Thriller, Drama]"
18801,7,780,3.0,La passion de Jeanne d'Arc,"[Drama, History]"
11487,7,1376,3.0,Sweet Sixteen,"[Crime, Drama]"
48,7,1405,5.0,Greed,"[Drama, History]"
8557,7,260,5.0,The 39 Steps,"[Action, Thriller, Mystery]"
4770,7,539,3.0,Psycho,"[Drama, Horror, Thriller]"
3242,7,377,3.0,A Nightmare on Elm Street,[Horror]
19019,7,786,2.0,Almost Famous,"[Drama, Music]"


*ข้อสังเกต*  
`userId 7` ดูภาพยนต์หลายเรื่อง หลาย `genre` เช่น Action และ Drama

ดังนั้นเพื่อทดสอบกับผู้ใช้รายนี้ ให้เลือกภาพยนต์สองเรื่องที่เขายังไม่ได้ดู แล้วทำนาย `rating` ของเขาในเรื่องเดียวกัน

In [119]:
movie = movies_metadata['original_title'] == 'The Conjuring'
movies_metadata[movie][['original_title', 'id']]

Unnamed: 0,original_title,id
21475,The Conjuring,138843


In [120]:
svd.predict(uid = 7, iid = 138843, r_ui = 3)

Prediction(uid=7, iid=138843, r_ui=3, est=3.2944465063347854, details={'was_impossible': False})

*ข้อสังเกต*  
`est=3.3381320358160123` เท่ากับ `rating` ปานกลาง หากดูจากภาพยนต์ที่ `userId 7` เคยดู ส่วนใหญ่เขาให้ `rating 3 - 5 คะแนน`

*สรุป*  
สำหรับภาพยนตร์ `id 138843` ได้ `estimated prediction เท่ากับ 2.618` คุณสมบัติที่น่าตกใจประการหนึ่งของระบบผู้แนะนำนี้คือมันไม่สนใจว่าภาพยนตร์คือเรื่องอะไร (หรือประกอบด้วยอะไรบ้าง) มันทำงานบนพื้นฐานของรหัสภาพยนตร์ที่กำหนดเท่านั้น และพยายามทำนายการจัด `rating` ตามวิธีที่ผู้ใช้รายอื่นทำนายภาพยนตร์

In [121]:
movie = movies_metadata['original_title'] == 'The Shawshank Redemption'
movies_metadata[movie][['original_title', 'id']]

Unnamed: 0,original_title,id
314,The Shawshank Redemption,278


In [122]:
svd.predict(uid = 7, iid = 278, r_ui = 3)

Prediction(uid=7, iid=278, r_ui=3, est=3.1582968609563244, details={'was_impossible': False})

**[Back to Table of Contents](#8)**

***

<a id="6"></a> 
# 6. Hybrid Recommender

ในส่วนนี้ จะสร้าง `Hybrid Recommender` อย่างง่าย ที่รวบรวมเทคนิค `Content-based filtering และ Collaborative filtering`   
นี่คือวิธีการทำงาน:

- **`Input:`** `User ID` และ `Title ของภาพยนตร์`

- **`Output:`** ภาพยนตร์ที่คล้ายกันจัดเรียงตามการจัด `ratings` ที่คาดหวังโดยผู้ใช้รายนั้นๆ

In [123]:
def convert_int(x):
    try:
        return int(x)
    except:
        return np.nan

In [124]:
id_map = pd.read_csv('The Movies Dataset/links_small.csv')[['movieId', 'tmdbId']]
id_map['tmdbId'] = id_map['tmdbId'].apply(convert_int)
id_map.columns = ['movieId', 'id']
id_map = id_map.merge(movies_metadata_small[['title', 'id']], on = 'id').set_index('title')

In [125]:
indices_map = id_map.set_index('id')

In [126]:
def hybrid(userId, title, cosine_sim = cosine_sim_2):
    idx = indices[title]
    tmdbId = id_map.loc[title]['id']
    #print(idx)
    movie_id = id_map.loc[title]['movieId']
    
    sim_scores = list(enumerate(cosine_sim[int(idx)]))
    sim_scores = sorted(sim_scores, key = lambda x: x[1], reverse = True)
    sim_scores = sim_scores[1:26]
    movie_indices = [i[0] for i in sim_scores]
    
    movies = movies_metadata_small.iloc[movie_indices][['title', 'vote_count', 'vote_average', 'year', 'id']]
    movies['est'] = movies['id'].apply(lambda x: svd.predict(userId, indices_map.loc[x]['movieId']).est)
    movies = movies.sort_values('est', ascending = False)
    return movies.head(10)

In [127]:
hybrid(userId = 7, title = 'Inception')

Unnamed: 0,title,vote_count,vote_average,year,id,est
6981,The Dark Knight,12269.0,8.3,2008,155,4.070275
3381,Memento,4168.0,8.1,2000,77,4.001828
8613,Interstellar,11187.0,8.1,2014,157336,3.819975
6623,The Prestige,4510.0,8.0,2006,1124,3.818131
6218,Batman Begins,7511.0,7.5,2005,272,3.59316
6640,Déjà Vu,1519.0,6.6,2006,7551,3.584676
8031,The Dark Knight Rises,9263.0,7.6,2012,49026,3.539103
4145,Insomnia,1181.0,6.8,2002,320,3.480917
4173,Minority Report,2663.0,7.1,2002,180,3.478914
5580,The Three Lives of Thomasina,12.0,6.8,1963,15081,3.407616


In [128]:
hybrid(userId = 25, title = 'Inception')

Unnamed: 0,title,vote_count,vote_average,year,id,est
6981,The Dark Knight,12269.0,8.3,2008,155,4.268279
3381,Memento,4168.0,8.1,2000,77,3.877529
6623,The Prestige,4510.0,8.0,2006,1124,3.820019
8613,Interstellar,11187.0,8.1,2014,157336,3.620049
6218,Batman Begins,7511.0,7.5,2005,272,3.613059
8031,The Dark Knight Rises,9263.0,7.6,2012,49026,3.544642
4173,Minority Report,2663.0,7.1,2002,180,3.5263
6640,Déjà Vu,1519.0,6.6,2006,7551,3.423516
8207,Looper,4777.0,6.6,2012,59967,3.318764
7948,Stake Land,290.0,6.2,2010,52015,3.299071


*สรุป*  
จะเห็นว่าสำหรับ **Hybrid Recommender** ผลลัพธ์ให้คำแนะนำที่แตกต่างกันสำหรับผู้ใช้ที่แตกต่างกัน แม้ว่าภาพยนตร์จะเหมือนกันก็ตาม   
ดังนั้น คำแนะนำจึงมีความเป็นส่วนตัวมากขึ้น และปรับให้เหมาะกับผู้ใช้แต่ละรายโดยเฉพาะ

**[Back to Table of Contents](#8)**

***

<a id="7"></a> 
# 7. Reference

kaggle:
- https://www.kaggle.com/code/ibtesama/getting-started-with-a-movie-recommendation-system
- https://www.kaggle.com/code/paramarthasengupta/movies-recommendation-tool-approaching-patterns
- https://www.kaggle.com/code/rounakbanik/movie-recommender-systems
- https://www.kaggle.com/code/sagarbapodara/movie-recommendation-system-web-app

Recommendation System:
- https://bigdata.go.th/movements/youtube-recommendation-system/
- http://ir-ithesis.swu.ac.th/dspace/bitstream/123456789/1166/1/gs621130235.pdf

SVD:
- https://www.bualabs.com/archives/2971/lsa-latent-semantic-analysis-text-classification-singular-value-decomposition-svd-non-negative-matrix-factorization-nmf-nlp-ep-4/

TF-IDF & CountVectorizer:
- https://bigdata.go.th/big-data-101/tf-idf-1/
- https://medium.com/mmp-li/%E0%B8%A5%E0%B8%94%E0%B8%A1%E0%B8%B4%E0%B8%95%E0%B8%B4%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%A1%E0%B8%B9%E0%B8%A5%E0%B9%80%E0%B8%9E%E0%B8%B7%E0%B9%88%E0%B8%AD%E0%B8%97%E0%B8%B3-recommender-system-by-unsupervised-learning-ca8ff80a563