# การทดลองที่4 : การทดลองปรับค่าพารามิเตอร์เพื่อสร้างโมเดลการแนะนำสินค้าและการจัดกลุ่ม

## ตอนที่ 1: การทดลองเตรียมข้อมูลและแสดงรายละเอียดข้อมูลเชิงกราฟ

### 1.1 Import Lib (numpy, pandas, matplotlib, sklearn, datetime)

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
from sklearn import model_selection
from sklearn import preprocessing
from sklearn.preprocessing import MultiLabelBinarizer

### 1.2 โหลดข้อมูล MovieLens Dataset file (‘ratings.csv’, ‘movies.csv’, ‘tags.csv’) โดยใช้

In [2]:
data_movies = pd.read_csv('./ml-latest-small/movies.csv')
data_links = pd.read_csv('./ml-latest-small/links.csv')
data_ratings = pd.read_csv('./ml-latest-small/ratings.csv')
data_tags = pd.read_csv('./ml-latest-small/tags.csv')

### 1.3 Data Preprocessing

#### 1.3.1 Data Cleaning

In [3]:
def cleanning(data):
    #clear missing value with median
    data = data.fillna(data.median())
    
    #drop duplicate
    data = data.drop_duplicates()
    
    return data

In [4]:
cleanning(data_movies)
cleanning(data_links)
cleanning(data_ratings)
cleanning(data_tags)

Unnamed: 0,userId,movieId,tag,timestamp
0,2,60756,funny,1445714994
1,2,60756,Highly quotable,1445714996
2,2,60756,will ferrell,1445714992
3,2,89774,Boxing story,1445715207
4,2,89774,MMA,1445715200
...,...,...,...,...
3678,606,7382,for katie,1171234019
3679,606,7936,austere,1173392334
3680,610,3265,gun fu,1493843984
3681,610,3265,heroic bloodshed,1493843978


#### 1.3.2 Data Preparation

##### - เตรียมข้อมูล movie rating ด้วยการดึงข้อมูลปีคศ. (‘year’) จากข้อมูล UTC ‘timestamp’ 

In [5]:
def getyear():
    array = []
    for i in data_ratings['timestamp']:
        array.append(datetime.fromtimestamp(i).year)
    return array
year = getyear()
data_ratings['year'] = year
data_ratings

Unnamed: 0,userId,movieId,rating,timestamp,year
0,1,1,4.0,964982703,2000
1,1,3,4.0,964981247,2000
2,1,6,4.0,964982224,2000
3,1,47,5.0,964983815,2000
4,1,50,5.0,964982931,2000
...,...,...,...,...,...
100831,610,166534,4.0,1493848402,2017
100832,610,168248,5.0,1493850091,2017
100833,610,168250,5.0,1494273047,2017
100834,610,168252,5.0,1493846352,2017


##### - เตรียมข้อมูล movie genre feature โดยกำหนดให้มีคอลัมน์ดังนี้โดยกำหนดให้ปรับรูปแบบ genres เป็น multi-label binarization

In [6]:
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
yey = []
for i in data_movies['genres']:
    genre = i.split('|')
    yey.append(genre)
print(np.array(yey))
array = mlb.fit_transform(yey)
array

[list(['Adventure', 'Animation', 'Children', 'Comedy', 'Fantasy'])
 list(['Adventure', 'Children', 'Fantasy']) list(['Comedy', 'Romance'])
 ... list(['Drama']) list(['Action', 'Animation']) list(['Comedy'])]


array([[0, 0, 1, ..., 0, 0, 0],
       [0, 0, 1, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [7]:
#select movieId and title column from movies
start_col=['movieId','title']
df_movies = pd.DataFrame(data_movies,columns=start_col)

In [8]:
#crete genres to multilabel binarization
li = array
df_genres = pd.DataFrame(data = li, columns= list(mlb.classes_))

In [9]:
#concatinate two dataframe
df_movie_genre = pd.concat([df_movies, df_genres], axis=1, sort=False)
df_movie_genre

Unnamed: 0,movieId,title,(no genres listed),Action,Adventure,Animation,Children,Comedy,Crime,Documentary,...,Film-Noir,Horror,IMAX,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
0,1,Toy Story (1995),0,0,1,1,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
1,2,Jumanji (1995),0,0,1,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,3,Grumpier Old Men (1995),0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,0,0,0,0
3,4,Waiting to Exhale (1995),0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,0,0,0,0
4,5,Father of the Bride Part II (1995),0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),0,1,0,1,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
9738,193583,No Game No Life: Zero (2017),0,0,0,1,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
9739,193585,Flint (2017),0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9740,193587,Bungo Stray Dogs: Dead Apple (2018),0,1,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### 1.4 Data Visualization แสดงกราฟข้อมูลการเปลี่ยนแปลงของ movie genres และ movie rating ในแต่ละปี

In [13]:
#กราฟที่ 1: แสดงกราฟค่า จำนวน released movies ในแต่ละปี
each_year = data_ratings.groupby('year')["year"].count()
each_year

year
1996     6040
1997     1916
1998      507
1999     2439
2000    10061
2001     3922
2002     3478
2003     4014
2004     3274
2005     5818
2006     4059
2007     7110
2008     4349
2009     4163
2010     2301
2011     1690
2012     4657
2013     1664
2014     1439
2015     6616
2016     6701
2017     8200
2018     6418
Name: year, dtype: int64