<a href="https://colab.research.google.com/github/toche7/DSEssentials/blob/main/Lab7_Model_Selection_STD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lab. 7 Model Development

ขั้นตอนในการทำพัฒนาแบบจำลองสามารถแบ่งได้ 2 ขั้นตอนดังนี้

1. ขั้นตอนการประเมินแบบจำลอง \(Model Validation\)
2. ขั้นตอนการคัดเลือกแบบจำลอง \(Model Selection\)



## 7.1 Model Validation

ในการประเมินแบบจำลอง หมายถึงกระบวนการในการวัดประสิทธิภาพของแบบจำลอง เพื่อที่จะใช้ในกระบวนการคัดเลือกหรือเปรียบเทียบประสิทธิภาพระหว่างแบบจำลองซึ่งสามารถทำได้สองวิธีดังนี้

1. Hold\-Out Method
2. Cross\-Validation Method

https://scikit-learn.org/stable/modules/cross_validation.html


### 7.1.1 Hold\-Out Method



![](https://miro.medium.com/v2/resize:fit:720/format:webp/1*iZpmWiVeFn0bcuMZ_yiEdw.jpeg)


Theory

https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation

Library

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#




```python
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)

```




ตัวแปรสำคัญในการใช้คำสั่ง
* *arrarys: ข้อมูลที่ใช้ในการแบ่งสามารถใส่เข้ามาหลายๆ ชุดพร้อมกัน ได้
* test_size: float หรือ int, default = None, ถ้าเป็น 0.0-1 ก็จะทำการแบ่งข้อมูลไปตามขนาดสัดส่วนของ test_size และส่วนที่เหลือจะไปเป็น train set ถ้าเป็นจำนวนเต็มก็จะหมายถึงค่าจำนวนข้อมูลที่จะแบ่งไป   แต่ถ้าเป็น None ก็จะกำหนดให้กำหนดเป็น 0.25
* train_size: float หรือ int, default = None, จะเป็นข้อมูลส่วนจะนำไปฝึกแบบจำลอง โดยจะเป็นแบ่งตามค่า float ที่กำหนด ถ้าเป็นเลขจำนวนเต็มก็จะกำหนดค่าตามนั้น ถ้าเป็น none ก็จะใช้ส่วนที่เหลือจาก test set มาใช้
* random_state: int, default = None, กำหนดค่า seed ให้กับตัวกำสร้าง random โดยค่านี้จะถูกใช้ในการทำ  shuffle ข้อมูลที่จะทำก่อนการแบ่ง


โดยจะส่งค่ากลับมา list ที่แบ่งออกเป็นสองส่วนแล้ว

### Example 1

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split


In [None]:
X = np.arange(20).reshape((10, 2))
y = range(10)
X

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,  y, test_size=0.5, random_state= None)

### Example 2

* "from" จะให้กำหนดเป้าหมายในการดึง module ออกมา
* "import" เป็นนำเข้า module เข้ามา จะดึงมาได้เฉพาะที่เป็น module (file) เท่านั้น
* "as" เป็นการตั้งชื่อเล่น เพื่อจะเรียกให้ง่ายขึ้น
* "import module_y "from" func_x "import"  จะดึงมาได้บางส่วนของ module


``` python
import sklearn as sk
from sklearn.model_selection import train_test_split as tt
```



In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets

In [None]:
from sklearn.svm import SVC

In [None]:
X, y = datasets.load_iris(return_X_y=True)
X.shape, y.shape

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=None)


In [None]:
# X_train.shape, y_train.shape, X_test.shape, y_test.shape

In [None]:
clf = SVC(kernel='linear', C=1)
clf.fit(X_train, y_train)
Acc = clf.score(X_test, y_test)

print('size X_train: ', X_train.shape)
print('size X_test: ', X_test.shape)
print('Acc: %.4f' % Acc )

#### ผลกระทบของการ random state และขนาดของการแบ่งข้อมูล

In [None]:
n = 10
size = 0.3
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = size, random_state=0)
print('size X_train: ', X_train.shape)
print('size X_test: ', X_test.shape)
for i in range(1,n):
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = size, random_state=0)
  clf = SVC(kernel='linear', C=1).fit(X_train, y_train)
  Acc = clf.score(X_test, y_test)
  print('Acc: %.4f' % Acc )


#### ทดลอง
ทดลองปรับค่า random_state = None

In [None]:
n = 10
size = 0.3
for i in range(1,n):
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = size, random_state=None)
  clf = SVC(kernel='linear', C=1).fit(X_train, y_train)
  Acc = clf.score(X_test, y_test)
  print('Acc: %.4f' % Acc )

#### ทดลอง
ทดลองปรับค่า  test_size ไปเป็น ค่าอื่น เช่น 0.3, 0.2, 0.1

In [None]:
n = 10
size = 0.4
for i in range(1,n):
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = size, random_state=0)
  clf = SVC(kernel='linear', C=1).fit(X_train, y_train)
  Acc = clf.score(X_test, y_test)
  print('Acc: %.4f' % Acc )

### 7.1.2 Cross\-Validation Method



![](https://www.section.io/engineering-education/how-to-implement-k-fold-cross-validation/5-fold-cv.jpeg)


Theory

https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation

Library

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html




``` python
from sklearn.model_selection import cross_val_score
scores = cross_val_score(modelObject, X, y, cv= 5, scoring = 'f1_macro')
```



ตัวแปรแบบที่สำคัญ
* modelObject คือตัว object ของ model ที่จะใช้ในการประเมิน
* X,y คือชุดข้อมูลที่จะทำการประเมิน
* cv คือจำนวนการแบ่งข้อมูลที่จะทำการ cross validation
* scoring คือค่าการวัดที่จะทำการตรวจสอบด้วย cross validatoin โดยสามารถดูได้จาก  https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

### Example 3

In [None]:
from sklearn.model_selection import cross_val_score
clf = SVC(kernel='linear', C=1, random_state=42)


In [None]:
scores = cross_val_score(clf, X, y, cv=10)
scores

In [None]:
print("%0.2f accuracy with a standard deviation of %0.2f" % (scores.mean(), scores.std()))

ทดลองเปลี่ยนค่า scoring

In [None]:
scores = cross_val_score(clf, X, y, cv=10, scoring='f1_macro')  # defined the score types
scores.mean()

#### ทดลอง
ทดลองปรับค่า fold  (cv) ไปเป็น 10 fold ให้  score เป็น ‘precision’  แบบ  micro average แล้วทำการวัดผลอีกครั้ง

https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

โดยหลักการแล้วนั้น  Cross\-Validation จะให้ความน่าเชื่อถือมากกว่าการใช้ Hold\-Out Method  ส่วนวิธีการ Hold\-Out Method ก็จะมีข้อดีในเรื่องของความเร็วในการประมวลผล โดยส่วนใหญ่แล้วถ้าการทดสอบไหนที่แบบจำลองมีขนาดใหญ่ หรือปริมาณข้อมูลขนาดใหญ่เราจะนิยมใช้เป็น Hold\-Out Method เช่นงานทางด้าน image processing และ  NLP เป็นต้น  ส่วนการทดลองใดที่สามารถทำได้เร็วก็จะนิยมทำด้วยวิธี Cross\-Validation



## 7.2 Model Selection

ในข้อมูลชุดหนึ่งนั้นเราสามารถที่จะสร้างแบบจำลองได้หลายประเภท โดยในแต่ละประเภทเราสามารถสร้างแบบจำลองที่แตกต่างด้วยการปรับพารามิเตอร์ที่เกี่ยวข้องให้แตกต่างกันออกไป สิ่งที่ได้ก็คือเราจะได้โมเดลที่มีประสิทธิภาพแตกต่างกันหลังจากนั้นเราจะเลือกเอาโมเดลที่มีประสิทธิภาพมากที่สุดไปใช้งาน

Hyperparameter Turing หมายถึงกระบวนการปรับพารามิเตอร์ที่เกี่ยวข้องเพื่อให้ได้ประสิทธิภาพมากที่สุด โดยจะต้องมีการทดสอบพารามิเตอร์ที่แตกต่างกันแล้วเอาค่าที่ดีที่สุดไปใช้งาน

https://scikit-learn.org/stable/modules/grid_search.html

การเลือกแบบจำลองนอกจากจะเลือกจากแบบจำลองชนิดเดียวกันแล้วเรายังจะต้องเปรียบเทียบแบบจำลองที่เป็นคนละชนิดกันโดยจะเปรียบเทียบแบบจำลองที่แตกต่างกันที่มีการเลือกพารามิเตอร์ที่ดีที่สุดออกมาแล้ว

Theory

https://scikit-learn.org/stable/modules/grid_search.html#grid-search


Library

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV





```python
from sklearn.model_selection import GridSearchCV
gridSearch = GridSearchCV(modelObject, parameters, cv = 5)
gridSearch.fit(X, y)

```



| Method | Description |
| :------------ | :---------------------------------------------------------- |
| fit\(X, y \) | Fit the model according to the given training data. |


ตัวแปรแบบที่สำคัญ
* modelObject คือตัว object ของ model ที่จะใช้ในการประเมิน
* X,y คือชุดข้อมูลที่จะทำการประเมิน
* cv คือจำนวนการแบ่งข้อมูลที่จะทำการ cross validation
* scoring คือค่าการวัดที่จะทำการตรวจสอบด้วย cross
* parameters เป็น dictionary ของตัวแปรที่จะนำไปทำการค้นหา

### Example 4
Grid Search Cross-Validation with Support Vector Machine

In [None]:
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV
X,y = datasets.load_iris(return_X_y=True)

parameters = {'kernel':['linear', 'rbf'], 'C':[1,2,3,4]}

svc = SVC()

gS = GridSearchCV(svc, parameters, cv = 5, scoring =  None)
gS.fit(X, y)
sorted(gS.cv_results_.keys())

In [None]:
#gS.cv_results_

In [None]:
#gS.cv_results_['rank_test_score']

In [None]:
#gS.best_estimator_

In [None]:
#gS.best_score_

In [None]:
#gS.best_params_

In [None]:
#gS.best_estimator_.predict(X)

In [None]:
#gS.best_estimator_.score(X,y)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

In [None]:
plt.bar(np.arange(1,9), gS.cv_results_['mean_test_score'])
plt.ylim(0.9, 1)

## Example 5

Grid Search Cross-Validation with Decision Tree Model

In [None]:
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
X,y = datasets.load_iris(return_X_y= True)


In [None]:
parameters = {'criterion':['gini', 'entropy', 'log_loss'], 'max_depth':[2,3,4,5,6,7,8,9,10]}
mTree =  DecisionTreeClassifier()

In [None]:
gS = GridSearchCV(mTree, parameters, cv = 5)

In [None]:
gS.fit(X,y)
# sorted(gS.cv_results_.keys())

In [None]:
# gS.cv_results_['mean_test_score']

In [None]:
# gS.best_estimator_

In [None]:
# gS.best_params_

In [None]:
# gS.cv_results_['params']

In [None]:
# gS.cv_results_['rank_test_score']

In [None]:
import matplotlib.pyplot as plt
plt.bar(np.arange(1,28), gS.cv_results_['mean_test_score'])
plt.ylim(0.9, 1)

In [None]:
# gS.best_estimator_

In [None]:
# gS.best_params_

In [None]:
# gS.best_score_

In [None]:
# gS.best_estimator_.score(X,y)

In [None]:
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
X,y = datasets.load_iris(return_X_y= True)


In [None]:
y

In [None]:
dt = DecisionTreeClassifier( )

In [None]:
prameter = {'criterion' : ["gini", "entropy", "log_loss"], 'max_depth': [1,2,3,4,5]}

In [None]:
gG = GridSearchCV(dt,prameter)

In [None]:
#gG.fit(X,y)

In [None]:
#gG.best_params_

In [None]:
#gG.best_score_

In [None]:
#gG.cv_results_

In [None]:
#gG.best_estimator_.score(X,y)

Test KNN Model

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
kNN = KNeighborsClassifier()

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
parameters = {'n_neighbors':[1,2,3,4,5,6]}

In [None]:
#gS1 = GridSearchCV(kNN,parameters)

In [None]:
#gS1.fit(X,y)

In [None]:
#gS1.best_params_

In [None]:
#gS1.best_score_