## การจำแนกข้อมูล (Classification with K-Fold Cross Validation and Ensemble): Supervised Learning

### Step 1: การจัดเตรียมข้อมูล

In [None]:
# https://levelup.gitconnected.com/advanced-seaborn-demystifying-the-complex-plots-537582977c8c

import seaborn as sns

data = sns.load_dataset("iris")  # ข้อมูลดอกไอริส
?

### Step 2: Data Visualization

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt

sns.set(style="ticks")
sns.pairplot(?, ?, markers=["o", "s", "D"])  # Pair Plot เพื่อแสดงความสัมพันธ์ระหว่างคอลัมน์ต่าง ๆ โดยกำหนดสี ด้วยผลเฉลยของ สปีชีย์ (hue="species")

plt.show()

### Step 3: Data Encoding

ทำการแปลงข้อมูลผลเฉลย (Target/Label/Answer) คือ สปีชีย์ (species) ให้เป็นตัวเลข ด้วย Label Encoding

In [None]:
import pandas as pd
from sklearn import preprocessing                 # นำเข้า Library ที่จำเป็นในการจัดเตรียมข้อมูล

label_encoder = ?     # สร้างตัวแปรที่จะทำหน้าที่เข้ารหัส (label_encoder) จาก sklearn.preprocessing
data['species'] = pd.DataFrame(label_encoder.fit_transform(?)) # ทำการแปลงคอลัมน์สปีชีย์ (species) ด้วยวิธีการ Label Encoding แล้วเขียนทับลงคอลัมน์เดิม

data

### Step 4: คำนวณความสัมพันธ์ของตัวแปร ด้วย Correlation

Feature Selection: เราจะทราบได้อย่างไร? ว่าควรเลือกคอลัมน์ใดมาใช้ในการเรียนรู้ (Train)

1. sepal length (cm)
2. sepal width (cm)
3. petal length (cm)
4. petal width (cm)


In [None]:
?  # คำนวณค่าความสัมพันธ์(correlation) ระหว่างตัวแปรของข้อมูล (data)

In [None]:
sns.heatmap(?, annot=True) # แสดงผลของค่าความสัมพันธ์ ระหว่างตัวแปร ด้วย Heat Map

### Step 5: สร้างแบบจำลอง (Model)

In [6]:
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier

clf1 = LogisticRegression(random_state=1)
clf2 = GaussianNB()
clf3 = RandomForestClassifier(random_state=1)

### Step 6: K-Fold Cross Validation (ฝึกสอนโดยแบ่งข้อมูลเป็น K ส่วน)

In [7]:
# กำหนดให้ [sepal_width, petal_length] เป็นข้อมูลฝึกสอน (Train) / ลองเปลี่ยนเป็น [petal_length, petal_width]
column_names = ['sepal_width','petal_length']

X, y = ?, ?

In [None]:
print('5-Fold Cross Validation')

techniques = ['Logistic Regression', 'Naive Bayes', 'Random Forest'] # เทคนิคที่ใช้ในการสร้างแบบจำลอง

for clf, technique in zip([clf1, clf2, clf3], techniques):
  scores = model_selection.cross_val_score(clf, X, y, cv=?, scoring='accuracy') # cv=K คือจำนวนของการแบ่ง K-Fold เช่น 5-Fold

  print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), technique)) # คำนวณค่าเฉลี่ย / ส่วนเบี่ยงเบนมาตรฐาน / ของแต่ละแบบจำลอง

### Step 7: Ensemble Voting

เป็นเทคนิคที่นำเลือก ผลการทำนาย ที่ดีที่สุด จากหลายแบบจำลอง (Multiple Model)


In [None]:
#------------------------------------------------------------------------
# แก้ปัญหา Dependency ของ sklearn.externals ที่ Deprecated ไป
#------------------------------------------------------------------------
import six
import sys

sys.modules['sklearn.externals.six'] = six
#------------------------------------------------------------------------

from mlxtend.classifier import ? # EnsembleVoteClassifier

eclf = EnsembleVoteClassifier(clfs=[clf1, clf2, clf3], weights=[1, 1, 1]) # ลองเปลี่ยนค่า weights อยู่ระหว่าง [0-1]

techniques = ['Logistic Regression', 'Naive Bayes', 'Random Forest', 'Ensemble'] # เทคนิคที่ใช้ในการสร้างแบบจำลอง

for clf, technique in zip([clf1, clf2, clf3, eclf], techniques):
  scores = model_selection.cross_val_score(clf, X, y, cv=5, scoring='accuracy') # cv=K คือจำนวนของการแบ่ง K-Fold

  print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), technique)) # คำนวณค่าเฉลี่ย / ส่วนเบี่ยงเบนมาตรฐาน / ของแต่ละแบบจำลอง


### Step 8: Data Visualization


In [None]:
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
import itertools
from mlxtend.plotting import ? # plot_decision_regions

gs = gridspec.GridSpec(2, 2)

fig = plt.figure(figsize=(10, 10))

techniques = ['Logistic Regression', 'Naive Bayes', 'Random Forest', 'Ensemble'] # เทคนิคที่ใช้ในการสร้างแบบจำลอง

for clf, lab, grd in zip([clf1, clf2, clf3, eclf],
                                techniques,
                                itertools.product([0, 1], repeat=2)):
    clf.fit(?, ?) # ระบุค่าที่ต้องการนำไปฝึก (X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])

    fig = plot_decision_regions(X=?, y=?, clf=?)  # ระบุข้อมูลที่ต้องใช้ในการแสดงกราฟ X, y, clf
    plt.title(lab)