## k-Nearest Neighbors (k-NN)

### Iris Dataset

#### Train Model

In [1]:
# ================ 0) นำเข้า Library ที่ต้องใช้งาน
# นำเข้า pandas เมื่อต้องการใช้งาน DataFrame
import pandas as pd

# ใช้ข้อมูลเพื่อการทำทดสอบจาก Library ของ scikit-learn โดยนำเข้าส่วน datasets จาก sklearn
from sklearn import datasets

# นำเข้า Library สำหรับการประเมินโมเดลโดยใช้วิธี Train-Test
from sklearn.model_selection import train_test_split


# ================ 1) นำเข้า Library ของเทคนิคจำแนกที่ต้องการใช้ (Decision Tree, k-NN, Naïve Bayes)

# -------------------- 1.1) Decision Tree
# from sklearn import tree

# -------------------- 1.2) k-NN
from sklearn.neighbors import KNeighborsClassifier

# -------------------- 1.3) Naïve Bayes
# from sklearn.naive_bayes import GaussianNB

# ================ 1) จบ


# ================ 2) โหลดและเตรียมข้อมูล (Data Preparation)
#                     ตัวอย่างนี้ ทำการโหลดข้อมูล Iris Dataset เพียงอย่างเดียวเนื่องจากข้อมูลมีการเตรียมมาเรียบร้อยแล้ว
iris = datasets.load_iris()


# ================ 3) ทำ Normalization ข้อมูล ซึ่งต้องทำใน k-NN เสมอ หรือ วิธีการที่มีการใช้ระยะทางเข้ามาเกี่ยวข้อง
#                     Normalization (ปรับ Scale สามารถใช้ Min-Max (MinMaxScaler) หรือ Z-Score (StandardScaler))

# -------------------- 3.1) Z-Score : ทำ Data Normalization ด้วย StandardScaler
#from sklearn.preprocessing import StandardScaler
#scaler = StandardScaler()

# -------------------- 3.2) Min-Max : ทำ Data Normalization ด้วย Min-Max
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()


# -------------------- เรียกใช้ตัว Normalization ที่สร้างไว้ใจ 3.1 หรือ 3.2
scaler.fit(iris.data)
x = scaler.transform(iris.data)

# ================ 3) จบ


# ================ 4) แบ่ง Train-Test โดยแบ่งข้อมูล 70% สำหรับ train และ 30% สำหรับ test
X_train, X_test, y_train, y_test = train_test_split(x, iris.target, test_size=0.3, stratify=iris.target, random_state=1)


# ================ 5) สร้างโมเดล หรือ กระบวนการให้โมเดลเรียนรู้จากข้อมูล

# -------------------- 5.1) สร้างตัวแปรโมเดลตาม Classifer ที่ Import เข้ามา (Decision Tree, k-NN, NB)
# -------------------------- 5.1.1) Decision Tree
# clf = tree.DecisionTreeClassifier()
# -------------------------- 5.1.2) k-NN (n_neighbors คือค่า k หรือจำนวนเพื่อนบ้านที่ใกล้ที่สุด)
clf = KNeighborsClassifier(n_neighbors=1)
# -------------------------- 5.1.3) Naïve Bayes
# clf = GaussianNB()

# -------------------- 5.2) Train โมเดล หรือนำข้อมูลเข้าเพื่อให้โมเดลเรียนรู้
clf.fit(X_train, y_train)

# ================ 5) จบ


#### แสดงผลการทำนายเทียบกับ Class จริงในรูปแบบ DataFrame

In [2]:
# Convert iris to pandas dataframe
df = pd.DataFrame(data=X_test, columns=iris.feature_names)

# Add target column to dataframe
df['class'] = y_test
df['predited_class'] =clf.predict(X_test)

# Map target values to target names
target_names = dict(enumerate(iris.target_names))
df['class'] = df['class'].map(target_names)
df['predited_class'] = df['predited_class'].map(target_names)

# Print dataframe
df[:10]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class,predited_class
0,0.527778,0.583333,0.745763,0.916667,virginica,virginica
1,0.305556,0.791667,0.118644,0.125,setosa,setosa
2,0.083333,0.583333,0.067797,0.083333,setosa,setosa
3,0.166667,0.208333,0.59322,0.666667,virginica,versicolor
4,0.638889,0.416667,0.576271,0.541667,versicolor,versicolor
5,0.5,0.333333,0.508475,0.5,versicolor,versicolor
6,0.666667,0.208333,0.813559,0.708333,virginica,virginica
7,0.527778,0.083333,0.59322,0.583333,versicolor,versicolor
8,0.583333,0.291667,0.728814,0.75,virginica,virginica
9,0.305556,0.791667,0.050847,0.125,setosa,setosa


#### ประเมินประสิทธิภาพ (ดูค่าความถูกต้อง (Accuracy))

In [3]:
clf.score(X_test, y_test)

0.9777777777777777

#### ทดลองเปลี่ยน k เป็น 1, 3, 5 และ 9 ตอบค้่า k ที่ให้ค่าความถูกต้องดีที่สุด และผลความถูกต้องที่ได้

**ตอบ** เลือก k ที่ x เพราะให้ค่าความถูกต้องสูงสุดที่ xx.xx%

### Breast Cancer

#### Train Model

In [14]:
# ================ 0) นำเข้า Library ที่ต้องใช้งาน
# นำเข้า pandas เมื่อต้องการใช้งาน DataFrame
import pandas as pd

# นำเข้า Library สำหรับการประเมินโมเดลโดยใช้วิธี Train-Test
from sklearn.model_selection import train_test_split

# ================ 1) นำเข้า Library ของเทคนิคจำแนกที่ต้องการใช้ (Decision Tree, k-NN, Naïve Bayes)

# -------------------- 1.1) Decision Tree
# from sklearn import tree

# -------------------- 1.2) k-NN
from sklearn.neighbors import KNeighborsClassifier

# -------------------- 1.3) Naïve Bayes
# from sklearn.naive_bayes import GaussianNB

# ================ 1) จบ

# ================ 2) โหลดข้อมูล ฺBreast Cancer เก็บในตัวแปร df_cancer
#                     ตัวอย่างนี้ ต้องอ่านไฟล์ Breast Cancer จาก CSV ไฟล์ใน Google Drive
# อ่านข้อมูล Breast Cancer จาก CSV ไฟล์ใน Google Drive หากเก็บไฟล์ที่ path ใดให้แก้ไข้ path ให้ถูกต้อง
df_cancer= pd.read_csv('/content/drive/MyDrive/Colab Notebooks/4663236_DataScience/Datasets/breastCancer.csv')
df_cancer.head()

# แยกเฉพาะ attributes ไว้ในตัวแปร x0 และเอา "id" ซึ่งไม่ใช้ออกจาก attributes
x0=df_cancer.drop(["id","diagnosis"], axis=1)
# เก็บเฉพาะ class ในตัวแปร y
y=df_cancer.diagnosis.values


# ================ 3) ทำ Normalization ข้อมูล ซึ่งต้องทำใน k-NN เสมอ หรือ วิธีการที่มีการใช้ระยะทางเข้ามาเกี่ยวข้อง
#                     Normalization (ปรับ Scale สามารถใช้ Min-Max (MinMaxScaler) หรือ Z-Score (StandardScaler))

# -------------------- 3.1) Z-Score : ทำ Data Normalization ด้วย StandardScaler
#from sklearn.preprocessing import StandardScaler
#scaler = StandardScaler()

# -------------------- 3.2) Min-Max : ทำ Data Normalization ด้วย Min-Max
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

# -------------------- เรียกใช้ตัว Normalization ที่สร้างไว้ใจ 3.1 หรือ 3.2
# -------------------- เก็บข้อมูล attributes ที่ผ่านการ Normalization แล้วในตัวแปร x
scaler.fit(x0)
x = scaler.transform(x0)
# ================ 3) จบ


# ================ 4) แบ่ง Train-Test โดยแบ่งข้อมูล 70% สำหรับ train และ 30% สำหรับ test
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, stratify=y, random_state=1)

# ================ 5) สร้างโมเดล หรือ กระบวนการให้โมเดลเรียนรู้จากข้อมูล

# -------------------- 5.1) สร้างตัวแปรโมเดลตาม Classifer ที่ Import เข้ามา (Decision Tree, k-NN, NB)
# -------------------------- 5.1.1) Decision Tree
# clf = tree.DecisionTreeClassifier()
# -------------------------- 5.1.2) k-NN (n_neighbors คือค่า k หรือจำนวนเพื่อนบ้านที่ใกล้ที่สุด)
clf = KNeighborsClassifier(n_neighbors=1)
# -------------------------- 5.1.3) Naïve Bayes
# clf = GaussianNB()

# -------------------- 5.2) Train โมเดล หรือนำข้อมูลเข้าเพื่อให้โมเดลเรียนรู้
clf.fit(X_train, y_train)


#### แสดงผลการทำนายเทียบกับ Class จริงในรูปแบบ DataFrame

In [19]:
# Convert iris to pandas dataframe
df = pd.DataFrame(data=X_test, columns=x0.columns)

# Add target column to dataframe
df['class'] = y_test
df['predited_class'] =clf.predict(X_test)

# Map target values to target names
target_names = {'M':'Malignant','B':"Benign"}
df['class'] = df['class'].map(target_names)
df['predited_class'] = df['predited_class'].map(target_names)

# Print dataframe
df[:10]

Unnamed: 0,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,fractal_dimension_mean,...,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,class,predited_class
0,0.228075,0.255326,0.217469,0.122333,0.34522,0.13171,0.066846,0.081412,0.397475,0.215459,...,0.17725,0.092607,0.351516,0.14098,0.115735,0.184055,0.239306,0.171652,Benign,Benign
1,0.364381,0.352384,0.352083,0.22948,0.415636,0.161401,0.173266,0.261382,0.265657,0.195029,...,0.363514,0.234172,0.496797,0.155048,0.232748,0.552921,0.288587,0.177883,Malignant,Malignant
2,0.711297,0.412242,0.714602,0.567762,0.484517,0.539906,0.573571,0.746024,0.385859,0.240944,...,0.720106,0.501819,0.384534,0.350448,0.379872,0.835739,0.231815,0.201364,Malignant,Malignant
3,0.174121,0.18397,0.163776,0.087423,0.318588,0.072511,0.0,0.0,0.438384,0.206192,...,0.113502,0.054832,0.240573,0.03941,0.0,0.0,0.225705,0.04329,Benign,Benign
4,0.090255,0.166723,0.103656,0.04263,0.408053,0.410159,0.20164,0.142744,0.425253,0.83909,...,0.060511,0.024381,0.327082,0.209865,0.114537,0.164467,0.135817,0.349993,Benign,Benign
5,0.196838,0.147447,0.18969,0.102269,0.181547,0.126557,0.105553,0.073111,0.318182,0.228939,...,0.145475,0.065941,0.115367,0.095381,0.095927,0.134777,0.19929,0.099305,Benign,Benign
6,1.0,0.296246,1.0,0.999152,0.555836,0.405558,0.75,0.792744,0.29697,0.111415,...,0.687733,0.568669,0.284158,0.120606,0.255671,0.54811,0.016361,0.001377,Malignant,Malignant
7,0.210564,0.192087,0.202267,0.108717,0.395053,0.151862,0.082076,0.142893,0.340404,0.183024,...,0.147019,0.06803,0.315856,0.133413,0.111741,0.291271,0.219003,0.08271,Benign,Benign
8,0.058592,0.37166,0.06551,0.02562,0.373928,0.340838,0.309513,0.107753,0.586869,0.687658,...,0.038199,0.015877,0.606419,0.391681,0.429792,0.270756,0.346343,0.613669,Benign,Benign
9,0.237541,0.62631,0.227904,0.126829,0.28654,0.138396,0.095009,0.09667,0.280303,0.233361,...,0.172618,0.083194,0.327742,0.153593,0.144649,0.244536,0.173862,0.17644,Benign,Benign


#### ประเมินประสิทธิภาพ (ดูค่าความถูกต้อง (Accuracy))

In [17]:
clf.score(X_test, y_test)

0.9415204678362573

#### ทดลองเปลี่ยน k เป็น 1, 3, 5 และ 9 ตอบค้่า k ที่ให้ค่าความถูกต้องดีที่สุด และผลความถูกต้องที่ได้

**ตอบ** เลือก k ที่ X เพราะให้ค่าความถูกต้องสูงสุดที่ xx.xx%

## Naïve Bayes (NB)

### Iris Dataset (80:20 , Z-Score)

#### Train Model

#### แสดงผลการทำนายเทียบกับ Class จริงในรูปแบบ DataFrame

#### ประเมินประสิทธิภาพ (ดูค่าความถูกต้อง (Accuracy))

**ตอบ** ค่าความถูกต้องที่ xx.xx%

### Breast Cancer (75:25, Min-Max)

#### Train Model

#### แสดงผลการทำนายเทียบกับ Class จริงในรูปแบบ DataFrame

#### ประเมินประสิทธิภาพ (ดูค่าความถูกต้อง (Accuracy))

**ตอบ** ค่าความถูกต้องที่ xx.xx%