### 1. Import Dependencies

####
- 'Counter' ใช้สำหรับนับจำนวนครั้งที่องค์ประกอบปรากฏในรายการหรือออบเจ็กต์ที่สามารถวนซ้ำได้   
ใน KNN หลังจากค้นหาป้ายกำกับเพื่อนบ้านที่ใกล้ที่สุด k ตัวแล้ว ตัวนับจะช่วยนับว่าแต่ละป้ายกำกับปรากฏขึ้นกี่ครั้ง

In [None]:
import numpy as np
from collections import Counter

### 2. Euclidean Function

#### 
- euclidean_distanceใช้สำหรับคำนวณระยะทางแบบยุคลิดระหว่างจุดต่างๆ

In [10]:
def euclidean_distance(p1, p2):
    return np.sqrt(np.sum((np.array(p1) - np.array(p2))**2))

####
- การทำงาน: นำตำแหน่งพิกัดของจุด p1 และ p2 มาลบกัน นำผลต่างมาพิกำลังสอง รวมค่าทั้งหมดเข้าด้วยกัน แล้วจึงถอดรากที่สอง  
![alt text](image.png)

### 3. KNN Prediction Function


#### 
- distances.append  จะบันทึกระยะห่างระหว่างจุดฝึกฝนแต่ละจุดกับจุดทดสอบ พร้อมทั้งป้ายกำกับของจุดนั้นด้วย  
- distances.sort    ใช้สำหรับเรียงลำดับรายการเพื่อให้จุดที่อยู่ใกล้ที่สุดปรากฏก่อน  
- k_nearest_labels  จะเลือกป้ายกำกับของจุดที่ใกล้ที่สุด k จุด  
- ใช้ตัวนับเพื่อค้นหาว่าป้ายกำกับใดปรากฏมากที่สุดในบรรดาป้ายกำกับ k ป้าย ซึ่งจะกลายเป็นค่าการทำนาย  






In [None]:
def knn_predict(training_data, training_labels, test_point, k):

    # คำนวณระยะทาง: ใช้ Loop วนเพื่อหาระยะห่างระหว่างจุดทดสอบ (test_point) 
    # กับข้อมูลที่ใช้สอน (training_data) ทุกจุดที่มีอยู่ในระบบ แล้วเก็บค่าระยะทางคู่กับป้ายกำกับ (Label) ไว้ใน List
    distances = []
    for i in range(len(training_data)):
        dist = euclidean_distance(test_point, training_data[i])
        distances.append((dist, training_labels[i]))

    # การเรียงลำดับ: จัดเรียงข้อมูลใน List จากระยะทางที่ น้อยที่สุดไปมากที่สุด (ใครใกล้ที่สุดจะอยู่ลำดับแรกๆ)
    distances.sort(key=lambda x: x[0])

    # เลือกเพื่อนบ้าน: ดึงเฉพาะ Label ของข้อมูลที่ใกล้ที่สุดจำนวน k ตัวแรกออกมา 
    k_nearest_labels = [label for _, label in distances[:k]]

    # การลงคะแนน (Voting): ใช้ Counter เพื่อนับว่าในบรรดา k ตัวนั้น Label ไหนปรากฏซ้ำมากที่สุด (โหวตชนะ) และส่งค่าตัวแปรนั้นกลับมาเป็นคำทำนาย 
    return Counter(k_nearest_labels).most_common(1)[0][0]

### 4. Training Data, Labels and Test Point

In [7]:
training_data = [[1, 2], [2, 3], [3, 4], [6, 7], [7, 8]]
training_labels = ['A', 'A', 'A', 'B', 'B']
test_point = [4, 5]
k = 3

### 5. Prediction

In [8]:
prediction = knn_predict(training_data, training_labels, test_point, k)
print(prediction)

A


####
- อัลกอริทึมจะคำนวณระยะห่างของจุดทดสอบ [4, 5] ไปยังจุดฝึกอบรมทั้งหมด เลือกจุดที่ใกล้ที่สุด 3 จุดเป็น k = 3 และกำหนดป้ายกำกับ เนื่องจากจุดที่ใกล้ที่สุดส่วนใหญ่มีป้ายกำกับเป็น'A' ดังนั้นจุดทดสอบจึงถูกจัดประเภทเป็น'A '