## Implementation of K Nearest Neighbors

Bài toán: KNN là một thuật toán học có giám sát (học trên bộ dữ liệu đã được gán nhãn), thường được áp dụng trong bài toán phân loại (**classification**) dựa trên ý tưởng rằng phân hiện tượng sang từng nhóm riêng biệt sẽ dựa vào **khoảng cách của nó với các điểm dữ liệu xung quanh nó**. Hay nói cách khác, hiện tượng **gần** với tập hiện tượng loại nào nhiều hơn thì sẽ thuộc về loại đó.

Như vậy, những yếu tố cần được xem xét trong thuật toán này:
- Định nghĩa khoảng cách giữa các hiện tượng (Euclidean distance, Manhattan distance, ...)
- Định nghĩa phương thức lựa chọn hiện tượng (dựa theo số đông, ...)  

Giả sử, ta có một ma trận **X** với mỗi dòng là một điểm dữ liệu, cột đại diện cho feature và một vector cột **y** đại diện cho nhóm mà điểm dữ liệu được phân vào _(có giá trị 0 và 1)_. Nhiệm vụ của chúng ta là phân loại một điểm dữ liệu đại diện bằng một vector **z** có cùng số feature như ma trận **X**

In [2]:
# Importing necessary libraries for implementation
import numpy as np
import matplotlib.pyplot as plt

### Function to calculate the distances in KNN

Euclidean Distance: 
$$
    d(x, y) = \sqrt {\sum_{i = 1}^n {(x_i - y_i)^2}}
$$

In [3]:
def euclideanDistance (X : np.ndarray , z : np.ndarray) -> np.ndarray:
    """
    Functions: Calculate the Euclidean Distance between a data point and existing datasets

    Args:
        X (np.ndarray) : A matrix representing the dataset (each row is a record)
        z (np.ndarray) : A data point

    Returns:
        np.ndarray : The distance vector of data point to each point of matrix 
    """

    try:
        return np.sqrt(np.sum((z - X)**2, axis = 1))
    except Value:
        print("Wrong shape!")
        return None
    

Manhattan Distance:
$$
    d(x, y) = \sum_{i = 1} ^n {|x_i - y_i|}
$$

In [4]:
def manhattanDistance (X : np.ndarray , z : np.ndarray) -> np.ndarray:
    """
    Functions: Calculate the Manhattan Distance between a data point and existing datasets

    Args:
        X (np.ndarray) : A matrix representing the dataset (each row is a record)
        z (np.ndarray) : A data point

    Returns:
        np.ndarray : The distance vector of data point to each point of matrix 
    """

    try:
        return np.sum(np.abs(z - X), axis = 1)
    except Value:
        print("Wrong shape!")
        return None

### Function to execute the classification

In [5]:
def classifyRecord(distance : np.ndarray, y : np.ndarray, k : int) -> int:
    """
    Functions: Classify the data point based on its distances

    Args:
        distance (np.ndarray) : A vector representing the distance of the concerning record to other points in the dataset
        y (np.ndarray) : A vector determining the class of each record in the datase
        k (int) : Number of references for choice

    Returns:
        int : A prediction of the class to which the target record belongs 
    """

    indexOfKNearestNeighbors = np.argsort(distance)[:k]    # Identify an array of index of K smallest distances
    numberOfPositives = (y[indexOfKNearestNeighbors] == 1).sum()    # Calculate the total number of nearest points of class 1
    recordClass = 1 if (numberOfPositives > float(k/2)) else 0      # Voting to determine the class of the target record
    return recordClass
 

## Examining in the real context

In [6]:
X = np.array([[1, 2], [3, 4], [2, 3], [5, 1]])
y = np.array([1, 1, 0, 1])
z = np.array([1, 2])

distance = euclideanDistance(X, z)
print(classifyRecord(distance, y, k = 3))

1
