# K-Nearest Neighbors(KNN)algorithm

In [1]:
# 訓練數據集
training_set = {
    "Movie1": [1.0, 2.0, 3.0],
    "Movie2": [2.0, 3.0, 4.0],
    "Movie3": [3.0, 4.0, 5.0],
    "Movie4": [5.0, 5.0, 5.0]
}

# 訓練標籤，1代表"好電影"，0代表"壞電影"
training_labels = {
    "Movie1": 1,
    "Movie2": 0,
    "Movie3": 1,
    "Movie4": 0
}

# 驗證數據集
validation_set = {
    "Movie5": [1.5, 2.5, 3.5],
    "Movie6": [4.5, 4.5, 4.5]
}

# 驗證標籤
validation_labels = {
    "Movie5": 1,
    "Movie6": 0
}

In [2]:
# 計算兩部電影之間的歐氏距離（Euclidean Distance）
def distance(movie1, movie2):
    squared_difference = 0
    # 計算每個特徵的差的平方，並將它們加總
    for i in range(len(movie1)):
        squared_difference += (movie1[i] - movie2[i]) ** 2
    # 計算平方根得到最終的歐氏距離
    final_distance = squared_difference ** 0.5
    return final_distance

# 基於K最近鄰算法來分類未知電影
def classify(unknown, dataset, labels, k):
    distances = []
    # 遍歷所有訓練數據集中的電影
    for title in dataset:
        movie = dataset[title]
        # 計算未知電影與訓練電影之間的距離
        distance_to_point = distance(movie, unknown)
        # 儲存距離與相應的電影名稱
        distances.append([distance_to_point, title])
    
    # 根據距離排序，從近到遠
    distances.sort()
    # 取前k個最近的鄰居
    neighbors = distances[:k]
    
    # 計算前k個鄰居中"好電影"與"壞電影"的數量
    num_good = 0
    num_bad = 0
    for neighbor in neighbors:
        title = neighbor[1]
        if labels[title] == 0:
            num_bad += 1
        elif labels[title] == 1:
            num_good += 1
    
    # 如果"好電影"的數量大於"壞電影"，則分類為"好電影"，否則分類為"壞電影"
    if num_good > num_bad:
        return 1  # "好電影"
    else:
        return 0  # "壞電影"

# 計算驗證集的準確率
def find_validation_accuracy(training_set, training_labels, validation_set, validation_labels, k):
    num_correct = 0.0  # 計算正確分類的數量
    
    # 遍歷所有驗證集的電影
    for title in validation_set:
        # 使用K最近鄰算法預測每部電影的類別
        guess = classify(validation_set[title], training_set, training_labels, k)
        # 如果預測正確，計數器加一
        if guess == validation_labels[title]:
            num_correct += 1
    
    # 返回驗證準確率（正確分類的數量 / 驗證集的總數）
    return num_correct / len(validation_set)

In [3]:
# 使用k=3進行分類，並輸出準確率
print(find_validation_accuracy(training_set, training_labels, validation_set, validation_labels, 3))

1.0


# KNN using sklearn

In [None]:
# 載入必要的庫
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 載入 Iris 資料集
iris = load_iris()
X = iris.data  # 特徵
y = iris.target  # 標籤

# 將資料集切分為訓練集和測試集（80% 訓練，20% 測試）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化 KNN 分類器，選擇 k=3
classifier = KNeighborsClassifier(n_neighbors=3)

# 訓練模型
classifier.fit(X_train, y_train)

# 使用測試集進行預測
y_pred = classifier.predict(X_test)

# 計算並顯示準確度
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

# 輸出測試集的預測結果
print("Predictions:", y_pred)


Accuracy: 100.00%
Predictions: [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]


# K-Nearest Neighbor Regressor

In [5]:
# 定義訓練資料點及其對應的標籤
training_points = [
  [0.5, 0.2, 0.1],  # 第一個訓練樣本，包含3個特徵
  [0.9, 0.7, 0.3],  # 第二個訓練樣本，包含3個特徵
  [0.4, 0.5, 0.7]   # 第三個訓練樣本，包含3個特徵
]

# 訓練標籤：每個訓練樣本對應一個實數標籤
training_labels = [5.0, 6.8, 9.0]  # 這裡的標籤是連續的數值，適用於回歸任務

In [6]:
# 引入 KNeighborsRegressor 模型
from sklearn.neighbors import KNeighborsRegressor

# 初始化 KNeighborsRegressor 模型，選擇 k=2 並使用距離權重
# 'weights="distance"' 表示預測結果會根據最近鄰居的距離加權，越近的鄰居影響越大
regressor = KNeighborsRegressor(n_neighbors=2, weights="distance")

# 用訓練資料擬合模型
regressor.fit(training_points, training_labels)

In [7]:
# 定義未知點（要預測的資料點）
unknown_points = [
  [0.2, 0.1, 0.7],  # 第一個未知點
  [0.4, 0.7, 0.6],  # 第二個未知點
  [0.5, 0.8, 0.1]   # 第三個未知點
]

# 使用訓練好的回歸模型來預測未知點的結果
predictions = regressor.predict(unknown_points)

# 輸出預測結果
print(predictions)  # 顯示每個未知點的預測值

[7.41053819 8.39018998 6.0205455 ]


In [8]:
import datetime

current_date = datetime.datetime.now().strftime("%Y年%m月%d日")
print(f"更新日期: {current_date}")

更新日期: 2024年11月30日
