In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os

# đổi đường dẫn tới đúng folder của bạn
os.chdir('/content/drive/MyDrive/Python_assignment/knn')

# kiểm tra xem có file không
print(os.getcwd())
!ls

/content/drive/MyDrive/Python_assignment/knn
diabetes_knn.csv  knn.ipynb  mnist_subset_train.csv


In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import GridSearchCV

# KNN là thuật toán phân loại dựa trên độ tương đồng. Khi dự đoán một điểm mới, KNN sẽ tìm K điểm gần nhất trong tập dữ liệu và lấy lớp chiếm đa số để dự đoán. Thuật toán không huấn luyện mà chỉ dùng khoảng cách để so sánh.

# KNN (K-Nearest Neighbors – Classification/Regression)

## 1. Dự đoán bệnh tiểu đường

Input: tuổi, cân nặng, mức đường huyết, huyết áp.

KNN sẽ tìm các bệnh nhân gần nhất trong dữ liệu huấn luyện để đoán xem người mới có khả năng bị tiểu đường hay không.

In [5]:
# 1) Đọc dữ liệu
df = pd.read_csv("diabetes_knn.csv")
X = df[["Age", "Weight", "Glucose", "BloodPressure"]] #  các cột dữ liệu x
y = df["Diabetes"]  #cột dữ liệu y :kết quả

# 2) Chia tập train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42, stratify=y
)

# giải thích straitfy = y (giữ nguyên tỉ lệ chia người 70% và 30%)
# Nếu giả sử 1 tập dataset có 20 người, tỉ lệ toàn bộ dataset là 70% người không bệnh và 30% người bệnh , tập train là 75% (lấy 15 người) và tập test 25% (lấy 5 người ra test), thì đối với tập train hay tập test đều sẽ là 70% và 30%
# Ví dụ có tập train có khoảng 11 người không bệnh và 4 người bệnh, tương tự tập test 3 người không bệnh và 2 người bệnh



# 3) Tạo pipeline: Chuẩn hóa (StandardScaler) + KNN(k=5). Nếu glucose = 150 , age = 50 thì sẽ luôn phân tích theo glucose chứ không phải age
model = Pipeline([
    ("scaler", StandardScaler()),
    ("knn", KNeighborsClassifier(n_neighbors=5, weights="distance"))
])

# Giải thích quy trình chuẩn hóa models trên ,
# Nếu giả sử có người bệnh mới với thông số sau đưa vào predict models.predict([[50, 80, 165, 85]])

# Một pipeline sẽ chạy ngầm như sau

# Scaler trên sẽ biến đổi dữ liệu đã học ví dụ thành
# Giả sử scaler đã học được từ train set:

# Age: mean=40, std=10

# Weight: mean=70, std=15

# Glucose: mean=120, std=25

# BloodPressure: mean=90, std=10


# dữ liệu mới được dự đoán sẽ được tính như sau

# Age_scaled         = (50 - 40) / 10   = 1.0
# Weight_scaled      = (80 - 70) / 15   ≈ 0.67
# Glucose_scaled     = (165 - 120) / 25 = 1.8
# BloodPressure_scaled = (85 - 90) / 10 = -0.5

# knn sẽ dùng dữ liệu trên để tính khoảng cách dựa vào số chỉ số gần nhất ví dụ n_neighbors = 5 như trên tức là 5 người đã được train cho models
# Nếu 5 người đó đa số không mắc bệnh => Diabetes là 0
# Nếu 5 người đó đa số mắc bệnh => Diabetes là 1

# 4) Huấn luyện
model.fit(X_train, y_train)

# 5) Đánh giá
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion matrix:\n", confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

Accuracy: 0.8333333333333334
Confusion matrix:
 [[12  3]
 [ 2 13]]
              precision    recall  f1-score   support

           0       0.86      0.80      0.83        15
           1       0.81      0.87      0.84        15

    accuracy                           0.83        30
   macro avg       0.83      0.83      0.83        30
weighted avg       0.83      0.83      0.83        30



In [6]:
# Ví dụ bệnh nhân mới:
new_patient = pd.DataFrame([{
    "Age": 45,
    "Weight": 72,       # kg
    "Glucose": 145,     # mg/dL
    "BloodPressure": 88 # mmHg (tâm trương)
}])

proba = model.predict_proba(new_patient)[0][1]  # xác suất bị tiểu đường (class=1)
pred  = model.predict(new_patient)[0]

print("Predicted label (0=No, 1=Yes):", int(pred))
print("Probability of Diabetes:", round(proba, 3))

Predicted label (0=No, 1=Yes): 1
Probability of Diabetes: 0.889


In [7]:
param_grid = {
    "knn__n_neighbors": [3,5,7,9,11],
    "knn__weights": ["uniform", "distance"],
    "knn__p": [1,2]  # Manhattan vs Euclidean
}

grid = GridSearchCV(model, param_grid, cv=5, n_jobs=-1)
grid.fit(X, y)
print("Best params:", grid.best_params_)
print("Best CV score:", grid.best_score_)

Best params: {'knn__n_neighbors': 7, 'knn__p': 1, 'knn__weights': 'distance'}
Best CV score: 0.7916666666666666


## 2. Nhận diện chữ viết tay (MNIST dataset)

Input: ảnh chữ số viết tay (0–9).

KNN tìm những ảnh gần nhất trong tập huấn luyện.

Nếu phần lớn hàng xóm là số 8 → mẫu mới được dự đoán là số 8.

### Cách 1 — Dùng Keras (tiện, nhanh)

In [8]:
from tensorflow.keras.datasets import mnist
import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import train_test_split
from PIL import Image

In [9]:
# 1) Tải MNIST (60k train, 10k test)
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# 2) Chuyển ảnh 28x28 -> vector 784 & chuẩn hóa [0,1]
X_train = x_train.reshape(-1, 28*28).astype("float32") / 255.0
X_test  = x_test.reshape(-1, 28*28).astype("float32") / 255.0

# (Tùy chọn) Dùng subset cho nhanh: ~10k mẫu
X_sub, _, y_sub, _ = train_test_split(X_train, y_train, train_size=10000, stratify=y_train, random_state=42)

# 3) KNN
knn = KNeighborsClassifier(n_neighbors=3, weights="distance", n_jobs=-1)
knn.fit(X_sub, y_sub)

# 4) Đánh giá
y_pred = knn.predict(X_test[:2000])  # chấm 2k mẫu cho nhanh
print("Accuracy:", accuracy_score(y_test[:2000], y_pred))
print(classification_report(y_test[:2000], y_pred))

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 0us/step
Accuracy: 0.9225
              precision    recall  f1-score   support

           0       0.96      0.99      0.98       175
           1       0.90      1.00      0.95       234
           2       0.99      0.88      0.93       219
           3       0.90      0.92      0.91       207
           4       0.95      0.91      0.93       217
           5       0.91      0.91      0.91       179
           6       0.95      0.97      0.96       178
           7       0.90      0.90      0.90       205
           8       0.95      0.82      0.88       192
           9       0.84      0.93      0.88       194

    accuracy                           0.92      2000
   macro avg       0.93      0.92      0.92      2000
weighted avg       0.93      0.92      0.92      2000



In [10]:
# Lưu 5k ảnh train: 784 cột pixel + 1 cột label
N = 5000
df = pd.DataFrame(X_train[:N])
df["label"] = y_train[:N]
df.to_csv("mnist_5k_flat.csv", index=False)
print("Đã lưu mnist_5k_flat.csv")

Đã lưu mnist_5k_flat.csv


In [11]:
import matplotlib.pyplot as plt

# Lấy 1 ảnh số viết tay từ tập test
sample_img = x_test[0].reshape(28,28) * 255
plt.imsave("digit.png", sample_img, cmap="gray")

In [12]:
def load_digit_image(path):
    # Đọc ảnh, chuyển grayscale, resize 28x28, scale [0,1]
    img = Image.open(path).convert("L").resize((28,28))
    arr = np.array(img).astype("float32") / 255.0
    return arr.reshape(1, 28*28)

x_new = load_digit_image("digit.png")   # ảnh số viết tay nền trắng/đen
pred = knn.predict(x_new)[0]
proba = knn.predict_proba(x_new).max()
print("Dự đoán:", pred, "| Độ tự tin:", round(proba, 3))

Dự đoán: 7 | Độ tự tin: 0.668
