## Gán KNN

Các giá trị bị khuyết được ước tính như giá trị trung bình từ K neighbour (lân cận) gần nhất.

[KNNImputer từ sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html#sklearn.impute.KNNImputer)

- K tương tự được gán cho tất cả các biến.
- Không thể thực sự tối ưu hóa K để dự đoán các giá trị bị khuyết tốt hơn.
- Không thể tối ưu hóa K để dự đoán mục tiêu tốt hơn.

**Lưu ý:**

Nếu muốn dự đoán chính xác nhất có thể các giá trị của dữ liệu bị khuyết thì chúng ta sẽ không sử dụng gán KNN mà xây dựng các thuật toán KNN riêng lẻ để dự đoán 1 biến từ các biến còn lại. Đây là một bài toán hồi quy phổ biến.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

# chia các tập dữ liệu
from sklearn.model_selection import train_test_split

# gán đa biến
from sklearn.impute import KNNImputer

## Load dữ liệu

In [3]:
# list các biến dạng số

cols_to_use = [
    'MSSubClass', 'LotFrontage', 'LotArea', 'OverallQual',
    'OverallCond', 'YearBuilt', 'YearRemodAdd', 'MasVnrArea',
    'BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF',
    '1stFlrSF', '2ndFlrSF', 'LowQualFinSF', 'GrLivArea',
    'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath',
    'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd',
    'Fireplaces', 'GarageYrBlt', 'GarageCars', 'GarageArea',
    'WoodDeckSF',  'OpenPorchSF', 'EnclosedPorch', '3SsnPorch',
    'ScreenPorch', 'PoolArea', 'MiscVal', 'MoSold', 'YrSold',
    'SalePrice'
]

In [4]:
# load tập dữ liệu với các biến đã chọn

data = pd.read_csv('/content/drive/MyDrive/Colab_Notebooks/Bai tap lap/Mon_hoc_2/house-price/houseprice.csv', usecols=cols_to_use)

# tìm các biến có giá trị bị khuyết
for var in data.columns:
    if data[var].isnull().sum() > 1:
        print(var, data[var].isnull().sum())

LotFrontage 259
MasVnrArea 8
GarageYrBlt 81


In [5]:
# chia thành tập huấn luyện và tập kiểm tra

# trước tiên bỏ mục tiêu khỏi list các đặc trưng
cols_to_use.remove('SalePrice')

X_train, X_test, y_train, y_test = train_test_split(
    data[cols_to_use],
    data['SalePrice'],
    test_size=0.3,
    random_state=0)

X_train.shape, X_test.shape

((1022, 36), (438, 36))

In [8]:
# đặt lại index để so sánh các giá trị sau đó
# trong bản mô phỏng

X_train.reset_index(inplace=True, drop=True)
X_test.reset_index(inplace=True, drop=True)

## Gán KNN

In [9]:
## Yêu cầu 1
## VIẾT CODE Ở ĐÂY:
imputer = KNNImputer(
    n_neighbors=5, # số lượng neighbour K
    weights='distance', # hệ số trọng số
    metric='nan_euclidean', # phép đo tìm neighbour
    add_indicator=False, # thêm chỉ số dự báo
)

<details><summary> Gợi ý </summary>

[KNNImputer()](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html)

</details>

In [10]:
## Yêu cầu 2: sử dụng imputer trên để khớp tập dữ liệu huấn luyện
## VIẾT CODE Ở ĐÂY:
imputer.fit(X_train)

In [11]:
## Yêu cầu 3
train_t = imputer.transform(X_train)
## VIẾT CODE Ở ĐÂY:
test_t = imputer.transform(X_test)

# sklearn trả về một mảng Numpy
# tạo một dataframe
train_t = pd.DataFrame(train_t, columns=X_train.columns)
## VIẾT CODE Ở ĐÂY:
test_t = pd.DataFrame(test_t, columns=X_test.columns)

train_t.head()

Unnamed: 0,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,BsmtFinSF2,...,GarageArea,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold
0,60.0,70.115142,9375.0,7.0,5.0,1997.0,1998.0,573.0,739.0,0.0,...,645.0,576.0,36.0,0.0,0.0,0.0,0.0,0.0,2.0,2009.0
1,120.0,42.533053,2887.0,6.0,5.0,1996.0,1997.0,0.0,1003.0,0.0,...,431.0,307.0,0.0,0.0,0.0,0.0,0.0,0.0,11.0,2008.0
2,20.0,50.0,7207.0,5.0,7.0,1958.0,2008.0,0.0,696.0,0.0,...,0.0,117.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,2010.0
3,50.0,60.0,9060.0,6.0,5.0,1939.0,1950.0,0.0,204.0,0.0,...,280.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,10.0,2009.0
4,30.0,60.0,8400.0,2.0,5.0,1920.0,1950.0,0.0,290.0,0.0,...,246.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2009.0




In [12]:
# các biến không có NA sau khi gán

train_t[['LotFrontage', 'MasVnrArea', 'GarageYrBlt']].isnull().sum()

LotFrontage    0
MasVnrArea     0
GarageYrBlt    0
dtype: int64

In [13]:
# các quan sát có NA trong tập huấn luyện ban đầu

X_train[X_train['MasVnrArea'].isnull()]['MasVnrArea']

420   NaN
490   NaN
642   NaN
824   NaN
921   NaN
Name: MasVnrArea, dtype: float64

In [14]:
# thay các giá trị trong tập dữ liệu đã biến đổi

train_t[X_train['MasVnrArea'].isnull()]['MasVnrArea']

420     99.765717
490     34.106592
642      0.000000
824    375.749332
921     85.817715
Name: MasVnrArea, dtype: float64

In [15]:
# giá trị trung bình của biến (cho gán mean)

X_train['MasVnrArea'].mean()

103.55358898721731

Trong một số trường hợp, các giá trị gán rất khác so với giá trị trung bình mà chúng ta đã sử dụng trong gán mean/median.

## Tự động tìm các tham số gán tốt nhất

húng ta có thể tối ưu hóa các tham số của gán KNN để dự đoán kết quả tốt hơn.

In [16]:
# import thêm các class để mô hình hóa
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

In [17]:
# chia thành tập huấn luyện và tập kiểm tra

X_train, X_test, y_train, y_test = train_test_split(
    data[cols_to_use],  # chỉ các đặc trưng
    data['SalePrice'],  # mục tiêu
    test_size=0.3,  # phần trăm các quan sát trong tập kiểm tra
    random_state=0)  # cho khả năng tái lặp

X_train.shape, X_test.shape

((1022, 36), (438, 36))

In [18]:
pipe = Pipeline(steps=[
    ('imputer', KNNImputer(
        n_neighbors=5,
        weights='distance',
        add_indicator=False)),

    ('scaler', StandardScaler()),
    ('regressor', Lasso(max_iter=2000)),
])

In [20]:
## Yêu cầu 4: tạo grid với tất cả các tham số chúng ta muốn kiểm tra

param_grid = {
    'imputer__n_neighbors': [3,5,10],
    'imputer__weights': ['uniform', 'distance'],
    'imputer__add_indicator': [True, False],
    'regressor__alpha': [10, 100, 200],
}

## VIẾT CODE Ở ĐÂY:
grid_search = GridSearchCV(pipe,param_grid, cv=5, n_jobs =-1, scoring='r2')

# cv=5 là kiểm định chéo
# no_jobs =-1 để sử dụng tất cả cpus có sẵn
# scoring='r2' để đánh giá sử dụng r^2

# để biết thêm chi tiết về các tham số grid, ghé trang:
#https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

In [21]:
# huấn luyện trên tất cả các tổ hợp
# của các tham số trên
grid_search.fit(X_train, y_train)

# và in ra hệ số tốt nhất trên tập huấn luyện
print(("best linear regression from grid search: %.3f"
       % grid_search.score(X_train, y_train)))

best linear regression from grid search: 0.845


In [22]:
# kiểm tra chất lượng trên tập kiểm tra
print(("best linear regression from grid search: %.3f"
       % grid_search.score(X_test, y_test)))

best linear regression from grid search: 0.730


In [23]:
# tìm các tham số tốt nhất

grid_search.best_params_

{'imputer__add_indicator': True,
 'imputer__n_neighbors': 10,
 'imputer__weights': 'distance',
 'regressor__alpha': 200}

## So sánh với gán đơn biến

In [24]:
from sklearn.impute import SimpleImputer

In [25]:
# chia thành tập huấn luyện và tập kiểm tra

X_train, X_test, y_train, y_test = train_test_split(
    data[cols_to_use],  # chỉ các đặc trưng
    data['SalePrice'],  # mục tiêu
    test_size=0.3,  # phần trăm các quan sát trong tập kiểm tra
    random_state=0)  # cho khả năng tái lặp

X_train.shape, X_test.shape

((1022, 36), (438, 36))

In [26]:
## Yêu cầu 5
pipe = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean', fill_value=-1)),
    ('scaler', StandardScaler()),
    ('regressor', Lasso(max_iter=2000)),
])

param_grid = {
    'imputer__strategy': ['mean', 'median', 'constant'],
    'imputer__add_indicator': [True, False],
    'regressor__alpha': [10, 100, 200],
}

## VIẾT CODE Ở ĐÂY:
grid_search = GridSearchCV(pipe, param_grid, cv=5, n_jobs=-1, scoring='r2')

# cv=5 là kiểm định chéo
# no_jobs =-1 để sử dụng tất cả cpus có sẵn
# scoring='r2' để đánh giá sử dụng r^2

# huấn luyện trên tất cả các tổ hợp có thể của các tham số trên
## VIẾT CODE Ở ĐÂY:
grid_search.fit(X_train, y_train)

# và in ra hệ số tốt nhất trên tập huấn luyện
## VIẾT CODE Ở ĐÂY:
print(("best linear regression from grid search: %.3f"
       % grid_search.score(X_train, y_train)))

best linear regression from grid search: 0.845


In [27]:
# cuối cùng kiểm cha chất lượng qua tập kiểm tra
print(("best linear regression from grid search: %.3f"
       % grid_search.score(X_test, y_test)))

best linear regression from grid search: 0.729


In [28]:
# và tìm các tham số khớp tốt nhất như này
grid_search.best_params_

{'imputer__add_indicator': False,
 'imputer__strategy': 'constant',
 'regressor__alpha': 200}

Chúng ta thấy rằng gán các giá trị với giá trị -1 bất kỳ cho chất lượng khá tương tự như khi thực hiện gán KNN, vì vậy có thể chúng ta sẽ không thêm độ phức tạp bổ sung của các mô hình huấn luyện để gán NA, sau đó chúng ta tiếp tục dự đoán mục tiêu thực cần tìm.