## Phương pháp lọc - Các thông tin cơ bản - Các kiểm định thống kê lọc

### Kết hợp mọi thứ

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.feature_selection import VarianceThreshold, f_classif, SelectKBest

from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge

from sklearn.metrics import r2_score

In [None]:
# load tập dữ liệu Santander customer satisfaction từ Kaggle

data = pd.read_csv('../houseprice.csv')
data = data[data.columns[data.dtypes != 'object']]
data = data.dropna()
data.shape

(1121, 38)

In [None]:
data.head()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
0,1,60,65.0,8450,7,5,2003,2003,196.0,706,...,0,61,0,0,0,0,0,2,2008,208500
1,2,20,80.0,9600,6,8,1976,1976,0.0,978,...,298,0,0,0,0,0,0,5,2007,181500
2,3,60,68.0,11250,7,5,2001,2002,162.0,486,...,0,42,0,0,0,0,0,9,2008,223500
3,4,70,60.0,9550,7,5,1915,1970,0.0,216,...,0,35,272,0,0,0,0,2,2006,140000
4,5,60,84.0,14260,8,5,2000,2000,350.0,655,...,192,84,0,0,0,0,0,12,2008,250000


In [None]:
# hãy thay đổi một số cột để xem lab này hoạt động!

data['OverallQual'] = 7
data['3SsnPorch'] = 8
data['ScreenPorch'] = 9
data['PoolArea'] = 10

data.head()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
0,1,60,65.0,8450,7,5,2003,2003,196.0,706,...,0,61,0,8,9,10,0,2,2008,208500
1,2,20,80.0,9600,7,8,1976,1976,0.0,978,...,298,0,0,8,9,10,0,5,2007,181500
2,3,60,68.0,11250,7,5,2001,2002,162.0,486,...,0,42,0,8,9,10,0,9,2008,223500
3,4,70,60.0,9550,7,5,1915,1970,0.0,216,...,0,35,272,8,9,10,0,2,2006,140000
4,5,60,84.0,14260,7,5,2000,2000,350.0,655,...,192,84,0,8,9,10,0,12,2008,250000


In [None]:
# chia thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(
    data.drop(labels=['SalePrice'], axis=1),
    data['SalePrice'],
    test_size=0.3,
    random_state=0)

X_train.shape, X_test.shape

((784, 37), (337, 37))

In [None]:
# giữ một bản sao tập dữ liệu với các biến
# để so sánh chất lượng mô hình học máy
# ở cuối notebook

X_train_original = X_train.copy()
X_test_original = X_test.copy()

### Loại bỏ các đặc trưng không đổi

In [None]:
## Yêu cầu 1
constant_features = [
    feat for feat in X_train.columns if X_train[feat].std() == 0
]

X_train.drop(labels=constant_features, axis=1, inplace=True)
## VIẾT CODE Ở ĐÂY:
X_test.drop(labels=..., axis=1, inplace=...)

X_train.shape, X_test.shape

((784, 33), (337, 33))

### Loại bỏ các đặc trưng gần như không đổi

In [None]:
## Yêu cầu 2

## VIẾT CODE Ở ĐÂY:
sel = ...(threshold=...) # đặt ngưỡng = 0.01

sel.fit(X_train) # tìm các đặc trưng với phương sai thấp

sum(sel.get_support()) # có bao nhiêu đặc trưng gần như không đổi?

33

<details><summary> Gợi ý </summary>

[VarianceThreshold()](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html)

</details>

In [None]:
## Yêu cầu 3
## VIẾT CODE Ở ĐÂY:
features_to_keep = X_train.columns[sel...]

<details><summary> Gợi ý </summary>

Using ```get_support()``` function

</details>

In [None]:
## Yêu cầu 4
# loại bỏ các đặc trưng

## VIẾT CODE Ở ĐÂY:
X_train = sel.transform(...)
X_test = sel.transform(X_test)

X_train.shape, X_test.shape

((784, 33), (337, 33))

In [None]:
# các biến đổi của sklearn dẫn tới các mảng numpy
# ở đây chúng ta biến đổi mảng thành dataframe

X_train= pd.DataFrame(X_train)
X_train.columns = features_to_keep

X_test= pd.DataFrame(X_test)
X_test.columns = features_to_keep

### Loại bỏ các đặc trưng trùng lặp

In [None]:
## Yêu cầu 5
# kiểm tra các đặc trưng trùng lặp trong tập huấn luyện

duplicated_feat = []
for i in range(0, len(X_train.columns)):
    if i % 10 == 0:  # điều này giúp chúng ta hiểu vòng lặp diễn ra thế nào
        print(i)

    col_1 = X_train.columns[i]

    for col_2 in X_train.columns[i + 1:]:
        if X_train[col_1].equals(X_train[col_2]):
            ## VIẾT CODE Ở ĐÂY:
            duplicated_feat.append(...)
            
len(duplicated_feat)

0
10
20
30


0

In [None]:
## Yêu cầu 6
# các đặc trưng trùng lặp đã loại
X_train.drop(labels=duplicated_feat, axis=1, inplace=True)
## VIẾT CODE Ở ĐÂY:
X_test.drop(labels=..., ...)

X_train.shape, X_test.shape

((784, 33), (337, 33))

In [None]:
## Yêu cầu 7
# tạo một bản sao tập dữ liệu trừ các biến không đổi và các biến trùng lặp
# để đo chất lượng mô hình học máy
# ở cuối notebook

X_train_basic_filter = X_train.copy()
## VIẾT CODE Ở ĐÂY:
X_test_basic_filter = ....copy()

### Loại bỏ các đặc trưng tương quan

In [None]:
## Yêu cầu 8
# tìm và bỏ các đặc trưng tương quan
def correlation(dataset, threshold):
    
    col_corr = set()  # tập hợp tất cả tên của các cột tương quan
    corr_matrix = dataset.corr()
    
    for i in range(len(corr_matrix.columns)):
        for j in range(i):
            # chúng ta cần tìm giá trị hệ số tuyệt đối
            if abs(corr_matrix.iloc[i, j]) > threshold:
                colname = corr_matrix.columns[i]  # lấy tên của cột
                ## VIẾT CODE Ở ĐÂY:
                col_corr.add(...)
    
    ## VIẾT CODE Ở ĐÂY:
    return ...


corr_features = correlation(X_train, 0.8)
print('correlated features: ', len(set(corr_features)))

correlated features:  4


In [None]:
## Yêu cầu 9
# các đặc trưng tương quan đã loại
X_train.drop(labels=corr_features, axis=1, inplace=True)
## VIẾT CODE Ở ĐÂY:
X_test....

X_train.shape, X_test.shape

((784, 29), (337, 29))

In [None]:
# tạo một bản sao tập dữ liệu ở giai đoạn này
X_train_corr = X_train.copy()
X_test_corr = X_test.copy()

### Lựa chọn các đặc trưng dựa trên anova

In [None]:
## Yêu cầu 10
## VIẾT CODE Ở ĐÂY:
sel_ = ...(f_classif, ...).fit(..., y_train) # set k=20

# thu thập tên các đặc trưng đã chọn
features_to_keep = X_train.columns[sel_.get_support()]

# lựa chọn đặc trưng
X_train_anova = sel_.transform(X_train)
X_test_anova = sel_.transform(X_test)

# mảng numpy thành dataframe
X_train_anova = pd.DataFrame(X_train_anova)
X_train_anova.columns = features_to_keep

X_test_anova = pd.DataFrame(X_test_anova)
X_test_anova.columns = features_to_keep

X_train_anova.shape, X_test_anova.shape

((784, 20), (337, 20))

<details><summary> Gợi ý </summary>

[SelectKBest()](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html)

</details>

### So sánh chất lượng các thuật toán học máy

In [None]:
# tạo một hàm xây dựng rừng ngẫu nhiên và
# so sánh chất lượng của nó trong tập huấn luyện và tập kiểm tra

def run_linear(X_train, X_test, y_train, y_test):
    
    rf = Ridge()
    rf.fit(X_train, y_train)
    
    print('Train set')
    pred = rf.predict(X_train)
    print('Ridge Regression r2 score: {}'.format(r2_score(y_train, pred)))
    
    print('Test set')
    pred = rf.predict(X_test)
    print('Ridge Regression r2 score: {}'.format(r2_score(y_test, pred)))

In [None]:
## Yêu cầu 11
# ban đầu

## VIẾT CODE Ở ĐÂY:
run_linear(X_train_original, ..., y_train, ...)

Train set
Ridge Regression r2 score: 0.8224149182629088
Test set
Ridge Regression r2 score: 0.5628164950897134


In [None]:
## Yêu cầu 12
# các phương pháp lọc - cơ bản

## VIẾT CODE Ở ĐÂY:
run_linear(X_train_basic_filter, ..., ..., ...)

Train set
Ridge Regression r2 score: 0.8224149182629088
Test set
Ridge Regression r2 score: 0.5628164950897128


In [None]:
## Yêu cầu 13
# các phương pháp lọc - tương quan

## VIẾT CODE Ở ĐÂY:
run_linear(..., ..., ..., ...)

Train set
Ridge Regression r2 score: 0.8183531757688285
Test set
Ridge Regression r2 score: 0.560934492988332


In [None]:
## Yêu cầu 14
# các phương pháp lọc - anova

## VIẾT CODE Ở ĐÂY:
run_linear(..., ..., ..., ...)

Train set
Ridge Regression r2 score: 0.8129428259312352
Test set
Ridge Regression r2 score: 0.5353526632680174


Chúng ta thấy loại một số đặc trưng thì mô hình vẫn tốt!