In [50]:
import pandas as pd 

In [51]:
cols_to_use = [
    'MSSubClass', 'LotFrontage', 'LotArea', 'OverallQual',
    'OverallCond', 'YearBuilt', 'YearRemodAdd', 'MasVnrArea',
    'BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF',
    '1stFlrSF', '2ndFlrSF', 'LowQualFinSF', 'GrLivArea',
    'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath',
    'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd',
    'Fireplaces', 'GarageYrBlt', 'GarageCars', 'GarageArea',
    'WoodDeckSF',  'OpenPorchSF', 'EnclosedPorch', '3SsnPorch',
    'ScreenPorch', 'PoolArea', 'MiscVal', 'MoSold', 'YrSold',
    'SalePrice'
]

### 0. Sử dụng pandas load file houseprice.csv với các cột được chỉ định trong cols_to_use


In [52]:
df = pd.read_csv('houseprice.csv',usecols=cols_to_use)
print(df)

      MSSubClass  LotFrontage  LotArea  OverallQual  OverallCond  YearBuilt   
0             60         65.0     8450            7            5       2003  \
1             20         80.0     9600            6            8       1976   
2             60         68.0    11250            7            5       2001   
3             70         60.0     9550            7            5       1915   
4             60         84.0    14260            8            5       2000   
...          ...          ...      ...          ...          ...        ...   
1455          60         62.0     7917            6            5       1999   
1456          20         85.0    13175            6            6       1978   
1457          70         66.0     9042            7            9       1941   
1458          20         68.0     9717            5            6       1950   
1459          20         75.0     9937            5            6       1965   

      YearRemodAdd  MasVnrArea  BsmtFinSF1  BsmtFin

### 1. Tìm các cột chứa missing value

In [53]:
df_miss = df.columns[df.isna().sum() > 1]
print(df_miss)
for i in df_miss:
    print(i)

Index(['LotFrontage', 'MasVnrArea', 'GarageYrBlt'], dtype='object')
LotFrontage
MasVnrArea
GarageYrBlt


##  Xử lý missing data
Thay thế các giá trị bị thiếu ở các hàng bằng các cách sau đây 

### 1. Xóa các hàng : xoá hàng có số lượng data bị thiếu nhiều hơn 5%

In [54]:

# Tính tổng số lượng giá trị thiếu trên mỗi hàng
missing_values_per_row = df.isna().sum(axis=1)
# Lọc ra các hàng có số lượng giá trị thiếu nhiều hơn 5%
threshold = 0.05 * len(df.columns)  # 5% của số lượng cột
filtered_df = df[missing_values_per_row <= threshold]
print(filtered_df)

# filtered_df chứa DataFrame sau khi xoá các hàng có số lượng giá trị thiếu nhiều hơn 5%

      MSSubClass  LotFrontage  LotArea  OverallQual  OverallCond  YearBuilt   
0             60         65.0     8450            7            5       2003  \
1             20         80.0     9600            6            8       1976   
2             60         68.0    11250            7            5       2001   
3             70         60.0     9550            7            5       1915   
4             60         84.0    14260            8            5       2000   
...          ...          ...      ...          ...          ...        ...   
1455          60         62.0     7917            6            5       1999   
1456          20         85.0    13175            6            6       1978   
1457          70         66.0     9042            7            9       1941   
1458          20         68.0     9717            5            6       1950   
1459          20         75.0     9937            5            6       1965   

      YearRemodAdd  MasVnrArea  BsmtFinSF1  BsmtFin

### 2. Thay thế bằng giá trị trung bình (mean) của cột

In [55]:

# Thay thế các giá trị thiếu bằng giá trị trung bình của cột
df_filled = df.fillna(df['LotFrontage'].mean())
print(df_filled.to_string())

      MSSubClass  LotFrontage  LotArea  OverallQual  OverallCond  YearBuilt  YearRemodAdd   MasVnrArea  BsmtFinSF1  BsmtFinSF2  BsmtUnfSF  TotalBsmtSF  1stFlrSF  2ndFlrSF  LowQualFinSF  GrLivArea  BsmtFullBath  BsmtHalfBath  FullBath  HalfBath  BedroomAbvGr  KitchenAbvGr  TotRmsAbvGrd  Fireplaces  GarageYrBlt  GarageCars  GarageArea  WoodDeckSF  OpenPorchSF  EnclosedPorch  3SsnPorch  ScreenPorch  PoolArea  MiscVal  MoSold  YrSold  SalePrice
0             60    65.000000     8450            7            5       2003          2003   196.000000         706           0        150          856       856       854             0       1710             1             0         2         1             3             1             8           0  2003.000000           2         548           0           61              0          0            0         0        0       2    2008     208500
1             20    80.000000     9600            6            8       1976          1976     0.000000        

In [56]:
mean_values = df.mean()

# Thay thế các giá trị thiếu bằng giá trị trung bình của từng cột
df_filled = df.fillna(mean_values)
print(df_filled)

      MSSubClass  LotFrontage  LotArea  OverallQual  OverallCond  YearBuilt   
0             60         65.0     8450            7            5       2003  \
1             20         80.0     9600            6            8       1976   
2             60         68.0    11250            7            5       2001   
3             70         60.0     9550            7            5       1915   
4             60         84.0    14260            8            5       2000   
...          ...          ...      ...          ...          ...        ...   
1455          60         62.0     7917            6            5       1999   
1456          20         85.0    13175            6            6       1978   
1457          70         66.0     9042            7            9       1941   
1458          20         68.0     9717            5            6       1950   
1459          20         75.0     9937            5            6       1965   

      YearRemodAdd  MasVnrArea  BsmtFinSF1  BsmtFin

### 3. Thay thế bằng giá trị trung bình (median) của cột

In [57]:
df_filled = df.fillna(df['LotFrontage'].median())
print(df_filled.to_string())

      MSSubClass  LotFrontage  LotArea  OverallQual  OverallCond  YearBuilt  YearRemodAdd  MasVnrArea  BsmtFinSF1  BsmtFinSF2  BsmtUnfSF  TotalBsmtSF  1stFlrSF  2ndFlrSF  LowQualFinSF  GrLivArea  BsmtFullBath  BsmtHalfBath  FullBath  HalfBath  BedroomAbvGr  KitchenAbvGr  TotRmsAbvGrd  Fireplaces  GarageYrBlt  GarageCars  GarageArea  WoodDeckSF  OpenPorchSF  EnclosedPorch  3SsnPorch  ScreenPorch  PoolArea  MiscVal  MoSold  YrSold  SalePrice
0             60         65.0     8450            7            5       2003          2003       196.0         706           0        150          856       856       854             0       1710             1             0         2         1             3             1             8           0       2003.0           2         548           0           61              0          0            0         0        0       2    2008     208500
1             20         80.0     9600            6            8       1976          1976         0.0         97

In [58]:
df_filled = df.fillna(df.median())
print(df_filled.to_string())

      MSSubClass  LotFrontage  LotArea  OverallQual  OverallCond  YearBuilt  YearRemodAdd  MasVnrArea  BsmtFinSF1  BsmtFinSF2  BsmtUnfSF  TotalBsmtSF  1stFlrSF  2ndFlrSF  LowQualFinSF  GrLivArea  BsmtFullBath  BsmtHalfBath  FullBath  HalfBath  BedroomAbvGr  KitchenAbvGr  TotRmsAbvGrd  Fireplaces  GarageYrBlt  GarageCars  GarageArea  WoodDeckSF  OpenPorchSF  EnclosedPorch  3SsnPorch  ScreenPorch  PoolArea  MiscVal  MoSold  YrSold  SalePrice
0             60         65.0     8450            7            5       2003          2003       196.0         706           0        150          856       856       854             0       1710             1             0         2         1             3             1             8           0       2003.0           2         548           0           61              0          0            0         0        0       2    2008     208500
1             20         80.0     9600            6            8       1976          1976         0.0         97

### 4. Thay thế bằng giá trị xuất hiện thường xuyên nhất trong cột

In [72]:


# Tìm giá trị mode (giá trị xuất hiện thường xuyên nhất) của mỗi cột
mode_values = df.mode()

# Thay thế các giá trị thiếu bằng giá trị mode của cột tương ứng
df_mode = df.fillna(mode_values)
print(df_mode)

# df_filled bây giờ chứa DataFrame với các giá trị thiếu đã được thay thế bằng giá trị mode của cột tương ứng

        Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape   
0        1          60       RL         65.0     8450   Pave  Grvl      Reg  \
1        2          20       RL         80.0     9600   Pave   NaN      Reg   
2        3          60       RL         68.0    11250   Pave   NaN      IR1   
3        4          70       RL         60.0     9550   Pave   NaN      IR1   
4        5          60       RL         84.0    14260   Pave   NaN      IR1   
...    ...         ...      ...          ...      ...    ...   ...      ...   
1455  1456          60       RL         62.0     7917   Pave   NaN      Reg   
1456  1457          20       RL         85.0    13175   Pave   NaN      Reg   
1457  1458          70       RL         66.0     9042   Pave   NaN      Reg   
1458  1459          20       RL         68.0     9717   Pave   NaN      Reg   
1459  1460          20       RL         75.0     9937   Pave   NaN      Reg   

     LandContour Utilities  ... PoolArea PoolQC  Fe

### 5. Thay thế bằng một giá trị không đổi khác (ví dụ: 0):

In [76]:

df = pd.read_csv('houseprice.csv')
# Thay thế các giá trị thiếu bằng giá trị 0
df_replace_0 = df.fillna(value=1)
print(df_replace_0)

        Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape   
0        1          60       RL         65.0     8450   Pave     1      Reg  \
1        2          20       RL         80.0     9600   Pave     1      Reg   
2        3          60       RL         68.0    11250   Pave     1      IR1   
3        4          70       RL         60.0     9550   Pave     1      IR1   
4        5          60       RL         84.0    14260   Pave     1      IR1   
...    ...         ...      ...          ...      ...    ...   ...      ...   
1455  1456          60       RL         62.0     7917   Pave     1      Reg   
1456  1457          20       RL         85.0    13175   Pave     1      Reg   
1457  1458          70       RL         66.0     9042   Pave     1      Reg   
1458  1459          20       RL         68.0     9717   Pave     1      Reg   
1459  1460          20       RL         75.0     9937   Pave     1      Reg   

     LandContour Utilities  ... PoolArea PoolQC  Fe

In [66]:
pd.__version__


'2.0.1'

### 6. Sử dụng K-Nearest Neighbor (kNN):

In [61]:
import pandas as pd
from sklearn.impute import KNNImputer

# Đọc dữ liệu vào DataFrame
df = pd.read_csv('houseprice.csv',usecols=cols_to_use)  # Thay 'ten_file.csv' bằng tên tệp dữ liệu của bạn

# Khởi tạo một trình xử lý KNN
knn_imputer = KNNImputer(n_neighbors=5)  # Chọn số lân cận bạn muốn sử dụng (ở đây là 5)

# Thực hiện thay thế dữ liệu thiếu bằng KNN
df_KNN = pd.DataFrame(knn_imputer.fit_transform(df), columns=df.columns)

# df_filled bây giờ chứa DataFrame với các giá trị thiếu đã được thay thế bằng KNN
print(df_KNN.to_string())



      MSSubClass  LotFrontage   LotArea  OverallQual  OverallCond  YearBuilt  YearRemodAdd  MasVnrArea  BsmtFinSF1  BsmtFinSF2  BsmtUnfSF  TotalBsmtSF  1stFlrSF  2ndFlrSF  LowQualFinSF  GrLivArea  BsmtFullBath  BsmtHalfBath  FullBath  HalfBath  BedroomAbvGr  KitchenAbvGr  TotRmsAbvGrd  Fireplaces  GarageYrBlt  GarageCars  GarageArea  WoodDeckSF  OpenPorchSF  EnclosedPorch  3SsnPorch  ScreenPorch  PoolArea  MiscVal  MoSold  YrSold  SalePrice
0           60.0         65.0    8450.0          7.0          5.0     2003.0        2003.0       196.0       706.0         0.0      150.0        856.0     856.0     854.0           0.0     1710.0           1.0           0.0       2.0       1.0           3.0           1.0           8.0         0.0       2003.0         2.0       548.0         0.0         61.0            0.0        0.0          0.0       0.0      0.0     2.0  2008.0   208500.0
1           20.0         80.0    9600.0          6.0          8.0     1976.0        1976.0         0.0       9