In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.metrics import mean_squared_error
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder

# Đọc dữ liệu và quan sát nhanh dữ liệu California Housing Prices đã được chia thành 3 tập Train, Dev, và Test
* Lệnh ``pd.read_csv()`` tham khảo tại trang 47 trong sách Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow
* Lệnh ``df.head()`` tham khảo tại trang 47 trong sách Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow
* Lệnh ``df.info()`` tham khảo tại trang 47 trong sách Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow

In [2]:
df_train = pd.read_csv('housing_train.csv') # Đọc dữ liệu tập Train (Tập dữ liệu việc huấn luyện mô hình)
df_dev = pd.read_csv('housing_dev.csv')     # Đọc dữ liệu tập Dev   (Tập dữ liệu dành cho việc phát triển/tinh chỉnh mô hình)
df_test = pd.read_csv('housing_test.csv')   # Đọc dữ liệu tập Test  (Tập dữ liệu dành cho việc kiểm tra mô hình)

In [3]:
df_train.info() # Kiểm tra thông tin ban đầu dữ liệu (số dòng, số cột, kiểu dữ liệu của các cột)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14447 entries, 0 to 14446
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           14447 non-null  float64
 1   latitude            14447 non-null  float64
 2   housing_median_age  14447 non-null  float64
 3   total_rooms         14447 non-null  float64
 4   total_bedrooms      14287 non-null  float64
 5   population          14447 non-null  float64
 6   households          14447 non-null  float64
 7   median_income       14447 non-null  float64
 8   median_house_value  14447 non-null  float64
 9   ocean_proximity     14447 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.1+ MB


In [4]:
df_train.head() # Quan sát nhanh 5 dòng dữ liệu đầu tiên

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-117.83,34.15,20.0,2421.0,306.0,1023.0,298.0,8.0683,451500.0,INLAND
1,-119.85,36.77,27.0,1510.0,344.0,847.0,295.0,2.9315,83200.0,INLAND
2,-122.13,37.67,40.0,1748.0,318.0,914.0,317.0,3.8676,184000.0,NEAR BAY
3,-119.81,34.46,22.0,3488.0,452.0,1479.0,458.0,7.1687,384400.0,NEAR OCEAN
4,-120.47,34.65,32.0,2193.0,430.0,1074.0,377.0,2.3333,130200.0,NEAR OCEAN


In [5]:
df_dev.info() # Kiểm tra thông tin ban đầu dữ liệu (số dòng, số cột, kiểu dữ liệu của các cột)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2065 entries, 0 to 2064
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           2065 non-null   float64
 1   latitude            2065 non-null   float64
 2   housing_median_age  2065 non-null   float64
 3   total_rooms         2065 non-null   float64
 4   total_bedrooms      2048 non-null   float64
 5   population          2065 non-null   float64
 6   households          2065 non-null   float64
 7   median_income       2065 non-null   float64
 8   median_house_value  2065 non-null   float64
 9   ocean_proximity     2065 non-null   object 
dtypes: float64(9), object(1)
memory usage: 161.5+ KB


In [6]:
df_dev.head() # Quan sát nhanh 5 dòng dữ liệu đầu tiên

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-118.36,33.92,26.0,3695.0,1144.0,2308.0,1009.0,2.6667,229300.0,<1H OCEAN
1,-118.41,34.19,45.0,1106.0,225.0,595.0,228.0,3.6625,190700.0,<1H OCEAN
2,-122.48,37.73,38.0,3195.0,828.0,2410.0,778.0,3.1359,350000.0,NEAR OCEAN
3,-117.18,32.76,8.0,3694.0,997.0,1297.0,807.0,3.6492,158900.0,NEAR OCEAN
4,-117.15,33.14,15.0,1070.0,208.0,470.0,217.0,2.3062,158900.0,<1H OCEAN


In [7]:
df_test.info() # Kiểm tra thông tin ban đầu dữ liệu (số dòng, số cột, kiểu dữ liệu của các cột)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4128 entries, 0 to 4127
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           4128 non-null   float64
 1   latitude            4128 non-null   float64
 2   housing_median_age  4128 non-null   float64
 3   total_rooms         4128 non-null   float64
 4   total_bedrooms      4098 non-null   float64
 5   population          4128 non-null   float64
 6   households          4128 non-null   float64
 7   median_income       4128 non-null   float64
 8   median_house_value  4128 non-null   float64
 9   ocean_proximity     4128 non-null   object 
dtypes: float64(9), object(1)
memory usage: 322.6+ KB


In [8]:
df_test.head() # Quan sát nhanh 5 dòng dữ liệu đầu tiên

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.41,37.65,32.0,3436.0,868.0,2583.0,817.0,3.5039,232400.0,NEAR OCEAN
1,-117.91,33.84,25.0,1021.0,252.0,975.0,258.0,3.125,168100.0,<1H OCEAN
2,-118.35,34.08,52.0,1801.0,313.0,714.0,293.0,4.6838,479000.0,<1H OCEAN
3,-121.02,37.61,33.0,1469.0,370.0,1318.0,349.0,1.7104,59000.0,INLAND
4,-117.65,34.1,30.0,1461.0,341.0,1014.0,345.0,2.4667,106000.0,INLAND


# Tách thuộc tính "median_house_value" để làm thuộc tính cần dự đoán  cho bài toán hồi quy tuyến tính (Y), các thuộc tính còn lại là dữ kiện (X).
* Lệnh ``df.drop()`` tham khảo tại trang sách số 63 sách tham khảo Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow

In [9]:
train_X = df_train.drop("median_house_value", axis=1)
train_Y = df_train["median_house_value"].copy()
del df_train

dev_X = df_dev.drop("median_house_value", axis=1)
dev_Y = df_dev["median_house_value"].copy()
del df_dev

test_X = df_test.drop("median_house_value", axis=1)
test_Y = df_test["median_house_value"].copy()
del df_test

# Kiểm tra các thuộc tính bị khuyết giá trị trong tập Train
* Chúng ta có thể cả các lệnh ``df.isnull()`` hoặc ``df.isna()`` để chỉ giá trị bị khuyết (``True``) / không bị khuyết (``False``)
* Chúng ta dùng tiếp lệnh ``arr.any(axis=1)`` để trả về các dòng chỉ chứa một cột có giá trị ``True``/``False`` nếu các cột chỉ cần tồn tại một thuộc tính ``True``
* Chúng ta tính tổng các dòng kết quả trên bằng lệnh ``arr.sum(axis=0)`` sẽ biết được số trường hợp bị khuyết của mỗi thuộc tính

In [10]:
train_X.isnull()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,ocean_proximity
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
14442,False,False,False,False,False,False,False,False,False
14443,False,False,False,False,False,False,False,False,False
14444,False,False,False,False,False,False,False,False,False
14445,False,False,False,False,False,False,False,False,False


In [11]:
train_X.isnull().any(axis=1)
# train_X.isna().any(axis=1)

0        False
1        False
2        False
3        False
4        False
         ...  
14442    False
14443    False
14444    False
14445    False
14446    False
Length: 14447, dtype: bool

In [12]:
train_X[train_X.isnull().any(axis=1)]
# train_X[train_X.isna().any(axis=1)]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,ocean_proximity
41,-124.00,40.92,29.0,1429.0,,672.0,266.0,2.9485,<1H OCEAN
204,-120.97,37.43,27.0,1380.0,,810.0,262.0,2.1875,INLAND
403,-118.27,34.07,27.0,1190.0,,1795.0,422.0,1.7016,<1H OCEAN
413,-119.45,36.61,24.0,1302.0,,693.0,243.0,3.7917,INLAND
586,-121.30,38.58,16.0,1537.0,,1125.0,375.0,2.6471,INLAND
...,...,...,...,...,...,...,...,...,...
13865,-121.75,37.11,18.0,3167.0,,1414.0,482.0,6.8773,<1H OCEAN
13918,-118.10,33.74,32.0,2035.0,,934.0,512.0,4.2287,NEAR OCEAN
14004,-122.08,37.37,29.0,1229.0,,707.0,194.0,7.1108,NEAR BAY
14168,-119.38,36.53,38.0,1281.0,,1423.0,293.0,1.9602,INLAND


In [13]:
train_X.isnull().sum(axis = 0)
# train_X.isna().sum(axis = 0)

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        160
population              0
households              0
median_income           0
ocean_proximity         0
dtype: int64

# Xử lý các cột bị khuyết dữ liệu trên tập Train
1. Phương án 1: Xóa toàn bộ một dòng có cột dữ liệu bị khuyết
2. Phương án 2: Thay thế giá trị số bằng cách dùng trung bình cộng (``mean``) của toàn cột dữ liệu đó
    * Cách xử lý 1: Dùng lớp ``SimpleImputer`` từ thư viện ``sklearn.impute``
    * Cách xử lý 2: Cách hai thực hiện một số thao tác trên cột

Các bạn có thể tham khảo tại trang số 63 sách Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow

In [14]:
# Cách 1:
imputer_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer_mean.fit(train_X["total_bedrooms"].values.reshape(-1, 1))
tmp_total_bedrooms = imputer_mean.transform(train_X['total_bedrooms'].values.reshape(-1, 1))

In [15]:
# Cách 2:
idx_null = train_X["total_bedrooms"].isnull() # kiểm tra giá trị khuyết
mean_total_bedrooms = train_X["total_bedrooms"][train_X["total_bedrooms"].isna() == False].mean() # tính trung bình cộng các giá trị không bị khuyết
train_X["total_bedrooms"].fillna(mean_total_bedrooms, inplace=True) # thay thế các dòng không bị khuyết bởi giá trị trung bình
print(train_X["total_bedrooms"][idx_null == True]) # in ra màn hình giá trị các dòng bị khuyết ban đầu để kiểm tra

41       538.66578
204      538.66578
403      538.66578
413      538.66578
586      538.66578
           ...    
13865    538.66578
13918    538.66578
14004    538.66578
14168    538.66578
14371    538.66578
Name: total_bedrooms, Length: 160, dtype: float64


In [16]:
print((train_X["total_bedrooms"] == tmp_total_bedrooms.squeeze()).all()) # Kiểm tra kết quả Cách 1 và Cách 2 có giống nhau hay không?

print((train_X["total_bedrooms"].isna() == False).all()) # Kiểm tra kết quả sau khi áp dụng Cách 2 còn giá trị nào bị khuyết hay không?

True
True


# Yêu cầu 1: Xử lý các cột bị khuyết dữ liệu trên tập Dev/Test

In [17]:
# Các bạn code tại đây


In [18]:
# Các bạn code tại đây


In [19]:
# Các bạn code tại đây


# Yêu cầu 2: Thực hiện các thí nghiệm với việc thêm các thuộc tính tích lũy dẫn
Chúng ta có danh sách các thuộc tính: ``longitude``, ``latitude``, ``housing_median_age``, ``total_rooms``, ``total_bedrooms``, ``population``, ``households``, ``median_income``, ``ocean_proximity``

1. Thí nghiệm 1: ``longitude``
2. Thí nghiệm 2: ``longitude``, ``latitude``
3. Thí nghiêm 3: ``longitude``, ``latitude``, ``housing_median_age``
4. Thí nghiệm 4: v.v...

Lưu ý: Trong quá trình làm, các bạn sẽ tham khảo cách xử lý thuộc tính ``ocean_proximity`` bằng lớp ``LabelEncoder`` từ thư viện ``sklearn.preprocessing``

In [20]:
features_list_1 = ["longitude"]
model_1 = sm.OLS(train_Y, train_X[features_list_1]).fit()
rmse_train_1 = mean_squared_error(train_Y, model_1.predict(train_X[features_list_1]), squared=False)
# If True returns MSE value, if False returns RMSE value.
rmse_dev_1 = mean_squared_error(dev_Y, model_1.predict(dev_X[features_list_1]), squared=False)
rmse_test_1 = mean_squared_error(test_Y, model_1.predict(test_X[features_list_1]), squared=False)

In [21]:
features_list_2 = ["longitude", "latitude"]
model_2 = sm.OLS(train_Y, train_X[features_list_2]).fit()
rmse_train_2 = mean_squared_error(train_Y, model_2.predict(train_X[features_list_2]), squared=False)
rmse_dev_2 = mean_squared_error(dev_Y, model_2.predict(dev_X[features_list_2]), squared=False)
rmse_test_2 = mean_squared_error(test_Y, model_2.predict(test_X[features_list_2]), squared=False)

In [22]:
# Các bạn code tại đây

In [23]:
# Các bạn code tại đây. Các bạn có thể dùng thao tác Insert -> Insert Cell Bellow/Above để chèn thêm ô để nhập code

# Yêu cầu 3: Trình bày kết quả mô hình vào một bảng bằng thư viện Pandas

In [24]:
df_result = pd.DataFrame(data = {'RMSE_Train': [rmse_train_1, rmse_train_2],
                                 'RMSE_Dev': [rmse_dev_1, rmse_dev_2],
                                 'RMSE_Test': [rmse_test_1, rmse_test_2]},
                         index = ['longitude', 'longitude + latitude'])

display(df_result.round(3))

Unnamed: 0,RMSE_Train,RMSE_Dev,RMSE_Test
longitude,114808.126,114556.56,117298.758
longitude + latitude,111492.09,112236.757,113827.915


# Yêu cầu 4: Nhận xét các kết quả trên
Các bạn vui lòng nhận xét tại đây nha, ví dụ như giá trị hiệu suất ``RMSE`` thay đổi như thế nào?
Các bạn nên dùng ``Markdown`` như thế này để nhận xét.

# Yêu cầu 5: Thực hiện lại các Yêu cầu 2, 3, 4 khi dùng mô hình ``Support Vector Machine regressor`` (``sklearn.svm.SVR``) để giải quyết bài toán hồi quy tuyến tính 