In [9]:
# Xây dựng mô hình hồi quy tuyến tính với dữ liệu dataset.csv
# Dữ liệu dataset.csv gồm nhiều cột. trong đó cột dự đoán là cột "USD" và các cột còn lại là các cột độc lập
# Yêu cầu: Xây dựng mô hình hồi quy tuyến tính với dữ liệu dataset.csv
# Bước 1: Đọc dữ liệu từ file dataset.csv
# Bước 2: Tách dữ liệu thành 2 tập X và Y
# Bước 3: Tách tập X và Y thành 2 tập train và test
# Bước 4: Xây dựng mô hình hồi quy tuyến tính với tập train
# Bước 5: Dự đoán kết quả với tập test
# Bước 6: Đánh giá mô hình
# Bước 7: Dự đoán kết quả với 1 giá trị mới
# Bước 8: Vẽ đồ thị mô hình hồi quy tuyến tính
# Bước 9: Vẽ đồ thị dữ liệu thực tế và dữ liệu dự đoán
# Bước 10: Lưu mô hình

In [10]:
# Bước 1: Đọc dữ liệu từ file dataset.csv
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import joblib
from sklearn.discriminant_analysis import StandardScaler
from statistics import LinearRegression
from scipy import stats
from sklearn.feature_selection import f_regression

In [11]:
df = pd.read_csv('dataset.csv')
print(df.head())

                                              DiaChi    TinhTrangBDS  \
0  Đường Nguyễn Văn Quỳ, Phường Phú Thuận, Quận 7...     Đã bàn giao   
1  Đường Nguyễn Văn Linh, Phường Tân Thuận Tây, Q...     Đã bàn giao   
2  Đường Võ Văn Kiệt, Phường An Lạc, Quận Bình Tâ...   Chưa bàn giao   
3  108, Đường Hồng Hà, Phường 2, Quận Tân Bình, T...     Đã bàn giao   
4  Đường Hậu Giang, Phường 11, Quận 6, Tp Hồ Chí ...     Đã bàn giao   

   DienTich  Gia/m2  Phongngu TenPhanKhu  SoTang  PhongTam       Loai  \
0      62.0  1344.0         2        NaN     NaN         2   Chung cư   
1      95.0  2325.0         3        NaN     NaN         2   Chung cư   
2      75.0  1433.0         2          2     5.0         2   Chung cư   
3      70.0  2381.0         1          A     7.0         1   Chung cư   
4      83.0  1481.0         2        NaN     NaN         2   Chung cư   

          GiayTo      MaCanHo   TinhTrangNoiThat HuongCuaChinh HuongBanCong  \
0       Đã có sổ          NaN                NaN 

In [12]:
# in ra tỉ lệ nan của từng cột
df.isna().sum()/df.shape[0]*100

DiaChi               0.000000
TinhTrangBDS         0.000000
DienTich             0.000000
Gia/m2               0.000000
Phongngu             0.000000
TenPhanKhu          71.845571
SoTang              73.203147
PhongTam             0.000000
Loai                 0.000000
GiayTo              24.403767
MaCanHo             86.558767
TinhTrangNoiThat    48.860532
HuongCuaChinh       62.497452
HuongBanCong        65.237066
DacDiem             77.593868
Gia                  0.000000
Quan                 0.000000
USD                  0.000000
dtype: float64

In [13]:
# xóa các cột có tỉ lệ nan > 50%
# vòng lặp while để xóa các cột có tỉ lệ nan > 50% cho đến khi nào không còn cột nào có tỉ lệ nan > 50%, lưu vào df_dropped
df_dropped = df.copy()
while True:
    for col in df_dropped.columns:
        if df_dropped[col].isna().sum()/df_dropped.shape[0]*100 > 50:
            df_dropped = df_dropped.drop(col, axis=1)
            break
    else:
        break


In [14]:
df

Unnamed: 0,DiaChi,TinhTrangBDS,DienTich,Gia/m2,Phongngu,TenPhanKhu,SoTang,PhongTam,Loai,GiayTo,MaCanHo,TinhTrangNoiThat,HuongCuaChinh,HuongBanCong,DacDiem,Gia,Quan,USD
0,"Đường Nguyễn Văn Quỳ, Phường Phú Thuận, Quận 7...",Đã bàn giao,62.00,1344.0,2,,,2,Chung cư,Đã có sổ,,,,,,2.000000e+09,Quận 7,83333.0
1,"Đường Nguyễn Văn Linh, Phường Tân Thuận Tây, Q...",Đã bàn giao,95.00,2325.0,3,,,2,Chung cư,Đang chờ sổ,,Nội thất cao cấp,,,Căn góc,5.300000e+09,Quận 7,220833.0
2,"Đường Võ Văn Kiệt, Phường An Lạc, Quận Bình Tâ...",Chưa bàn giao,75.00,1433.0,2,2,5.0,2,Chung cư,Giấy tờ khác,17,,Đông Nam,Đông Nam,,2.580000e+09,Quận Bình Tân,107500.0
3,"108, Đường Hồng Hà, Phường 2, Quận Tân Bình, T...",Đã bàn giao,70.00,2381.0,1,A,7.0,1,Chung cư,Đang chờ sổ,BPA - 0712,Nội thất cao cấp,Đông Nam,Tây Bắc,,4.000000e+09,Quận Tân Bình,166667.0
4,"Đường Hậu Giang, Phường 11, Quận 6, Tp Hồ Chí ...",Đã bàn giao,83.00,1481.0,2,,,2,Chung cư,Đã có sổ,,Nội thất cao cấp,Tây Bắc,,,2.950000e+09,Quận 6,122917.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24524,"Đường số 1, Phường Trường Thọ, Quận Thủ Đức,...",Chưa bàn giao,68.52,1710.0,2,,,0,Chung cư,Giấy tờ khác,,,,,Căn góc,2.790000e+09,Quận Thủ Đức,116250.0
24525,"Lô 11B KĐT Nam Thành Phố, Lô 11B KĐT Nam Thành...",Đã bàn giao,76.00,850.0,2,,,1,Chung cư,Đã có sổ,,Nội thất cao cấp,Đông,Đông Nam,Căn góc,1.550000e+09,Huyện Bình Chánh,64583.0
24526,"Đường Tạ Quang Bửu, Phường 5, Quận 8, Tp Hồ Ch...",Đã bàn giao,115.00,1196.0,2,A2,,2,Chung cư,Đã có sổ,,,,,,3.300000e+09,Quận 8,137500.0
24527,"Đường Phạm Văn Đồng, Phường 13, Quận Bình Thạn...",Đã bàn giao,82.00,1347.0,2,,,2,Chung cư,Đã có sổ,,Nội thất đầy đủ,Đông Nam,Tây Bắc,,2.650000e+09,Quận Bình Thạnh,110417.0


In [15]:
df_dropped.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24529 entries, 0 to 24528
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   DiaChi            24529 non-null  object 
 1   TinhTrangBDS      24529 non-null  object 
 2   DienTich          24529 non-null  float64
 3   Gia/m2            24529 non-null  float64
 4   Phongngu          24529 non-null  int64  
 5   PhongTam          24529 non-null  int64  
 6   Loai              24529 non-null  object 
 7   GiayTo            18543 non-null  object 
 8   TinhTrangNoiThat  12544 non-null  object 
 9   Gia               24529 non-null  float64
 10  Quan              24529 non-null  object 
 11  USD               24529 non-null  float64
dtypes: float64(4), int64(2), object(6)
memory usage: 2.2+ MB


In [16]:
# xóa DiaChi và Gia
df_dropped = df_dropped.drop(['DiaChi', 'Gia'], axis=1)
def modify_usd(usd):
    usd_str = str(usd)
    if len(usd_str) == 3:
        return float(usd_str + '0')
    elif len(usd_str) == 4:
        return float(usd_str[:2] + '0' + usd_str[2:])
    return float(usd)

df_dropped['USD'] = df_dropped['USD'].apply(modify_usd)



In [17]:
# in ra dòng có USD có 3 chữ số trở xuống
print(df_dropped[df_dropped['USD'] < 1000])

         TinhTrangBDS  DienTich   Gia/m2  Phongngu  PhongTam        Loai  \
131       Đã bàn giao     100.0   2833.0         3         2    Chung cư   
161       Đã bàn giao      81.0  10288.0         4         3   Officetel   
231       Đã bàn giao      76.0   1891.0         2         2    Chung cư   
378       Đã bàn giao      61.0  12295.0         1         1    Chung cư   
401       Đã bàn giao      68.0   7353.0         2         2    Chung cư   
...               ...       ...      ...       ...       ...         ...   
24204     Đã bàn giao      99.0   6313.0         2         2    Chung cư   
24283     Đã bàn giao      70.0   1250.0         2         2    Chung cư   
24286     Đã bàn giao      98.0   3826.0         3         2    Chung cư   
24349   Chưa bàn giao      93.0   2688.0         2         2    Chung cư   
24373     Đã bàn giao      68.0   3983.0         2         2    Chung cư   

              GiayTo    TinhTrangNoiThat              Quan    USD  
131         Đã có s

In [18]:
df_dropped.head(5)

Unnamed: 0,TinhTrangBDS,DienTich,Gia/m2,Phongngu,PhongTam,Loai,GiayTo,TinhTrangNoiThat,Quan,USD
0,Đã bàn giao,62.0,1344.0,2,2,Chung cư,Đã có sổ,,Quận 7,83333.0
1,Đã bàn giao,95.0,2325.0,3,2,Chung cư,Đang chờ sổ,Nội thất cao cấp,Quận 7,220833.0
2,Chưa bàn giao,75.0,1433.0,2,2,Chung cư,Giấy tờ khác,,Quận Bình Tân,107500.0
3,Đã bàn giao,70.0,2381.0,1,1,Chung cư,Đang chờ sổ,Nội thất cao cấp,Quận Tân Bình,166667.0
4,Đã bàn giao,83.0,1481.0,2,2,Chung cư,Đã có sổ,Nội thất cao cấp,Quận 6,122917.0


In [19]:
df_x = df_dropped.drop(['USD'], axis=1)
df_y = df_dropped['USD']

In [20]:
data_dummies = pd.get_dummies(df_x, drop_first=True)
data_dummies = data_dummies.astype(float)
cols = data_dummies.columns.values
data_preprocessed = data_dummies[cols]
data_preprocessed

Unnamed: 0,DienTich,Gia/m2,Phongngu,PhongTam,TinhTrangBDS_ Đã bàn giao,"Loai_ Căn hộ dịch vụ, mini",Loai_ Duplex,Loai_ Officetel,Loai_ Penthouse,"Loai_ Tập thể, cư xá",...,Quan_ Quận 7,Quan_ Quận 8,Quan_ Quận 9,Quan_ Quận Bình Thạnh,Quan_ Quận Bình Tân,Quan_ Quận Gò Vấp,Quan_ Quận Phú Nhuận,Quan_ Quận Thủ Đức,Quan_ Quận Tân Bình,Quan_ Quận Tân Phú
0,62.00,1344.0,2.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,95.00,2325.0,3.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,75.00,1433.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
3,70.00,2381.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
4,83.00,1481.0,2.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24524,68.52,1710.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
24525,76.00,850.0,2.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
24526,115.00,1196.0,2.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
24527,82.00,1347.0,2.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0


#### Scale data về dạng chuẩn

In [21]:
scaler = StandardScaler()
scaler.fit(data_preprocessed)

In [22]:
data_preprocessed = scaler.transform(data_preprocessed)

In [23]:
# Bước 2: Tách dữ liệu thành 2 tập X và Y
X = data_preprocessed
Y = df_y


In [24]:
# Bước 3: Tách tập X và Y thành 2 tập train và test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
print(X_train.shape)
print(Y_train.shape)
print(X_test.shape)
print(Y_test.shape)

(19623, 37)
(19623,)
(4906, 37)
(4906,)


In [25]:
# Bước 4: Xây dựng mô hình hồi quy tuyến tính với tập train
model = linear_model.LinearRegression().fit(X_train, Y_train)

In [26]:
# Bước 5: Dự đoán kết quả với tập test
Y_pred = model.predict(X_test)
Y_pred

array([251979.00092648,  20135.88470088, 355516.42564319, ...,
        95624.81889384,  34500.96179664,  78354.91425566])

In [27]:
perc = np.abs((Y_pred - Y_test)/Y_test)
perc = perc.values*100

In [28]:
np.array([Y_pred, Y_test, perc])

array([[2.51979001e+05, 2.01358847e+04, 3.55516426e+05, ...,
        9.56248189e+04, 3.45009618e+04, 7.83549143e+04],
       [2.91667000e+05, 4.00000000e+04, 2.91667000e+05, ...,
        9.91670000e+04, 7.20830000e+04, 9.91670000e+04],
       [1.36072984e+01, 4.96602882e+01, 2.18912066e+01, ...,
        3.57193533e+00, 5.21371727e+01, 2.09869067e+01]])

In [29]:
data = {'Gia du doan':Y_pred,
        'Gia thuc':Y_test,
       '% sai lech': perc}
A = pd.DataFrame(data)

In [30]:
B = A.sort_values(by=['% sai lech'])
B

Unnamed: 0,Gia du doan,Gia thuc,% sai lech
14032,119988.003458,120000.0,0.009997
21205,100807.883381,100833.0,0.024909
9625,164538.163147,164583.0,0.027243
17068,187423.515825,187500.0,0.040792
16162,45855.582129,45833.0,0.049270
...,...,...,...
12810,147718.078653,145.0,101774.537002
13857,110500.914559,106.0,104146.145810
23223,185794.353612,177.0,104868.561363
11386,113511.440929,104.0,109045.616278


In [31]:
# in ra tổng các dữ liệu Y_test nếu % sai lệch > 10%
B[B['% sai lech'] > 50]['Gia thuc'].count()

836

In [32]:
(sum((model.predict(X_test) - Y_test)**2)/len(Y_test))**0.5

73707.68961560752

In [33]:
B['% sai lech'].describe()

count      4906.000000
mean        604.387468
std        6202.150970
min           0.009997
25%           8.583400
50%          20.322717
75%          37.733142
max      117717.883787
Name: % sai lech, dtype: float64

In [34]:
# Bước 6: Đánh giá mô hình
# in ra R square
print('R square: ', r2_score(Y_test, Y_pred))

# in ra MSE
print('MSE: ', mean_squared_error(Y_test, Y_pred))
# in ra MAE
print('MAE: ', np.mean(np.abs(Y_pred - Y_test)))
# in ra RMSE
print('RMSE: ', mean_squared_error(Y_test, Y_pred, squared=False))

R square:  0.5534345171149374
MSE:  5432823508.470773
MAE:  33509.8625155767
RMSE:  73707.68961560777


In [35]:
# kiểm tra t-test
stats.ttest_ind(Y_pred, Y_test)

TtestResult(statistic=-0.7053217493587509, pvalue=0.4806267749293679, df=9810.0)

In [36]:
# kiểm định F-test
f_regression(X_train, Y_train)


(array([1.27465347e+04, 7.50699783e+02, 3.93061271e+03, 3.11149413e+03,
        3.13207842e+02, 5.44776280e+01, 1.36137359e+02, 1.64447700e+01,
        1.30943286e+03, 8.97682226e-01, 1.03629969e-02, 1.94509173e+01,
        7.09792633e+01, 3.58031011e+02, 4.95459847e+00, 1.19163730e+00,
        2.47528197e+02, 6.14406433e+01, 8.42535087e+01, 2.57834311e+02,
        4.52443727e-02, 1.37554762e+02, 5.64191959e+02, 3.33136684e+01,
        6.45352314e+01, 7.82536831e+02, 6.45762334e-01, 2.12315000e+02,
        1.80388442e+02, 2.30490412e+02, 2.85954719e+02, 5.09251928e+02,
        1.53164717e-01, 2.93913353e+02, 2.18712321e+02, 9.59150518e+00,
        1.50461632e+01]),
 array([0.00000000e+000, 3.16587348e-162, 0.00000000e+000, 0.00000000e+000,
        1.51701559e-069, 1.63500187e-013, 2.36344477e-031, 5.02815949e-005,
        1.26818460e-277, 3.43415621e-001, 9.18917414e-001, 1.03767162e-005,
        3.85564255e-017, 3.82878914e-079, 2.60326823e-002, 2.75012946e-001,
        1.96001308e-05

In [37]:
# in ra từng cột và hệ số tương ứng
for col, coef in zip(df_dropped.columns[1:], model.coef_):
    print(col, ': ', coef)

DienTich :  54528.18204768758
Gia/m2 :  8958.164746133309
Phongngu :  2330.4626326716807
PhongTam :  4345.235721423882
Loai :  -580.40126909443
GiayTo :  1298.0511102462763
TinhTrangNoiThat :  3309.4314187080568
Quan :  704.5911576113007
USD :  1467.0167912706715


In [38]:
# viết lại mô hình dưới dạng phương trình hồi quy tuyến tính, dễ nhìn và sử dụng hơn
print('y = ', model.intercept_, end='')
for col, coef in zip(df_dropped.columns[1:], model.coef_):
    print(' + ', coef, '*', col, end='')
print()

y =  114854.64063231765 +  54528.18204768758 * DienTich +  8958.164746133309 * Gia/m2 +  2330.4626326716807 * Phongngu +  4345.235721423882 * PhongTam +  -580.40126909443 * Loai +  1298.0511102462763 * GiayTo +  3309.4314187080568 * TinhTrangNoiThat +  704.5911576113007 * Quan +  1467.0167912706715 * USD
