## Import các thư viện cần thiết

In [7]:
!pip install scipy



In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
import scipy.stats as stats
from sklearn.decomposition import PCA 
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.neural_network import MLPRegressor
from sklearn import set_config
set_config(display='diagram') # Để trực quan hóa pipeline

sns.set()
plt.rcParams["figure.figsize"] = (15,8)

ModuleNotFoundError: No module named 'matplotlib'

## Khám phá dữ liệu

### Đọc dữ liệu

Dữ liệu được đọc từ 2 file "train.csv" và "test.csv" sau đó nối lại và lưu trong một dataframe duy nhất.

In [None]:
df= pd.read_csv("train.csv")
df

## Kích thước dữ liệu

In [None]:
df.shape

In [None]:
print(f"Number of rows: {df.shape[0]}")
print(f"Number of columns: {df.shape[1]}")

## Ý nghĩa của các cột dữ liệu

## Kiểm tra dữ liệu lặp

In [None]:
df.duplicated().sum()

## Kiểm tra phần trăm dữ liệu thiếu ở mỗi cột
* Nếu dữ liệu thiếu quá nhiều (>50%) thì ta sẽ loại bỏ cột đó

In [None]:
missing_percentage = df.isna().sum()/len(df)
missing_percentage

In [None]:
drop_cols = missing_percentage.loc[missing_percentage>0.5].index
df.drop(columns=list(drop_cols), inplace =True)

In [None]:
df.drop(columns="Id", inplace=True)

* Thử loại bỏ tất cả các dòng có giá trị Nan

In [None]:
df.dropna()

* Kích thước lúc này đã giảm đi rất nhiều, nên trong trường hợp này ta tìm cách điền vào các giá trị thiếu

In [None]:
numerical_cols = [col for col in df.columns if df[col].dtype in [np.float64, np.int64]]
ax  = df[numerical_cols].hist(bins=10)

## Xử lí dữ liệu thiếu
- Ta thấy rằng nếu loại bỏ tất cả các dòng có dữ liệu thiếu sẽ làm các số lượng sample giảm đi rất nhiều. Điều này làm ảnh hưởng đến kết quả của các mô hình huấn luyện và làm sai lệch dữ liệu
- Trong trường hợp này ta sẽ tìm cách điền các dữ liệu thiếu này
- Ta điền bằng độ lệch skewness
- Nếu skewness >= 0.5 ta điền bằng median. Ngược lại điền bằng mean
- Để tiện cho quá trình tiền xử lý ta sẽ tạo một data pipeline với các bước: loại bỏ các cột có quá nửa là dữ liệu thiếu, điền dữ liệu thiếu vào các dòng như đề xuất trên

In [None]:
# Điền dữ liệu thiếu trong nume_df

class Drop_Cols:
    def __init__(self, dropped_cols=None):
        self.dropped_cols = dropped_cols
    def fit(self, X_df, y_df=None):
        missing_percentage = X_df.isna().sum()
        dropped_cols = missing_percentage.loc[missing_percentage>0.5].index
        self.dropped_cols = list(dropped_cols)
        return self
    def transform(self,X_df, y_df=None):
        return X_df.drop(columns=self.dropped_cols)
    
class Filling_Missing:
    def __init__(self, filled_cols=None):
        self.filled_cols = filled_cols
    def filling_missing(self, series):
        skewness = stats.skew(series)
        if skewness>=0.5:
            return series.fillna(np.median(series))
        else:
            return series.fillna(np.mean(series))
    def fit(self,X_df, y =None):
        self.filled_cols = [col for col in X_df.columns if X_df[col].dtype in [np.float64, np.int64]]
        return self
    def transform(self, X_df):
        return df[self.filled_cols].apply(self.filling_missing)
    
numerical_cols = [col for col in df.columns if df[col].dtype in [np.float64, np.int64]]
categorical_cols = [col for col in df.columns if col not in numerical_cols]

In [None]:
preprocessing_pipeline = make_pipeline(Drop_Cols(), Filling_Missing())

In [None]:
preprocessing_pipeline

In [None]:
preprocessing_pipeline.fit(df)
nume_df = preprocessing_pipeline.transform(df)

In [None]:
nume_df

In [None]:
#Kiem tra lai cac phan phoi sau khi filling
ax=nume_df.hist(bins=10)

- Dữ liệu sau khi filling không có phân phối xác suất không thay đổi rõ rệt
- Điều này cho thây việc điền các giá trị thiếu không ảnh hưởng đến tính đúng của dữ liệu gốc

In [None]:
pd.options.display.float_format = "{:,.2f}".format
sns.set(rc = {'figure.figsize':(20,15)})
corr_matrix = nume_df.corr()
corr_matrix[np.abs(corr_matrix)<0.3]=0
sns.heatmap(corr_matrix, cmap="viridis",vmax=1.0, vmin=-1.0, linewidths=0.1, mask = np.triu(np.ones_like(corr_matrix, dtype=bool)), annot =True,annot_kws={"size": 9, "color": "black"})

- Chọn ra những thuộc tính ảnh hưởng mạnh lên SalePrice (relational coefficent>0.7)

In [None]:
corr_price_col = corr_matrix["SalePrice"][:-1]
strong_att = corr_price_col[np.abs(corr_price_col>0.7)]
strong_att

### Áp dụng mô hình OLS

In [None]:
cols = [name for name in strong_att.index if "Year" not in name]
cols

In [None]:
for i in range(len(cols)):
    plt.subplot(4,3,i+1)
    sns.regplot(data=nume_df, x=cols[i], y="SalePrice")

- Ta thấy với OverallQual càng tăng thì SalePrice có xu hướng tăng. Nhưng các điểm trên plot OverallQual nếu là 1 đường thẳng thì dễ xảy ra underfitting
- Với GrLivArea, SalePrice có scale khá lớn ( $>10^3$ )
- Ta thử đề xuất môt hình $ log(SalePrice) \approx w2OverallQual^3 + w1log(GrLivArea) + w0$

In [None]:
exog = sm.add_constant(pd.concat([nume_df[cols[0]]**3,np.log10(nume_df[cols[1]])],axis=1))

In [None]:
ols = sm.OLS(np.log10(nume_df["SalePrice"]), exog)

- Mô hình cho kết quả khá tệ với RSS = 0.38
- Có thể điều này xảy ra do các attribute có scale khác nhau
- Có thể dùng zscore để chuẩn hoá

In [None]:
reg = ols.fit()

In [None]:
reg.summary()

## Nhận xét
- Mô hình có Rsquared = 0.734
- Hệ số p_value đều thấp => có ý nghĩa thống kê
- Giờ hãy thử trên tập test

In [None]:
linear_model = LinearRegression(fit_intercept=True)

In [None]:
X_train = pd.concat([nume_df[cols[0]]**3,np.log10(nume_df[cols[1]])],axis=1)
y_train = np.log10(nume_df["SalePrice"])

In [None]:
linear_model.fit(X_train,y_train)

In [None]:
print(linear_model.coef_)
print(linear_model.intercept_)

In [None]:
mean_squared_error(linear_model.predict(X_train), y_train)

- Có vẻ các hệ số của các biến độc lập đều giống với mô hinh OLS thử nghiệm ở trên
- Độ đo MSE ~ 0.0079886 (rất nhỏ) cho thấy mô hình hoạt động tốt trên tập training

In [None]:
df_test = pd.read_csv("test.csv")
df_test

In [None]:
df_test = preprocessing_pipeline.transform(df_test)
X_test = pd.concat([df_test[cols[0]]**3,np.log10(df_test[cols[1]])],axis=1)

In [None]:
df_test["SalePrices"] = 10**linear_model.predict(X_test)

In [None]:
df_test

- Như vậy có thể sử dụng mô hình
$ log_{10}(SalePrice) \approx 0.00054278OverallQual^3 + 0.48182753log_{10}(GrLivArea) + 3.55870718$

### Thử nghiệm MLP Regression

- Ta thử dùng mô hình MLP Regression trên dataset
- Các bước tiền xử lí:
- Loại bỏ các cột có > 50% dữ liệu thiếu
- Với các cột dạng numerical ta filling dựa trên độ lệch skewness như trên
- Với các cột categorical ta dùng mode để filling, và dùng one-hot-encoding trên các cột này
- Sau đó dùng standard scaler để chuẩn hoá các cột
- Cuối cùng là apply mô hình MLPRegression

In [None]:
df_2 = df.copy()
dropped_cols = Drop_Cols()
dropped_cols.fit(df_2)
df_2 = dropped_cols.transform(df_2)
df_2

In [None]:
numerical_cols = [col for col in df_2.columns if df_2[col].dtype in [np.float64, np.int64]]
categorical_cols = [col for col in df_2.columns if col not in numerical_cols]

In [None]:
categorical_handle = make_pipeline(SimpleImputer(strategy="most_frequent"),OneHotEncoder(handle_unknown="ignore", sparse=False))

In [None]:
step = make_column_transformer((categorical_handle, categorical_cols), (make_pipeline(Filling_Missing()), numerical_cols))

In [None]:
preprocessing_pipeline = make_pipeline(step, StandardScaler())

**Các thông số trong mô hình:**
- Max_iter (số vòng lặp tối đa): nếu mô hình hội tụ trước khi đủ 10000 mô hình sẽ trả về kết quả
- Ta sẽ dùng activation là hàm Relu vì giá trị hàm từ 0 đến vô cùng
- hidden layer size = 50

In [None]:
reg = MLPRegressor(max_iter=10000, random_state=0, alpha =1, activation="relu", solver="lbfgs", hidden_layer_sizes=(50))
mlp_pipeline = make_pipeline(preprocessing_pipeline, reg)
mlp_pipeline

In [None]:
mlp_pipeline.fit(df_2, df_2.SalePrice)

In [None]:
mean_squared_error(mlp_pipeline.predict(df_2), df_2.SalePrice)

### Nhận xét mô hình:
- Mô hình hoạt động tốt trên tập training
- Accuracy = 0.1701689 là một độ đo tốt (tránh được overfitting và không underfitting)