# MÔ HÌNH HỒI QUY TUYẾN TÍNH

# Học máy có nhãn (Supervised learning)

Biến độc lập $X=(X_1,X_2,\dots,X_m)$ và biến phụ thuộc $Y$

**Mục tiêu:** Dự báo biến phụ thuộc khi biết biến độc lập $Y=f(X_1,X_2,\dots,X_m)$

**Phân loại (classification)**: Biến phụ thuộc là biến phân loại (categories)

**Hồi quy (Regression)**: Biến phụ thuộc là liên tục

In [1]:
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')
import pandas as pd
import numpy as np

## 1. Boston housing data

In [2]:
boston = pd.read_csv('data/Boston.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'data/Boston.csv'

In [None]:
boston.head()

In [None]:
boston=boston.drop('Unnamed: 0',axis=1)

In [None]:
boston.head()

In [None]:
boston.shape

# Cơ sở hồi quy tuyến tính

## Hồi quy tuyến tính đơn giản ( 1 biến độc lập)

$$y=\beta_0+\beta_1 x$$


- $y$: biến phụ thuộc

- $x$: biến độc lập

- $\beta_0,\beta_1$: tham số của mô hình


## Hồi quy tuyến tính nhiều chiều (nhiều biến độc lập)

Hồi quy 2 biến: $y=\beta_0+\beta_1 x_1+\beta_2 x_2$

Hồi quy $m$ biến: $y=\beta_0+\beta_1x_1+\beta_2x_2+\dots+\beta_mx_m$

- $y$: biến phụ thuộc

- $x$: biến độc lập

- $\beta_0,\beta_1,\beta_2,\dots,\beta_m$: tham số của mô hình

### Xác định giá trị của tham số mô hình

- Xác định sai số ( hàm tổn thất) của mô hình.

- Chọn tham số để sai số nhỏ nhất.

## Mô hình lý thuyết

Giả sử rằng biến phụ thuộc $Y$ (output, dependent, response) có **quan hệ tuyến tính** 
với các biến đầu vào (independent, predictor) $X_1,X_2,\dots,X_m$ bởi công thức

$$ Y=\beta_0+\sum\limits_{j=1}^m \beta_j X_j+\varepsilon $$

trong đó $\varepsilon\sim N(0,\sigma^2)$ biến sai số không quan sát được (**error component**)

## Mục tiêu
Ước lượng các tham số $\beta_j$, phương sai $\sigma^2$, và sự ảnh hưởng các biến đầu vào đối với $Y$.

Giả sử ta có các $n$ quan sát $$(x_{i1},\dots,x_{im},y_i), i=1,2,\dots,n $$

$$y_i=\beta_0+\sum\limits_{j=1}^m \beta_j x_{ij}+e_i, i=1,2,\dots,n $$

với các $e_i$ là các sai số và cùng phân phối với $\varepsilon$

Ta sử dụng phương pháp **bình phương tối thiểu** ước lượng các $\beta_j$ sao cho sai số nhỏ nhất
$$SSE=\sum\limits_{i=1}^ne_i^2=\sum\limits_{i=1}^n (y_i-\beta_0-\sum\limits_{j=1}^m \beta_j x_{ij})^2 $$
$$\hat{\beta} =\arg\min SSE(\beta)$$

Tổng bình phương các sai số (SSE): $$SSE=\sum\limits_{i=1}^n \hat{e}_i^2=ESS(\hat{\beta}) $$
Hệ số $R^2$, $$ R^2=1-\dfrac{SSE}{SST}=1-\dfrac{\sum\limits_{i=1}^n (y_i-\hat{y}_i)^2}{\sum\limits_{i=1}^n (y_i-\bar{y})^2}$$

## Thực hành với dữ liệu Boston

In [None]:
boston.head()

In [None]:
y = boston['medv'].values
x = boston.drop('medv',axis=1).values

In [None]:
y.shape

### Dự báo giá nhà dựa vào một biến

In [None]:
# xrm=boston['rm']
xrm = x[:, 5]

In [None]:
xrm.shape

In [None]:
xrm = xrm.reshape(-1, 1)
y = y.reshape(-1, 1)

In [None]:
xrm.shape

In [None]:
import matplotlib.pyplot as plt
plt.scatter(xrm,y)
plt.ylabel("y: Value of house / 1000 USD")
plt.xlabel("x: Number of rooms")
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
reg = LinearRegression()
reg.fit(xrm, y)

In [None]:
# Hệ số R^2
reg.score(xrm, y)

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error
mse = mean_squared_error(y, reg.predict(xrm))
print(mse)

In [None]:
xx=np.linspace(min(xrm),max(xrm)).reshape(-1,1)
plt.scatter(xrm,y,color="blue")
plt.plot(xx,reg.predict(xx),color="red",linewidth=3)
plt.ylabel("y: Value of house / 1000 USD")
plt.xlabel("x: Number of rooms")
plt.show()

In [None]:
# !pip install yellowbrick
from yellowbrick.regressor import ResidualsPlot

In [None]:
visualizer = ResidualsPlot(reg, hist=False)

In [None]:
visualizer.fit(xrm, y)  # Fit the training data to the model
visualizer.score(xrm, y)  # Evaluate the model on the test data
visualizer.poof()                 # Draw/show/poof the data

## Dự báo giá nhà dựa vào tất cả các biến

In [None]:
boston.head()

**Ta chia dữ liệu làm 2 phần: training( 70%) và testing (30%)**

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y,test_size = 0.3, random_state=42)

In [None]:
reg = LinearRegression()
reg.fit(x_train,y_train)

In [None]:
y_pred=reg.predict(x_test)

In [None]:
y_pred

In [None]:
# Hệ số R^2
reg.score(x_train,y_train)

In [None]:
reg.score(x_test,y_test)

In [None]:
from yellowbrick.regressor import ResidualsPlot
viz = ResidualsPlot(reg, hist=False)

In [None]:
viz.fit(x_train, y_train)  # Fit the training data to the model
viz.score(x_test, y_test)  # Evaluate the model on the test data
viz.poof()   

## Kiểm tra độ chính xác của mô hình
- Thông thường ta chia dữ liệu thành hai tập: **tập huấn luyện** và **tập kiểm tra**. Khi xây dựng mô hình ta không được lấy tập kiểm tra để sử dụng. 
- Trong tập huấn luyện ta trích một phần dữ liệu huấn luyện gọi là tập **validation**. Mô hình được kiểm tra thông quan tập validation trên.
- Vấn đề chọn kích thước tập validation? 

## Phương pháp cross-validation
- Chia tập huấn luyện thành $k$ tập con (cùng kích thước), rời nhau.
- Mỗi lần kiểm tra thử, huấn luyện mô hình với $k-1$ tập và dùng tập còn lại là tập validation.
- Mô hình cuối cùng được lựa chọn dựa trên sai số huấn luyện và sai số của tập validation.

In [None]:
from IPython.display import Image
Image('cross-validation.png')

** Nhược điểm**
- Phương pháp của phương pháp cross-validation là số lần thử nghiệm tỷ lệ với số tập chia nhỏ $K$.
- Người ta đưa ra phương pháp hiệu chỉnh (tránh huấn luyện quá khớp):
    - Dừng sớm
    - Thêm số hạng vào hàm mất mát

# Hiệu chỉnh mô hình hồi quy (Regularized regression)

- Hồi quy tuyến tính cực tiểu hóa hàm tổn thất (loss function)

- Nếu chọn tất cả các biến độc lập

- Các biến độc lập lớn nên các hệ số lớn dẫn đến overfitting

- Hiệu chỉnh: Đưa thêm phần hiệu chỉnh các hệ số.

## Ridge Regression

- Hàm tổn thất $$L(\beta)=\sum\limits_{i=1}^n y_i-\beta_0-\sum\limits_{j=1}^m \beta_j x_{ij}+\alpha\sum\limits_{j=0}^m \beta_j^2 $$

- $\alpha$: tham số (cần được xác định)

- Nếu $\alpha=0$: Ta có hồi quy thông thường

- Nếu $\alpha$ lớn: Có thể dẫn tới underfitting

In [None]:
from sklearn.linear_model import Ridge

In [None]:
ridge = Ridge(alpha=0.1, normalize=True)

In [None]:
ridge.fit(x_train, y_train)

In [None]:
# Hệ số R^2
ridge.score(x_train,y_train)

In [None]:
ridge_pred = ridge.predict(x_test)

In [None]:
ridge.score(x_test, y_test)

In [None]:
import matplotlib.pyplot as plt

In [None]:
from sklearn.linear_model import RidgeCV
from yellowbrick.regressor import AlphaSelection

In [None]:
alphas = np.logspace(-1, 1, 10)

In [None]:
x_train.shape

In [None]:
model = RidgeCV(alphas=alphas)
visualizer = AlphaSelection(model)

In [None]:
y_train=y_train.ravel()

In [None]:
y_train.shape

In [None]:
visualizer.fit(x_train, y_train)
visualizer.poof()

In [None]:
params =[{'alpha': np.logspace(-10, 1, 400)}]
from sklearn.model_selection import GridSearchCV
gs = GridSearchCV(Ridge(), params, scoring = 'neg_mean_squared_error', cv = x_train.shape[0]).fit(x_train,y_train)

In [None]:
gs.best_params_

In [None]:
gs.best_estimator_.score()

## Lasso regression

- Hàm tổn thất $$L(\beta)=\sum\limits_{i=1}^n (y_i-\beta_0-\sum\limits_{j=1}^m \beta_j x_{ij})^2+\alpha\sum\limits_{j=0}^m |\beta_j| $$

- $\alpha$: tham số (cần được xác định)


In [None]:
from sklearn.linear_model import Lasso

In [None]:
lasso = Lasso(alpha=0.1, normalize=True)

In [None]:
lasso.fit(x_train, y_train)
lasso_pred = lasso.predict(x_test)
lasso.score(x_test, y_test)

In [None]:
import matplotlib.pyplot as plt

In [None]:
from sklearn.linear_model import LassoCV
from yellowbrick.regressor import AlphaSelection

In [None]:
alphas = np.logspace(-10, 1, 400)

In [None]:
model = LassoCV(alphas=alphas)
visualizer = AlphaSelection(model)

In [None]:
y_train=y_train.ravel()

In [None]:
visualizer.fit(x_train, y_train)
g = visualizer.poof()

## Lasso regression for feature selection

In [None]:
names = boston.columns.values
names

In [None]:
names=names[0:13]

In [None]:
names

In [None]:
lasso_coef=lasso.fit(x,y).coef_
len(lasso_coef)

In [None]:
len(names)

In [None]:
plt.plot(range(len(names)), lasso_coef)
plt.xticks(range(len(names)), names, rotation=60)
plt.ylabel('Coefficients')
plt.show()

# Hồi quy dựa vào K lân cận gần nhất (Kneighbors)

Cho tập huấn luyện $(x_i,y_i)$. Dự báo giá trị tại mẫu $x$.

- Tìm $k$ lân cận gần nhất với $x$ từ mẫu $x_i$ của tập huấn luyện 

- Ký hiệu $N(x)=\{x_{i_1},\dots,x_{i_k}\}$ là tập mẫu tìm được

- Giá trị dự báo của $x$ là $y=f(x)=Average(y_i: x_i\in N(x))$

In [None]:
plt.scatter(xrm,y)
plt.ylabel("y: Value of house / 1000 USD")
plt.xlabel("x: Number of rooms")
plt.show()

In [None]:
from sklearn.neighbors import KNeighborsRegressor

In [None]:
reg = KNeighborsRegressor(n_neighbors=1)

In [None]:
reg.fit(xrm, y)

In [None]:
reg.score(xrm,y)

In [None]:
xx=np.linspace(min(xrm),max(xrm)).reshape(-1,1)
plt.scatter(xrm,y,color="blue")
plt.plot(xx,reg.predict(xx),color="red",linewidth=3)
plt.ylabel("y: Value of house / 1000 USD")
plt.xlabel("x: Number of rooms")
plt.show()

In [None]:
print("Test set R^2: {:.2f}".format(reg.score(xrm, y)))

In [None]:
reg = KNeighborsRegressor(n_neighbors=5)
reg.fit(xrm, y)

In [None]:
xx=np.linspace(min(xrm),max(xrm)).reshape(-1,1)
plt.scatter(xrm,y,color="blue")
plt.plot(xx,reg.predict(xx),color="red",linewidth=3)
plt.ylabel("y: Value of house / 1000 USD")
plt.xlabel("x: Number of rooms")
plt.show()

## Lựa chọn số $k$ tốt nhất

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
params = {'n_neighbors':[1,2,3,4,5,6,7,8,9,10]}

In [None]:
reg = KNeighborsRegressor()

In [None]:
model = GridSearchCV(reg, params, cv=5)
model.fit(xrm,y)
model.best_params_

In [None]:
model.best_estimator_

In [None]:
reg = KNeighborsRegressor(n_neighbors=9)
reg.fit(xrm, y)

In [None]:
xx = np.linspace(min(xrm),max(xrm)).reshape(-1,1)
plt.scatter(xrm,y,color="blue")
plt.plot(xx,reg.predict(xx),color="red",linewidth=3)
plt.ylabel("y: Value of house / 1000 USD")
plt.xlabel("x: Number of rooms")
plt.show()

## Dự báo giá nhà với tất cả các biến

In [None]:
reg = KNeighborsRegressor(n_neighbors = 3)

In [None]:
reg.fit(x_train, y_train)

In [None]:
reg_pred = reg.predict(x_test)

In [None]:
reg.score(x_test, y_test)

# Dự đoán giá bất động sản

## 2. Bài toán dự đoán giá bất động sản Montreal

Dự báo giá nhà dựa trên các thông tin thông tin quan trọng về nhà. Dựa vào các mô hình hồi quy tuyến tính, hồi quy tuyến tính Ridge, hồi quy Laso, và hồi quy k lân cận gần nhất.

## Dữ liệu

In [None]:
import pandas as pd
data=pd.read_csv("data/final_dataDec.csv")

In [None]:
data.head()

In [None]:
features=data.columns.values

In [None]:
data.shape

## Xử lý dữ liệu với các giá trị missing
- Loại bỏ các bản ghi có giá trị missing
- Khôi phục giá trị mising bằng giá trị trung bình

In [None]:
len(features)

In [None]:
features[0] # Thuộc tính not_sold, 1 chưa bán, 0 đã bán

In [None]:
features[1:14]# Các thuộc tính bán năm 2002-> 2014: 1 năm bán

In [None]:
features[14:16]# Số giường, năm xây dựng

In [None]:
features[16:18]# Tọa độ

In [None]:
features[18:21]# Số phòng, số phòng tắm, diện tích

In [None]:
features[21:26]# Tính chất bất động sản

In [None]:
features[26:30]

In [None]:
features[30:35]

In [None]:
features[35:39]

In [None]:
features[39] # Giá tài sản

Các biến phụ thuộc **39**, biến dự báo **1** 

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression, LogisticRegression, Lasso
#from sklearn.select_model import cross_validation
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_absolute_error
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor
from sklearn.covariance import EllipticEnvelope
from sklearn.decomposition import PCA
from sklearn.svm import SVR
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.preprocessing import normalize

In [None]:
def loadData(filename):
	data = np.genfromtxt(filename, delimiter=',', dtype=float, skip_header=1)
	return data

In [None]:
data=loadData("data/final_dataDec.csv")

In [None]:
def remove_missing_data(pX_train, feature_to_impute):
    X_train =  np.copy(pX_train)
    for i in range(X_train.shape[0]-1, 0, -1):
        for j in range(0, X_train.shape[1], 1):
            if feature_to_impute[j] != 0 and X_train[i, j] == 0:
                X_train = np.delete(X_train, i, 0)
                break
    return X_train

In [None]:
impute = np.array([0] * len(data[0]))
impute[14] = 2 # num_bed
impute[15] = 2 # year_built
impute[18] = 2 # num_room
impute[19] = 2 # num_bath
impute[20] = 1 # living_space

In [None]:
data_removal=remove_missing_data(data,impute)

In [None]:
data_removal.shape

In [None]:
def mean_imputation_pure(pX_train, feature_to_impute):
	X_train =  np.copy(pX_train)
	for i in range(0, len(feature_to_impute)):
		if feature_to_impute[i] == 0:
			continue
		non_zeros = 0
		for j in range(0, X_train.shape[0]):
			if X_train[j, i] != 0:
				non_zeros += 1
		mean = np.sum(X_train[:, i])/float(non_zeros)
		for j in range(0, X_train.shape[0]):
			if X_train[j, i] == 0:
				X_train[j, i] = mean
	return X_train

In [None]:
data_imputation=mean_imputation_pure(data,impute)

In [None]:
data_imputation.shape

### Dự báo giá nhà với dữ liệu data_removal (bỏ các bản ghi lỗi)
- Dữ liệu data_removal
- Chia dữ liệu thành dữ liệu huấn luyện (70%) và dữ liệu kiểm tra (30%)

In [None]:
GridSearchCV
from sklearn.pipeline import Pipeline
pipe = 
LinearRegression()
Ridge() # alpha
Lasso() # alpha
KNeighborsRegressor() # n_neighbors

In [None]:
xrm=data_removal[:,:39]## Biến độc lập
yrm=data_removal[:,39] # Biến phụ thuộc

In [None]:
from sklearn.model_selection import train_test_split
xrm_train, xrm_test, yrm_train, yrm_test = train_test_split(xrm, yrm,test_size = 0.3, random_state=42)

** Hồi quy tuyến tính **

In [None]:
reg_rm=LinearRegression()
reg_rm.fit(xrm_train,yrm_train)

In [None]:
reg_rm.score(xrm_train,yrm_train)# R^2

In [None]:
reg_rm.score(xrm_test,yrm_test)

In [None]:
mean_absolute_error(yrm_test,reg_rm.predict(xrm_test))# MAE=sum |y_i-y(x_i)|

In [None]:
mean_squared_error(yrm_test,reg_rm.predict(xrm_test))

**Hồi quy phi tuyến K lân cận gần nhất**

In [None]:
knnreg_rm = KNeighborsRegressor(n_neighbors=50)
knnreg_rm.fit(xrm_train, yrm_train)

In [None]:
knnreg_rm.score(xrm_train, yrm_train)

In [None]:
mean_absolute_error(yrm_test,knnreg_rm.predict(xrm_test))

In [None]:
mae=[]
for k in range(1,50):
    reg=KNeighborsRegressor(n_neighbors=k)
    reg.fit(xrm_train,yrm_train)
    error=mean_absolute_error(yrm_test,reg.predict(xrm_test))
    mae.append(error)

In [None]:
import matplotlib.pyplot as plt
plt.plot(mae,c='red')
plt.show()

In [None]:
print("Optimal k: ", np.argmin(mae)+1)