# Thuật toán Linear Regression (Hồi quy tuyến tính).

1. Cài đặt thuật toán.
2. Tối ưu hàm mất mát bằng thuật toán `gradient (batch gradient descent)`.
3. Sử dụng các thư viện hỗ trợ.
4. Nhận xét ưu điểm và nhược điểm.


## 1. Cài đặt thuật toán.
### Các thư viện tính toán

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import math as mt

### Thêm ma trận `1*N` vào ma trận X_train

In [2]:
def linear_data(X):
    N,d = X.shape
    one = np.ones((N,1))
    X_bar = np.concatenate((one,X),axis = 1)
    return X_bar

### Tìm nghiệm `w` cho bài toán

In [3]:
def linear_regression(X_train,y_train):
    X_bar = linear_data(X_train)
    A = np.dot(X_bar.T, X_bar)
    b = np.dot(X_bar.T, y_train)
    w = np.dot(np.linalg.pinv(A), b)
    return w

### Hàm dự đoán khi biết vector hệ số `w`

In [4]:
def linearregression_predic(X_train,y_train,X_test):
    X1 = linear_data(X_test)
    w = linear_regression(X_train,y_train)
    return X1.dot(w)

## 2. Tối ưu hàm mất mát bằng thuật toán gradient descent 

### Đạo hàm của hàm mất mát

In [5]:
def grad(w):
    N = X_bar.shape[0]
    return 1/N*X_bar.T.dot(X_bar.dot(w)-y)

### Gía trị hàm mất mát

In [6]:
def cost(w):
    N = X_bar.shape[0]
    return 0.5/N* np.linalg.norm(y-X_bar.dot(w))**2

### Thuật toán gradient descent

In [7]:
def lr_gd(w_init, grad, eta):
    w = [w_init]
    cost_hist =[] # lưu giá trị hàm mất mát sau mỗi vòng lặp
    for it in range(100):
        w_new = w[-1]- eta*grad(w[-1])
        if np.linalg.norm(grad(w_new))/len(w_new) <1e-3:
            break
        cost_hist.append(cost(w_new))
        w.append(w_new)
    return (w, it,cost_hist)

## 3. Sử dụng các thư viện hỗ trợ

In [8]:
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split

### Test bài toán về chiều cao và cân nặng
Thuật toán 1.

In [9]:
X_train = np.array([[147, 150, 153, 158, 163, 165, 168, 170, 173, 175, 178, 180, 183]]).T
y_train = np.array([ 49, 50, 51,  54, 58, 59, 60, 62, 63, 64, 66, 67, 68])
X_test = np.array([[160,152]]).T
y_pred = linearregression_predic(X_train,y_train,X_test)
print("Tham số của mô hình: ")
print(linear_regression(X_train,y_train))

Tham số của mô hình: 
[-33.73541021   0.55920496]


Thuật toán 3.

In [10]:
X = np.array([[147, 150, 153, 158, 163, 165, 168, 170, 173, 175, 178, 180, 183, 185, 187]]).T
y = np.array([ 49, 50, 51,  54, 58, 59, 60, 62, 63, 64, 66, 67, 68, 71, 72])
regr = linear_model.LinearRegression() 
regr.fit(X,y)           
print("Tham số của mô hình: ")
print([regr.intercept_, regr.coef_[0]])

Tham số của mô hình: 
[-36.61176640647586, 0.5771899392888118]


## 4.  Ưu nhược điểm

- `Ưu điểm`: Phù hợp các dữ liệu có dạng tuyến tính (đường thẳng, mặt phẳng, siêu phẳng). Mô hình và tính toán đơn giản.

- `Nhược điểm  `: Nhạy cảm với tín hiệu nhiễu (tiền xử lý dữ liệu), có thể sử dụng hàm mất mát `Huber loss`, không biểu diễn được các mô hình phức tạp (outcome- input: không nhất thiết phải tuyến tính) 

In [11]:
5. 

5.0