## Implementation of Linear Regression

Tổng quát: **Linear Regression (Hồi quy tuyến tính)** là một thuật toán **học có giám sát**, được áp dụng chủ yếu trong các bài toán về hồi quy (**Regresison**) bằng việc tạo ra một hàm số toán học tuyến tính giữa các tính chất (**feature**) của một record với giá trị cần dự đoán. Ví dụ: Dự đoán giá nhà như một hàm số tuyến tính của các đặc điểm của ngôi nhà (số phòng ngủ, khoảng cách với trung tâm, ... )

Bài toán: Giả sử ta có tập hợp các ngôi nhà được đại diện bằng một ma trận **X** có kích thước **MxN** với **M** là số lượng ngôi nhà đã được khảo sát và N là số lượng feature và một vector **y** chứa mức giá của căn nhà tương ứng. Nhiệm vụ là hãy dự đoán giá nhà của một ngôi nhà với feature vecto **z** có kích thước **1xN** với một hàm toán tuyến tính có dạng

$$
    Price = w_1*z_1 + w_2*z_2 + ... + w_n*z_n + b 
$$

--> Để giải bài toán này, ta có thể sử dụng toán học để có thể tính toán chính xác các giá trị w. Tuy nhiên, theo cách của **Machine Learning**, ta cần phát triển các thành phần sau của thuật toán: 
- **Hàm mất mát (Loss Function)** có mục tiêu xác định chính xác sai số giữa giá trị thực và giá trị dự đoán
- **Cực tiểu hóa** hàm mất mát
- Thực hiện **update** các giá trị trọng số cho quan sát dựa trên **thuật toán cực tiểu hóa hàm mất mát** *(Gradient Descent, Evolutionary Algorithms,...)*   

In [1]:
# import necessary libraries for implementation
import numpy as np

In [65]:
def predict(w : np.ndarray, X : np.ndarray) -> np.ndarray:
    """
    Function: Calculate the predicted y on a linear function

    Args:
        w (np.ndarray) : Coefficients or weights attached to each feature
        X (np.ndarray) : Vector/Matrix of independent features of a dataset

    Returns:
        np.ndarray : The predicted value of records
    """
    try:
        return np.matmul(X, w.T)
    except:
        print("The shape of your matrix and your weight vector are not compatible!")

### Loss Function

Mean Squared Error

$$
    MSE = \frac {1}{n} * \sum_{i=1}^n (y_i - \hat y_i)^2
$$
Theo đó, ,mất mát sẽ là **bình phương sai số** giữa giá trị thực và giá trị dự đoán 

In [72]:
def meanSquaredError(yTrue : np.ndarray, yPred : np.array) -> np.array :
    numberOfSamples = yTrue.shape[0]
    return np.sum((yPred - yTrue)**2) / numberOfSamples

### Gradient Descent (Algorithms)

In [74]:
def weightGradient(yTrue : np.ndarray, yPred : np.ndarray, X : np.ndarray) -> np.ndarray:
    numberOfSamples = X.shape[0]
    return 2*X.T.dot(yPred - yTrue)/numberOfSamples

In [78]:
def updateWeight(w : np.ndarray, weightGradients : np.ndarray, learningRate : np.float16) -> np.ndarray:
    return w.T - learningRate*weightGradients

### Examine in the real context

In [79]:
w = np.array([[0.1, 0.2, 0.3]])
X = np.array([[1, -5, 6], [2, 3, 4]])
y = np.array([[0.1, 0.2]]).reshape(2,1)

y_pred = predict(w, X)
print(y_pred)
print((y_pred - y)**2)
print(meanSquaredError(y, y_pred))
print(weightGradient(y, y_pred, X).shape)
print(updateWeight(w, weightGradient(y, y_pred, X), learningRate = 0.01))


[[0.9]
 [2. ]]
[[0.64]
 [3.24]]
1.94
(3, 1)
[[0.056]
 [0.186]
 [0.18 ]]
