In [None]:
# 用實際的 ( x , y ) 配合線性回歸和梯度來求解 Gradient Descend 演算法，不用模組


import numpy


# 1. 先產生 20 組隨機 ( x , y ) 資料，並假設真實模型為 y = 2x + 1

# a. x 隨機產生 0 到 10 中間 20 個點

x = numpy.linspace(0,10,20)

# b. 再利用 y = 2x + 1 + noise 來產生隨機 y , Y 因為是 X 產生，所以也是 numpy array

# numpy.random.random(n) 為 產生 n 個 0 ~ 1 之間的隨機數字的產生器

y = 2 * x + 1 + numpy.random.random(20)


# 2. 定義目標 / 成本函數

def object_function(y_prediction , y_true) :

    mse = numpy.mean((y_true - y_prediction)**2)

    return mse


# 3. 設定起始和終止條件

# a. 假設參數 a , b 一開始皆為 0

a = 0
b = 0

# b. 假設試行 10000 次 , 學習率為 0.001 , mse 為無限大

iteration = 10000
learning_rate = 0.001
previous_mse = float("inf")

# c. 假設終止條件是目標函數差別 < 0.000001

mse_threhold = 0.000001


# 4. 開始迴圈進行逼近

for i in range(iteration) : 

    y_hat = a * x + b

    da = -2 * numpy.mean(x*(y-y_hat))

    db = -2 * numpy.mean((y-y_hat))

    a = a - learning_rate*da

    b = b - learning_rate*db

    if (i+1)%1000 == 0 : 
        
        print(f"試行第{i+1}次，a為{a}，b為{b},mse為{previous_mse}")

    y_hat = a * x + b

    new_mse = object_function(y_hat,y)

    if previous_mse - new_mse < mse_threhold : 

        break

    previous_mse = new_mse

print(f"試行次數為{i+1}次，最後結果為 a = {a}，b = {b}，mse = {new_mse}，模型為 y = {a}*x + {b}")


試行第1000次，a為2.1096675206838262，b為0.8097539923224204,mse為0.22254104580342302
試行第2000次，a為2.067206887395702，b為1.0980359534544855,mse為0.1356049347531842
試行第3000次，a為2.0421456095275787，b為1.2681868384701027,mse為0.10531950798815264
試行第4000次，a為2.0273538459634，b為1.3686139465621519,mse為0.09476915022243615
試行第5000次，a為2.018623394527926，b為1.4278884195618446,mse為0.09109378352385189
試行次數為5691次，最後結果為 a = 2.014783760598431，b = 1.4539572064240953，mse = 0.09007607919129233，模型為 y = 2.014783760598431*x + 1.4539572064240953


In [19]:
# 做一個直接用 scikit learn 套件算迴歸參數的版本


import numpy
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression


# 1. 產生 ( x , y ) 資料

# a. 直接自己做

# 要記得把 x , y 轉成 2D 陣列，即便只有一排資料，這樣 regression 才能跑

# x 要做 reshape(-1,1) , 第一個參數代表選取所有列，第二個是欄 , y 也是一樣 , 但 random 要用 tuple ,

# 隨機變數產生可以選 random.random (只會產生 0 到 1 數字) 或 random.uniform (可以自己選上下數字範圍)

x = numpy.linspace(0,10,20).reshape(-1,1)

y = 2*x + 1 + numpy.random.uniform(-1,1,20).reshape(-1,1)

# b. 用模組的方法做

# x , y = make_regression(n_samples=20,n_features=1,noise=10,random_state=42)


# 2. 做訓練資料集和測試資料集

x_test , x_train , y_test , y_train = train_test_split(x,y,test_size=0.2,random_state=42)


# 3. 進行迴歸

model = LinearRegression()

model.fit(x,y)


# 4. 產出結果

print(f"a參數 = {model.coef_} , b參數 = {model.intercept_} , 模型分數為 {model.score(x_test,y_test)}")



a參數 = [[2.02861361]] , b參數 = [0.98575846] , 模型分數為 0.9908881362880348
