# **線性回歸 (Linear Regression)**

![Aaron Swartz](https://www.superheuristics.com/wp-content/uploads/2018/10/Equation-of-Linear-Regression.png)

* 使用Kaggle中的A Collection of Patients BMI Data 資料集:
https://www.kaggle.com/freego1/bmi-data

  * 此數據集具有25,000個患者，為csv副檔名的檔案
  * 輸入特徵為性別、年齡(年)、身高(英吋)與體重(磅)
  * 輸出特徵為BMI(公斤/公尺平方)
  * 缺失值數量：身高為19，體重為16，BMI缺失值為50


## **01. 資料集 讀取與清洗**
### A. 讀取資料集
* google.colab 中的 files.upload() 讀取本機檔案
* pandas 中的 [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) 讀取.csv檔案
* pandas 中的 [DataFrame.head(x)](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html) 讀取DataFrame前x列，x預設為5


In [None]:
# 使用Coalb讀取本機檔案
from google.colab import files
uploaded = files.upload()

In [None]:
# 匯入套件pandas
import pandas as pd

# 讀取資料集
rawdata = pd.read_csv('bmi_data.csv')

# 打印前五筆
rawdata.head()

### B. 資料清洗 (針對非數值與空值)
* pandas 中的 [DataFrame.dtypes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html) 讀取每一欄位的型別
* pandas 中的 [DataFrame.loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) 可針對欄位條件篩選來做修改
* pandas 中的 [DataFrame.isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isnull.html).any() 可以返回有缺失值的欄位名稱
* pandas 中的 [DataFrame.dropna()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html) 返回一個無缺失值的dataframe


In [None]:
# 查看型別
rawdata.dtypes

In [None]:
# 性別轉為數值：男性轉為0, 女性轉為1
rawdata.loc[rawdata['Sex']=='Male','Sex']=0
rawdata.loc[rawdata['Sex']=='Female','Sex']=1

In [None]:
# 打印前五筆(發現性別欄位都轉為數值)
rawdata.head()

In [None]:
# 查看欄位的缺值
rawdata.isnull().any()

In [None]:
# 查看欄位的缺值數量
rawdata.isnull().sum()

In [None]:
# 返回皆沒缺值的資料(移除有任一缺值的每筆資料)
nondata = rawdata.dropna()

# 再次查看欄位的缺值
nondata.isnull().any()

## **02. 特徵、標籤、特徵名稱與標籤名稱**
### 提取欄位與資料
* pandas 中的 [DataFrame.to_numpy](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html) 可以將DataFrame返回為陣列
* pandas 中的 [DataFrame.columns](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html) 可以返回欄位名稱
* numpy中的 [numpy.delete()](https://numpy.org/doc/1.18/reference/generated/numpy.delete.html) 可以刪除陣列的行或列

In [None]:
# 提取資料欄位名稱
datanames = nondata.columns

# 打印資料欄位名稱
print("資料欄位名稱" ,datanames)

# 資料轉為陣列
data = nondata.to_numpy()

# 打印資料維度
print("資料維度：", data.shape)

In [None]:
# 提取特徵名稱
featurenames = datanames[0:4]
print("特徵名稱" ,featurenames)

# 匯入numpy套件
import numpy as np

# 提取特徵值 (資料移除欄位索引4)
feature = np.delete(data, 4, axis=1) 

# 提取標籤值 (資料提取欄位索引4)
label = data[:,4]

## **03. 資料分割**
### 資料分割為訓練集與測試集
* sklearn中的 [train_test_split()](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) 可以將資料分割為指定大小的訓練集與測試集

In [None]:
# 匯入sklearn中的train_test_split套件
from sklearn.model_selection import train_test_split 

# 資料分割為訓練與測試集
train_x, test_x, train_y, test_y = train_test_split(feature, label, random_state = 0, test_size = 0.3)

# 打印訓練集與測試集數量
print("訓練集數量", len(train_x))
print("測試集數量", len(test_x))

![](https://raw.githubusercontent.com/j82887/Computational-Intelligence-Laboratory/main/Image/1-1.png)

## **04. 建立線性回歸模型 (Scikit-Learn)** [[連結]](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html?highlight=linearregression#sklearn.linear_model.LinearRegression)
* 模型初始化 
* sklearn使用model.fit(x,y)將數據帶入模型進行訓練，其中x, y為訓練集的輸入(特徵)與輸出(標籤)
* sklearn使用model.predict() 將數據帶入模型進行預測，並返回預測值



In [None]:
# 匯入sklearn中的LinearRegression套件
from sklearn.linear_model import LinearRegression

# 初始化模型
LR = LinearRegression(fit_intercept=True)

# 給予訓練集的特徵與標籤進行訓練
LR.fit(train_x, train_y)

# 訓練集帶入模型預測(批量)
train_predict = LR.predict(train_x)

# 測試集帶入模型預測(批量)
test_predict = LR.predict(test_x)

## **05. 驗證指標**
### 回歸的驗證指標 
* sklearn使用 model.coef_ 回傳模型的權重
* sklearn使用 model.intercept_ 回傳模型的偏差
* sklearn使用 [mean_squared_error()](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html?highlight=mean_squared_error#sklearn.metrics.mean_squared_error) 計算MSE指標
* sklearn使用 [r2_score()](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html?highlight=r2_score#sklearn.metrics.r2_score) 計算決定係數(Coefficient of determination)

In [None]:
# 打印模型權重值
print("模型權重(係數):", LR.coef_)

# 打印模型偏差值
print("模型偏差(截距):", LR.intercept_)

# 匯入sklearn中的驗證指標的套件
from sklearn.metrics import mean_squared_error, r2_score

# 打印訓練集均方誤差
print('Train - Mean squared error: %.5f' % mean_squared_error(train_y, train_predict))

# 打印訓練集決定係數
print('Train - Coefficient of determination: %.5f' % r2_score(train_y, train_predict))

# 打印測試集均方誤差
print('Test - Mean squared error: %.5f' % mean_squared_error(test_y, test_predict))

# 打印測試集決定係數
print('Test - Coefficient of determination: %.5f' % r2_score(test_y, test_predict))

## **06 模型可解釋性：視覺化** 
### 特徵重要性

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(3, 6))
plt.title('Feature importance',size=18)
plt.plot(LR.coef_,'o',markersize=12)  
plt.xticks(range(len(featurenames)), featurenames , rotation=90, size=18 )
plt.yticks(rotation=0,size=12)
plt.ylim(-0.7, 0.7) 
plt.grid()
plt.xlabel("Feature",size=20)
plt.ylabel("Coefficient magnitude",size=20)
plt.show()

## **07. 儲存與讀取模型 (Scikit-Learn)**
### 模型存取

In [None]:
#from sklearn.externals import joblib 
import joblib

#儲存Model
joblib.dump(LR, 'Linear_Regression_BMI.pkl')

#讀取Model
LR = joblib.load('Linear_Regression_BMI.pkl')

In [None]:
#測試Model
# 1英吋 = 0.0254  公尺, 75英吋 = 1.905 公尺
# 1磅 = 0.45359237 公斤, 153磅 = 69.39963261 公斤

test = np.array([[0, 40, 75, 153]])
predict = LR.predict(test)
print("預測BMI為：%.5f" %(predict[0]))
BMI = (test[0][3]*0.45359237)/((test[0][2]*0.0254)**2)
print("實際BMI為：%.5f" %(BMI))

![](https://raw.githubusercontent.com/j82887/Computational-Intelligence-Laboratory/main/Image/1-2.png)

## **08. 建立線性回歸模型 (Pytorch)**
### 建立模型

In [None]:
import torch
import torch.nn as nn

# 初始化模型
model = nn.Linear(4, 1)

# 打印模型初始權重與偏差值
print(model.weight)
print(model.bias)

### 標籤更正維度

In [None]:
# 更正訓練集標籤維度，並更正陣列型別
train_y = np.reshape(train_y, (len(train_y), 1)).astype(float)

# 更正測試集標籤維度，並更正陣列型別
test_y = np.reshape(test_y, (len(test_y), 1)).astype(float)

# 更正訓練集輸入特徵的陣列型別
train_x = train_x.astype(float)

# 更正測試集輸入特徵的陣列型別
test_x = test_x.astype(float)

### 轉換為Pyorch的張量型別

In [None]:
# 訓練集的輸入特徵轉換為torch張量型別
tensor_train_x = torch.tensor(train_x, dtype=torch.float32)

# 訓練集的標籤轉換為torch張量型別
tensor_train_y = torch.tensor(train_y, dtype=torch.float32)

# 測試集的輸入特徵轉換為torch張量型別
tensor_test_x = torch.tensor(test_x, dtype=torch.float32)

# 測試集的標籤轉換為torch張量型別
tensor_test_y = torch.tensor(test_y, dtype=torch.float32)

### 訓練線性回歸模型

In [None]:
# 定義優化器
optimizer = torch.optim.SGD(model.parameters(), lr=0.00001)

# 定義損失函數
MSE = nn.MSELoss()

# 設置迭代次數
num_epochs = 10000

# 建立一空列表存放損失值
loss_history = []

# for迴圈來迭代更新權重值進行模型訓練
for epoch in range(num_epochs):

  # 輸入特徵代入模型，返回預測值
  outputs = model(tensor_train_x)

  # 預測值與標籤計算MSE損失值
  loss = MSE(outputs, tensor_train_y)

  # 儲存損失值
  loss_history.append(loss.item())

  # 梯度歸零
  optimizer.zero_grad()

  # 反向傳播
  loss.backward()

  # 更新所有的權重
  optimizer.step()

In [None]:
# 打印模型權重值
print(model.weight)

# 打印模型偏差值
print(model.bias)

### 特徵重要性

In [None]:
plt.figure(figsize=(3, 6))
plt.title('Feature importance',size=18)
plt.plot(model.weight.detach().numpy()[0],'o',markersize=12)  
plt.xticks(range(len(featurenames)), featurenames , rotation=90, size=18 )
plt.yticks(rotation=0,size=12)
plt.ylim(-0.6, 0.6) 
plt.grid()
plt.xlabel("Feature",size=20)
plt.ylabel("Coefficient magnitude",size=20)
plt.show()

## **09. 驗證指標 (Pytorch)**

In [None]:
# 繪製學習曲線圖
plt.plot(range(len(loss_history)),loss_history)

# 顯示圖像
plt.show()

In [None]:
# 批量預測
outputs = model(tensor_test_x)

# 計算均方誤差
loss = MSE(outputs, tensor_test_y)
print('Mean squared error: %.5f' % loss.item())

In [None]:
# 打印均方誤差與決定係數
print('Mean squared error: %.5f' % mean_squared_error(test_y, outputs.detach().numpy()))
print('Coefficient of determination: %.5f' % r2_score(test_y, outputs.detach().numpy()))

## **10. 儲存與讀取模型 (Pytorch)**
### A. 模型存取

In [None]:
torch.save(model, 'Linear_Regression_BMI.pth')
model = torch.load('Linear_Regression_BMI.pth')

### B. 新資料單筆測試

In [None]:
input = torch.tensor([[0, 40, 75, 153]], dtype=torch.float32)
predicted_output = model(input)
print(predicted_output)

![](https://raw.githubusercontent.com/j82887/Computational-Intelligence-Laboratory/main/Image/1-3.png)
## **11. 建立線性回歸模型 (Keras)**
### A. 建立模型

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
import tensorflow as tf

model = Sequential()
model.add(Dense(1, input_shape=(4,)))
model.summary()

### B. 編譯方式

In [None]:
model.compile(loss='mean_squared_error', optimizer=tf.keras.optimizers.SGD(learning_rate=0.00001, clipnorm=1.0))

### C. 模型訓練

In [None]:
history = model.fit(x=train_x, y=train_y, batch_size=20, epochs=1000, validation_data=(test_x, test_y))

## **12. 驗證指標 (Keras)**

In [None]:
# 提取第一層權重與偏差值
weights = model.layers[0].get_weights()[0]
bias= model.layers[0].get_weights()[1]

# 打印第一層權重與偏差值
print("weights:", weights)
print("bias:", bias)

In [None]:
plt.figure(figsize=(3, 6))
plt.title('Feature importance',size=18)
plt.plot(weights,'o',markersize=12)  
plt.xticks(range(len(featurenames)), featurenames , rotation=90, size=18 )
plt.yticks(rotation=0,size=12)
plt.grid()
plt.xlabel("Feature",size=20)
plt.ylabel("Coefficient magnitude",size=20)
plt.show()

In [None]:
# 提取訓練集在訓練過程中的損失值
loss = history.history['loss']

# 提取驗證集在訓練過程中的損失值
val_loss = history.history['val_loss']



# 繪製圖的標題
plt.title("Training & Validation Loss")

# 繪製學習訓練集損失曲線圖
plt.plot(np.arange(len(loss)), loss,color='b', label="Training set")

# 繪製學習驗證集損失曲線圖
plt.plot(np.arange(len(val_loss)), val_loss,color='r', label="Validation set")

# 說明欄放置於右上角
plt.legend(loc='upper right')

# 顯示圖像
plt.show()

In [None]:
# 批量預測
outputs = model.predict(test_x)

# 打印均方誤差與決定係數
print('Mean squared error: %.5f' % mean_squared_error(test_y, outputs))
print('Coefficient of determination: %.5f' % r2_score(test_y, outputs))

## **13. 儲存與讀取模型 (Keras)**
### A. 模型存取

In [None]:
model.save('Linear_Regression_BMI.h5')

#載入模型
from tensorflow.keras.models import load_model
model = load_model('Linear_Regression_BMI.h5')

### B. 新資料單筆測試

In [None]:
input = np.array([[0, 40, 75, 153]])
predicted_output = model.predict(input)
print(predicted_output)