<a href="https://colab.research.google.com/github/loth2zone/DongShan-Taipei-AI-1091/blob/master/chap_3_2_linear_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center" ><img src="https://www.ai4kids.ai/wp-content/uploads/2019/07/ai4kids_website_logo_120x40.png"></img></p>

# 學AI真簡單 <1> 初探機器學習
## 第三章 動手實作監督式學習 
### 3-2 房價秒預測—線性迴歸介紹與應用

<p align="right">© Copyright AI4kids.ai</p>

# 1. 載入所需套件

In [None]:
# 如果要使用一些datasets，都會放在sklearn的datasets下面
# 從 sklearn 載入波士頓房價的資料集
from sklearn.datasets import load_boston

# 載入我們會用到的模型，線性回歸模型
from sklearn.linear_model import LinearRegression

# 載入切分資料集成訓練集及測試集的套件，train_test_split
from sklearn.model_selection import train_test_split

# 載入驗證模型的套件，mean_square_error
from sklearn.metrics import mean_squared_error

# 2. 載入資料集，觀察資料集

In [None]:
# 載入資料集，放到 my_data變數內
my_data = load_boston()

# 可以把 my_data 給印出來，看一下裡面的內容
# 印出來後可知他有幾個 key name 有："data","target","target_names","DESCR","filename" ...等
print(my_data)

{'data': array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]]), 'target': array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 1

In [None]:
# 直接觀察有哪些 key 在資料集內
print(my_data.keys())

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])


In [None]:
# 觀察資料筆數
print("資料筆數:")
print(my_data.data.shape)
print("\n")

# 觀察我們資料的欄位名稱
print("資料的欄位名稱，分別是:")
print(my_data.feature_names)
print("\n")

# 觀察我們第一筆的資料內容
print("第一筆的資料內容:")
print(my_data.data[0])
print("\n")

# 觀察我們第一筆的預測目標
print("第一筆的預測目標:")
print(my_data.target[0])
print("\n")

# 每個 sklearn 所附的資料集都有 DESCR 這個key可以選來看，代表這個資料集的描述(description的縮寫)
# 這邊礙於篇幅的關係先註解掉了，讀者可以自行把註解拿掉執行看看
# print(my_data.DESCR)

資料筆數:
(506, 13)


資料的欄位名稱，分別是:
['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']


第一筆的資料內容:
[6.320e-03 1.800e+01 2.310e+00 0.000e+00 5.380e-01 6.575e+00 6.520e+01
 4.090e+00 1.000e+00 2.960e+02 1.530e+01 3.969e+02 4.980e+00]


第一筆的預測目標:
24.0




# 3. 切分資料集 - 訓練集 / 測試集


In [None]:
# 我們將資料切分成兩組，把80%當成訓練集，20%當成測試集
# (train_x, train_y) 為80%的訓練集，用來訓練模型
# (test_x , test_y ) 為20%的測試集，用來驗證模型的預測能力

train_x, test_x, train_y, test_y = train_test_split(
        my_data.data, my_data.target, test_size=0.2, random_state=43, shuffle=True)

# 可以看一下這些資料集的維度，驗證沒有切錯
print("原始資料集的維度大小:" , my_data.data.shape)
print("訓練集的維度大小:   " , train_x.shape)
print("測試集的維度大小:   " , test_x.shape)

原始資料集的維度大小: (506, 13)
訓練集的維度大小:    (404, 13)
測試集的維度大小:    (102, 13)


# 4. 訓練模型及驗證模型

In [None]:
# 把預先載入好的套件「線性回歸模型」拿出來使用，並且存到變數my_model中
my_model = LinearRegression()

# 訓練模型，放入要訓練的訓練集(train_x, train_y)
my_model.fit(train_x, train_y)

# 訓練完模型後，我們就可以用 my_model 來預測測試集，產生出我們的預測值，存到 pred 變數內
pred = my_model.predict(test_x)

# 接著就可以使用我們的評估指標 MSE (mean_squared_error) 來評估我們模型的實際誤差
# 注意MSE分數是越接近 0 越好，代表預測的值與真實答案相差無幾
score = mean_squared_error(pred, test_y)
print("模型評估完測試集的MSE: ", score)

模型評估完測試集的MSE:  22.01861344950045


### Q: 那麼可以不要使用全部的13個特徵來訓練模型嗎?
### A: 我們可以嘗試看看只拿其中的4個特徵來訓練看看!

In [None]:
# 挑選其中的 4個特徵
# 這裡的 , 前面如果填上數字代表著要哪些列(橫向), 填上 : 就是從最前面到最後面, 也就是全部都要
# 而, 後面代表著挑選哪些行(直向), 也就是特徵, 所以直接填上數字代表你要挑選特徵欄位的位置
train_x_f4 = train_x[:, [4,5,6,7]]
test_x_f4  = test_x[ :, [4,5,6,7]] 


# 以下的程式碼與上一段的程式碼大同小異
# 大家可以練習看看，但是注意 train_x, train_y, test_x, test_y 的位置要放對哦!
model_f4 = LinearRegression()
model_f4.fit(train_x_f4, train_y)

pred = model_f4.predict(test_x_f4)

# 最後可以看看這次的預測分數如何，與上一段的分數做比較
score = mean_squared_error(pred, test_y)
print("模型評估完測試集的誤差: ", score)

模型評估完測試集的誤差:  39.04445392463858
