# 股價預測
> 透過線性回歸 (Linea Regression) 來預測股價.

- toc: false 
- badges: true
- comments: false
- sticky_rank: 2
- author: ChiHong Lin 
- categories: [python, prediction, jupyter, Linear Regression, Stock Price]


#### 股價預測是機器學習在金融領域最重要的應用之一。在這篇文章中，我將嘗試透過使用 Python 的線性回歸模型來進行股票價格的預測。

#### Stock Price Prediction

預測股市的價格，一直是投資者的終極目標。 在每天數以億計的交易之中，每筆交易，都代表者投資者對於該股票的價格預期，並且期望透過交易獲利。

也因此，股票漲跌，便取決於投資者在交易市場中的投資行為。 如果投資者能夠準確預測市場動向，便有機會創造誘人的財富。

如果您具有股票市場的投資經驗以及機器學習的量化數據分析技能，對於您進行股票價格預測將會有明顯的助益。

我們來看看如何使用 python 來預測股票價格。

首先，我們先導入此項專案所需的所有必要 python 函式庫：

In [2]:
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

### 資料準備 Data Preparation

在這裡，我們先建立一個子程式，協助我們將等會讀取進來的資料進行切割：

In [21]:
def prepare_data(df,forecast_col,forecast_out,test_size):
    label = df[forecast_col].shift(-forecast_out) #建立一個新的序列，裡面的是5 {%forecast_out%}天後的股價（收盤價）
    X = np.array(df[[forecast_col]])              #建立序列
    X = preprocessing.scale(X)                    #將訓練資料進行特徵標準化(normalization)工作
    X_lately = X[-forecast_out:]                  #建立等會用來進行預測的資料(資料集中最後5 {%forecast_out%}天的股價（收盤價）)
    X = X[:-forecast_out]                         # 將資料集中最後的5{%forecast_out%}筆資料移除掉，亦即移除掉等下要作為預測用的資料
    label.dropna(inplace=True)                    #通過**dropna()**過濾掉缺失的數據（亦即移除掉最後5筆數列）
    y = np.array(label)  
    X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=test_size, random_state=0) #切割數據集

    response = [X_train,X_test , Y_train, Y_test , X_lately]
    return response

為什麼要將資料進行切割呢？這是因為在機器學習的領域之中，資料將會分成以下4類資料來進行資料分析以及驗證：

1. 訓練資料 <- 在訓練模型時所依據的基礎資料                 
2. 訓練資料所對應的歷史結果 <- 在訓練模型時，透過基礎資料與歷史結果的關係，來建立數據模型
3. 測試資料 <- 在數據模型建立之後，作為模型驗證實的基礎資料
4. 測試資料所對應的歷史結果 <- 在訓練資料透過數據模模演算後的結過（預測），與相對應的歷史結果進行比較，以了解數據麼型的準確程度

(上述的4類資料，都是來自於歷史資料)


接下來，我們開始讀取要進行分析的股價資料（以TESLA股價為例）

In [22]:
df = pd.read_csv("datasource/TSLA.csv")

現在，我準備建立三個輸入變量供上面創建的子程式使用。包含了我們想要預測的資料欄位、訓練及驗證資料的分割比例、以及我們預計預測的天數。

In [8]:
forecast_col = 'Close' # 在這個練習中，我選擇收盤價欄位作為訓練模型以及預測的欄位
forecast_out = 5       # 在這個練習中，我規劃預測 5 天後的TESLA的收盤價
test_size = 0.2        # 在這個練習中，我預計用來進行模型驗證的資料比例（在大多數的案例中，會採用20%。也就是0.2作為模型驗證之用）

## 建立並應用股價預測模型

現在，我們開始將匯入的資料進行切割，並據此開始訓練線性回歸模型：

In [23]:
X_train, X_test, Y_train, Y_test , X_lately =prepare_data(df,forecast_col,forecast_out,test_size); 
learner = LinearRegression() #定義以及初始化線性回歸模型
learner.fit(X_train,Y_train) #訓練線性回歸模型

LinearRegression()

到這裡，模型已經訓練並且建立完畢，我們可以快速地了解模型準確度餅開始進行預測！

In [24]:
score=learner.score(X_test,Y_test)  #  了解一下這個模型的準確程度（透過驗證資料比對）
forecast= learner.predict(X_lately) # 提供基礎資料進行模型演算餅取得預測結果 （5 天後的TESLA的收盤價）
response={}                         # creting json object
response['模型分數']=score
response['預測價格']=forecast

print(response)

{'模型分數': 0.7901258449593493, '預測價格': array([738.10424235, 739.67504036, 747.39116981, 741.79828889,
       722.43892968])}


## 總結

這就是我們如何學習透過 Python 和機器學習中的線性回歸模型來預測股票價格。 希望你喜歡這篇文章。