# Stock Price Prediction avec LSTM

**LSTM (Long Short-Term Memory)** est une architecture de réseau neuronal récurrent artificiel (RNN) utilisée dans le deep learning.
Les LSTM sont largement utilisés pour les problèmes de prédiction de séquences et se sont avérés extrêmement efficaces. La raison pour laquelle ils fonctionnent si bien, c’est parce que LSTM est en mesure de stocker des informations passées qui est important, et oublier l’information qui n’est pas.

## Importer les libraries

In [1]:
#pip install yfinance
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import seaborn as sns
import yfinance as yf
from sklearn.preprocessing import MinMaxScaler
sns.set_style('whitegrid')
plt.style.use("fivethirtyeight")
from keras.models import Sequential
from keras.layers import LSTM,Dense
from keras.models import load_model
%matplotlib inline
from tensorflow.keras.callbacks import ModelCheckpoint, CSVLogger
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

## Historique des cours de  Microsoft, AMazon et Google

Historique des prix par jour sur les dix dernières années en utilisant Yahoo's Finance API. 

In [2]:
def get_data(symbol):
    tickerData = yf.Ticker(symbol)
    data = tickerData.history(period='1d', start='2010-10-1', end="2020-10-2")
    data['companies'] = symbol
    data.drop(['Dividends', 'Stock Splits'], axis=1, inplace=True)
    return data



In [3]:
msft = get_data("MSFT")
amzn = get_data("AMZN")
goog = get_data("GOOG")

In [4]:
msft.tail()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,companies
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-09-25,203.55,209.04,202.54,207.82,29437300,MSFT
2020-09-28,210.88,212.57,208.06,209.44,32004900,MSFT
2020-09-29,209.35,210.07,206.81,207.26,24221900,MSFT
2020-09-30,207.73,211.98,206.54,210.33,33780700,MSFT
2020-10-01,213.49,213.99,211.32,212.46,27158400,MSFT


##  Concaténer les 3 Dataframes

Nous avons 7557 observations et 6 features

In [5]:
company_list = [msft, amzn, goog]
    
df_concat = pd.concat(company_list, axis=0)
    
df_concat.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,companies
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2010-09-30,19.5,19.67,19.3,19.4,61262700,MSFT
2010-10-01,19.62,19.66,19.25,19.32,62672300,MSFT
2010-10-04,18.98,19.01,18.84,18.94,98143400,MSFT
2010-10-05,19.06,19.37,18.94,19.29,78152900,MSFT
2010-10-06,19.27,19.44,19.12,19.36,50489700,MSFT


In [6]:
df_concat.companies.unique()

array(['MSFT', 'AMZN', 'GOOG'], dtype=object)

## Split data 

1. Nous choisissons uniquement closing prices puis nous les convertissons en un array. 

2. Split des données training dataset(80%) et test 

3. Nous utilisons MinMaxScaler pour avoir des valeurs comprises entre 0 et 1.  

4. Créons un data training composé des 60 derniers jours, que nous utiliserons à la fin  pour prédire la valeur du prix de clôture 61e.
5. Reshape les données pour qu’elles soient tridimensionnelles afin de les mettre dans le modèle LSTM

In [7]:
def split_data(df, symbol):
    data = df.filter(['Close']).loc[df['companies']== symbol]
    dataset = data.values.reshape(-1, 1)
    training_data_len = int(np.ceil(len(dataset) * .8 ))
    print(f'Longueur du data: {training_data_len}')
    print('================================================')
    scaler = MinMaxScaler(feature_range=(0,1))
    scaled_data= scaler.fit_transform(dataset)
    train_data = scaled_data[0:int(training_data_len), :]
    x_train = []
    y_train = []
    for i in range(60, len(train_data)):
        x_train.append(train_data[i-60:i, 0])
        y_train.append(train_data[i, 0])

    x_train, y_train = np.array(x_train), np.array(y_train)
    x_train = np.reshape(x_train, (x_train.shape[0], x_train.shape[1], 1))

    test_data = scaled_data[training_data_len - 60: , :]
    x_test = []
    y_test = dataset[training_data_len:, :]
    for i in range(60, len(test_data)):
        x_test.append(test_data[i-60:i, 0])
    x_test = np.array(x_test)
    x_test = np.reshape(x_test, (x_test.shape[0], x_test.shape[1], 1 ))
    return x_train, y_train, x_test, y_test, scaler, data, dataset, training_data_len

## Construction de modèle LSTM 

1. **ModelCheckpoint** va enregistrer les poids des modèles à la fin de chaque époque
2. **CSVLogger** va sauvegarder nos RMSE
3. Splittons une partie des données tranining en validation
4. plot history RMSE
5. VIsualization des valeurs actuelles vs Prédictions

In [10]:
def algo_lstm(x_train, y_train, x_test, y_test, scaler, symbol):
    x_train, y_train, x_test, y_test, scaler, data, dataset, training_data_len = split_data(df_concat, "MSFT")
    model = Sequential()
    model.add(LSTM(50, return_sequences=True, input_shape= (x_train.shape[1], 1)))
    model.add(LSTM(50, return_sequences= False))
    model.add(Dense(25))
    model.add(Dense(1))
    checkpointer = ModelCheckpoint(filepath=f"{symbol}_model.h5", verbose=1, save_best_only=True)
    csv_logger = CSVLogger(f"{symbol}_history_loss.log")
    callbacks=[csv_logger, checkpointer]
    model.compile(optimizer='adam', loss='mean_squared_error')
    history = model.fit(x_train, y_train, batch_size=16, epochs=50, validation_split=0.1, callbacks=[callbacks])

    plt.plot(history.history['loss'])
    plt.plot(history.history['val_loss'])
    plt.title('model loss')
    plt.ylabel('loss')
    plt.xlabel('epoch')
    plt.legend(['train', 'val'], loc='upper left')
    plt.show()

    predictions = model.predict(x_test)
    predictions = scaler.inverse_transform(predictions)

    rmse = np.sqrt(np.mean(((predictions - y_test) ** 2)))
    print('================================================')
    print(f'RMSE: {rmse}')
    print('================================================')
    train = data[:training_data_len]
    valid = data[training_data_len:]
    valid['Predictions'] = predictions

    plt.figure(figsize=(16,8))
    plt.title('Prédictions vs. valeurs réeles')
    plt.xlabel('Date', fontsize=18)
    plt.ylabel('Close USD ($)', fontsize=18)
    plt.plot(train['Close'])
    plt.plot(valid[['Close', 'Predictions']])
    plt.legend(['Train', 'Valeurs actuelles', 'Prédictions'], loc='lower right')
    plt.show()
    print('================================================')
    print(valid)
    

    return model



# LSTM Microsft

La valeur de notre RMSE est de 5 pour Microsoft. 

# LSTM Google 

La valeur de notre RMSE est de 3.48 pour Google.

In [11]:
x_train, y_train, x_test, y_test, scaler, data, dataset, training_data_len = split_data(df_concat, "GOOG")
model = algo_lstm(x_train, y_train, x_test, y_test, scaler, "GOOG")

Longueur du data: 2016
Longueur du data: 2016
Epoch 1/50


UnknownError:  [_Derived_]  Fail to find the dnn implementation.
	 [[{{node CudnnRNN}}]]
	 [[sequential_1/lstm_2/StatefulPartitionedCall]] [Op:__inference_train_function_9515]

Function call stack:
train_function -> train_function -> train_function


In [None]:
stopp

# LSTM Amazon

La valeur de notre RMSE est de 3.43 pour AMazon.

In [None]:
x_train, y_train, x_test, y_test, scaler, data, dataset, training_data_len = split_data(df_concat, "AMZN")
model = algo_lstm(x_train, y_train, x_test, y_test, scaler, "AMZN")

# Pridction du Prix du lendemain (le 29/09/2020)

1. convertir les données en un array qui ne contient que le prix de clôture.
2. Prénons le dernier prix de clôture de 60 jours pour faire la prédiction du 61ème jour.
3. Comparons la valaur prédite à la valeur actuelle sur le marché. 

In [None]:
def predict_price(symbol):
    tickerData = yf.Ticker(symbol)
    df = tickerData.history(period='1d', start='2010-10-1', end="2020-9-30")
    new_df = df.filter(['Close'])
    last_60_days = new_df[-60:].values
    scaler =  MinMaxScaler()

    last_60_days_scaled = scaler.fit_transform(last_60_days)
    X_test = []
    X_test.append(last_60_days_scaled)
    X_test = np.array(X_test)
    X_test = np.reshape(X_test, (X_test.shape[0], X_test.shape[1], 1))
    pred_price = model.predict(X_test)
    pred_price = scaler.inverse_transform(pred_price)
    print(f'Prix prédit: {pred_price}')

    actual_price = tickerData.history(period='1d', start="2020-10-03", end="2020-10-03")
    actual_price = actual_price.Close.values
    actual_price = np.array(actual_price)
    print(f'Prix réel: {actual_price}')
    return pred_price, actual_price

In [None]:
predict_price("MSFT")

In [None]:
predict_price("AMZN")

In [None]:
predict_price("GOOG")

## Regression Linearire

In [None]:
df_concat

In [None]:
df = df_concat.reset_index("Date")

In [None]:
df.head()

In [None]:
data = df.loc[df['companies']== "MSFT"]
data.head()

In [None]:
X = data.drop(['Date', 'companies', 'Close', 'Volume'], axis=1)

In [None]:
 y = data.Close

In [None]:
X_train, X_test , y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
lr = LinearRegression()
model = lr.fit(X_train, y_train)
score = model.score(X_test, y_test)
score

In [None]:
 y_pred = model.predict(X_test)

In [None]:
rmse = mean_squared_error(y_test, y_pred)
rmse

In [None]:
def linear(df, symbol):
    data = df.loc[df['companies']== symbol]
    X = data.drop(['Date', 'companies', 'Close', 'Volume'], axis=1)
    y = data.Close
    
    X_train, X_test , y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
    
    lr = LinearRegression()
    model = lr.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    print(score)
    
    y_pred = model.predict(X_test)
    
    print(y_pred)
    
    
    
    return rmse,X_train, X_test , y_train, y_test   
    

# Algo Strategies 

## Conclusion

Les RMSES sont proches de zéro, ce qui signifie que l'écart entre nos valeurs prédites et nos valeurs réelles est faible. 

Nous avons fait la prédiction d'un pas dans l'avenir(le 29/30/2020), après visualisation de nos resultats, notre modèle LSTM est assez bon pour prédir correctement les cours des actions. 