In [None]:
import tensorflow as tf
import numpy as np
from keras.models import Sequential
from keras.layers import LSTM, Input, Dropout
from keras.layers import Dense
from keras.layers import RepeatVector
from keras.layers import TimeDistributed
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from keras.models import Model
import seaborn as sns
import io
from keras import optimizers
from keras.callbacks import  ModelCheckpoint
import os



In [None]:
#On implémente sur les données complètes de gamma

df = pd.read_csv('/home/lucien/Documents/projet-data-science-pollution-master/donnees_txt_par_mois/2015_gamma_concat.txt')

#on remarque qu'il y a un très gros pics vers 1633
# for val in df['gamma']:
#     #si la valeur dépasse 1000 afficher le numéro de la ligne
#     if val > 1000:
#         print(df.index[df['gamma'] == val].tolist())

#sns.lineplot(x=df['Date'], y=df['gamma'])
#plt.show()

#Si on avait pas déjà séparer train et test lors de la création des csv on le fait avec pandas, mais c'est plus long

train, test = df.loc[df['Date'] <= 130000], df.loc[df['Date'] > 130000] #on coupe à 130 000 pour avoir un des gros pics que l'on remarque sur le graphique


#Convert pandas dataframe to numpy array
#dataset = dataframe.values
#dataset = dataset.astype('float32') #COnvert values to float

#LSTM uses sigmoid and tanh that are sensitive to magnitude so values need to be normalized

# normalize the dataset
#scaler = MinMaxScaler() #Also try QuantileTransformer
scaler = StandardScaler()
scaler = scaler.fit(train[['gamma']])

train['gamma'] = scaler.transform(train[['gamma']])
test['gamma'] = scaler.transform(test[['gamma']])


#As required for LSTM networks, we require to reshape an input data into n_samples x timesteps x n_features. 
#In this example, the n_features is 2. We will make timesteps = 3. 
#With this, the resultant n_samples is 5 (as the input data has 9 rows).

seq_size = 450  # Number of time steps to look back (on choisit 300 en s'appuyant sur notre travail avec la matrix profile)


#Larger sequences (look further back) may improve forecasting.


def to_sequences(x, y, seq_size=1):
    x_values = []
    y_values = []

    for i in range(len(x)-seq_size):
        #print(i)
        x_values.append(x.iloc[i:(i+seq_size)].values)
        y_values.append(y.iloc[i+seq_size])
        
    return np.array(x_values), np.array(y_values)

trainX, trainY = to_sequences(train[['gamma']], train['gamma'], seq_size) #on découpe en séquence de 300
testX, testY = to_sequences(test[['gamma']], test['gamma'], seq_size)

In [None]:
# Define Autoencoder model

#first model
#Input shape would be seq_size, 1 - 1 beacuse we have 1 feature. 
# seq_size = trainX.shape[1]

# model = Sequential()
# model.add(LSTM(256, activation='relu', input_shape=(trainX.shape[1], trainX.shape[2]), return_sequences=True))
# model.add(LSTM(128, activation='relu', return_sequences=False))
# model.add(RepeatVector(trainX.shape[1]))
# model.add(LSTM(128, activation='relu', return_sequences=True))
# model.add(LSTM(256, activation='relu', return_sequences=True))
# model.add(TimeDistributed(Dense(trainX.shape[2])))

# model.compile(optimizer='adam', loss='mse')
# model.summary()

#second model
#Try another model with one LSTM layer

model = Sequential()
model.add(LSTM(256, input_shape=(trainX.shape[1], trainX.shape[2]))) #128 car on a 128 neurones dans la couche cachée (on va augmenter car 128 peut-être trop faible, c'est peut-être la raison de notre under-fitting)
model.add(Dropout(rate=0.2)) #rate?

model.add(RepeatVector(trainX.shape[1]))

model.add(LSTM(256, return_sequences=True))
model.add(Dropout(rate=0.2))
model.add(TimeDistributed(Dense(trainX.shape[2])))

#optim = tf.keras.optimizers.SGD(learning_rate = 1)
model.compile(optimizer='adam', loss='mae') #on rajoute un optimizer et une loss
model.summary()

In [None]:
#on sauvegarde les poids pour les charger plus tard

checkpoint_path = "training_1/cp.ckpt"
checkpoint_dir = os.path.dirname(checkpoint_path)
# Create a callback that saves the model's weights
cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_path,
                                                 save_weights_only=True,
                                                 verbose=1)


In [None]:
#on lance le training

# fit model
history = model.fit(trainX, trainY, epochs=20, batch_size=32, validation_split=0.1, shuffle=False, callbacks=[cp_callback]) #nombre faible d'epoch pour l'instant, on veut juste tester


In [None]:
#On trace le résultat de notre train

plt.plot(history.history['loss'], label='Training loss')
plt.plot(history.history['val_loss'], label='Validation loss')
plt.legend()


In [None]:
#On évalue notre modèle sur l'ensemble test en utilisant les metrics de base

model.evaluate(testX, testY) #on évalue le training 

In [None]:
###########################
#Passons maintenant à la détection des anomalies sur notre propre signal, pour cela il est capital de définir un seuil de détection d'anomalie.
#Pour commencer un fixe un treshold simple: 90% de la valeur de l'erreur maxime (au delà on considèrera qu'on aura une anomalie)

trainPredict = model.predict(trainX)
trainMAE = np.mean(np.abs(trainPredict - trainX), axis=1)
plt.hist(trainMAE, bins=30) #donne  la moyenne des erreurs absolues calculée sur chaque channel de taille 300 qu'on a voulu prédire
max_trainMAE = 0.5  #or Define 90% value of max as threshold. On l'a choisi à partir du graphique obtenu ci-dessus. (on prend la dernière valeur de l'abcisse de l'histogramme bleu qu'on vient de tracer)

testPredict = model.predict(testX)
testMAE = np.mean(np.abs(testPredict - testX), axis=1)
plt.hist(testMAE, bins=30) #trace un histogramme rouge

#Capture all details in a DataFrame for easy plotting
anomaly_df = pd.DataFrame(test[seq_size:])
anomaly_df['testMAE'] = testMAE
anomaly_df['max_trainMAE'] = max_trainMAE
anomaly_df['anomaly'] = anomaly_df['testMAE'] > anomaly_df['max_trainMAE'] #si cette inégalité est vérifié alors il y a anomalie car l'erreur moyenne est supérieure au treshold
anomaly_df['gamma'] = test[seq_size:]['gamma']

print(anomaly_df)

anomalies = anomaly_df.loc[anomaly_df['anomaly'] == True]


In [None]:
#On trace l'évolution de l'erreur moyenne en fonction du temps
sns.lineplot(x=anomaly_df['Date'], y=anomaly_df['max_trainMAE'], color='g')#trace la ligne égale au treshold
sns.lineplot(x=anomaly_df['Date'], y=anomaly_df['testMAE']) 

In [None]:
#0n trace notre signal test en bleu et les anomalies sur notre échantillon test

sns.lineplot(x=anomaly_df['Date'], y=anomaly_df['gamma'], color='b')#trace les valeurs de gamma pour l'échantillon test
sns.scatterplot(x=anomalies['Date'], y=anomalies['gamma'], color='r') #trace les points

In [None]:
print(anomalies['Date'])