# Séries Temporelles
Un modèle de série temporelle est un modèle qui tente de relier la valeur d'une ou plusieurs variables à un moment donné avec les valeurs de la ou des mêmes variables à des moments précédents, par exemple,
$$GNP_{t+1} = f (GNP_t ,GNP_{t−1},GNP_{t−2},...)+ \text{Erreur}.$$
Ici, $t$ désigne le temps. Ainsi, les modèles de séries temporelles "simples", comme celui ci-dessus, sont des "boîtes noires".
Les modèles de séries temporelles plus complexes sont explicatifs en ce sens qu'ils tentent de relier la valeur de la variable d'intérêt non seulement avec ses valeurs précédentes mais aussi avec les valeurs précédentes d'autres variables "explicatives".

In [None]:
#Importing required libraries
from pandas import read_excel
from matplotlib import pyplot as plt
import numpy as np
import pandas as pd

La production mensuelle d'électricité en Australie montre une tendance claire et une saisonnalité. La cellule de code ci-dessous charge les ensembles de données dans un dataframe pandas et les affiche dans un graphique.

In [None]:
fig, ax = plt.subplots(figsize=(12,10))
series = read_excel('Electricity.xls', sheet_name='Data', header=0, index_col=0, parse_dates=True)
series.plot(ax=ax)
plt.show()

Ci-dessous, des graphiques saisonniers sont produits et tracés pour le même ensemble de données.

In [None]:
# pour montrer la tendance saisonière
series = read_excel('Electricity.xls', sheet_name='SeasData', header=0, index_col=0, parse_dates=True)
x = np.array([0,1,2,3,4,5,6,7,8,9,10,11])
months = ['Jan','Feb','Mar','Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']
fig, ax = plt.subplots(figsize=(12,10))
for column in series.columns:
    plt.plot(x, series[column])

plt.xticks(x, months)
years = [1957,1958, 1960, 1961, 1963, 1968]
plt.legend(years)

plt.show()

Les données suivantes sur la production de briques en Australie ne montrent pas de tendance claire.

Dans la cellule ci-dessous, en suivant l'exemple précédent, chargez le jeu de données contenu dans le fichier 'ClayBricks.xls' avec la feuille BRICKSQ dans un dataframe pandas, et affichez ses données dans un graphique, pour rechercher visuellement des tendances et des variations. Les données correspondent à la production australienne de briques d'argile.

In [None]:
fig, ax = plt.subplots(figsize=(12,10))
# ajoutez votre code ici. 
series = read_excel()

La production australienne de briques d'argile contient des fluctuations occasionnelles importantes qui sont difficiles à expliquer, et donc à prédire, sans connaître les causes sous-jacentes. Dans la cellule ci-dessous, obtenez et tracez les graphiques saisonniers.

In [None]:
# ajoutez votre code ici.




# Corrélation
$Cov_{XY} = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})$

$Cov_{XY}$ représente la covariance entre X et Y.
n est le nombre d'observations.
$X_i$ et $Y_i$ sont les observations individuelles de X et Y, respectivement.
$\bar{X}$ et $\bar{Y}$ sont les moyennes de X et Y, respectivement.
La somme est prise sur toutes les n observations.

Le coefficient de corrélation de Pearson est défini comme $r_{XY} = \frac{Cov_{XY}}{S_X S_Y} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2} \sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}}$, où n est le nombre d'observations.
$X_i$ et $Y_i$ sont les observations individuelles de X et Y, respectivement.
$\bar{X}$ et $\bar{Y}$ sont les moyennes de X et Y, respectivement.
$S_X$ et $S_Y$ sont les écarts-types de X et Y, respectivement.
La somme est prise sur toutes les n observations.

Ci-dessous, certaines données bancaires avec quatre caractéristiques, étiquetées comme DEOM, AAA, Tto4, D3to4 sont chargées, et les tracés de corrélation variable par variable et le coefficient sont produits.

In [None]:
# Matrice de covariance
series = read_excel('Bank.xls', sheet_name='Data3', header=0,
                     dtype=float)

# Tracer les graphiques de dispersion de chaque variable par rapport à l'autre
pd.plotting.scatter_matrix(series, figsize=(8, 8))
plt.show()

# Matrice de corrélation pour toutes les variables, 2 par 2
CorrelationMatrix = series.corr()
print(CorrelationMatrix)

Ci-dessous, les données automobiles de 19 voitures japonaises sont chargées, et la corrélation entre le kilométrage et le prix est calculée.

In [None]:
# Calcul de la corrélation
series1 = read_excel('JapaneseCars.xls', sheet_name='Data', header=0,
                      dtype=float)
correlval=np.corrcoef(series1['Mileage'], series1['Price'])
correlval=correlval[1,0]
print(correlval)

Maintenant, calculez manuellement le même coefficient de corrélation de Pearson en utilisant numpy. Pour obtenir un tableau numpy à partir d'une colonne d'un dataframe pandas, vous pouvez par exemple faire `mileage_array = series1['Mileage'].to_numpy()`

In [None]:
# ajoutez votre code ici.

Ci-dessous, en suivant l'exemple discuté dans les diapositives ce matin, calculez plutôt le coefficient de corrélation de Spearman. Vous pouvez par exemple utiliser les fonctions intégrées de scipy ou de pandas pour cela.

In [None]:
# ajoutez votre code ici.

Ci-dessous, les tracés saisonniers et le tracé de la fonction d'autocorrélation (ACF) sont montrés pour un ensemble de données de production de ciment.

In [None]:
from pandas.plotting import autocorrelation_plot
from statsmodels.graphics.tsaplots import plot_acf
series1 = read_excel('CementProduction.xls', sheet_name='Data', header=0,
              index_col=0, parse_dates=True)
series2 = read_excel('CementProduction.xls', sheet_name='SeasonalData', header=0,
                    index_col=0, parse_dates=True)
fig, ax = plt.subplots(figsize=(12,10))
series2.plot(title='Seasonal plots building materials time series', ax=ax)
plt.show()

fig, ax = plt.subplots(figsize=(12,10))
plot_acf(series1, title='ACF plot of building materials time series', lags=60, ax=ax)
plt.show()

fig, ax = plt.subplots(figsize=(12,10))
autocorrelation_plot(series1, ax=ax)
plt.show()

Maintenant, utilisez statsmodel pour calculer l'ACF pour 90 retards (lags). Tracez les résultats et comparez-les au graphique précédent : vous devriez obtenir le même graphique.

Documentation sur statsamodel : https://www.statsmodels.org/stable/generated/statsmodels.tsa.stattools.acf.html

In [None]:
# ajoutez votre code ici.

# Décomposition
L'approche de base pour analyser la structure sous-jacente d'une série temporelle consiste à la décomposer comme suit :
$$Y_t = f (S_t ,T_t ,E_t ),$$
où $Y_t$ est la valeur observée au temps $t$ et les variables sont définies comme suit :
- $S_t$ est la composante saisonnière au temps $t$ ;
- $T_t$ est la composante de tendance-cycle au temps $t$ ;
- $E_t$ est une composante irrégulière (aléatoire) au temps $t$.

# Décomposition additive

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
import matplotlib.pyplot as plt

series = read_excel('HouseSales.xls', sheet_name='Data', header=0, index_col=0, parse_dates=True)
result = seasonal_decompose(series, model='additive')

fig, (ax1,ax2,ax3,ax4) = plt.subplots(4,1, figsize=(12,10))

# Tracer la série originale
ax1.plot(result.observed)
ax1.set_title('Série originale')

# Tracer la composante de tendance
ax2.plot(result.trend)
ax2.set_title('Tendance')

# Tracer la composante saisonnière
ax3.plot(result.seasonal)
ax3.set_title('Saisonnalité')

# Tracer la composante résiduelle
ax4.plot(result.resid)
ax4.set_title('Résidus')

plt.tight_layout()
plt.show()

# Décomposition multiplicative

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
import matplotlib.pyplot as plt

series = read_excel('HouseSales.xls', sheet_name='Data', header=0, index_col=0, parse_dates=True)
result = seasonal_decompose(series, model='multiplicative')

fig, (ax1,ax2,ax3,ax4) = plt.subplots(4,1, figsize=(12,10))

# Tracer la série originale
ax1.plot(result.observed)
ax1.set_title('Série originale')

# Tracer la composante de tendance
ax2.plot(result.trend)
ax2.set_title('Tendance')

# Tracer la composante saisonnière
ax3.plot(result.seasonal)
ax3.set_title('Saisonnalité')

# Tracer la composante résiduelle
ax4.plot(result.resid)
ax4.set_title('Résidus')

plt.tight_layout()
plt.show()