# Objectifs
Ce TP vous présente les dataframes pandas et leurs utilisations. Vous pouvez consulter la <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html">documentation</a> de pandas pour en savoir plus sur leurs différentes fonctionnalités.

Il vous présente également différentes méthodes de transformation des données. De plus, quelques exemples d'analyse de précision et de lissage de tendance sont montrés ici.

On s'attend à ce que vous lisiez le code et compreniez comment il fonctionne, puis que vous le complétiez si nécessaire en suivant les suggestions.

# Transformation à la Racine Carrée (Sqrt Transform)

Dans la cellule ci-dessous, les données mensuelles australiennes sur l'électricité sont chargées, et la méthode de transformation sqrt est appliquée. Le tracé temporel des données transformées est montré, puis un histogramme correspondant est également extrait, pour mettre en évidence les changements.

In [None]:
from numpy import sqrt
from pandas import DataFrame
from pandas import read_excel
from matplotlib import pyplot
series = read_excel('Electricity.xls',
              sheet_name='Data', header=0,
              index_col=0, parse_dates=True)
dataframe = DataFrame(series.values)
dataframe.columns = ['electricity']

# sqrt transformation est appliqué:
dataframe['electricity'] = sqrt(dataframe['electricity'])
pyplot.figure(1)
# line plot
pyplot.subplot(211)
pyplot.plot(dataframe['electricity'])
# histogramme
pyplot.subplot(212)
pyplot.hist(dataframe['electricity'])
pyplot.show()

# Transformation logarithmique (Log Transform)

De manière similaire, la transformation logarithmique est appliquée et le tracé temporel et l'histogramme sont montrés.

In [None]:
from numpy import log
series = read_excel('Electricity.xls',
              sheet_name='Data', header=0,
              index_col=0, parse_dates=True)
dataframe = DataFrame(series.values)
dataframe.columns = ['electricity']
dataframe['electricity'] = log(dataframe['electricity'])
pyplot.figure(1)
# line plot
pyplot.subplot(211)
pyplot.plot(dataframe['electricity'])
# histogram
pyplot.subplot(212)
pyplot.hist(dataframe['electricity'])
pyplot.show()

Dans la cellule ci-dessous, veuillez utiliser la méthode `hist` de pandas (la documentation est <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html">ici</a>) pour tracer la colonne "électricité" pour le dataframe chargé dans la cellule ci-dessus. Comparez-le avec ce que vous avez obtenu ci-dessus.

In [None]:
# Ajoutez votre code ici

Ci-dessous, convertissez la colonne "électricité" du précédent dataframe pandas en un tableau numpy (vous avez vu comment faire la semaine dernière), puis appliquez la normalisation z-score comme vous l'avez appris lorsque nous avons discuté de la mise à l'échelle des caractéristiques. Tracez les résultats.

In [None]:
# Ajoutez votre code ici

# Ajustements de calendrier
Si les données sont pour des mois calendaires, alors il peut être nécessaire de tenir compte de la longueur d'un mois. La différence entre le mois le plus long et le plus court est d'environ $\frac{(31- 28)}{30} = 10\%$. L'ajustement nécessaire est

$$
W_t = \frac{\text{\# de jours dans un mois moyen}}{\text{\# de jours dans le mois } i} \times Y_t = \frac{365.25/12}{\text{\# de jours dans le mois } i} \times Y_t
$$

Le code ci-dessous charge les données originales et ajustées à partir d'une feuille de calcul Excel contenant des données de production de lait, et les trace l'une sur l'autre. Ouvrez la feuille de calcul Excel et vérifiez manuellement comment l'ajustement a été calculé.

In [None]:
series = read_excel('MilkProduction.xls',
              sheet_name='AdjustedData', header=0,
              index_col=0, parse_dates=True)  # vous pouvez inclure d'autres paramètres
series.plot()
pyplot.show()

# Analyse de la précision

Le prévisionniste doit choisir le meilleur modèle à utiliser pour prévoir une série temporelle particulière. Nous discutons ici différentes mesures pour comparer différents modèles de prévision sur la base des erreurs de prévision. Soit $F_t$ la valeur prévue et $Y_t$ l'observation réelle à l'instant $t$. Alors l'erreur de prévision à l'instant $t$ est définie comme $e_t = Y_t - F_t$.

Habituellement, $F_t$ est calculé à partir des valeurs précédentes de $Y_t$ jusqu'à et y compris la valeur précédente immédiate $Y_{t-1}$. Ainsi, $F_t$ ne prédit qu'un pas en avant. Dans ce cas, $F_t$ est appelé la **prévision à un pas** et $e_t$ est appelé l'**erreur de prévision à un pas**. Habituellement, nous évaluons l'erreur non pas à partir d'une telle $e_t$ mais à partir de $n$ valeurs. Trois mesures de l'erreur sont :

* **Erreur Moyenne (ME)** :
$$
ME = \frac{1}{n} \sum_{t=1}^{n} e_t
$$

* **Erreur Absolue Moyenne (MAE)** :
$$
MAE = \frac{1}{n} \sum_{t=1}^{n} |e_t|
$$

* **Erreur Quadratique Moyenne (MSE)** :
$$
MSE = \frac{1}{n} \sum_{t=1}^{n} e_t^2
$$

Ci-dessous, les données de production de bière australienne sont analysées, en chargeant les prévisions de deux méthodes de prévision étiquetées respectivement NF1 et NF2.

In [None]:
AustralianBeer  = read_excel('BeerErrorsData.xls', sheet_name='NF1NF2', usecols = [1],
                             header=0,  dtype=float)
AustralianBeer = AustralianBeer['Original Data']
NaiveF1  = read_excel('BeerErrorsData.xls', sheet_name='NF1NF2', usecols = [2],
                      header=0,  dtype=float)
NaiveF1 = NaiveF1['NF1']
NaiveF2 = read_excel('BeerErrorsData.xls', sheet_name='NF1NF2', usecols=[3],
                     header=0,  dtype=float)
NaiveF2 = NaiveF2['NF2']

# Tracé des données originales et des prévisions NF1
AustralianBeer.plot(legend=True)
NaiveF1.plot(legend=True)
pyplot.show()

# Tracé des données originales et des prévisions NF2
AustralianBeer.plot(legend=True)
NaiveF2.plot(legend=True)
pyplot.show()

Complétez la cellule ci-dessous pour calculer l'erreur pour les modèles "NaiveF1" et "NaiveF2" par rapport aux données originales "AustralianBeer", puis calculez le ME, MAE, MSE.

In [None]:
# Complétez le code
Error1 = 
Error2 = 
ME1 = 
ME2 = 
MAE1=
MAE2=
MSE1=
MSE2=

De même, les erreurs en pourcentage sont calculées ci-dessous, puis toutes les erreurs sont affichées sous forme de tableau.

In [None]:
PercentageError1=(Error1/AustralianBeer)*100
PercentageError2=(Error2/AustralianBeer)*100
MPE1 = sum(PercentageError1)* 1.0/len(NaiveF1)
MPE2 = sum(PercentageError2)* 1.0/len(NaiveF2)
MPAE1= sum(abs(PercentageError1))*1.0/len(NaiveF1)
MPAE2= sum(abs(PercentageError2))*1.0/len(NaiveF2)


# Affichage d'un résumé des erreurs sous forme de tableau
print('Résumé des erreurs résultant de NF1 & NF2:')
import pandas as pd
cars = {'Errors': ['ME','MAE','MSE','MPE', 'MAPE'],
        'NF1': [ME1, MAE1, MSE1, MPE1, MPAE1],
        'NF2': [ME2, MAE2, MSE2, MPE2, MPAE2]
        }
AllErrors = pd.DataFrame(cars, columns = ['Errors', 'NF1', 'NF2'])
print(AllErrors)

# ACF de l'erreur de prévision
Il est souvent utile de considérer les erreurs de prévision à un pas comme une série temporelle à part entière, et de calculer et de tracer la fonction d'autocorrélation (ACF) de cette série. Comme mentionné ci-dessus dans le contexte des erreurs, on voudrait que les erreurs générées par une méthode de prévision soient complètement aléatoires. Si ce n'est pas le cas, l'ACF peut conserver certains motifs observables dans l'ensemble de données original. Par conséquent, avoir une ACF non complètement aléatoire peut être une indication que la méthode de prévision n'est pas nécessairement précise.

In [None]:
AustralianBeer  = read_excel('BeerErrorsData.xls', sheet_name='NF1NF2', usecols = [1],
                             header=0,  dtype=float)
AustralianBeer =AustralianBeer['Original Data']

NaiveF1  = read_excel('BeerErrorsData.xls', sheet_name='NF1NF2', usecols = [2],
                      header=0, dtype=float)
NaiveF1 = NaiveF1['NF1']

NaiveF2 = read_excel('BeerErrorsData.xls', sheet_name='NF1NF2', usecols=[3],
                     header=0, dtype=float)
NaiveF2 = NaiveF2['NF2']

# Affichage des données originales
AustralianBeer.plot(label='Original data', legend=True)
pyplot.show()


# Evaluation des erreurs des deux méthodes NF1 et NF2
Error1 = AustralianBeer - NaiveF1
Error2 = AustralianBeer - NaiveF2


# Graphique de la série temporelle des erreurs
Error1.plot(label='NF1 error plot', legend=True)
Error2.plot(label='NF2 error plot', legend=True)
pyplot.show()


# Création d'un graphique d'autocorrélation
from pandas.plotting import autocorrelation_plot
autocorrelation_plot(Error1)
autocorrelation_plot(Error2)
pyplot.show()

# Intervalle de Prédiction

En supposant que les erreurs sont normalement distribuées, on peut utilement évaluer la précision d'une prévision en utilisant le MSE (Mean Squared Error) comme une estimation de l'erreur. Un intervalle de prédiction approximatif pour la prochaine observation est :

$$F_{t+1} ± z \sqrt{MSE},$$

où $z$ est un quantile de la distribution normale. Les valeurs typiques utilisées sont :

| $z$   | Probabilité |
|-------|-------------|
| 1.282 | 0.80        |
| 1.645 | 0.90        |
| 1.960 | 0.95        |
| 2.576 | 0.99        |

Cela permet, par exemple, de mettre en place des intervalles de confiance de 95% ou 99% pour toute prévision.

Dans la cellule ci-dessous, la première colonne de la feuille "NF1NF2" est chargée en utilisant l'argument `usecols` de la fonction 'read_excel', récupérant les données originales "AustralianBeer".

In [None]:
from numpy import sqrt
AustralianBeer  = read_excel('BeerErrorsData.xls', sheet_name='NF1NF2', usecols = [1],
                             header=0,  dtype=float)
AustralianBeer = AustralianBeer['Original Data']

Maintenant, en suivant les exemples ci-dessus, chargez d'abord la deuxième colonne, puis la troisième colonne, et attribuez-les respectivement aux dataframes "NaiveF1" et "NaiveF2". Assurez-vous en ouvrant la feuille de calcul que vous chargez la bonne colonne dans le dataframe.

In [None]:
# Complétez le code
NaiveF1 = read_excel()
NaiveF1 = 
NaiveF2 = read_excel()
NaiveF2 = 

Enfin, calculez l'intervalle de confiance de 0.90 (donc, z=1.645) pour les prévisions "NaiveF1" et "NaiveF2".

In [None]:
# Complétez le code
Error1 = 
Error2 = 
MSE1=
MSE2=

LowerForecast1 = NaiveF1 - 
UpperForecast1 = NaiveF1 + 

LowerForecast2 = NaiveF2 - 
UpperForecast2 = NaiveF2 + 

Les résultats sont ensuite tracés ci-dessous.

In [None]:

# Graphique des données originales et des prévisions NF1
AustralianBeer.plot(label='Original data')
NaiveF1.plot(label='NF1 forecast')
LowerForecast1.plot(label='NF1 lower bound')
UpperForecast1.plot(label='NF1 upper bound')
pyplot.legend()
pyplot.show()

# Graphique des données originales et des prévisions NF2
AustralianBeer.plot(label='Original data')
NaiveF2.plot(label='NF2 forecast')
LowerForecast2.plot(label='NF2 lower bound')
UpperForecast2.plot(label='NF2 upper bound')
pyplot.legend()
pyplot.show()

# Lissage exponentiel

# Lissage Exponentiel Simple

La prévision exponentielle simple ou le lissage exponentiel simple (SES) est défini comme suit :

$$F_{t+1} = \alpha Y_t + (1 - \alpha)F_t$$

où $\alpha$ est une valeur de poids donnée à sélectionner sous réserve que $0 \leq \alpha \leq 1$. Ainsi, $F_{t+1}$ est la moyenne pondérée de l'observation actuelle, $Y_t$, avec la prévision, $F_t$, faite au moment précédent $t - 1$.

L'application répétée de la formule donne :

$$F_{t+1} = (1 - \alpha)^t F_1 + \alpha \sum_{j=0}^{t-1} (1 - \alpha)^j Y_{t-j}$$

montrant que la dépendance de la prévision actuelle sur $Y_t$, $Y_{t-1}$, $Y_{t-2}$, ..., disparaît de manière exponentielle. Le taux auquel cette dépendance disparaît est contrôlé par $\alpha$. Plus la valeur de $\alpha$ est grande, plus la dépendance sur les valeurs précédentes disparaît rapidement.

SES doit être initialisé. Un choix simple est d'utiliser $F_1 = Y_1$. D'autres valeurs sont possibles, mais nous ne nous attarderons pas trop sur ce point car nous sommes plus préoccupés par le comportement de la prévision une fois qu'elle a été utilisée pendant un certain temps.

Il convient de noter que, comme avec les méthodes de moyennage, SES ne peut produire qu'une prévision à un pas.

Ci-dessous, les données de vente de shampooing sont chargées et analysées.

In [None]:
from statsmodels.tsa.api import SimpleExpSmoothing

series = read_excel('ShampooSales.xls', sheet_name='Data', header=0,
              index_col=0, parse_dates=True)
series.index.freq = 'MS'

# Lissage Exponentiel Simple

## SES model 1: alpha = 0.1
fit1 = SimpleExpSmoothing(series).fit(smoothing_level=0.1,optimized=False)
fcast1 = fit1.forecast(10).rename(r'$\alpha=0.1$')

Ci-dessous, définissez "fit2" en utilisant alpha = 0.7

In [None]:
## SES model 2: alpha = 0.7
fit2 = 
fcast2 = fit2.forecast(10).rename(r'$\alpha=0.7$')

Enfin, nous montrons un exemple d'alpha sélectionné automatiquement par le logiciel d'optimisation intégré, et nous traçons les trois méthodes de prévision avec les données originales.

In [None]:
## Modèle SES 3 : alpha sélectionné automatiquement par le logiciel d'optimisation intégré
fit3 = SimpleExpSmoothing(series).fit()
fcast3 = fit3.forecast(10).rename(r'$\alpha=%s$'%fit3.model.params['smoothing_level'])


# Graphique des données originales
series.plot(color='black', legend=True)


# Graphique des valeurs ajustées et des prévisions des 10 prochaines valeurs, respectivement, pour les trois modèles
fit1.fittedvalues.plot(color='blue')
fcast1.plot(color='blue', legend=True)
fit2.fittedvalues.plot(color='red')
fcast2.plot(color='red', legend=True)
fcast3.plot(color='green', legend=True)
fit3.fittedvalues.plot(color='green')
pyplot.show()

# Evaluation des erreurs
from sklearn.metrics import mean_squared_error
MSE1=mean_squared_error(fit1.fittedvalues, series)
MSE2=mean_squared_error(fit2.fittedvalues, series)
MSE3=mean_squared_error(fit3.fittedvalues, series)

print('Summary of errors resulting from SES models 1, 2 & 3:')
import pandas as pd
cars = {'Model': ['MSE'],
        'SES model 1': [MSE1],
        'SES model 2': [MSE2],
        'SES model 3': [MSE3]
        }
AllErrors = pd.DataFrame(cars, columns = ['Model', 'SES model 1', 'SES model 2', 'SES model 3'])
print(AllErrors)

# Lissage Exponentiel Linéaire de Holt

La méthode de Holt, également connue sous le nom de méthode exponentielle linéaire (LES), a été introduite par Charles Holt en 1957. Il s'agit d'une extension de la méthode de lissage exponentiel simple/unique pour prendre en compte une éventuelle tendance linéaire (locale). La tendance permet de prévoir m périodes de temps à l'avance.

Il y a deux constantes de lissage $\alpha$ et $\beta$, $0 \leq \alpha, \beta \leq 1$. Les équations sont :

$$L_t = \alpha Y_t + (1 - \alpha)(L_{t-1} + b_{t-1})$$
$$b_t = \beta (L_t - L_{t-1}) + (1 - \beta)b_{t-1}$$
$$F_{t+m} = L_t + b_t m$$

Ici, $L_t$ et $b_t$ sont respectivement des estimations (lissées exponentiellement) du niveau et de la tendance linéaire de la série au temps t, tandis que $F_{t+m}$ est la prévision linéaire à partir de t.

Des estimations initiales sont nécessaires pour $L_1$ et $b_1$. Des choix simples sont $L_1 = Y_1$ et $b_1 = 0$. Cependant, si zéro est atypique de la pente initiale, alors une estimation plus prudente de la pente peut être nécessaire pour s'assurer que les prévisions initiales ne sont pas trop mauvaises.

Il convient de noter que pour utiliser cette méthode, il n'est **pas** nécessaire qu'une série soit complètement linéaire, mais une certaine tendance doit être présente.

Ci-dessous, les mêmes données de vente de shampooing de l'exemple précédent sont chargées et analysées.

In [None]:
from statsmodels.tsa.api import Holt

series = read_excel('ShampooSales.xls', sheet_name='Data', header=0,
              index_col=0)
series.index.freq = 'MS'

# Holt model 1: alpha = 0.8, beta=0.2
fit1 = Holt(series).fit(smoothing_level=0.8, smoothing_trend=0.2, optimized=False)
fcast1 = fit1.forecast(12).rename("Holt's linear trend")

fit2 = Holt(series, exponential=True).fit(smoothing_level=0.8, smoothing_trend=0.2, optimized=False)
fcast2 = fit2.forecast(12).rename("Exponential trend")

fit3 = Holt(series, damped_trend=True).fit(smoothing_level=0.8, smoothing_trend=0.2)
fcast3 = fit3.forecast(12).rename("Additive damped trend")

fit4 = Holt(series).fit(optimized=True)
fcast4 = fit4.forecast(12).rename("Additive 2 damped trend")


# Graphique des données originales et les quatre méthodes de prévision
series.plot(color='black', legend=True)
fit1.fittedvalues.plot(color='blue')
fcast1.plot(color='blue', legend=True)
fit2.fittedvalues.plot(color='red')
fcast2.plot(color='red', legend=True)
fit3.fittedvalues.plot(color='green')
fcast3.plot(color='green', legend=True)
fcast4.plot(color='yellow', legend=True)

pyplot.show()

# Evaluation des erreurs
from sklearn.metrics import mean_squared_error
MSE1=mean_squared_error(fit1.fittedvalues, series)
MSE2=mean_squared_error(fit2.fittedvalues, series)
MSE3=mean_squared_error(fit3.fittedvalues, series)

print('Summary of errors resulting from SES models 1, 2 & 3:')
import pandas as pd
cars = {'Model': ['MSE'],
        'LES model 1': [MSE1],
        'LES model 2': [MSE2],
        'LES model 3': [MSE3]
        }
AllErrors = pd.DataFrame(cars, columns = ['Model', 'LES model 1', 'LES model 2', 'LES model 3'])
print(AllErrors)


# Méthode de Holt-Winter avec saisonnalité additive

Les équations sont :

$$L_t = \alpha(Y_t − S_{t−s} ) + (1 − \alpha)(L_{t−1} + b_{t−1} )$$
$$b_t = \beta (L_t − L_{t−1} ) + (1 − \beta )b_{t−1}$$
$$S_t = \gamma(Y_t − L_t ) + (1 − \gamma)S_{t−s}$$
$$F_{t+m} = L_t + b_t m + S_{t−s+m}$$

où $s$ est le nombre de périodes dans un cycle. Les valeurs initiales de $L_s$ et $b_s$ peuvent être comme dans le cas multiplicatif. Les indices saisonniers initiaux peuvent être pris comme :

$$S_k = Y_k − L_s , k = 1, 2, ..., s.$$

De même, les paramètres $\alpha$, $\beta$ , $\gamma$ doivent se situer dans l'intervalle [0, 1], et peuvent à nouveau être sélectionnés en minimisant MAE, MSE ou MAPE.

Ci-dessous, les données de production de ciment sont chargées et analysées.

In [None]:
from statsmodels.tsa.api import ExponentialSmoothing

series = read_excel('CementProduction.xls', sheet_name='Data', header=0,
              index_col=0, parse_dates=True)
series.index.freq = 'MS'
series  = series['Observations'].iloc[:]

# ===================================
# Méthode de Holt-Winter dans différents scénarios #
# ===================================
# ===================================
# Modèle 1 : Méthode de Holt-Winter avec tendance et saisonnalité additives
# Ici, alpha = 0.3, beta=0.5, gamma=0.7
# ===================================

fit1 = ExponentialSmoothing(series, seasonal_periods=12, trend='add', seasonal='add').fit(smoothing_level = 0.3, smoothing_trend=0.5,  smoothing_seasonal=0.7)

Suivant l'exemple précédent, complétez la cellule ci-dessous pour appliquer la méthode de Holt-Winter avec une tendance additive et une saisonnalité multiplicative. Vous pouvez consulter la <a href="https://www.statsmodels.org/dev/generated/statsmodels.tsa.holtwinters.ExponentialSmoothing.html">documentation</a> de `statsmodels`.

In [None]:
# ===================================
# Modèle 2 : Méthode de Holt-Winter avec tendance additive et saisonnalité multiplicative
# Ici, alpha = 0.3, beta=0.5, gamma=0.7
# ===================================
fit2 = 

Ensuite, lisez et exécutez le code ci-dessous pour les autres cas, et pour tracer les résultats.

In [None]:
# ===================================
# Modèle 3 : Méthode de Holt-Winter avec tendance et saisonnalité additives
# Ici, les paramètres alpha, beta et gamma sont optimisés
# ===================================
fit3 = ExponentialSmoothing(series, seasonal_periods=12, trend='add', seasonal='add').fit()

# ===================================
# Modèle 4 : Méthode de Holt-Winter avec tendance additive et saisonnalité multiplicative
# Ici, les paramètres alpha, beta, et gamma sont optimisés
# ===================================
fit4 = ExponentialSmoothing(series, seasonal_periods=12, trend='add', seasonal='mul').fit()

fit2.fittedvalues.plot(color='blue')
fit1.fittedvalues.plot(color='red')
fit3.fittedvalues.plot(color='green')
fit4.fittedvalues.plot(color='yellow')

print("Forecasting Cement Production with Holt-Winters method")
#=====================================
# Tracés de temps et de prévisions
#=====================================
#series.rename('Time plot of original series')
series.plot(color='black',label = 'Time plot of original series', legend=True)
fit1.forecast(12).rename('Model 1: HW-additive seasonality').plot(color='red', legend=True)
fit2.forecast(12).rename('Model 2: HW-multiplicative seasonality').plot(color='blue', legend=True)
fit3.forecast(12).rename('Model 3: Opt HW-additive seasonality').plot(color='green', legend=True)
fit4.forecast(12).rename('Model 4: Opt HW-multiplicative seasonality').plot(color='yellow', legend=True)
pyplot.xlabel('Dates')
pyplot.ylabel('Values')
pyplot.title('HW method-based forecasts for cement production')
pyplot.show()

#====================================
# Évaluation des erreurs
#====================================
from sklearn.metrics import mean_squared_error
MSE1=mean_squared_error(fit1.fittedvalues, series)
MSE2=mean_squared_error(fit2.fittedvalues, series)
MSE3=mean_squared_error(fit3.fittedvalues, series)
MSE4=mean_squared_error(fit4.fittedvalues, series)

#=====================================
# Impression des paramètres et des erreurs pour chaque scénario
#=====================================
results=pd.DataFrame(index=[r"alpha", r"beta", r"gamma", r"l0", "b0", "MSE"])
params = ['smoothing_level', 'smoothing_trend', 'smoothing_seasonal', 'initial_level', 'initial_trend']
results["HW model 1"] = [fit1.params[p] for p in params] + [MSE1]
results["HW model 2"] = [fit2.params[p] for p in params] + [MSE2]
results["HW model 3"] = [fit3.params[p] for p in params] + [MSE3]
results["HW model 4"] = [fit4.params[p] for p in params] + [MSE4]
print(results)

#=====================================
# Évaluation et tracé des séries résiduelles pour chaque scénario
#=====================================
residuals1= fit1.fittedvalues - series
residuals2= fit2.fittedvalues - series
residuals3= fit3.fittedvalues - series
residuals4= fit4.fittedvalues - series
residuals1.plot(color='red', label="residual plot for model 1'", legend=True)
residuals2.plot(color='blue', label='residual plot for model 2', legend=True)
residuals3.plot(color='green', label='residual plot for model 3', legend=True)
residuals4.plot(color='yellow', label='residual plot for model 4', legend=True)

pyplot.title('Residual plots for models 1-4')
pyplot.show()

#=====================================
# Tracés ACF des séries résiduelles pour chaque scénario
#=====================================
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(residuals1, title='Residual ACF for model 1', lags=50)
plot_acf(residuals2, title='Residual ACF for model 2', lags=50)
plot_acf(residuals3, title='Residual ACF for model 3', lags=50)
plot_acf(residuals4, title='Residual ACF for model 4', lags=50)
pyplot.show()