**DATA8 - Statistics for Machine Learning - part 3**

**Une timeserie, c'est quoi ?**
Tout simplement, un dataset dont les valeurs sont mesurées à différents points dans le temps.
Comme il s’agit d’évaluer l’évolution d’un phénomène au cours du temps, l’ordre est ici très important.

**Pourquoi une partie dédiée aux séries temporelles ?**
- Elles sont présentes dans de nombreux domaines d’application
- Elles permettent de comprendre les tendances passées / d'estimer les comportements futurs
- Pandas offre tout un panel d'outils qui simplifient énormément la manipulation de séries temporelles

**Ressources:**
- https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html
- https://jakevdp.github.io/PythonDataScienceHandbook/03.11-working-with-time-series.html
- https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DatetimeIndex.html

**Ce que vous verrez aujourd'hui : travailler avec**
1. Basics of timeseries with Pandas
2. Identifying Patterns in Time Series: Trend, seasonality, noise
3. Autocorrelation
4. Spectral analsis (fft)

In [1]:
from IPython.display import Image
Image('IMG/xkcd_extrapolating.png', width=400)

In [2]:
import pandas as pd
import seaborn as sns

In [3]:
from matplotlib import rcParams
rcParams['figure.figsize'] = 15, 3

# Working with timestamps

**TODO**
        
- Charger les données précédentes.  
- Se familiariser avec les outils de Pandas dédiés à la manipulation des dates:
    - https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html
    - les méthodes: to_datetime, date_range, period_range, timedelta_range, min, max, shift, resample, rolling, ...
    - la gestion des timezone: tz_localize, tz_convert
    - les offsets

## Charger les données

## Convertir des dates en Timestamps

## La classe DatetimeIndex

https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DatetimeIndex.html

## Interpolation

**TODO**

- Les données de consommation sont fournies toutes les 30 minutes, alors que celles en J-1 sont fournies tous les 1/4 d'heures. Utiliser les différentes fonction d'interpolation offertes par Pandas et ploter le résultat.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html <br/>
https://www.analyticsvidhya.com/blog/2021/06/power-of-interpolation-in-python-to-fill-missing-values/#:~:text=Interpolation%20is%20mostly%20used%20while,the%20mean%20of%20the%20month

# Identifying paterns in the timeserie

## Trend, saisonality

Série temporelle = Tendance + Saisonnalité(s) + Bruit  <br/>
- Tendance: variations à long terme (tendance nulle = série stationnaire)
- Saisonnalité: variations périodiques
- Bruit: tendance nulle

On cherche ici à extraire la structure du signal, pour, par exemple:
- supprimer la partie bruitage, les erreurs de mesure ou les fluctuations non explicables
- supprimer des variations saisonnières pour évaluer des tendances
- projeter un comportement dans le futur
- ...

**Ressources:**
- un cours théorique: https://perso.math.univ-toulouse.fr/jydauxoi/files/2017/04/poly_eleves.pdf

**TODO**
        
- Observer la courbe de consommation : quelle(s) composante(s) semblent saisonnières ? Quelle tendance ?
- Faire de même avec les sources de production solaire et éolienne.
- Faire apparaitre clairement ces "patterns" en utilisant la méthode "rolling" de Pandas.
- Comparer les méthodes 'rolling' et 'resample'

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rolling.html<br/>
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html

https://towardsdatascience.com/time-series-analysis-resampling-shifting-and-rolling-f5664ddef77e

# Auto-correlation

https://en.wikipedia.org/wiki/Autocorrelation

Une série chronologique est une série de points de données indexés dans le temps. Le fait que les données de séries chronologiques soient ordonnées les rend uniques dans l'espace de données car elles affichent souvent une dépendance sérielle. La dépendance en série se produit lorsque la valeur d'un point de données à un moment donné dépend statistiquement d'un autre point de données à un autre moment. Cependant, cet attribut des données de séries chronologiques viole l'une des hypothèses fondamentales de nombreuses analyses statistiques - que les données sont statistiquement indépendantes.

L'autocorrélation est un type de dépendance en série. Plus précisément, l'autocorrélation se produit lorsqu'une série chronologique est liée de manière linéaire à une version décalée d'elle-même. En revanche, la corrélation est simplement lorsque deux variables indépendantes sont liées linéairement.

**TODO**
        
- Retrouver la cyclicité de la consommation en calculant la corrélation de la courbe de consommation avec une version décalée d'elle même. 

**Bonus**:
- Etudier les corrélations entre le prix et la consommation avec différent décalages temporelles, en été et en hiver, sur les courbes avant et après adaptation de la time zone. Interpréter.

# Etude fréquentielle

**Note:** <br/>
Cette étude fréquentielle n'est pas propre aux séries temporelles : on peut par exemple chercher des fréquences (motifs) dans une image.


**TODO**
        
- Quelles fréquences ressortent de la courbe de consommation ? A quoi correspondent-elles ?
- Tracer le signal obtenu en ne gardant que ces fréquences caractéristiques ? A quel point suffisent-elles pour décrire les variations du signal ?
- Que représentent les hautes fréquences ? Couper les fréquences supérieures à certaines fréquences caractéristiques puis tracer les signaux obtenus.

https://ipython-books.github.io/101-analyzing-the-frequency-components-of-a-signal-with-a-fast-fourier-transform/

# Questions bonus

**TODO**

- Tracer les consommations des différentes années les une sur les autres
- Tracer toutes les consommations journalières les unes sur les autres, pour faire apparaitre des différences de comportement entre : jours de semaine et weekend, jours d'été et d'hiver

# Bonus : suite

**TODO**
        
- Comment estimer très simplement la consommation du lendemain ? quelle erreur commet-on ?
- Estimer le taux de production solaire + éolienne dans les années à venir
- Y a-t-il une saisonnalité dans les moyens de productions ?
- Y-a-il une saisonnalité dans les échanges commerciaux entre la France et ses voisins ?
- quelles types de centrale permettent des changements de production rapides ?