## Corrélation

Ce notebook vous présente une méthode pour comparer la corrélation entre 2 séries temporelles. L'idée ici est de déterminer si une source de données peut nous aider à prédire la valeur d'une valeur mobilière particulière. Par exemple, il serait intéressant de vérifier si le coin ada varie en fonction du bitcoin ou bien de l'ethereum, ou encore de valeurs boursières.

Ce notebook a été construit à partir de la source suivante : [*Practical Time Series Analysis, Prediction with Statistics & Machine Learning*, Aileen Nielsen, 2020](https://www.oreilly.com/library/view/practical-time-series/9781492041641/).

Dans ce notebook, nous allons :
1. charger les données de 2 série temporelles, ada et btc
2. sélectionner les plages temporelles sur laquelle comparer les données
2. afficher les données via un nuage de points
3. afficher les données via leur différence
4. décaler la valeur du btc de 1 pour tester sa prédiction sur l'ada

In [None]:
%run -i "05 - LoadData.ipynb"
plt.rcParams['figure.figsize'] = [15, 8]

### Sélection de la plage temporelle maximale

Afin de calculer la corrélation entre les deux valeurs mobilières, on commence par sélectionné l'intervalle de temps commun sur ces deux séries.


In [None]:
dfAda = dataCoins[ada].loc[:, ['Close']]

print(dfAda.index.min(), "-", dfAda.index.max())

dfBtc = dataCoins[btc].loc[dfAda.index.min():dfAda.index.max(), ['Close']]

print(dfBtc.index.min(), "-", dfBtc.index.max())

dfBtc.head()

### Corrélation des données brutes

La première méthode consisterait à afficher les couples des valeurs des deux coins via un nuage de points, et de calculer la corrélation entre les deux ensembles de valeurs.

In [None]:
plt.scatter(x=dfAda.Close, y=dfBtc.Close)

print("Correlation :", dfAda.Close.corr(dfBtc.Close))

Interprétation de cette figure : 
- un point (x,y) est la valeur du `ada` et du `btc` sur une même date (en X, `ada` et en Y, `btc`)
- on voit que la figure qu'un `ada` élevé est lié à un `btc` élevé
- on pourrait résumer ces points en une droite partant de (0,0) pour aller en (2.5, 5000)
- on a une corrélation positive : quand l'`ada` monte, le `btc` monte aussi !
 
Il semblerait donc que nous ayons une forte corrélation entre les 2 coins. Afin de vérifier cette hypothèse, nous allons étudier les variations de ces deux séries temporelles, via leur différence 2 à 2.

### Corrélation de la différence

Nous réalisons le même test que précédemment, mais sur les différences de ces séries.

In [None]:
plt.scatter(x=dfAda.Close.diff(), y=dfBtc.Close.diff())

print("Correlation :", dfAda.Close.diff().corr(dfBtc.Close.diff()))

Nous notons que la corrélation a fortement baissée (il est plus difficile de tracer une droite représentant ces données), mais une corrélation est toujours présente. Et il nous reste un problème à régler : si nous voulons utiliser la prédiction du `btc` pour prédire l'`ada`, il faut utiliser le prix du `btc` un jour avant. 

Nous devons donc étudier la corrélation entre le `btc` décaler d'un jour en moins et l'`ada`.

### Corrélation de la différence en décalant le Bitcoin de 1 jour en arrière

Pour décaler une série temporelle d'une "case" en arière, il faut utiliser la fonction `shift(-1)`, applicable sur une `DataFrame`.



In [None]:
dfBtc.shift(-1).head()

In [None]:
plt.scatter(x=dfAda.Close.diff(), y=dfBtc.shift(-1).diff())

print("Correlation :", dfAda.Close.diff().corr(dfBtc.shift(-1).Close.diff()))

La corrélation semble maintenant quasi nulle...on observe ici un nuage de point que l'on pourrait résumer avec un cercle.

### Conclusion

Parfait. Vous savez maintenant étudier la corrélation entre deux valeurs mobilières. 

**Question(s)**:
1. récupérer des données d'actions (CAC40, Total, des monnaies, ...)
2. tester la corrélation entre ces données et le `btc`