## Objectif & Plan

Pandas est une bibliothèque permettant de manipuler et analyser des données. L'objectif de cette première séance est de vous familiariser avec cet outil et de découvrir les données Madoc sur lesquelles vous allez travailler.

Dans la première partie de ce notebook, nous commençons par vour présenter quelques commandes Pandas. Dans la deuxième partie, vous devrez appliquer ces commandes sur les données Madoc. Votre travail de Data Scientist commence donc dès maintenant.

La première étape est d'importer les bibliothèques utiles pour le projet. Ici nous importons la bibliothèques Pandas, en la renommant 'pd' afin de faciliter son utilisation ('pd' car c'est le raccourci utilisé sur tous les tutoriels publiés sur le web).

Pour exécuter le code d'un bloc d'un notebook jupyter, cliquer sur le bloc et taper la combinaison de touche $Maj+entrée$.

In [None]:
import pandas as pd

## Partie 1 - introduction à Pandas

### 1.Lire un fichier CSV

La première étape est de charger les données. Nous allons tout d'abord travailler sur un exemple simple, des séries temporelles de sécurités : 
le bitcoin (**btc**) et l'ada (**ada**), deux jetons de block chain.

La fonction `read_csv` de Pandas permet de lire un fichier csv. Elle est appelée en tapant `pd.read_csv(...)`, qui se lit "j'appelle la fonction `read_csv(...)` de Pandas". 

L'opérateur `.` permet d'accéder à une fonction dans un module python. 
Un $module$ python est en pratique un fichier contenant du code python.

La fonction `read_csv()` retourne un dataframe Pandas. Un dataframe est un tableau composé de colonnes et de lignes.

Exécutez les blocs suivants pour charger les données. 

In [None]:
btc = pd.read_csv('./data/Coincodex/coin_Bitcoin.csv', sep=',')
btc.head()

Les fichiers contiennent donc des lignes représentant chacune des statistiques sur les prix. La première ligne indique le prix, pour le 17 août, à l'ouverture, au plus haut, au plus bas, à la fermeture, le volume échangé et le volume total du coins. 

La fonction `head()` de Pandas permet d'afficher les premières lignes du tableau. Maintenant que vous avez fait de l'objet, vous avez dû comprendre que la fonction `read_csv()` de `pandas` retourne un objet sur lequel on peut appeler la méthode `head()`. L'objet retourné est un `DataFrame`.

#### Exercice

Complétez le bloc suivant pour charger maintenant le fichier `data/Coincodex/coin_Cardano.csv` contenant l'historique des prix du jeton Ada de la blockchain Cardano.

In [None]:
# chargez le fichier et affichez les premières lignes du tableau

# affichage des premieres lignes - 1 lignes de codes


### 2. Lignes et colonnes

Un `DataFrame` Pandas est composé de lignes et colonnes :
- chaque ligne est indexée par un nom unique
- chaque colonne est indexée par un nom unique
- chaque ligne a aussi un numéro, comme dans un tableau
- chaque colonne a aussi un numéro, comme dans un tableau

Vous verrez dans la suite, qu'il est possible d'accèder aux colonnes et/ou lignes en passant soit par l'index/nom, soit par les numéro de lignes/colonnes. 

Voyons voir les colonnes, l'index et la taille du `DataFrame btc` :



In [None]:
print("columns :", btc.columns)

print("index des lignes: ", btc.index)

print("taille du dataframe:", btc.shape)

`Index(['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'Market Cap'], dtype='object')` est ainsi l'index des colonnes.

`RangeIndex(start=0, stop=4416, step=1)` est l'index des lignes. Les lignes sont ici indexées de 0 au nombre de ligne. Le numéro de la ligne est donc égale à son index, ce qui ne sera pas toujours le cas.

Nous voyons donc ici que nous avons 4416 lignes et 7 colonnes (sauf si j'ai récupéré un nouveau fichier contenant un historique plus long...).

Pandas permet de faire des sélections via les colonnes ou l'index. Pour réaliser des sélections, 2 possibilités :
- passer par les **indices** via la fonction `iloc` (les numéros des lignes ou colonnes, comme dans un tableau)
- passer par les **index** via la fonction `loc`

Le format des sélections est le suivant :

    btc.iloc[indiceLignes, indiceColonnes]
    btc.loc[indexLignes, indexColonnes] 

Notez qu'il est aussi possible de ne pas mettre `loc`:
    
    btc[indexLignes, indexColonnes]

Voici un exemple de code pour sélectionner une colonne dans le `DataFrame btc` via les **index** :

In [None]:
btc.loc[:, 'Close']

Ce qui est équivalent à :

In [None]:
btc['Close']

Afin d'éviter de s'emmêler les pinceaux, nous allons maintenant soit passer par `loc`, soit par `iloc`, en indiquant les lignes/colonnes.

Exemple de sélection de plusieurs colonnes : 

In [None]:
btc.loc[:, ['Close', 'Volume']]

Equivalent à :

In [None]:
btc.iloc[:, [4, 5]]

Voici un exemple de sélection de lignes :

In [None]:
btc.loc[1:4, :]

Ce qui, puisque dans notre cas l'index est aussi composé de nombre de 0 à N, est équivalent à :

In [None]:
btc.iloc[1:4, :]

Dans cette exemple, la sélection se fait via l'opérateur 'slice'. Cet opérateur à la forme suivante: `a:b:c`, où `a` représente le numéro de l'élément de début, `b` le numéro de l'élément de fin **non inclus** et `c` représente le pas d'avancement pour aller de `a` à `b`. Par défaut, `c` est initialisé à `1`. Ainsi dans cette exemple, nous allons de la ligne $1$ à $4-1$, ce qui revient à sélectionner la lignes d'**indices** `1, 2, 3`.


La fonction `iloc` est à comparer à la fonction `loc`, qui ne donne pas le même résultat...

In [None]:
btc.loc[1:4, :]


Voici un exemple de sélection de plusieurs lignes et colonnes :

In [None]:
btc.iloc[3:8, [4, 5,6]]

Equivalent à :

In [None]:
btc.loc[3:7, ['Close', 'Volume', 'Market Cap']]

In [None]:
print("Sélection des index 2 à 4 (inclus...) et de la colonne \'Close\':")
btc.iloc[2:, 4]



In [None]:
btc.loc[0:, ['Close', 'Volume']]

Il est aussi possible de sélectionner les lignes contenant certaines valeurs, en utilisant les opérateurs `==`, `>`, `<`, `>=` et `<=` :

In [None]:
btc.loc[btc.loc[:, 'Volume'] >= 4.503609e+10]

Dans l'exemple précédent, puisqu'on sélectionne des lignes, il ne faut pas indiquer les index sur les lignes (`btc.loc[:, btc.loc[:, 'Volume'] >= 4.503609e+10]` ne fonctionne pas).

Pour construire des formules booléennes, il faut utiliser les opérateurs `&` et `|` pour respectivement le "et" et le "ou".

Ici un exemple de sélection des lignes contenant les jours , avec un numéro de ressource supérieur à 150:

In [None]:
btc.loc[(btc.loc[:, 'Volume'] >= 4.503609e+10) & (btc.loc[:, 'Open']> btc.loc[:, 'Close'])]

#### Exercice

A vous de jouer maintenant sur votre DataFrame `ada`.

**Questions** : 

1. sélectionner les colonnes `Open`, `High` et `Low` du data frame `ada`
2. sélectionner les deux dernières lignes
3. sélectionner les lignes d'**index** 2 et 3 sur les colonnes `Close` et `Market Cap`
3. sélectionner les lignes d'**indice** 2 et 3 sur les colonnes `Close` et `Market Cap`
4. sélectionner toutes les lignes ayant un **index** pair
5. sélectionner les lignes ayant une valeur `Close` supérieure à 0.50 
6. sélectionner les lignes ayant une valeur à l'ouverture inférieure à celle de la fermeture et les colonnes `["Open", "Close"] `

In [None]:
# réponse question 1

In [None]:
# réponse question 2

In [None]:
# réponse question 3

In [None]:
# réponse question 4

In [None]:
# réponse question 5

In [None]:
# réponse question 6

In [None]:
# réponse question 7

### 3. Points sur les data frame et les séries

Pandas utilise des objets de type `dataFrame`. Un data frame est un tableau composé de colonnes et de lignes. Chaque colone est en fin de compte une série. 

Vous avez peut être noté précédemment que quand vous sélectionnez une seule colonne de votre précédent DataFrame, l'affichage n'est plus le même...cela est dû au fait que vous aviez obtenu une série comme résultat, et non pas un dataframe.

En pratique, il faudra faire attention à la distinction car les séries et les dataframes n'ont pas les mêmes méthodes. Certaines s'appliquent seulement aux dataframmes, et d'autres qu'aux séries.

### Les séries

Une série est un objet unidimensionnel pouvant contenir une liste de valeurs. Une série est défini par :
- une liste de valeurs, généralement de même type (sinon, elle est généralement difficilement exploitable)
- un index

Voici un exemple de série, créée à partir d'une liste :

In [None]:
serie = pd.Series([10,20,30,40,50])

serie

Son index, ici allant de 0 à 4 :

In [None]:
serie.index

L'index d'une série peut être défini :

In [None]:
serie = pd.Series([10,20,30,40,50], index=['a', 'b', 'c', 'd', 'e'])

serie

L'accès à un ou plusieurs éléments de la série peut se faire via l'index :

In [None]:
print(str(serie.loc[['a', 'b']])+"\n")
print("type d'une série: "+str(type(serie[['a', 'b']])))

print("\naccès à un élément via l'index:")
print(serie.loc['a'])

ou bien via le numéro de la ligne :

In [None]:
serie.iloc[0]

Et enfin, pour faire le lien avec nos données :  chaque colonne du dataFrame `dataTraces` est donc une série. Dans l'exemple suivant, nous utilisons la fonction type() pour afficher le type d'une colonne sélectionnée dans notre data frame `dataTraces`.

In [None]:
print(type(btc.loc[:, 'Close']))

### 4. Les dataframes

Un data frame est un objet à 2 dimensions pouvant avoir plusieurs colonnes avec des types différents.

Il est possible d'avoir le début ou la fin d'un data frame avec les fonctions `head()` et `tail()`.



In [None]:
btc.tail()

Il est possible d'ajouter une colonne, de faire des sommes de colonnes, ...

In [None]:
btc["NewColumn"] = True

btc.head()

In [None]:
btc["Diff"] = btc["Close"] - btc["Open"]

btc.head()

Il est possible de voir le type de chaque colonne :

In [None]:
btc.dtypes

La méthode `describe()` permet d'avoir des statistiques simples sur les colonnes contenant des données numériques.

In [None]:
btc.describe()

Toujours sur votre DatFrame `ada`, répondez aux questions suivantes.

**Questions** :
1. ajouter une colonne "Diff" contenant la différence entre le prix à l'ouverture et le prix à la fermeture
2. transformer le type de la colonne `Date` en `timestamp` (un peu de recherche Google `Pandas set column timestamp`)
3. créer une série ne contenant que les valeurs de la colonne `Close`. L'index de cette série sera la colonne `Date`
4. afficher quelques statistiques sur cette série

In [None]:
# Question 1

In [None]:
# Question 2

In [None]:
# Question 3

In [None]:
# Question 4

### 5. Fusion de DataFrames

Pour notre projet, il sera intéressant de créer des DataFrames avec plusieurs valeurs de sécurités. Plusieurs sécurités pourront ainsi être passé à un réseau de neurones pour faire de la prédiction, ce qui a du sens si certaines sécurités sont corrélées entre elles.

Une jointure entre deux data frames A et B consiste à les fusionner en associant une ligne de A avec une ligne de B si elles ont toutes les deux la même valeur sur une certaine colonne.

Dans notre cas, nous allons fusionner `ada` et `btc` dans un même DataFrame, en associant deux lignes de chacun seulement si la date du jour est similaire.

Voici l'algorithme pour réaliser une fusion, en comme,çant avec `i=0` :
1. prendre la ligne i de `btc`
2. regarder la date `d` de cette ligne
3. pour chaque ligne de `ada`, si la date est identique à `d` alors créer une ligne [`btc`, `ada`]
4. incrémenter i et aller à l'étape 1.

En pratique, dans notre exemple, chaque ligne de `btc` sera associée avec au plus une seule ligne de `ada`, puisque que chaque ligne est indexée par la date (chaque valeur d'un index est unique, l'index servant à identifier une ligne ou une colonne).

Il nous reste plus qu'à présenter la fonction pour réaliser une fusion :

https://pandas.pydata.org/docs/reference/api/pandas.merge.html

Cette fonction prend les 2 DataFrames en paramètre (`left` et `right`), le mode (`how`) et sur quelle colonne on compare les valeurs (`on`). Le `how` permet d'expliquer ce que l'on fait quand une ligne d'un des deux DataFrame n'est pas associée avec une ligne de l'autre DataFrame  : on garde juste les lignes non associées de `btc` ? on garde juste les lignes non associées de `ada` ? on garde tout ? on ne garde aucune ligne non associée ?  

**Questions**:
1. étudier la fonction `merge` de Pandas
2. créer un dataFrame `btcAda` en fusionnant `btc` et `ada`, en ne gardant que les lignes associées
3. étudier le dataFrame obtenu
4. supprimer toutes les colonnes sauf une de Date et les `Close` de chaque coin (vous devez donc avoir 3 colonnes en tout)
5. transformer le type de la colonne `Date` en timestamp
6. définir l'index du DataFrame avec la colonne `Date`
7. si nécessaire, supprimer la colonne `Date` (puisque l'index est maintenant la date)
8. classer les lignes via l'index en ascendant (la première ligne est le plus ancien) 

In [None]:
# Questions 1-2-3

In [None]:
# Question  4-7

In [None]:
# Question 8

### 6. Conclusion

Félicitation ! 

Vous devez maintenant être à l'aise pour manipuler nos données de sécurités.