# pandas - partie 1

<img src="https://pandas.pydata.org/docs/_static/pandas.svg" alt="logo pandas" width="500"/>

Le big data, c'est beaucoup, beaucoup de données. On a vu précédemment que numpy était très bien adapté pour la gestion de gros volumes de données, mais il y a un hic : numpy ne sait gérer que des nombres, en Big Data, nous utilisons des chiffres et des lettres. 
C'est ici qu'entre en jeu pandas, la biblothèque (native à jupyter) est un parent proche de numpy, ainsi tout ce qu'on a vu sur numpy (notamment les filtres) s'appliquera avec pandas, et ce, avec la même syntaxe.

Avec pandas, on va manipuler des DataFrame, c'est l'objet qui se trouve au coeur de la bibliothèque. Le Dataframe est un tableau où les colonnes sont labellisées, graphiquement ça ressemble à ceci.

![dataframe](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/dataframe-intro.jpg)

Ceci est un dataframe "graphique", ça ressemble beaucoup aux données d'un tableur. Le Dataframe est l'objet principal de pandas, nous allons en manipuler beaucoup mais surtout de très gros jeux de données.

Par ailleurs chaque colonne représentent un objet pandas appelé Series. Dans l'image ci-dessus, il y a donc trois Series.

pandas est déjà présent dans jupyter, il faut juste l'importer `import pandas as pd`.

[Voir documentation de pandas](https://pandas.pydata.org)

In [63]:
import pandas as pd

dictionnaire = {
    'marque': ["BMW", "Volvo", "Ford", "Citroen"],
    'gamme': ["luxe", "haut de gamme", "compacte", "citadine"],
    'vitesse_max': [210, 160, 120, 130],
    'nbre_sieges': [5, 7, 4, 5],
    'longueur': [3000, 2750, 2000, 2500],
    'annee_sortie': [2014, 2020, 2009, 2015],
    'motorisation': ["essence", "essence", "bio-ethanol", "diesel"],
    'prix €' : [65000, 56750, 12500, 32000]
}

mon_df = pd.DataFrame(dictionnaire)
display(mon_df)
# Pour retourner la première valeur d'un DataFrame, autrement dit la première ligne du tableau, il faut écrire la chose suivante :
display(mon_df.iloc[0]) # iloc signifie index location.

Unnamed: 0,marque,gamme,vitesse_max,nbre_sieges,longueur,annee_sortie,motorisation,prix €
0,BMW,luxe,210,5,3000,2014,essence,65000
1,Volvo,haut de gamme,160,7,2750,2020,essence,56750
2,Ford,compacte,120,4,2000,2009,bio-ethanol,12500
3,Citroen,citadine,130,5,2500,2015,diesel,32000


marque              BMW
gamme              luxe
vitesse_max         210
nbre_sieges           5
longueur           3000
annee_sortie       2014
motorisation    essence
prix €            65000
Name: 0, dtype: object

In [2]:
# On peut définir nos indexes à la création de notre dataframe grâce à la propriété "index"
mon_df = pd.DataFrame(dictionnaire, index=["AMG", "XC60", "Ka", "Cactus"])
# Ici on a défini que la première ligne à l'index "AMG", la seconde "XC60"...

# Une fois fait, on peut écrire ceci
mon_df.loc['AMG'] # On affichera le même résultat qu'en haut.

marque          BMW
gamme          luxe
vitesse_max     210
nbre_sieges       5
longueur       3000
Name: AMG, dtype: object

Dans notre dataframe, il est également possible de libelliser nos lignes en définissant un index pour chacune d'elle. Il y a deux façons de procéder.

In [45]:
mon_df_ex2 = pd.DataFrame(dictionnaire)

# L'autre méthode consiste à rajouter une nouvelle colonne (Serie) avec les valeurs que nous souhaitons
# A noter que cette opération ne pourra fonctionner que si le nombre d'éléments rajoutés et égal au nombre de lignes actuelles
mon_df_ex2['modele'] = ["AMG", "XC60", "Ka", "Cactus"]

# puis de transformer cette nouvelle colonne en index
# ATTENTION "set_index" retourne un nouveau dataframe par défaut, mon_df_ex2 n'a pas l'index "modele"
# Toutefois, il est possible avec le paramètre "inplace" de modifier le DataFrame original
mon_df_indexe = mon_df_ex2.set_index('modele') 
mon_df_indexe.loc['AMG'] # On affichera encore le même résultat

Unnamed: 0_level_0,gamme,vitesse_max,nbre_sieges,longueur,motorisation
modele,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AMG,luxe,210,5,3000,essence
XC60,haut de gamme,160,7,2750,essence


La gestion des index aura son importance pour la gestion des graphiques. Il est possible d'annuler l'index avec la méthode `reset_index()`. Avant de passer aux filtres voilà à quoi ressemble notre dataframe graphiquement.

![dataframe](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/dataframe.jpg)


Les index n'ont pas à être uniques, plusieurs index peuvent avoir la même valeur. Toutefois pour des questions de performances, il est préférable qu'ils le soient ainsi pandas sera plus rapide pour trouver les résultats à vos recherches. Par ailleurs, il est aussi préférable d'avoir

# Filtres

La puissance des filtres de numpy est également utilisable avec les dataframes (et les Series), les filtres sont très utiles pour nettoyer les données ou sélectionner les données qui nous intéresse. On a vu plus haut qu'on pouvait utiliser la clé d'un index avec la propriété ".loc". Il faut savoir qu'il est possible de récupérer plusieurs lignes en même temps. 

#### Exemples :

###### On retourne les lignes 'AMG' et 'XC60'
```python
# Notez bien les deux paires de crochets. Ceci permet à la ligne de code de fonctionner mais aussi de retourner un DataFrame
df.loc[['AMG', 'XC60']] 

# Autre syntaxe - mais ici dans double crochets. Etrangeté de pandas.
# A noter que la syntaxe ":" permet d'afficher toutes les lignes entre les deux bornes (bornes de départ et d'arrêt incluses)
df.loc['AMG':'XC60']
```

###### On retourne une ligne avec des colonnes spécifiques
```python
# On retourne la valeur des clés "marque" et "gamme" pour la colonne ayant le nom "AMG"
df.loc['AMG', ['marque', 'gamme']]
# Il est possible de rajouter la propriété ".values" pour avoir des données plus claires
```

Comme vu précédemment avec numpy, il est également possible sur les dataframes d'appliquer des conditions pour filtrer les données. Exemple :
```python
# On retourne les véhicules dont la clé "vitesse_max" est strictement supérieure à 130 et les colonnes "gamme" et "vitesse_max"
df.loc[df['vitesse_max'] > 130, ['gamme', 'vitesse_max']]
```

Pour retourner **les** series qui nous intéresse, il suffit d'écrire la chose suivante : 
```python
df[['gamme', 'longueur']]
```
On retourne un nouveau dataframe avec toutes les Series de "gamme" **à** "longueur". Remarquez bien l'absence de la propriété ".loc"
```python
# Remarquez la présence de ".loc" et l'absence de crochets entre "'gamme': 'longueur'"
df.loc[:, 'gamme': 'longueur'] 
```

Avec le code précédent on remarque la présence du caractère deux-points ( : ), on l'avait vu durant le TP d'initiation à Python. Avec pandas, on peut également l'utiliser pour filtrer le nombre d'entrées de notre DataFrame. De ce fait, nous pouvons écrire ceci :
```python
df[:1000]
# Le code ci-dessus retourne que les 1000 premières entrées de notre DataFrame.
```

Pour rappel la syntaxe est la suivante `[index de départ:index de fin:pas d'avancement]`. Notez bien qu'en mettant le signe (-) on retournera les N dernières lignes. Par exemple, je souhaite retourner les 42 dernières lignes, je dois écrire `df[-42:]`.

# .loc[] ou pas .loc[]

La propriété `.loc[]` est une propriété permettant d'accéder à des parties d'un DataFrame. Sa signature est la suivante :
```python
.loc[index_ciblées : colonnes_ciblées]
```

Ses paramètres sont relativement variés et donc ses fonctionnalités :
- Retourner un ensemble de series (colonnes) : `df.loc[:,'col1':'colN']`. A noter que si "colN" est absent, toutes les colonnes de "col1" à la dernière seront retournées
- Retourner un ensemble de lignes : `df.loc['val_index1':'val_indexN',]`. A noter que si "ligneN" est absent, toutes les lignes de "col1" à la dernière seront retournées
- Retourner un ensemble de lignes **discontinues** : `df.loc[['val_index1', 'val_index4','val_indexN'],]`. Même syntaxe pour les colonnes.
  - A noter que si vous ne voulez retourner **que** des colonnes (disconinue ou non), il faudra comme le premier exemple mettre `:,` sinon pandas pensera que vous cherchez des index
- Remplacer une valeur pour une series (colonne) correspondant aux index définis : `df.loc[['index1', '...'], ['col1']] = 50`
  
Encore une fois, l'utilisation de propriété `.loc[]` n'est pas obligatoire, toutefois son utilisation est utile, voire indispensable, dans certains cas.

# A vous de coder

Définir des DataFrame correspondants aux critères suivants (une ligne, un nouvel dataframe) :
- Contient tous les véhicules dont la longueur est supérieure à 1 000
- Contient tous les véhicules dont la vitesse max est inférieure ou égale à 160
- Contient tous les véhicules dont le nombre de sièges est strictement supérieur à 5 et dont la longueur est inférieure à 2 000
- Contient uniquement les véhicules de la gamme "compacte" et les Series "marque" et "longueur"
- Contient uniquement les Series "prix" et "motorisation"

Note : La cellule d'en-dessous introduit un DataFrame plus conséquent

Note 2 : Pour afficher les DataFrame de façon plus élégantes, il est préférable d'utiliser la fonction `display()`, elle fonctionne comme la fonction `print()`, mais elle est propre à jupyter.

Note 3 : si vous n'êtes pas sûr d'avoir obtenu un DataFrame, vous pouvez utiliser la fonction `type()` pour afficher le type de vos objets.

# Pour les utilisateurs de Google colab

Petit apparté pour les utilisateurs de google colab. Pour charger un fichier local, il faudra rajouter les lignes de codes suivantes :

```python
from google.colab import files
uploaded = files.upload()

import pandas as pd
import io
# Très important : le nom du fichier passé en paramètre de la fonction "uploaded" doit avoir le même nom que le fichier que vous avez uploadé sinon, 
# vous aurez forcément une erreur
df = pd.read_csv(io.BytesIO(uploaded['nom-du-fichier-uploader.csv']))
```
- **Ces lignes doivent être avant la manipulation d'un DataFrame et de préférence dans une cellule dédiée pour éviter d'uploader votre fichier à chaque fois**
- **Vous ne pouvez pas importer de fichiers en navigation privée**

- [Voir plus d'informations sur le chargement de fichiers externes avec Google colab - anglais](https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92)

In [3]:
import pandas as pd

# Pour avoir un peu plus de données, nous allons charger un fichier csv, le fichier "liste_voitures.csv", 
# ça sera plus simple pour la lisibilité
# Les lignes pour importer ce fichier seront expliquée dans la partie suivante
# Les clés restent
voitures_df = pd.read_csv("liste_voitures.csv", sep=",", encoding="utf-8").set_index('modele')

# Contient la liste de toutes les marques unique de notre DataFrame
liste_marque = voitures_df["marque"].unique()
display(liste_marque)

# Affiche toutes les clés de notre DataFrame
display(voitures_df.columns.values.tolist())
# Contient tous les véhicules dont la longueur est supérieure à 1 000

array(['BMW', 'Volvo', 'Ford', 'Citroen', 'Toyota', 'Ferrari', 'Tesla',
       'Honda', 'Renault', 'Mercedes', 'Porsche', 'Peugeot', 'Dacia',
       'Opel', 'Jeep', 'Kia', 'Fiat', 'Mazda', 'Nissan'], dtype=object)

['marque',
 'gamme',
 'vitesse_max km/h',
 'nbre_sieges',
 'longueur (mm)',
 'motorisation',
 'annee_sortie',
 'prix €']

In [5]:
# Contient tous les véhicules dont la vitesse max est inférieure ou égale à 160

In [6]:
# Contient tous les véhicules dont le nombre de sièges est strictement supérieur à 5 et dont la longueur est inférieure à 2 000

In [49]:
# Contient uniquement les véhicules de la gamme "compacte" et les Series "marque" et "longueur"

Unnamed: 0_level_0,marque
modele,Unnamed: 1_level_1
Ka,Ford
Twingo,Renault
Aygo,Toyota


In [8]:
# Contient uniquement les Series "prix" et "motorisation"

# A vous de coder 
### Pensez bien à afficher les résultat avec la fonction `print()` ou `display()`

Définir des DataFrame correspondant aux critères suivants (une ligne, un nouvel dataframe) :
- Contient tous les véhicules ayant une motorisation "hybride"
- Contient tous les véhicules sortis après 2015
- Contient tous les véhicules avec une nouvelle Serie (colonne) appelée "vitesse_max m/h" et comme valeur la vitesse_max de chaque véhicule en miles/heure
  - Note : 1 km/h = 0.621371 m/h

Définir des variables correspondant aux critères suivants (une ligne, une variable) :
- Contient le nombre de voiture de la gamme "compacte"
- Contient la somme des des longueurs des voitures
- Contient l'année qui apparaît le plus dans le DataFrame

In [9]:
# Contient tous les véhicules ayant un type_moteur "hybride"

In [10]:
# Contient tous les véhicules sortis après 2015

In [74]:
# Contient tous les véhicules avec une nouvelle Serie (colonne) appelée "vitesse_max m/h" et comme valeur la vitesse_max de chaque véhicule en miles/heure

In [None]:
# Contient le nombre de voiture de la gamme "compacte"

In [None]:
# Contient la somme des des longueurs des voitures

In [None]:
# Contient l'année qui apparaît le plus dans le DataFrame

Avec la construction des deux derniers DataFrame, nous avons pu voir qu'il était possible appliquer sur une colonne une opération. Héritant de numpy, il est possible d'utiliser des fonctions déjà présentes dans la bibliothèque pour obtenir certains résultats. Par exemple si nous souhaitons obtenir l'année ayant le plus de sorties de véhicules dans notre DataFrame, autrement dit l'année qui apparaît le plus dans le DataFrame, il suffit de calculer le mode grâce à la fonction `.mode()`

In [73]:
# Le mode en mathématiques désigne la valeur la plus présente dans une distribution, 
# pandas/numpy nous retourne une Serie, c'est pour ça que nous avons adjoint "[0]" pour retourner la valeur qui nous intéresse
annee_avec_plus_sorties = voitures_df["annee_sortie"].mode()
display(annee_avec_plus_sorties[0])

pandas.core.series.Series

Avec les DataFrame que nous avons construits, nous avons fait le choix de sélectionner les données que nous voulions, mais il est tout à fait possible de faire l'inverse : supprimer les données dont nous n'avons pas besoin. 

Par exemple, sélectionner tous les véhicules dont la longueur est supérieure ou égale à 2 500 (mm), ça revient à supprimer tous les véhicules dont la longueur est strictement inférieure à 2 500 (mm). Et pour supprimer des lignes qui ne répondent pas aux des critières définis il faut utiliser la fonction `.drop()`.   

```python
df.drop(df[<nos conditions>].index)

# Exemple avec le cas de la longueur des véhicules
# Le code suivant va retourner un DataFrame avec tous les véhicules dont la longueur est strictement inférieure à 2500 (mm).
# Si nous souhaitions muter le DataFrame voiture_df, il aurait fallu rajouter le paramètre "inplace=True".
longueur_max = 2500
voitures_df.drop(voitures_df[voitures_df['longueur (mm)'] < longueur_max].index)
```

# Groupons-les
Parfois, nous aurons besoin de répondre à des questions comme :
- Quel est le total d'éléments pour **chaque** catégorie ?
- Quel est la moyenne pour **chaque** catégorie ?
  
Le mot-clé ici est "chaque", car jusqu'à présent, nous avons effectué des calculs sur l'ensemble d'une série, mais est-ce tout le temps pertinent ? Pas vraiment. Reprenons notre DataFrame de voitures, est-ce réellement utile d'avoir la vitesse moyenne de tous les véhicules ? Ne serait-il pas plus pertinent d'avoir la vitesse moyenne par gamme (clé "gamme") ? Oui.

C'est ici qu'entre en jeu la méthode groupby, son fonctionnement est relativement simple, on lui passe en paramètre la ou les colonnes que l'on souhaite grouper, et pandas, tout seul, va grouper les éléments en fonction des valeurs des colonnes passées en paramètre. A partir de là, nous pouvons appliquer une opération mathématique dessus :
- `sum()` : Somme des valeurs par groupe
- `median()` : Médiane des valeurs par groupe
- `std()` : écart-type des valeurs par groupe
- `min()` : valeur minimale des valeurs par groupe
- `count()` : nombre de valeurs valeurs par groupe
- ...

- [Voir documentation de la méthode groupby - anglais](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

Donc ceci donne quelque chose comme ceci :
```python
# reset_index() est rajouté pour que le DataFrame final n'ait plus d'index ceci est utile dans certains cas
# sum() sera donc à remplacer en fonction de l'opération voulue
# Le code suivant regroupe les lignes selon les colonnes "col1" et "colN"
df.groupby(['col1', 'colN']).sum().reset_index()
```
Bien évidemment, effectuez ces calculs sur des Series numériques et non textuelles.

# A vous de coder

Définir des DataFrame correspondants aux critères suivants (une ligne, un nouveau DataFrame) :
- Contient la vitesse moyenne (en km/h) des véhicules par gamme
- Contient la vitesse maximale (en km/h) des véhicules par gamme
- Contient la vitesse maximale (en km/h) des véhicules par marque
- Contient la vitesse médiane (en km/h) des véhicules par motorisation
- Contient le prix moyen des véhicules par année de sortie
- Contient l'écart-type entre les véhicules d'une marque de votre choix
  - Pensez à créer un DataFrame intermédiaire si besoin
  - N'oubliez pas que toutes les marques ont été listées plus haut

In [None]:
# Codez ici

Pour terminer sur la méthode `groupby()`, il existe également la méthode `.agg()` ou `aggregate()` (l'un est l'alias de l'autre) qui permet d'appliquer plusieurs fonctions mathématiques en même temps. 
```python
# Là notre code va retourner un DataFrame contenant la valeur maximale et mininale pour la vitesse et le prix moyen et médian par marque
voitures_df.groupby(['marque']).agg({'vitesse_max km/h' : ['max', 'min'], 'prix €' : ['mean', "median"]})
``` 
Si le nom des champs ne vous plaisent pas, vous pouvez les renommer comme ceci :
```python
# Ici on renomme les champs "max" et "mean"
voitures_df.groupby(['marque'])
  .agg({'vitesse_max km/h' : ['max', 'min'], 'prix €' : ['mean', "median"]})
  .rename(columns={'max':'vitesse max', "mean": "vitesse moyenne"})
```

Il est également possible d'utiliser les méthodes `.agg()` et `aggregate()` **sur l'ensemble du DataFrame** comme suit :
```python
# Là notre code va retourner un DataFrame contenant la valeur maximale et mininale pour la vitesse et le prix moyen et médian sans catégorisation.
voitures_df.agg({'vitesse_max km/h' : ['max', 'min'], 'prix €' : ['mean', "median"]})
``` 

- [Voir plus d'exemples sur les manipulations des groupes - anglais (utilisez la navigation privée si vous ne pouvez pas charger la page entièrement)](https://towardsdatascience.com/all-pandas-groupby-you-should-know-for-grouping-data-and-performing-operations-2a8ec1327b5)

# Petite astuce

Avant de terminer, voici un fragment de code qui pourra nous être utile. Quand nous manipulons des dates (ici des années), il peut être intéressant d'avoir la décennie, donc la tranche de 10 ans à laquelle l'année appartient notre ligne. Pour ce faire, c'est relativement simple, nous allons tout simplement :
- Diviser par 10 l'année
- Récupérer la troncature du résultat précédent
- Multiplier le résultat précédent par 10

En Python, les deux premières opérations peuvent être effectuées en une seule grâce à l'opérateur `//`. Cet opérateur divise et ne retourne que la troncature du quotient et après on multiplie le tout par 10.

Ajoutons une nouvelle colonne "decennie_sortie" à notre DataFrame.

In [1]:
voitures_df["decade_sortie"] = voitures_df["annee_sortie"] // 10 * 10

# On affiche la colonne "marque" et la nouvelle colonne "decade_sortie"
# Par exemple 2014 deviendra 2010 dans la colonne "decade_sortie"
display(voitures_df[["marque", "decade_sortie"]])

NameError: name 'voitures_df' is not defined

Ce code pourrait nous être très utile plus tard.

Ceci met fin à la première partie du tp concernant pandas. Si nous avons bien effectué différentes opérations des DataFrame, ceux que nous avons utilisés sont relativement petits. Rappelons que nous faisons du Big Data et en Big Data, on travaille avec de très, très gros volumes de données. Bien évidemment nous n'allons pas écrire de gros DataFrame, nous allons utiliser des jeux de données existants. Et à l'heure de l'Open Data, des jeux de données il y en a pléthore.