# pandas

![](https://pandas.pydata.org/docs/_static/pandas.svg)

Le big data, c'est beaucoup, beaucoup de données. On a vu précédemment que numpy était très bien adapté pour la gestion de gros volume de données, mais il y a un hic : numpy ne sait pas gérer les données non-labellisées, en Big Data, nous devons utiliser des données labellisées. 
C'est ici qu'entre en jeu pandas, la biblothèque (native à jupyter) est un parent proche de numpy, ainsi tout ce qu'on a vu sur numpy (notamment les filtres) s'appliquera avec pandas, et ce, avec la même syntaxe.

Avec pandas, on va manipuler des DataFrame, c'est l'objet qui se trouve au coeur de la bibliothèque. Le Dataframe est un tableau où les colonnes sont labellisées, graphiquement ça ressemble à ceci.
![](_images/dataframe-intro.jpg)
Ceci est un dataframe "graphique", ça ressemble beaucoup aux données d'un tableur.

Par ailleurs chaque colonne représentent un objet pandas appelé Series. Dans l'image ci-dessus, il y a donc trois Series.

pandas est déjà présent dans jupyter, il faut juste l'importer `import pandas as pd`.

[Voir documentation de pandas](https://pandas.pydata.org)

In [63]:
import pandas as pd

dictionnaire = {
    'marque': ["BMW", "Volvo", "Ford", "Citroen"],
    'gamme': ["luxe", "haut de gamme", "compacte", "citadine"],
    'vitesse_max': [210, 160, 120, 130],
    'nbre_sieges': [5, 7, 4, 5],
    'longueur': [3000, 2750, 2000, 2500]
}

mon_df = pd.DataFrame(dictionnaire)

# Pour retourner la première valeur d'un DataFrame, autrement dit la première ligne du tableau, il faut écrire la chose suivante :
print(mon_df.iloc[0]) # iloc signifie index location.

marque          BMW
gamme          luxe
vitesse_max     210
nbre_sieges       5
longueur       3000
Name: 0, dtype: object


Dans notre dataframe, il est également possible de libelliser nos lignes en définissant un index pour chacune d'elle. Il y a deux façons de procéder.

In [64]:
# On peut définir nos indexes à la création de notre dataframe grâce à la propriété "index"
mon_df = pd.DataFrame(dictionnaire, index=["AMG", "XC60", "Ka", "Cactus"])
# Ici on a défini que la première ligne à l'index "AMG", la seconde "XC60"...

# Une fois fait, on peut écrire ceci
mon_df.loc['AMG'] # On affichera le même résultat qu'en haut.

marque          BMW
gamme          luxe
vitesse_max     210
nbre_sieges       5
longueur       3000
Name: AMG, dtype: object

In [65]:
mon_df_ex2 = pd.DataFrame(dictionnaire)

# L'autre méthode consiste à rajouter une nouvelle colonne (Serie) avec les valeurs que nous souhaitons
mon_df_ex2['modele'] = ["AMG", "XC60", "Ka", "Cactus"]

# et de transformer cette nouvelle colonne en index
# ATTENTION "set_index" retourne un nouveau dataframe, mon_dataframe_ex2 n'a pas l'index "modele"
mon_df_indexe = mon_df_ex2.set_index('modele') 

mon_df_indexe.loc['AMG'] # On affichera le même résultat qu'en haut.

marque          BMW
gamme          luxe
vitesse_max     210
nbre_sieges       5
longueur       3000
Name: AMG, dtype: object

La gestion des index aura son importance pour la gestion des graphiques. Il est possible d'annuler l'index avec la méthode `set_index()`. Avant de passer aux filtres voilà à quoi ressemble notre dataframe graphiquement.

![](_images/dataframe.jpg)

# Filtres

La puissance des filtres de numpy est également utilisable avec les dataframes (et les Series), les filtres sont très utiles pour nettoyer les données ou sélectionner les données qui nous intéresse. On a vu plus haut qu'on pouvait utiliser la clé d'un index avec la propriété ".loc". Il faut savoir qu'il est possible de récupérer plusieurs lignes en même temps. 

#### Exemples :

###### On retourne les lignes 'AMG' et 'XC60'
```python
df.loc[['AMG', 'XC60']] # Notez bien les deux paires de crochets

# Autre syntaxe
df.loc['AMG':'XC60']
```

###### On retourne une ligne avec des colonnes spécifiques
```python
# On retourne la valeur des clés "marque" et "gamme" pour la colonne ayant le nom "AMG"
df.loc['AMG', ['marque', 'gamme']]
# Il est possible de rajouter la propriété ".values" pour avoir des données plus claires
```

Comme vu précédemment avec numpy, il est également possible sur les dataframes d'appliquer des conditions pour filtrer les données. Exemple :
```python
# On retourne les véhicules dont la clé vitesse max est supérieure à 130 et dont les séries sont "gamme" et "vitesse" avec comme index "modele"
df.loc[df['vitesse_max'] > 130, ['gamme', 'vitesse_max']]
```

# A vous de coder

Définir des dataframes correspondant aux critères suivants (une ligne, un dataframe) :
- Contient tous les véhicules dont la longueur est supérieure à 1000
- Contient tous les véhicules dont la vitesse max est inférieure ou égale à 160
- Contient tous les véhicules dont le nombre de sièges est strictement supérieur à 5 et dont la longueur est inférieure à 2 000
- Contient uniquement les Series "marque" et "longueur" et tous les véhicules de la gamme "compacte"
- Contient tous les véhicules avec une nouvelle Serie (colonne) appelée "permis" et comme valeur "B"

Note : La cellule d'en-dessous est là pour vous aider, toutes les valeurs sont présentent au bon endroit.

In [78]:
exo_dict = {
    "modele": ["AMG", "XC60", "Ka", "Cactus"],
    'marque': ["BMW", "Volvo", "Ford", "Citroen"],
    'gamme': ["luxe", "haut de gamme", "compacte", "citadine"],
    'vitesse_max': [210, 160, 120, 130],
    'nbre_sieges': [5, 7, 4, 5],
    'longueur': [3000, 2750, 2000, 2500]
}

exo_df = pd.DataFrame(exo_dict)