# pandas - partie 1

![logo pandas](https://pandas.pydata.org/docs/_static/pandas.svg)

Le big data, c'est beaucoup, beaucoup de données. On a vu précédemment que numpy était très bien adapté pour la gestion de gros volumes de données, mais il y a un hic : numpy ne sait pas gérer des nombres, en Big Data, nous utilisons des chiffres et des lettres. 
C'est ici qu'entre en jeu pandas, la biblothèque (native à jupyter) est un parent proche de numpy, ainsi tout ce qu'on a vu sur numpy (notamment les filtres) s'appliquera avec pandas, et ce, avec la même syntaxe.

Avec pandas, on va manipuler des DataFrame, c'est l'objet qui se trouve au coeur de la bibliothèque. Le Dataframe est un tableau où les colonnes sont labellisées, graphiquement ça ressemble à ceci.

![dataframe](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/dataframe-intro.jpg)

Ceci est un dataframe "graphique", ça ressemble beaucoup aux données d'un tableur. Le Dataframe est l'objet principal de pandas, nous allons en manipuler beaucoup mais surtout de très gros jeux de données.

Par ailleurs chaque colonne représentent un objet pandas appelé Series. Dans l'image ci-dessus, il y a donc trois Series.

pandas est déjà présent dans jupyter, il faut juste l'importer `import pandas as pd`.

[Voir documentation de pandas](https://pandas.pydata.org)

In [2]:
import pandas as pd

dictionnaire = {
    'marque': ["BMW", "Volvo", "Ford", "Citroen"],
    'gamme': ["luxe", "haut de gamme", "compacte", "citadine"],
    'vitesse_max': [210, 160, 120, 130],
    'nbre_sieges': [5, 7, 4, 5],
    'longueur': [3000, 2750, 2000, 2500]
}

mon_df = pd.DataFrame(dictionnaire)

# Pour retourner la première valeur d'un DataFrame, autrement dit la première ligne du tableau, il faut écrire la chose suivante :
print(mon_df.iloc[0]) # iloc signifie index location.

marque          BMW
gamme          luxe
vitesse_max     210
nbre_sieges       5
longueur       3000
Name: 0, dtype: object


In [64]:
# On peut définir nos indexes à la création de notre dataframe grâce à la propriété "index"
mon_df = pd.DataFrame(dictionnaire, index=["AMG", "XC60", "Ka", "Cactus"])
# Ici on a défini que la première ligne à l'index "AMG", la seconde "XC60"...

# Une fois fait, on peut écrire ceci
mon_df.loc['AMG'] # On affichera le même résultat qu'en haut.

marque          BMW
gamme          luxe
vitesse_max     210
nbre_sieges       5
longueur       3000
Name: AMG, dtype: object

Dans notre dataframe, il est également possible de libelliser nos lignes en définissant un index pour chacune d'elle. Il y a deux façons de procéder.

In [11]:
mon_df_ex2 = pd.DataFrame(dictionnaire)

# L'autre méthode consiste à rajouter une nouvelle colonne (Serie) avec les valeurs que nous souhaitons
mon_df_ex2['modele'] = ["AMG", "XC60", "Ka", "Cactus"]

# puis de transformer cette nouvelle colonne en index
# ATTENTION "set_index" retourne un nouveau dataframe par défaut, mon_df_ex2 n'a pas l'index "modele"
mon_df_indexe = mon_df_ex2.set_index('modele') 

mon_df_indexe.loc['AMG'] # On affichera encore le même résultat

Unnamed: 0_level_0,marque,gamme,vitesse_max,nbre_sieges,longueur
modele,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AMG,BMW,luxe,210,5,3000
XC60,Volvo,haut de gamme,160,7,2750
Ka,Ford,compacte,120,4,2000
Cactus,Citroen,citadine,130,5,2500


Unnamed: 0_level_0,marque,gamme,vitesse_max,nbre_sieges,longueur
modele,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ka,Ford,compacte,120,4,2000
Cactus,Citroen,citadine,130,5,2500


La gestion des index aura son importance pour la gestion des graphiques. Il est possible d'annuler l'index avec la méthode `set_index()`. Avant de passer aux filtres voilà à quoi ressemble notre dataframe graphiquement.

![dataframe](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/travaux-pratiques/numero-5/ressources/_images/dataframe.jpg)


Les index n'ont pas à être uniques, plusieurs index peuvent avoir la même valeur. Toutefois pour des questions de performances, il est préférable qu'ils le soient ainsi pandas sera plus rapide pour trouver les résultats à vos recherches.

# Filtres

La puissance des filtres de numpy est également utilisable avec les dataframes (et les Series), les filtres sont très utiles pour nettoyer les données ou sélectionner les données qui nous intéresse. On a vu plus haut qu'on pouvait utiliser la clé d'un index avec la propriété ".loc". Il faut savoir qu'il est possible de récupérer plusieurs lignes en même temps. 

#### Exemples :

###### On retourne les lignes 'AMG' et 'XC60'
```python
df.loc[['AMG', 'XC60']] # Notez bien les deux paires de crochets

# Autre syntaxe
df.loc['AMG':'XC60']
```

###### On retourne une ligne avec des colonnes spécifiques
```python
# On retourne la valeur des clés "marque" et "gamme" pour la colonne ayant le nom "AMG"
df.loc['AMG', ['marque', 'gamme']]
# Il est possible de rajouter la propriété ".values" pour avoir des données plus claires
```

Comme vu précédemment avec numpy, il est également possible sur les dataframes d'appliquer des conditions pour filtrer les données. Exemple :
```python
# On retourne les véhicules dont la clé vitesse max est supérieure à 130 et dont les séries sont "gamme" et "vitesse" avec comme index "modele"
df.loc[df['vitesse_max'] > 130, ['gamme', 'vitesse_max']]
```

Pour retourner les series qui nous intéresse, il suffit d'écrire la chose suivante : 
```python
df[['gamme', 'longueur']]
```
On retourne un nouveau dataframe avec toutes les Series de "gamme" **à** "longueur". Remarquez bien l'absence de la propriété ".loc" ou encore
```python
df.loc[:, 'gamme': 'longueur'] # remarquez la présence de ".loc"
```

Avec le code précédent on remarque la présence du caractère deux-points ( : ), on l'avait vu durant le TP d'initiation à Python. Avec pandas, on peut également l'utiliser pour filtrer le nombre d'entrées de notre DataFrame. De ce fait, nous pouvons écrire ceci :
```python
df[:1000]
# Le code ci-dessus retourne que les 1000 premières entrées de notre DataFrame.
```

Pour rappel la syntaxe est la suivante `[index de départ:index de fin:pas d'avancement]`. Notez bien qu'en mettant le signe (-) on retournera les N dernières lignes. Par exemple, je souhaite retourner les 42 dernières lignes, je dois écrire `df[-42:]`.

# A vous de coder

Définir des dataframes correspondants aux critères suivants (une ligne, un nouvel dataframe) :
- Contient tous les véhicules dont la longueur est supérieure à 1 000
- Contient tous les véhicules dont la vitesse max est inférieure ou égale à 160
- Contient tous les véhicules dont le nombre de sièges est strictement supérieur à 5 et dont la longueur est inférieure à 2 000
- Contient uniquement les véhicules de la gamme "compacte" et les Series "marque" et "longueur"
- Contient uniquement les Series "prix" et "type_moteur"

Note : La cellule d'en-dessous est là pour vous aider, toutes les valeurs sont présentent au bon endroit.

Note 2 : Pour afficher les dataframes de façon plus élégantes, il est préférable d'utiliser la fonction `display()`, elle fonctionne comme la fonction `print()`, mais elle est propre à jupyter.

In [5]:
import pandas as pd

voitures_dict = {
    'modele': ["AMG", "XC60", "Ka", "Cactus", "Twingo", "Aygo"],
    'marque': ["BMW", "Volvo", "Ford", "Citroen", "Renault", "Toyota"],
    'gamme': ["luxe", "haut de gamme", "compacte", "citadine", "compacte", "compacte"],
    'vitesse_max km/h': [210, 160, 120, 130, 140, 130],
    'nbre_sieges': [5, 7, 4, 5, 4, 4],
    'longueur (mm)': [3000, 2750, 2000, 2500, 1980, 2100],
    'annee_sortie': [2018, 2019, 2021, 2011, 2017, 2018],
    'type_moteur' : ["essence", "hybride", "essence", "diesel", "diesel", "hybride"],
    'prix €' : [65000, 56750, 12500, 32000, 15400, 11200]
}

voitures_df = pd.DataFrame(voitures_dict).set_index('modele')

# Contient tous les véhicules dont la longueur est supérieure à 1 000

In [4]:
# Contient tous les véhicules dont la vitesse max est inférieure ou égale à 160

In [5]:
# Contient tous les véhicules dont le nombre de sièges est strictement supérieur à 5 et dont la longueur est inférieure à 2 000

In [6]:
# Contient uniquement les véhicules de la gamme "compacte" et les Series "marque" et "longueur"

In [7]:
# Contient uniquement les Series "prix" et "type_moteur"

# A vous de coder

Définir des dataframes correspondant aux critères suivants (une ligne, un nouvel dataframe) :
- Contient tous les véhicules ayant un type_moteur "hybride"
- Contient tous les véhicules sortis après 2015
- Contient tous les véhicules hybrides et dont le prix est inférieur à 25000
- Contient tous les véhicules avec une nouvelle Serie (colonne) appelée "permis" et comme valeur "B"
- Contient tous les véhicules avec une nouvelle Serie (colonne) appelée "vitesse_max m/h" et comme valeur la vitesse_max de chaque véhicule en miles/heure

Note : Pour le dernier exercice 1 km/h = 0.621371 m/h

In [6]:
# Contient tous les véhicules ayant un type_moteur "hybride"

In [None]:
# Contient tous les véhicules sortis après 2015

In [None]:
# Contient tous les véhicules hybrides et dont le prix est inférieur à 25000

In [None]:
# Contient tous les véhicules avec une nouvelle Serie (colonne) appelée "permis" et comme valeur "B"

In [None]:
# Contient tous les véhicules avec une nouvelle Serie (colonne) appelée "vitesse_max m/h" et comme valeur la vitesse_max de chaque véhicule en miles/heure

Avec la construction des deux derniers DataFrame, nous avons pu voir qu'il était possible appliquer sur une colonne une opération. Héritant de numpy, il est possible d'utiliser des fonctions déjà présentes dans la bibliothèque pour obtenir certains résultats. Par exemple si nous souhaitons obtenir l'année ayant le plus de sorties de véhicules dans notre DataFrame, il suffit de calculer le mode grâce à la fonction `.mode()`

In [35]:
# Le mode en mathématiques désigne la valeur la plus présente dans une distribution, 
# pandas/numpy nous retourne un tuple (une collection/un objet), c'est pour ça que nous avons adjoint un ""
annee_avec_plus_sorties = voitures_df["annee_sortie"].mode()[0]
annee_avec_plus_sorties

2018

Avec les DataFrames que nous avons construits, nous avons fait le choix de sélectionner les données que nous voulions, mais il est tout à fait possible de faire l'inverse : supprimer les données dont nous n'avons pas besoin. 

Par exemple, sélectionner tous les véhicules dont la longueur est supérieure ou égale à 2 500 (mm), ça revient à supprimer tous les véhicules dont la longueur est strictement inférieure à 2 500 (mm). Et pour supprimer des lignes qui ne répondent pas aux des critières définis il faut utiliser la fonction `.drop()`.   

```python
df.drop(df[<nos conditions>].index)

# Exemple avec le cas la longueur des véhicules
longueur_max = 2500
voitures_df.drop(voitures_df[voitures_df['longueur (mm)'] < longueur_max].index)
```

Ceci met fin à la première partie du travaux pratiques concernant pandas. Si nous avons bien effectué différentes opérations des dataframes, ceux que nous avons utilisés sont relativement petits. Rappelons que nous faisons du Big Data et en Big Data, on travaille avec de très, très gros volumes de données. Bien évidemment nous n'allons pas écrire de gros DataFrame, nous allons utiliser des jeux de données existants.