# Présentation de Pandas

Dans ce notebook, nous allons voir comment construire les types de base Pandas à commencer par les `Series`.

Nous devons dans un premier temps importer Pandas.

In [32]:
import pandas as pd

Nous allons créer un objet de type `Series` à partir d'une liste.

In [33]:
grades = pd.Series([20, 8, 2, 17, 15, 9, 16, 14, 13])
grades

0    20
1     8
2     2
3    17
4    15
5     9
6    16
7    14
8    13
dtype: int64

Ce type d'objet a deux composants : les valeurs et les identifiants (les indices).

In [34]:
grades.values

array([20,  8,  2, 17, 15,  9, 16, 14, 13])

In [35]:
grades.index

RangeIndex(start=0, stop=9, step=1)

Les indices (identifiants) peuvent être définis par un nom arbitraire.

In [36]:
students_math = ['Agnan', 'Alceste', 'Clotaire', 'Eudes', 'Geoffroy', 'Joachim', 'Maixent', 'Nicolas', 'Rufus']
grades_math = pd.Series([20, 8, 2, 17, 15, 9, 16, 14, 13], index=students_math)

In [37]:
grades_math

Agnan       20
Alceste      8
Clotaire     2
Eudes       17
Geoffroy    15
Joachim      9
Maixent     16
Nicolas     14
Rufus       13
dtype: int64

On peut donc accétrer à un élément par son label ou son indice.

In [38]:
print(grades_math['Eudes'])
print(grades_math[3])

17
17


  print(grades_math[3])


Attention cependant, accéder par l'opérateur d'indice ([]) peut avoir des limites comme utiliser des entiers comme clef. Il est impossible de différencier le label de l'indice.

C'est là où les méthodes .loc et .iloc sont utilies. Le premier recherche les labels, le second les indices.

Ces méthodes sont comparables aux expressions standard Python mais elles sont plus optimisées.

In [39]:
grades_math.iloc[3]

17

In [40]:
grades_math.loc['Eudes']

17

Le slicing exise aussi avec `.loc` et `.iloc`. Attention, avec `.loc`, l'ensemble est fermé.

In [41]:
print(grades_math.loc['Clotaire' : 'Maixent'])
print()
print(grades_math.iloc[2 : 6])

Clotaire     2
Eudes       17
Geoffroy    15
Joachim      9
Maixent     16
dtype: int64

Clotaire     2
Eudes       17
Geoffroy    15
Joachim      9
dtype: int64


## Création d'un DataFrame

Un `DataFrame` est l'autre type de base de Pandas. Il s'agit d'une donnée structurée. Elle possède des **colonnes**, des **indices** et des **données**.

Nous pouvons composer un DataFrame à partir de plusieurs Series. Chaque Series sera une colonne. Pandas utilisera les indices pour aligner les Series. Nous allons donc ajouter les notes d'anglais.

In [42]:
students_english = ['Agnan', 'Alceste', 'Clotaire', 'Eudes', 'Geoffroy', 'Joachim', 'Maixent', 'Nicolas']
grades_english = pd.Series([20, 14, 1, 15, 8, 12, 9, 12], index=students_english)

L'exemple suivant montre la construction d'un DataFrame à partir d'un dictionnaire. Les clefs en deviennent les colonnes.

In [43]:
grades = pd.DataFrame({"math": grades_math, "english": grades_english})
grades

Unnamed: 0,math,english
Agnan,20,20.0
Alceste,8,14.0
Clotaire,2,1.0
Eudes,17,15.0
Geoffroy,15,8.0
Joachim,9,12.0
Maixent,16,9.0
Nicolas,14,12.0
Rufus,13,


Nous pouvons accéder aux valeurs qui sont un ndarray

Comme nous l'avons vu précédemment, nous pouvons aussi utiliser `.loc` et `.iloc` pour accéder aux données d'un DataFrame

In [44]:
grades.loc["Nicolas"]

math       14.0
english    12.0
Name: Nicolas, dtype: float64

In [45]:
grades.loc["Alceste":"Nicolas"]

Unnamed: 0,math,english
Alceste,8,14.0
Clotaire,2,1.0
Eudes,17,15.0
Geoffroy,15,8.0
Joachim,9,12.0
Maixent,16,9.0
Nicolas,14,12.0


`.loc` et `.iloc` peuvent prendre un second paramètre qui est la colonne ce qui permet de sélectionner une donnée

In [46]:
grades.loc["Alceste":"Nicolas", "english"]

Alceste     14.0
Clotaire     1.0
Eudes       15.0
Geoffroy     8.0
Joachim     12.0
Maixent      9.0
Nicolas     12.0
Name: english, dtype: float64

## Gérer les NaN

In [None]:
grades

Nous pouvons gérer les valeurs manquantes. Voici ci-dessous comment supprimer les lignes ayant une valeur absente ou comment la remplacer par une valeur par défaut. Note : le paramètre `inplace=True` permet de modifier la valeur d'origine.

In [None]:
grades.dropna()

In [None]:
grades.fillna(value=0)
grades

Ci dessous, nous allons rajouter une matière qui a également une valeur absente.

In [None]:
students_physics = ['Agnan', 'Alceste', 'Eudes', 'Geoffroy', 'Joachim', 'Maixent', 'Nicolas', 'Rufus']
grades_physics = pd.Series([20, 12, 12, 18, 13, 6, 14, 10], index=students_physics)

grades = pd.DataFrame({"math": grades_math, "english": grades_english, "physics": grades_physics})
grades

Nous pouvons spécifier par colonne les valeurs de remplacement.

In [None]:
grades.fillna(value={"physics":0, "english":10})

Une méthode comme `.mean()` a un paramètre `skipna=True` et l'axe par défaut est `0` soit les colonnes.

In [None]:
grades.mean() 

## Filtrer les données
Pandas, comme NumPy, permet de filtrer les données. Les opérateurs de comparaison retournent des Series ou DataFrames de booléens.

In [None]:
grades.fillna(value=0).mean(1) >= 10

Nous pouvons définir cette structure comme filtre et l'utilser pour filtrer les données de notre DataFrame en produisant un nouveau DataFrame

In [None]:
filtre = grades.fillna(value=0).mean(1) >= 10
grades[filtre]

## Faire des reqêtes

Nous pouvons faire des requêtes dans le DataSet pour ne sélectionner que des éléments d'intérêt

In [None]:
grades[grades["english"] > 10]

In [None]:
grades[grades["english"].notnull()]

Nous pouvons combiner plusieurs critères séparés avec les opérateurs `|` et `&`. Attention, il est indispensable d'ajouter les parenthèqes pour la priorité.

In [None]:
grades[(grades["english"] > 10) & (grades["math"] > 10)]

## Grouper et aggréger des données

Les Series étant construites sur les array NumPy, elles disposent des même possibilités de calcul.

In [None]:
grades_english + 2

Les colonnes mais également les lignes sont des séries ce qui permet d'extraire une ligne et de faire le calcul dessus.

In [None]:
grades.loc['Nicolas'].mean()

In [None]:
grades.fillna(value=0).mean(1) 