# Introduction à Pandas 

Pandas est une librairie développée par Wes McKinney en 2008. 

Pandas étend les fonctions de NumPy et rend la manipulation de données plus aisée. 

Dans cette partie vous apprendrez : 

- Les objets de Pandas (Series et DataFrame)
- Comment appliquer des fonctions sur un DataFrame
- Comment gérer des données manquantes

In [1]:
import pandas as pd
import numpy as np

## Pandas Data Structures 

Pandas repose sur deux data structures clés : les Séries et les DataFrame

### Series

Les ***Series*** sont des tableaux **indexés**, à **une dimension**, d'éléments de plusieurs types :

In [2]:
ser = pd.Series([1,-2,3,"a"])

type(ser)

pandas.core.series.Series

Les Series disposent par défaut d'un index :

In [4]:
# Ressortir les index d'une série

print(ser.index)

RangeIndex(start=0, stop=4, step=1)


In [5]:
# Ressortir les valeurs d'une série

print(ser.values)

[1 -2 3 'a']


Pandas étant construit à partir de NumPy, les Series conservent les propriétés du ndarray de NumPy :

In [6]:
# Conservation des opérations 

print(ser * 2)

0     2
1    -4
2     6
3    aa
dtype: object


Il est possible de créer une Série à partir d'un dictionnaire Python via la méthode ```Series()``` : 

In [8]:
villes = {"Lyon":44,"Marseille":80,"Paris":212,"Toulouse":39} 

ser_villes = pd.Series(villes)

ser_villes

Lyon          44
Marseille     80
Paris        212
Toulouse      39
dtype: int64

Il est possible de modifier les index d'une série en utilisant la méthode ```.index``` puis une assignation :

In [9]:
ser_villes.index = ['69','13','75','31']

ser_villes

69     44
13     80
75    212
31     39
dtype: int64

In [10]:
# La modification d'index peut être utile 

zip = ['69','13','75','31']

ser_villes.index = zip

print(ser_villes)

69     44
13     80
75    212
31     39
dtype: int64


### DataFrames

Les **DataFrame** sont des structures données qui contiennent plusieurs colonnes. 

Comme les Series, celles-ci peuvent contenir plusieurs types de données. 

On peut créer un DataFrame à partir d'un dictionnaire de liste : 

In [11]:
villes = {'nom':["Paris","Marseille","Lyon","Toulouse"],
          'population':[212,80,44,39],
          'zip':["75","13","69","31"]}

villes

{'nom': ['Paris', 'Marseille', 'Lyon', 'Toulouse'],
 'population': [212, 80, 44, 39],
 'zip': ['75', '13', '69', '31']}

In [12]:
villes_df = pd.DataFrame(villes) 

villes_df

Unnamed: 0,nom,population,zip
0,Paris,212,75
1,Marseille,80,13
2,Lyon,44,69
3,Toulouse,39,31


A la création, on peut spécifier l'ordre des colonnes ainsi que les index à utiliser : 

In [13]:
villes_df = pd.DataFrame(villes, columns=['nom','population'],
                      index = [1,2,3,4])

villes_df

Unnamed: 0,nom,population
1,Paris,212
2,Marseille,80
3,Lyon,44
4,Toulouse,39


Basé sur NumPy, on conserve donc les propriétés de sélection : 

In [14]:
# On sélectionne une colonne de deux manières : 

print(villes_df['nom'])
print(villes_df.nom)

1        Paris
2    Marseille
3         Lyon
4     Toulouse
Name: nom, dtype: object
1        Paris
2    Marseille
3         Lyon
4     Toulouse
Name: nom, dtype: object


In [17]:
# On sélectionne une ligne en utilisant la méthode iloc[index] :

print(villes_df.iloc[3])

nom           Toulouse
population          39
Name: 4, dtype: object


L'assignation fonctionne sous la même logique que sous NumPy (vous commencez à comprendre !) :

In [18]:
villes_df['dette'] = np.arange(1,5)*1000

villes_df 

Unnamed: 0,nom,population,dette
1,Paris,212,1000
2,Marseille,80,2000
3,Lyon,44,3000
4,Toulouse,39,4000


## Fonctions de base 

Pandas offre un set de fonctions basiques qui facilitent grandement le traitement de données. En voici quelques unes : 

### Reindexing

Le **Reindexing** permet de modifier un dataframe conformément à un nouvel index : 

In [19]:
villes_df

Unnamed: 0,nom,population,dette
1,Paris,212,1000
2,Marseille,80,2000
3,Lyon,44,3000
4,Toulouse,39,4000


In [20]:
# On crée ici un nouveau DataFrame villes_df2 basé sur villes_df, mais sur un index différent

villes_df2 = villes_df.reindex([1,3,5])
villes_df2

Unnamed: 0,nom,population,dette
1,Paris,212.0,1000.0
3,Lyon,44.0,3000.0
5,,,


Un index n'existe pas dans notre nouvel objet (il s'agit de l'index #5). Pandas crée des valeurs NaN (Not a Number) pour ces valeurs.

Nous pouvons remplacer ces valeurs, par des valeurs nulles par exemple, en utilisant la méthode ***fill_value***

In [21]:
# Remplaçons les valeurs NaN par des 0

villes_df2.fillna(0) 

Unnamed: 0,nom,population,dette
1,Paris,212.0,1000.0
3,Lyon,44.0,3000.0
5,0,0.0,0.0


In [22]:
# Ou dès la création du Dataframe villes_df2 par 

villes_df2 = villes_df.reindex([1,3,5], fill_value=0)

villes_df2  

Unnamed: 0,nom,population,dette
1,Paris,212,1000
3,Lyon,44,3000
5,0,0,0


### Supprimer des éléments

La méthode **drop** permet de supprimer des éléments à partir des index (axis = 0) ou à partir des colonnes (axis = 1)

In [25]:
villes_df

Unnamed: 0,nom,population,dette
1,Paris,212,1000
2,Marseille,80,2000
3,Lyon,44,3000
4,Toulouse,39,4000


In [26]:
# Les index correspondent aux lignes d'un DataFrame (axis = 0)

print(villes_df.index)

Int64Index([1, 2, 3, 4], dtype='int64')


In [27]:
# Les columns correspondent aux colonnes d'un DataFrame (axis = 1)

print(villes_df.columns)

Index(['nom', 'population', 'dette'], dtype='object')


In [28]:
# Supprimer la ligne correspondant à l'index 2 (ici Marseille)

villes_df.drop(2, axis=0)

Unnamed: 0,nom,population,dette
1,Paris,212,1000
3,Lyon,44,3000
4,Toulouse,39,4000


In [29]:
# Supprimer la colonne correspondant à la colonne 'population' 

villes_df.drop('population',axis=1)

Unnamed: 0,nom,dette
1,Paris,1000
2,Marseille,2000
3,Lyon,3000
4,Toulouse,4000


### Sélectionner et filtrer 

La sélection fonctionne comme pour les ndarray sous NumPy : 

In [30]:
# Sélectionner une colonne 

villes_df['nom']

1        Paris
2    Marseille
3         Lyon
4     Toulouse
Name: nom, dtype: object

In [31]:
# Pour sélectionner plusieurs colonnes, nous passons une liste de noms des colonnes : 

villes_df[['nom','population']]

Unnamed: 0,nom,population
1,Paris,212
2,Marseille,80
3,Lyon,44
4,Toulouse,39


In [32]:
# La sélection des lignes, fonctionne avec les index 

villes_df.iloc[1:2]

Unnamed: 0,nom,population,dette
2,Marseille,80,2000


In [33]:
# La sélection par opérateurs booléens fonctionne de la même manière : 

villes_df[villes_df['population'] > 40]

Unnamed: 0,nom,population,dette
1,Paris,212,1000
2,Marseille,80,2000
3,Lyon,44,3000


###  A vous :

1) Créez un DataFrame en reprenant le dataset suivant : 



In [None]:
villes_stades = {'nom':["Paris","Marseille","Lyon","Lens","Toulouse"],
          'population':[212,80,44,32,39],
          'zip':["75","13","69","62","31"],
          'stade':[49691,42000,41842,12097,35472]}

2) Sélectionnez seulement les colonnes des noms de villes et de capacité des stades 

3) Affichez seulement la ligne correspondant à la ville de Lens

4) Affichez seulement les villes ayant un stade supérieur à 30000 places

### Alignement des données

Une des avancées de Pandas est la réalisation d'opérations entre objets n'ayant pas le même Index :

In [35]:
# créons deux DataFrame disposant d'index et de taille variable

villes1_df = pd.DataFrame(np.arange(9).reshape(3,3),columns=['population','dette','zip'],
                      index=['Paris','Marseille','Lyon'])

villes2_df = pd.DataFrame(np.arange(12).reshape(4,3),columns=['population','zip','budget'],
                       index=['Paris','Nantes','Toulouse','Lyon'])

In [36]:
villes1_df

Unnamed: 0,population,dette,zip
Paris,0,1,2
Marseille,3,4,5
Lyon,6,7,8


In [37]:
villes2_df

Unnamed: 0,population,zip,budget
Paris,0,1,2
Nantes,3,4,5
Toulouse,6,7,8
Lyon,9,10,11


L'opération villes1_df + villes2_df renverra l'**intersection** des deux DataFrames (i.e là où les colonnes et les index sont présents dans les deux cas). Soit :

In [38]:
villes1_df + villes2_df

Unnamed: 0,budget,dette,population,zip
Lyon,,,15.0,18.0
Marseille,,,,
Nantes,,,,
Paris,,,0.0,3.0
Toulouse,,,,


Si nous souhaitons effectuer une opération en complétant les valeurs manquantes soit obtenir l'**union** des deux Dataframes, nous pouvons utiliser la méthode **add** que nous combinons avec la méthode **fill_value**. Dans ce cas nous remplaçons les valeurs manquantes par 0 : 

In [40]:
print(villes2_df.add(villes1_df, fill_value=0))

           budget  dette  population   zip
Lyon         11.0    7.0        15.0  18.0
Marseille     NaN    4.0         3.0   5.0
Nantes        5.0    NaN         3.0   4.0
Paris         2.0    1.0         0.0   3.0
Toulouse      8.0    NaN         6.0   7.0


### Applications de fonctions 

Nous pouvons appliquer les fonctions universelles (universal functions) de NumPy à des DataFrame. 

Maitriser ces fonctions est une composante essentielle de la maitrise de la manipulation de données sous Pandas. 

In [41]:
# Recréons un DataFrame en spécifiant les colonnes et les index : 

df1 = pd.DataFrame(np.random.randn(4,3),columns=['population','zip','budget'],
                       index=['Paris','Nantes','Toulouse','Lyon'])

Définissons une fonction f qui renvoie la différence entre la valeur maximum et la valeur minimum : 

In [42]:
f = lambda x: x.max() - x.min()

Pour info, Lambda est une simple convention qui permet de créer une fonction anonyme. Cela revient exactement à déclarer une fonction telle que : 

In [43]:
def g(x):
    return x.max() - x.min()

Il est maintenant possible (et c'est génial) d'appliquer cette fonction sur notre DataFrame en utilisant la méthode **apply**. Cette méthode prendre comme paramètre l'axe du DataFrame. 

Cela signifie que si nous voulons obtenir le résultat de f pour chaque colonne, nous appliquons f ligne par ligne (en utilisant donc axis=0) :

In [44]:
df1.apply(f, axis=0)

population    0.363936
zip           3.390117
budget        2.868132
dtype: float64

Voilà un petit schéma pour bien comprendre ce que nous venons de faire. 

Nous appliquons pour chaque ligne (selon l'axe 0) la fonction f. 

<img src='files/images/faxis0.png'>

Si nous souhaitons réaliser la même opération pour chaque ville, nous pouvons utiliser la même fonction selon l'axe 1 soit : 

In [45]:
df1.apply(f,axis=1)

Paris       1.706966
Nantes      2.299904
Toulouse    1.761401
Lyon        2.581496
dtype: float64

En utilisant le même schéma, cela peut se représenter à nouveau ainsi : 

<img src='files/images/faxis1.png'>

### A vous :

1) Reprenez le dataset des villes et de la capacité des stades

In [None]:
villes_stades = {'nom':["Paris","Marseille","Lyon","Lens","Toulouse"],
          'population':[212,80,44,32,39],
          'stade':[49691,42000,41842,12097,35472]}

2) Créez un DataFrame avec le dataset en mettant le nom des villes en index

3) Renvoyez pour chaque ville, la différence entre la capacité du stade et la moyenne de capacité des stades. 

### Trier

Le tri est une composante clé de l'analyse de donnée. La méthode **sort_index** permet de retourner un nouvel objet, trié. 

Si nous souhaitons trier un DataFrame suivant l'ordre alphabétique des villes (ici de notre index), il suffit donc d'écrire : 

In [46]:
df1.sort_index(axis=0)

Unnamed: 0,population,zip,budget
Lyon,-0.041944,-1.895187,0.686309
Nantes,0.224306,1.494929,-0.804975
Paris,-0.139631,1.241552,1.567336
Toulouse,-0.096193,0.460604,-1.300796


On peut, de la même manière trier l'ordre des colonnes, en utilisant l'axe 1 : 

In [47]:
df1.sort_index(axis=1)

Unnamed: 0,budget,population,zip
Paris,1.567336,-0.139631,1.241552
Nantes,-0.804975,0.224306,1.494929
Toulouse,-1.300796,-0.096193,0.460604
Lyon,0.686309,-0.041944,-1.895187


Vous pouvez, et ce sera le plus fréquent, vouloir trier selon une colonne. Vous pouvez utiliser la méthode **sort_values**

In [49]:
df1.sort_values('population')

Unnamed: 0,population,zip,budget
Paris,-0.139631,1.241552,1.567336
Toulouse,-0.096193,0.460604,-1.300796
Lyon,-0.041944,-1.895187,0.686309
Nantes,0.224306,1.494929,-0.804975


On peut spécifier le paramètre booléen **ascending** pour réaliser des tris croissant / décroissant :

In [50]:
df1.sort_values('population',ascending=False)

Unnamed: 0,population,zip,budget
Nantes,0.224306,1.494929,-0.804975
Lyon,-0.041944,-1.895187,0.686309
Toulouse,-0.096193,0.460604,-1.300796
Paris,-0.139631,1.241552,1.567336


### Méthodes statistiques 

Pandas donne accès à un set de méthodes statistiques par défaut. En voici quelques unes : 

On peut jeter un 'coup d'oeil' à la description statistique d'un set de données en utilisant la méthode **describe**. 

Celle ci permet de calculer rapidement des données clés (nombre de valeurs, moyenne, déviation standard et quartiles).

In [51]:
df1.describe()

Unnamed: 0,population,zip,budget
count,4.0,4.0,4.0
mean,-0.013365,0.325475,0.036968
std,0.163409,1.544498,1.324406
min,-0.139631,-1.895187,-1.300796
25%,-0.107052,-0.128343,-0.92893
50%,-0.069068,0.851078,-0.059333
75%,0.024619,1.304896,0.906566
max,0.224306,1.494929,1.567336


Les méthodes classiques (somme, moyenne, count etc..) sont également intégrées. 

Elles prennent également comme paramètres les axes d'application des DataFrame


In [52]:
# Calculer la moyenne par colonne 

df1.count()

population    4
zip           4
budget        4
dtype: int64

### Gérer les données manquantes

In [53]:
from numpy import nan as NA

La gestion des données manquantes est une composante clé de Pandas. 

Les données nulles sont courantes dans les analyses de données, prenons par exemple le DataFrame suivant : 

In [54]:
df_null = pd.DataFrame([[1,3,5,8],[5,NA,7,3],[NA,NA,NA,NA],[NA,7,3,2]])

df_null

Unnamed: 0,0,1,2,3
0,1.0,3.0,5.0,8.0
1,5.0,,7.0,3.0
2,,,,
3,,7.0,3.0,2.0


Nous pouvons supprimer toutes les lignes qui comportent au moins un élément NA avec la méthode **dropna**

In [55]:
df_null.dropna()

Unnamed: 0,0,1,2,3
0,1.0,3.0,5.0,8.0


La méthode **dropna** conservant les paramètres axis, nous pouvons supprimer les colonnes ayant au moins un NA :

In [56]:
df_null.dropna(axis=1)

0
1
2
3


Ou encore celle qui n'ont que des NA grâce au paramètre **how** :

In [57]:
df_null.dropna(axis=0, how='all')

Unnamed: 0,0,1,2,3
0,1.0,3.0,5.0,8.0
1,5.0,,7.0,3.0
3,,7.0,3.0,2.0


Au lieu de supprimer des données manquantes, nous pouvons également remplir les cases avec la méthode **fillna** :

In [58]:
df_null.fillna(0)

Unnamed: 0,0,1,2,3
0,1.0,3.0,5.0,8.0
1,5.0,0.0,7.0,3.0
2,0.0,0.0,0.0,0.0
3,0.0,7.0,3.0,2.0


Il est possible de remplir des valeurs différentes suivant la colonne en passant un **dictionnaire en paramètre** :

In [59]:
# On remplit ici la colonne 1 avec des 0 et la colonne 2 avec des 3

df_null.fillna({1:0, 2:3})

Unnamed: 0,0,1,2,3
0,1.0,3.0,5.0,8.0
1,5.0,0.0,7.0,3.0
2,,0.0,3.0,
3,,7.0,3.0,2.0


Le paramètre booléen **inplace** permet de modifier ou non le DataFrame original. Par défaut **fillna** crée une copie de l'objet :

In [60]:
df_null.fillna(0,inplace=True)

df_null

Unnamed: 0,0,1,2,3
0,1.0,3.0,5.0,8.0
1,5.0,0.0,7.0,3.0
2,0.0,0.0,0.0,0.0
3,0.0,7.0,3.0,2.0
