# Manipulation de données avec `pandas` {#pandas}

`pandas` est une librairie open-source basée sur `NumPy` fournissant des structures de données facile à manipuler, et des outils d'analyse de données. Le lecteur familier avec les fonctions de base du langage `R` retrouvera de nombreuses fonctionnalités similaires avec `pandas`.



Pour avoir accès aux fonctionnalités de `pandas`, il est coutume de charger la librairie en lui accordant l'alias `pd` :

In [None]:
import pandas as pd

Nous allons également utiliser des fonctions de `numpy` (c.f. Section\ \@ref(numpy)). Assurons-nous de charger cette librairie, si ce n'est pas déjà fait :

In [None]:
import numpy as np

## Structures

Nous allons nous pencher sur deux types de structures, les séries (`serie`) et les dataframes (`DataFrame`).


### Séries

Les séries sont des tableaux à une dimension de données indexées.

#### Création de séries à partir d'un dictionnaire

Pour en créer,on peut définir une liste, puis appliquer la fonction `Series` de `pandas` :

In [None]:
s = pd.Series([1, 4, -1, np.nan, .5, 1])
print(s)

In [None]:
## 0    1.0
## 1    4.0
## 2   -1.0
## 3    NaN
## 4    0.5
## 5    1.0
## dtype: float64

L'affichage précédent montre que la série `s` créée contient à la fois les données et un index associé. L'attribut `values` permet d'afficher les valeurs qui sont stockées dans un tableau `numpy` :

In [None]:
print("valeur de s : ", s.values)

In [None]:
## valeur de s :  [ 1.   4.  -1.   nan  0.5  1. ]

In [None]:
print("type des valeurs de s : ", type(s.values))

In [None]:
## type des valeurs de s :  <class 'numpy.ndarray'>

L'indice est quand à lui stocké dans une structure spécifique de `pandas` :

In [None]:
print("index de s : ", s.index)

In [None]:
## index de s :  RangeIndex(start=0, stop=6, step=1)

In [None]:
print("type de l'index de s : ", type(s.index))

In [None]:
## type de l'index de s :  <class 'pandas.core.indexes.range.RangeIndex'>

Il est possible d'attribuer un nom à la série ainsi qu'à l'index :

In [None]:
s.name = "ma_serie"
s.name = "nom_index"
print("nom de la série : {} , nom de l'index : {}".format(s.name, s.index.name))

In [None]:
## nom de la série : nom_index , nom de l'index : None

In [None]:
print("série s : \n", s)

In [None]:
## série s : 
##  0    1.0
## 1    4.0
## 2   -1.0
## 3    NaN
## 4    0.5
## 5    1.0
## Name: nom_index, dtype: float64

#### Définition de l'index

L'index peut être défini par l'utilisateur, au moment de la création de la série :

In [None]:
s = pd.Series([1, 4, -1, np.nan],
             index = ["o", "d", "i", "l"])
print(s)

In [None]:
## o    1.0
## d    4.0
## i   -1.0
## l    NaN
## dtype: float64

On peut définir l'indice avec des valeurs numériques également, sans être forcé de respecter un ordre précis :

In [None]:
s = pd.Series([1, 4, -1, np.nan],
             index = [4, 40, 2, 3])
print(s)

In [None]:
## 4     1.0
## 40    4.0
## 2    -1.0
## 3     NaN
## dtype: float64

L'index peut être modifié par la suite, en venant écraser l'attribut `index` :

In [None]:
s.index = ["o", "d", "i", "l"]
print("Série s : \n", s)

In [None]:
## Série s : 
##  o    1.0
## d    4.0
## i   -1.0
## l    NaN
## dtype: float64

#### Création de séries particulières

Il existe une petite astuce pour créer des séries avec une valeur répétée, qui consiste à fournir un scalaire à la fonction `Series` de `NumPy` et un index dont la longueur correspondra au nombre de fois où le scalaire sera répété :

In [None]:
s = pd.Series(5, index = [np.arange(4)])
print(s)

In [None]:
## 0    5
## 1    5
## 2    5
## 3    5
## dtype: int64

On peut créer une série à partir d'un dictionnaire :

In [None]:
dictionnaire = {"Roi": "Arthur",
                "Chevalier_pays_galles": "Perceval",
                "Druide": "Merlin"}
s = pd.Series(dictionnaire)
print(s)

In [None]:
## Roi                        Arthur
## Chevalier_pays_galles    Perceval
## Druide                     Merlin
## dtype: object

Comme on le note dans la sortie précédente, les clés du dictionnaire ont été utilisées pour l'index. Lors de la création de la série, on peut préciser au paramètre clé des valeurs spécifiques : cela aura pour conséquence de ne récupérer que les observations correspondant à ces clés :

In [None]:
dictionnaire = {"Roi": "Arthur",
                "Chevalier_pays_galles": "Perceval",
                "Druide": "Merlin"}
s = pd.Series(dictionnaire, index = ["Roi", "Druide"])
print(s)

In [None]:
## Roi       Arthur
## Druide    Merlin
## dtype: object

### Dataframes


Les Dataframes correspondent au format de données que l'on rencontre classiquement en économie, des tableaux à deux dimensions, avec des variables en colonnes et des observations en ligne. Les colonnes et lignes des dataframes sont indexées.

#### Création de dataframes à partir d'un dictionnaire

Pour créer un dataframe, on peut fournir à la fonction `DataFrame()` de `pandas` un dictionnaire pouvant être transformé en `serie`. C'est le cas d'un dictionnaire dont les valeurs associées aux clés ont toutes la même longueur :

In [None]:
dico = {"height" :
               [58, 59, 60, 61, 62,
                63, 64, 65, 66, 67,
                68, 69, 70, 71, 72],
        "weight":
               [115, 117, 120, 123, 126,
                129, 132, 135, 139, 142,
                146, 150, 154, 159, 164]
       }
df = pd.DataFrame(dico)
print(df)

In [None]:
##     height  weight
## 0       58     115
## 1       59     117
## 2       60     120
## 3       61     123
## 4       62     126
## 5       63     129
## 6       64     132
## 7       65     135
## 8       66     139
## 9       67     142
## 10      68     146
## 11      69     150
## 12      70     154
## 13      71     159
## 14      72     164

La position des éléments dans le dataframe sert d'index. Comme pour les séries, les valeur sont accessibles dans l'attribut `values` et l'index dans l'attribut `index`. Les colonnes sont également indexées :

In [None]:
print(df.columns)

In [None]:
## Index(['height', 'weight'], dtype='object')

La méthode `head()` permet d'afficher les premières lignes (les 5 premières, par défaut). On peut modifier son paramètre `n` pour indiquer le nombre de lignes à retourner :

In [None]:
df.head(2)

Lors de la création d'un dataframe à partir d'un dictionnaire, si on précise le nom des colonnes à importer par une liste de chaînes de caractères fournie au paramètree `columns` de la fonction `DataFrame`, on peut non seulement définir les colonnes à remplir mais également leur ordre d'apparition.

Par exemple, pour n'importer que la colonne `weight` :

In [None]:
df = pd.DataFrame(dico, columns = ["weight"])
print(df.head(2))

In [None]:
##    weight
## 0     115
## 1     117

Et pour définir l'ordre dans lequel les colonnes apparaîtront :

In [None]:
df = pd.DataFrame(dico, columns = ["weight", "height"])
print(df.head(2))

In [None]:
##    weight  height
## 0     115      58
## 1     117      59

Si on indique un nom de colonne absent parmi les clés du dictionnaires, le dataframe résultant contiendra une colonne portant ce nom mais remplie de valeurs `NaN` :

In [None]:
df = pd.DataFrame(dico, columns = ["weight", "height", "age"])
print(df.head(2))

In [None]:
##    weight  height  age
## 0     115      58  NaN
## 1     117      59  NaN

#### Création de dataframes à partir d'une série

Un dataframe peut être créé à partir d'une série :

In [None]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"])
s.name = "nom_variable"
df = pd.DataFrame(s, columns = ["nom_variable"])
print(df)

In [None]:
##    nom_variable
## o           1.0
## d           4.0
## i          -1.0
## l           NaN

Si on n'attribue pas de nom à la série, il suffit de ne pas renseigner le paramètre `columns` de la fonction `DataFrame`. Mais dans ce cas, la colonne n'aura pas de non, juste un index numérique.

In [None]:
s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"])
df = pd.DataFrame(s)
print(df)

In [None]:
##      0
## o  1.0
## d  4.0
## i -1.0
## l  NaN

In [None]:
print(df.columns.name)

In [None]:
## None

#### Création de dataframes à partir d'une liste de dictionnaire


Un dataframe peut être créé à partir d'une liste de dictionnaires :

In [None]:
dico_1 = {
    "Nom": "Pendragon",
    "Prenom": "Arthur",
    "Role": "Roi de Bretagne"
}
dico_2 = {
    "Nom": "de Galles",
    "Prenom": "Perceval",
    "Role": "Chevalier du Pays de Galles"
}
df = pd.DataFrame([dico_1, dico_2])
print(df)

In [None]:
##          Nom    Prenom                         Role
## 0  Pendragon    Arthur              Roi de Bretagne
## 1  de Galles  Perceval  Chevalier du Pays de Galles

Si certaines clés sont absentes dans un ou plusieurs des dictionnaires de la liste, les valeurs correspondantes dans le dataframe seront `NaN` :

In [None]:
dico_3 = {
    "Prenom": "Guenièvre",
    "Role": "Reine de Bretagne"
}
df = pd.DataFrame([dico_1, dico_2, dico_3])
print(df)

In [None]:
##          Nom             ...                                      Role
## 0  Pendragon             ...                           Roi de Bretagne
## 1  de Galles             ...               Chevalier du Pays de Galles
## 2        NaN             ...                         Reine de Bretagne
## 
## [3 rows x 3 columns]

#### Création de dataframes à partir d'un dictionnaire de séries


On peut aussi créer un dataframe à partir d'un dictionnaire de séries. Pour illustrer la méthode, créons deux dictionnaires :

In [None]:
# PIB annuel 2017
# En millions de dollars courants
dico_gdp_current = {
    "France": 2582501.31,
    "USA": 19390604.00,
    "UK": 2622433.96
}
# Indice annuel des prix à la consommation
dico_cpi = {
    "France": 0.2,
    "UK": 0.6,
    "USA": 1.3,
    "Germany": 0.5
}

À partir de ces deux dictionnaires, créons deux séries correspondantes :

In [None]:
s_gdp_current = pd.Series(dico_gdp_current)
s_cpi = pd.Series(dico_cpi)
print("s_gdp_current : \n", s_gdp_current)

In [None]:
## s_gdp_current : 
##  France     2582501.31
## USA       19390604.00
## UK         2622433.96
## dtype: float64

In [None]:
print("\ns_cpi : \n", s_cpi)

In [None]:
## 
## s_cpi : 
##  France     0.2
## UK         0.6
## USA        1.3
## Germany    0.5
## dtype: float64

Puis, créons un dictionnaire de séries :

In [None]:
dico_de_series = {
    "gdp": s_gdp_current,
    "cpi": s_cpi
}
print(dico_de_series)

In [None]:
## {'gdp': France     2582501.31
## USA       19390604.00
## UK         2622433.96
## dtype: float64, 'cpi': France     0.2
## UK         0.6
## USA        1.3
## Germany    0.5
## dtype: float64}

Enfin, créons notre dataframe :

In [None]:
s = pd.DataFrame(dico_de_series)
print(s)

In [None]:
##                  gdp  cpi
## France    2582501.31  0.2
## Germany          NaN  0.5
## UK        2622433.96  0.6
## USA      19390604.00  1.3

Remarque

Le dictionnaire `dico_gdp_current` ne contient pas de clé `Germany`, contrairement au dictionnaire `dico_cpi`. Lors de la création du dataframe, la valeur du PIB pour l'Allemagne a dont été assignée comme `NaN`.




#### Création de dataframes à partir d'un tableau `NumPy` à deux dimensions

On peut aussi créer un dataframe à partir d'un tableau `Numpy`. Lors de la création, avec la fonction `DataFrame()` de `NumPy`, il est possible de préciser le nom des colonnes (à défaut, l'indiçage des colonnes sera numérique) :

In [None]:
liste = [
    [1, 2, 3],
    [11, 22, 33],
    [111, 222, 333],
    [1111, 2222, 3333]
]
tableau_np = np.array(tableau)

In [None]:
## NameError: name 'tableau' is not defined
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>

In [None]:
print(df = pd.DataFrame(tableau_np,
                  columns = ["a", "b", "c"]))

In [None]:
## NameError: name 'tableau_np' is not defined
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>

#### Dimensions

On accède aux dimensions d'un dataframe avec l'attribut `shape`.

In [None]:
print("shape : ", df.shape)

In [None]:
## shape :  (3, 3)

On peut aussi afficher le nombre de lignes comme suit :

In [None]:
print("shape : ", len(df))

In [None]:
## shape :  3

Et le nombre de colonnes :

In [None]:
print("shape : ", len(df.columns))

In [None]:
## shape :  3

#### Modification de l'index

Comme pour les séries, on peut modifier l'index une fois que le dataframe a été créé, en venant écraser les valeurs des attributs `index` et `columns`, pour l'index des lignes et colonnes, respectivement :

In [None]:
df.index = ["o", "d", "i", "l"]

In [None]:
## ValueError: Length mismatch: Expected axis has 3 elements, new values have 4 elements
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/generic.py", line 4385, in __setattr__
##     return object.__setattr__(self, name, value)
##   File "pandas/_libs/properties.pyx", line 69, in pandas._libs.properties.AxisProperty.__set__
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/generic.py", line 645, in _set_axis
##     self._data.set_axis(axis, labels)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/internals.py", line 3323, in set_axis
##     'values have {new} elements'.format(old=old_len, new=new_len))

In [None]:
df.columns = ["aa", "bb", "cc"]
print(df)

In [None]:
##           aa             ...                                        cc
## 0  Pendragon             ...                           Roi de Bretagne
## 1  de Galles             ...               Chevalier du Pays de Galles
## 2        NaN             ...                         Reine de Bretagne
## 
## [3 rows x 3 columns]

## Sélection {#pandas-selection}

Dans cette section, nous regardons différentes manières de sélectionner des données dans des séries et dataframes. On note deux manières bien distinctes :

- une première basée sur l'utiliation de crochets directement sur l'objet pour lequel on souhaite sélectionner certaines parties ;
- seconde s'appuyant sur des indexeurs, accessibles en tant qu'attributs d'objets `NumPy` (`loc`, `at`, `iat`, etc.)

La seconde méthode permet d'éviter certaines confusions qui peuvent apparaître dans le cas d'index numériques.

### Pour les séries

Dans un premier temps, regardons les manières d'extraire des valeurs contenues dans des séries.


#### Avec les crochets

On peut utiliser l'index pour extraire les données :

In [None]:
s = pd.Series([1, 4, -1, np.nan, .5, 1])
s[0] # 1er élément de s
s[1:3] # du 2e élément (inclus) au 4e (non inclus)
s[[0,4]] # 1er et 5e éléments

On note que contrairement aux tableaux `numpy` ou aux listes, on ne peut pas utiliser des valeurs négatives pour l'index afin de récupérer les données en comptant leur position par rapport à la fin :

In [None]:
s[-2]

In [None]:
## KeyError: -2
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/series.py", line 766, in __getitem__
##     result = self.index.get_value(self, key)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/indexes/base.py", line 3103, in get_value
##     tz=getattr(series.dtype, 'tz', None))
##   File "pandas/_libs/index.pyx", line 106, in pandas._libs.index.IndexEngine.get_value
##   File "pandas/_libs/index.pyx", line 114, in pandas._libs.index.IndexEngine.get_value
##   File "pandas/_libs/index.pyx", line 162, in pandas._libs.index.IndexEngine.get_loc
##   File "pandas/_libs/hashtable_class_helper.pxi", line 958, in pandas._libs.hashtable.Int64HashTable.get_item
##   File "pandas/_libs/hashtable_class_helper.pxi", line 964, in pandas._libs.hashtable.Int64HashTable.get_item

Dans le cas d'un indice composé de chaînes de caractères, il est alors possible, pour extraire les données de la série, de faire référence soit au contenu de l'indice (pour faire simple, son nom), soit à sa position :

In [None]:
s = pd.Series([1, 4, -1, np.nan],
             index = ["o", "d", "i", "l"])
print("La série s : \n", s)

In [None]:
## La série s : 
##  o    1.0
## d    4.0
## i   -1.0
## l    NaN
## dtype: float64

In [None]:
print('s["d"] : \n', s["d"])

In [None]:
## s["d"] : 
##  4.0

In [None]:
print('s[1] : \n', s[1])

In [None]:
## s[1] : 
##  4.0

In [None]:
print("éléments o et i : \n", s[["o", "i"]])

In [None]:
## éléments o et i : 
##  o    1.0
## i   -1.0
## dtype: float64

Par contre, dans le cas où l'indice est défini avec des valeurs numériques, pour extraire les valeurs à l'aide des crochets, ce sera par la valeur de l'indice et pas en s'appuyant sur la position :

In [None]:
s = pd.Series([1, 4, -1, np.nan],
             index = [4, 40, 2, 3])
print(s[40])

In [None]:
## 4.0

#### Avec les indexeurs

Pandas propose deux types d'indiçage multi-axes : `loc`, `iloc`.  Le premier est principalement basé sur l'utilisation des labels des axes, tandis que le second s'appuie principalement sur les positions à l'aide d'entiers.

Pour les besoins de cette partie, créons deux séries ; une première avec un index textuel, une deuxième avec un index numérique :

In [None]:
s_num = pd.Series([1, 4, -1, np.nan],
             index = [5, 0, 4, 1])
s_texte = pd.Series([1, 4, -1, np.nan],
             index = ["c", "a", "b", "d"])

##### Extraction d'un seul élément

Pour extraire un objet avec `loc`, on utilise le nom de l'indice :

In [None]:
print(s_num.loc[5], s_texte.loc["c"])

In [None]:
## 1.0 1.0

Pour extraire un élément unique avec `iloc`, il suffit d'indiquer sa position :

In [None]:
(s_num.iloc[1], s_texte.iloc[1])

##### Extraction de plusieurs éléments


Pour extraire plusieurs éléments avec `loc`, on utilise les noms (labels) des indices, que l'on fournit dans une liste :

In [None]:
print("éléments aux labels 5 et 4 :\n", s_num.loc[[5,4]])

In [None]:
## éléments aux labels 5 et 4 :
##  5    1.0
## 4   -1.0
## dtype: float64

In [None]:
print("éléments aux labels c et b : \n", s_texte.loc[["c", "b"]])

In [None]:
## éléments aux labels c et b : 
##  c    1.0
## b   -1.0
## dtype: float64

Pour extraire plusieurs éléments avec `iloc` :

In [None]:
print("éléments aux positions 0 et 2 :\n", s_num.iloc[[0,2]])

In [None]:
## éléments aux positions 0 et 2 :
##  5    1.0
## 4   -1.0
## dtype: float64

In [None]:
print("éléments aux positions 0 et 2 : \n", s_texte.iloc[[0,2]])

In [None]:
## éléments aux positions 0 et 2 : 
##  c    1.0
## b   -1.0
## dtype: float64

##### Découpage {#decoupage-series}


On peut effectuer des découpages de séries, pour récupérer des éléments consécutifs :

In [None]:
print("éléments des labels 5 jusqu'à 4 :\n", s_num.loc[5:4])

In [None]:
## éléments des labels 5 jusqu'à 4 :
##  5    1.0
## 0    4.0
## 4   -1.0
## dtype: float64

In [None]:
print("éléments des labels c à b : \n", s_texte.loc["c":"b"])

In [None]:
## éléments des labels c à b : 
##  c    1.0
## a    4.0
## b   -1.0
## dtype: float64

Pour extraire plusieurs éléments avec `iloc` :

In [None]:
print("éléments aux positions de 0 à 2 :\n", s_num.iloc[0:2])

In [None]:
## éléments aux positions de 0 à 2 :
##  5    1.0
## 0    4.0
## dtype: float64

In [None]:
print("éléments aux positions de 0 à 2 : \n", s_texte.iloc[0:2])

In [None]:
## éléments aux positions de 0 à 2 : 
##  c    1.0
## a    4.0
## dtype: float64

Comme ce que l'on a vu jusqu'à présent, la valeur supérieur de la limite n'est pas incluse dans le découpage.


##### Masque

On peut aussi utiliser un masque pour extraire des éléments, indifféremment en utilisant `loc` ou `iloc` :

In [None]:
print("\n",s_num.loc[[True, False, False, True]])

In [None]:
## 
##  5    1.0
## 1    NaN
## dtype: float64

In [None]:
print("\n", s_texte.loc[[True, False, False, True]])

In [None]:
## 
##  c    1.0
## d    NaN
## dtype: float64

In [None]:
print("\n", s_num.iloc[[True, False, False, True]])

In [None]:
## 
##  5    1.0
## 1    NaN
## dtype: float64

In [None]:
print("\n", s_texte.iloc[[True, False, False, True]])

In [None]:
## 
##  c    1.0
## d    NaN
## dtype: float64

##### Quel est l'intérêt ?


Pourquoi introduir de telles manières d'extraire les données et ne pas se contenter de l'extraction à l'aide des crochers sur les objets ? Regardons un exemple simple. Admettons que nous disposons de la série `s_num`, avec un indice composé d'entiers n'étant pas une séquence allant de 0 au nombre d'éléments. Dans ce cas, si nous souhaitons récupérer récupérer le 2e élément, du fait de l'indice composé de valeurs numériques, nous ne pouvons pas l'obtenir en demandant `s[1]`. Pour extraire le 2e de la série, on doit savoir que son indice vaut `0` et ainsi demander :

In [None]:
print("L'élément dont l'index vaut 0 : ", s_num[0])

In [None]:
## L'élément dont l'index vaut 0 :  4.0

Pour pouvoir effectuer l'extraction en fonction de la position, il est bien pratique d'avoir cet attribut `iloc` :

In [None]:
print("L'élément en 2e position :", s_num.iloc[1])

In [None]:
## L'élément en 2e position : 4.0

### Pour les dataframes

À présent, regardons différentes manières d'extraire des données depuis un dataframe. Créons deux dataframes en exemple, l'une avec un index numérique ; une autre avec un index textuel :

In [None]:
dico = {"height" : [58, 59, 60, 61, 62],
        "weight": [115, 117, 120, 123, 126],
        "age": [28, 33, 31, 31, 29],
        "taille": [162, 156, 172, 160, 158],
       }
df_num = pd.DataFrame(dico)
df_texte = pd.DataFrame(dico, index=["a", "e", "c", "b", "d"])
print("df_num : \n", df_num)

In [None]:
## df_num : 
##     height  weight  age  taille
## 0      58     115   28     162
## 1      59     117   33     156
## 2      60     120   31     172
## 3      61     123   31     160
## 4      62     126   29     158

In [None]:
print("df_texte : \n", df_texte)

In [None]:
## df_texte : 
##     height  weight  age  taille
## a      58     115   28     162
## e      59     117   33     156
## c      60     120   31     172
## b      61     123   31     160
## d      62     126   29     158

Pour faire simple, lorsqu'on veut effectuer une extraction avec les attributs  `iloc`, la syntaxe est la suivante :

In [None]:
df.iloc[selection_lignes, selection_colonnes]

avec `selection_lignes` :

- une valeur unique : `1` (seconde ligne) ;
- une liste de valeurs : `[2, 1, 3]` (3e ligne, 2e ligne et 4e ligne) ;
- un découpage : `[2:4]` (de la 3e ligne à la 4e ligne (non incluse)).

pour `selection_colonnes` :

- une valeur unique : `1` (seconde colonne) ;
- une liste de valeurs : `[2, 1, 3]` (3e colonne, 2e colonne et 4e colonne) ;
- un découpage : `[2:4]` (de la 3e colonne à la 4e colonne (non incluse)).


Avec `loc`, la syntaxe est la suivante :

In [None]:
df.loc[selection_lignes, selection_colonnes]

avec `selection_lignes` :

- une valeur unique : `"a"` (ligne nommée `a`) ;
- une liste de noms : `["a", "c", "b"]` (lignes nommées "a", "c" et "b") ;
- un masque : `df.['a']<10` (lignes pour lesquelles les valeurs du masque valent `True`).

pour `selection_colonnes` :

- une valeur unique : `a` (colonne nommée `a`) ;
- une liste de valeurs : `["a", "c", "b"]` (colonnes nommées "a", "c" et "b") ;
- un découpage : `["a":"c"]` (de la colonne nommée "a" à la colonne nommée "c").

#### Extraction d'une ligne

Pour extraire une ligne d'un dataframe, on peut utiliser le nom de la ligne avec `loc` :

In [None]:
print("Ligne nommée 'e':\n", df_texte.loc["e"])

In [None]:
## Ligne nommée 'e':
##  height     59
## weight    117
## age        33
## taille    156
## Name: e, dtype: int64

In [None]:
print("\nLigne nommée 'e':\n", df_num.loc[1])

In [None]:
## 
## Ligne nommée 'e':
##  height     59
## weight    117
## age        33
## taille    156
## Name: 1, dtype: int64

Ou bien, sa position avec `iloc` :

In [None]:
print("Ligne en position 0:\n", df_texte.iloc[0])

In [None]:
## Ligne en position 0:
##  height     58
## weight    115
## age        28
## taille    162
## Name: a, dtype: int64

In [None]:
print("\nLigne en position 0:\n", df_num.iloc[0])

In [None]:
## 
## Ligne en position 0:
##  height     58
## weight    115
## age        28
## taille    162
## Name: 0, dtype: int64

#### Extraction de plusieurs lignes

Pour extraire plusieurs lignes d'un dataframe, on peut utiliser leur noms avec `loc` (dans un tableau) :

In [None]:
print("Lignes nommées a et c :\n", df_texte.loc[["a", "c"]])

In [None]:
## Lignes nommées a et c :
##     height  weight  age  taille
## a      58     115   28     162
## c      60     120   31     172

In [None]:
print("\nLignes nommées 0 et 2:\n", df_num.loc[[0, 2]])

In [None]:
## 
## Lignes nommées 0 et 2:
##     height  weight  age  taille
## 0      58     115   28     162
## 2      60     120   31     172

Ou bien, leur position avec `iloc` :

In [None]:
print("Lignes aux positions 0 et 3:\n", df_texte.iloc[[0, 3]])

In [None]:
## Lignes aux positions 0 et 3:
##     height  weight  age  taille
## a      58     115   28     162
## b      61     123   31     160

In [None]:
print("\nLignes aux positions 0 et 3:\n", df_num.iloc[[0, 3]])

In [None]:
## 
## Lignes aux positions 0 et 3:
##     height  weight  age  taille
## 0      58     115   28     162
## 3      61     123   31     160

#### Découpage de plusieurs lignes {#decoupage-df-lignes}

On peut récupérer une suite de ligne en délimitant la première et la dernière à extraire en fonction de leur nom et en utilisant `loc` :

In [None]:
print("Lignes du label a à c:\n", df_texte.loc["a":"c"])

In [None]:
## Lignes du label a à c:
##     height  weight  age  taille
## a      58     115   28     162
## e      59     117   33     156
## c      60     120   31     172

In [None]:
print("\Lignes du label 0 à 2:\n", df_num.loc[0:2])

In [None]:
## \Lignes du label 0 à 2:
##     height  weight  age  taille
## 0      58     115   28     162
## 1      59     117   33     156
## 2      60     120   31     172

Avec l'attribut `iloc`, c'est également possible (encore une fois, la borne supérieure n'est pas incluse) :

In [None]:
print("Lignes des positions 0 à 3 (non incluse):\n", df_texte.iloc[0:3])

In [None]:
## Lignes des positions 0 à 3 (non incluse):
##     height  weight  age  taille
## a      58     115   28     162
## e      59     117   33     156
## c      60     120   31     172

In [None]:
print("\nLignes des positions 0 à 3 (non incluse):\n", df_num.iloc[0:3])

In [None]:
## 
## Lignes des positions 0 à 3 (non incluse):
##     height  weight  age  taille
## 0      58     115   28     162
## 1      59     117   33     156
## 2      60     120   31     172

#### Masque {#masque-extraction-ligne}

On peut aussi utiliser un masque pour sélectionner certaines lignes. Par exemple, si on souhaite récupérer les lignes pour lesquelles la variable `height` a une valeur supérieure à 60, on utilise le masque suivante :

In [None]:
masque = df_texte["height"]> 60
print(masque)

In [None]:
## a    False
## e    False
## c    False
## b     True
## d     True
## Name: height, dtype: bool

Pour filtrer :

In [None]:
print(df_texte.loc[masque])

In [None]:
##    height  weight  age  taille
## b      61     123   31     160
## d      62     126   29     158

#### Extraction d'une seule colonne

Pour extraire une colonne d'un dataframe, on peut utiliser des crochets et faire référence au nom de la colonne (qui est indexée par les noms) :

In [None]:
print(df_texte['weight'].head(2))

In [None]:
## a    115
## e    117
## Name: weight, dtype: int64

En ayant sélectionné une seule colonne, on obtient une série (l'index du dataframe est conservé pour la série) :

In [None]:
print(type(df_texte['weight']))

In [None]:
## <class 'pandas.core.series.Series'>

On peut également extraire une colonne en faisant référence à l'attribut du dataframe portant le nom de cette colonne :

In [None]:
print(df_texte.weight.head(2))

In [None]:
## a    115
## e    117
## Name: weight, dtype: int64

Comme pour les séries, on peut s'appuyer sur les attributs `loc` et `iloc` :

In [None]:
print("Colone 2 (loc):\n", df_texte.loc[:,"weight"])

In [None]:
## Colone 2 (loc):
##  a    115
## e    117
## c    120
## b    123
## d    126
## Name: weight, dtype: int64

In [None]:
print("Colonne 2 (iloc):\n", df_texte.iloc[:,1])

In [None]:
## Colonne 2 (iloc):
##  a    115
## e    117
## c    120
## b    123
## d    126
## Name: weight, dtype: int64

#### Extraction de plusieurs colonnes


Pour extraire plusieurs colonnes, il suffit de placer les noms des colonnes dans un tableau :

In [None]:
print(df_texte[["weight", "height"]])

In [None]:
##    weight  height
## a     115      58
## e     117      59
## c     120      60
## b     123      61
## d     126      62

L'ordre dans lequel on appelle ces colonnes correspond à l'ordre dans lequel elles seront retournées.

À nouveau, on peut utuliser l'attribut `loc` (on utilise les deux points ici pour dire que l'on veut toutes les lignes) :

In [None]:
print("Colonnes de weight à height:\n", df_texte.loc[:,["weight", "height"]])

In [None]:
## Colonnes de weight à height:
##     weight  height
## a     115      58
## e     117      59
## c     120      60
## b     123      61
## d     126      62

Et l'attribut `iloc` :

In [None]:
print("Colonnes 2 et 1 :\n", df_num.iloc[:,[1,0]])

In [None]:
## Colonnes 2 et 1 :
##     weight  height
## 0     115      58
## 1     117      59
## 2     120      60
## 3     123      61
## 4     126      62

#### Découpage de plusieurs colonnes {#decoupage-df-colonnes}

Pour effectuer un découpage, on peut utiliser les attributs `loc` et `iloc`. Attention, on ne place pas le nom des colonnes servant pour le découpage dans un tableau ici :

Avec `loc` :

In [None]:
print("Colones 2 et 2:\n", df_texte.loc[:, "height":"age"])

In [None]:
## Colones 2 et 2:
##     height  weight  age
## a      58     115   28
## e      59     117   33
## c      60     120   31
## b      61     123   31
## d      62     126   29

Et avec l'attribut `iloc` :

In [None]:
print("Colonnes de la position 0 à 2 (non incluse) :\n",
      df_texte.iloc[:, 0:2])

In [None]:
## Colonnes de la position 0 à 2 (non incluse) :
##     height  weight
## a      58     115
## e      59     117
## c      60     120
## b      61     123
## d      62     126

#### Extraction de lignes et colonnes

À présent que nous avons passé en revue de nombreuses manières de sélectionner une ou plusieurs lignes ou colonnes, nous pouvons également mentionner qu'il est possible de faire des sélections de colonnes et de lignes dans une même instruction.


Par exemple, avec `iloc`, sélectionnons les lignes de la position 0 à la position 2 (non incluse) et les colonnes de la position 1 à 3 (non incluse) :

In [None]:
print(df_texte.iloc[0:2, 1:3])

In [None]:
##    weight  age
## a     115   28
## e     117   33

Avec `loc`, sélectionnons les lignes nommées `a` et `c` et les colonnes de celle nommée `weight` jusqu'à `age`.

In [None]:
df_texte.loc[["a", "c"], "weight":"age"]

## Renommage des colonnes dans un dataframe

Pour renommer une colonne dans un dataframe, `pandas` propose la méthode `rename()`. Prenons un exemple avec notre dataframe `df` :

In [None]:
dico = {"height" : [58, 59, 60, 61, 62],
        "weight": [115, 117, 120, 123, 126],
        "age": [28, 33, 31, 31, 29],
        "taille": [162, 156, 172, 160, 158],
       }
df = pd.DataFrame(dico)
print(df)

In [None]:
##    height  weight  age  taille
## 0      58     115   28     162
## 1      59     117   33     156
## 2      60     120   31     172
## 3      61     123   31     160
## 4      62     126   29     158

Renommons la colonne `height` en `taille`, à l'aide d'un dicionnaire précisé au paramètre `columns`, avec comme clé le nom actuel de la colonne, et en valeur le nouveau nom :

In [None]:
df.rename(index=str, columns={"height": "taille"}, inplace=True)
print(df)

In [None]:
##    taille  weight  age  taille
## 0      58     115   28     162
## 1      59     117   33     156
## 2      60     120   31     172
## 3      61     123   31     160
## 4      62     126   29     158

Pour que le changement soit effectif, on indique `inplace=True`, sinon, la modification n'est pas apportée au dataframe.

Pour renommer plusieurs colonnes en même temps, il suffit de fournir plusieurs couples de clés valeurs dans le dictionnaire :

In [None]:
df.rename(index=str,
          columns={"weight": "masse", "age" : "annees"},
          inplace=True)
print(df)

In [None]:
##    taille  masse  annees  taille
## 0      58    115      28     162
## 1      59    117      33     156
## 2      60    120      31     172
## 3      61    123      31     160
## 4      62    126      29     158

## Filtrage


Pour effectuer une filtration des données dans un tableau, en fonction des valeurs rencontrées pour certaines variables, on utilise des masques, comme indiqué dans la Section\ \@ref(masque-extraction-ligne).


Redennons quelques exemples ici, en redéfinissant notre dataframe :

In [None]:
dico = {"height" : [58, 59, 60, 61, 62],
        "weight": [115, 117, 120, 123, 126],
        "age": [28, 33, 31, 31, 29],
        "taille": [162, 156, 172, 160, 158],
       }
df = pd.DataFrame(dico)
print(df)

In [None]:
##    height  weight  age  taille
## 0      58     115   28     162
## 1      59     117   33     156
## 2      60     120   31     172
## 3      61     123   31     160
## 4      62     126   29     158

L'idée consiste à créer un masque retournant une série contenant des valeurs booléennes, une par ligne. Lorsque la valeur de la ligne du masque vaut `True`, la ligne du dataframe sur lequel sera appliqué le masque sera retenue, tandis qu'elle ne le sera pas quand la valeur de la ligne du masque vaut `False`.


Regardons un exemple simple, dans lequel nous souhaitons conserver les observations uniquement pour lesquelles la valeur de la variable `age` est inférieure à 30 :

In [None]:
masque = df["age"] < 30
print(masque)

In [None]:
## 0     True
## 1    False
## 2    False
## 3    False
## 4     True
## Name: age, dtype: bool

Il reste alors à appliquer ce masque, avec `loc`. On souhaite l'ensemble des colonnes, mais seulement quelques lignes :

In [None]:
print(df.loc[masque])

In [None]:
##    height  weight  age  taille
## 0      58     115   28     162
## 4      62     126   29     158

Note : cela fonctionne aussi sans `loc` :

In [None]:
print(df[masque])

In [None]:
##    height  weight  age  taille
## 0      58     115   28     162
## 4      62     126   29     158

Plus simplement, on peut utiliser la méthode `query()` de `pandas`. On fournit une expression booléenne à évaluer à cette méthode pour filtrer les données :

In [None]:
print(df.query(age<30))

In [None]:
## NameError: name 'age' is not defined
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>

La requête peut être un peu plus complexe, en combinant opérateurs de comparaison (c.f. Section\ \@ref(operateurs-comparaison)) et opérateurs logiques (c.f. Section\ \@ref(operateurs-logiques)). Par exemple, admettons que nous voulons filtrer les valeurs du dataframe pour ne retenir que les observations pour lesquelles la taille est inférieure ou égale à 62 et la masse strictement supérieure à 120. La requête serait alors :

In [None]:
print(df.query("weight > 120 and height < 62"))

In [None]:
##    height  weight  age  taille
## 3      61     123   31     160

On peut noter que l'instruction suivante donne le même résultat :

In [None]:
print(df.query("weight > 120").query("height < 62"))

In [None]:
##    height  weight  age  taille
## 3      61     123   31     160

### Test d'appartenance

Pour créer un masque indiquant si les valeurs d'une série ou d'un dataframe appartiennent à un ensemble, on peut utiliser la méthode `isin()`. Par exemple, retournons un masque indiquant si les valeurs de la colonne `height` de `df` sont dans l'intervalle $[59,60]$ :

In [None]:
df.height.isin(np.arange(59,61))

## Valeurs manquantes

En économie, il est assez fréquent de récupérer des données incomplètes. La manière dont les données manquantes sont gérées par `pandas` est le recours aux deux valeurs spéciales : `None` et `NaN`.

La valeur `None` peut être utilisée dans les tableaux `NumPy` uniquement quand le type de ces derniers est `object`.

In [None]:
tableau_none = np.array([1, 4, -1, None])
print(tableau_none)

In [None]:
## [1 4 -1 None]

In [None]:
print(type(tableau_none))

In [None]:
## <class 'numpy.ndarray'>

Avec un tableau de type `object`, les opérations effectuées sur les données seront moins efficaces qu'avec un tableau d'un type numérique [@vanderplas2016python, p 121].

La valeur `NaN` est une valeur de nombre à virgule flottante (c.f. Section\ \@ref(numpy-constantes)). `NumPy` la gère différemment de `NaN`, et n'assigne passe type `object` d'emblée en présence de `NaN` :

In [None]:
tableau_nan = np.array([1, 4, -1, np.nan])
print(tableau_nan)

In [None]:
## [ 1.  4. -1. nan]

In [None]:
print(type(tableau_nan))

In [None]:
## <class 'numpy.ndarray'>

Avec `pandas`, ces deux valeurs, `None` et `NaN` peuvent être présentes :

In [None]:
s = pd.Series([1, None, -1, np.nan])
print(s)

In [None]:
## 0    1.0
## 1    NaN
## 2   -1.0
## 3    NaN
## dtype: float64

In [None]:
print(type(s))

In [None]:
## <class 'pandas.core.series.Series'>

Cela tient aussi pour les tableaux :

In [None]:
dico = {"height" : [58, 59, 60, 61, np.nan],
        "weight": [115, 117, 120, 123, 126],
        "age": [28, 33, 31, np.nan, 29],
        "taille": [162, 156, 172, 160, 158],
       }
df = pd.DataFrame(dico)
print(df)

In [None]:
##    height  weight   age  taille
## 0    58.0     115  28.0     162
## 1    59.0     117  33.0     156
## 2    60.0     120  31.0     172
## 3    61.0     123   NaN     160
## 4     NaN     126  29.0     158

On note toutefois que seule le type des variables pour lesquelles existent des valeurs manquantes sont passées en `float64` :

In [None]:
print(df.dtypes)

In [None]:
## height    float64
## weight      int64
## age       float64
## taille      int64
## dtype: object

Remarque

On note que les données sont enregistrées sur un type `float64`. Lorsqu'on travaille sur un tableau ne comportant pas de valeurs manquantes, dont le type est `int` ou `bool`, si on introduit une valeur manquante, `pandas` changera le type des données en `float64` et `object`, respectivement.



`pandas` propose différentes pour manipuler les valeurs manquantes.


### Repérer les valeurs manquantes

Avec la méthode `isnull()`, un masque de booléens est retournée, indiquant `True` pour les observations dont la valeur est `NaN` ou `None` :

In [None]:
print(s.isnull())

In [None]:
## 0    False
## 1     True
## 2    False
## 3     True
## dtype: bool

Pour savoir si une valeur n'est pas nulle, on dispose de la méthode `notnull()` :

In [None]:
print(s.notnull())

In [None]:
## 0     True
## 1    False
## 2     True
## 3    False
## dtype: bool

### Retirer les observations avec valeurs manquantes

La méthode `dropna()` permet quant à elle de retirer les observations disposant de valeurs nulles :

In [None]:
print(df.dropna())

In [None]:
##    height  weight   age  taille
## 0    58.0     115  28.0     162
## 1    59.0     117  33.0     156
## 2    60.0     120  31.0     172

### Retirer les valeurs manquantes par d'autres valeurs

Pour remplacer les valeurs manquantes par d'autres valeurs, `pandas` propose d'utiliser la méthode `fillna()` :

In [None]:
print(df.fillna(-9999))

In [None]:
##    height  weight     age  taille
## 0    58.0     115    28.0     162
## 1    59.0     117    33.0     156
## 2    60.0     120    31.0     172
## 3    61.0     123 -9999.0     160
## 4 -9999.0     126    29.0     158

## Suppressions

Pour supprimer une valeur sur un des axes d'une série ou d'un dataframe, `NumPy` propose la méthode `drop()`.


### Suppression d'éléments dans une série

Pour illustrer le fonctionnement de la méthode `drop()`, créons une série avec un index numérique, une autre avec un index textuel :

In [None]:
s_num = pd.Series([1, 4, -1, np.nan],
             index = [5, 0, 4, 1])
s_texte = pd.Series([1, 4, -1, np.nan],
             index = ["c", "a", "b", "d"])

On peut supprimer un élément d'une série en utilisant son nom :

In [None]:
print("pour s_num : \n", s_num.drop(5))

In [None]:
## pour s_num : 
##  0    4.0
## 4   -1.0
## 1    NaN
## dtype: float64

In [None]:
print("\npour s_texte : \n", s_texte.drop("c"))

In [None]:
## 
## pour s_texte : 
##  a    4.0
## b   -1.0
## d    NaN
## dtype: float64

On peut aussi aller récupérer le nom en fonction de la position, en passant par un détour en utilisant la méthode `index()` :

In [None]:
pritn(s.drop(s_num.index[0]))

In [None]:
## NameError: name 'pritn' is not defined
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>

In [None]:
print("s_num.index[0] : ", s_num.index[0])

In [None]:
## s_num.index[0] :  5

In [None]:
print("s_texte.index[0] : ", s_texte.index[0])

In [None]:
## s_texte.index[0] :  c

In [None]:
print("pour s_num : \n", s_num.drop(s_num.index[0]))

In [None]:
## pour s_num : 
##  0    4.0
## 4   -1.0
## 1    NaN
## dtype: float64

In [None]:
print("\npour s_texte : \n", s_texte.drop(s_texte.index[0]))

In [None]:
## 
## pour s_texte : 
##  a    4.0
## b   -1.0
## d    NaN
## dtype: float64

Pour supprimer plusieurs éléments, il suffit de fournir plusieurs noms d'indice dans une liste à la méthode `drop()` :

In [None]:
print("pour s_num : \n", s_num.drop([5, 4]))

In [None]:
## pour s_num : 
##  0    4.0
## 1    NaN
## dtype: float64

In [None]:
print("\npour s_texte : \n", s_texte.drop(["c", "b"]))

In [None]:
## 
## pour s_texte : 
##  a    4.0
## d    NaN
## dtype: float64

À nouveau, on peut aller récupérer le nom en fonction de la position, en passant par un détour en utilisant la méthode `index()` :

In [None]:
pritn(s.drop(s_num.index[0]))

In [None]:
## NameError: name 'pritn' is not defined
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>

In [None]:
print("s_num.index[[0,2]] : ", s_num.index[[0,2]])

In [None]:
## s_num.index[[0,2]] :  Int64Index([5, 4], dtype='int64')

In [None]:
print("s_texte.index[[0,2]] : ", s_texte.index[[0,2]])

In [None]:
## s_texte.index[[0,2]] :  Index(['c', 'b'], dtype='object')

In [None]:
print("pour s_num : \n", s_num.drop(s_num.index[[0,2]]))

In [None]:
## pour s_num : 
##  0    4.0
## 1    NaN
## dtype: float64

In [None]:
print("\npour s_texte : \n", s_texte.drop(s_texte.index[[0,2]]))

In [None]:
## 
## pour s_texte : 
##  a    4.0
## d    NaN
## dtype: float64

Il est possible d'utiliser un découpage également pour obtenir la série sans le ou les éléments (c.f. Section\ \@ref(decoupage-series))


### Suppression d'éléments dans un dataframe


Pour illustrer le fonctionnement de la méthode `drop()` sur un dataframe, créons-en un :

In [None]:
s_num = pd.Series([1, 4, -1, np.nan],
             index = [5, 0, 4, 1])
s_texte = pd.Series([1, 4, -1, np.nan],
             index = ["c", "a", "b", "d"])
dico = {"height" : [58, 59, 60, 61, np.nan],
        "weight": [115, 117, 120, 123, 126],
        "age": [28, 33, 31, np.nan, 29],
        "taille": [162, 156, 172, 160, 158],
       }
df = pd.DataFrame(dico)

#### Suppressions de lignes

Pour supprimer une ligne d'un dataframe, on peut faire référence à son nom (ici, les noms sont des numéros, mais ce sont bien des labels) :

In [None]:
print("Supprimer la première ligne :  \n", df.drop(0))

In [None]:
## Supprimer la première ligne :  
##     height  weight   age  taille
## 1    59.0     117  33.0     156
## 2    60.0     120  31.0     172
## 3    61.0     123   NaN     160
## 4     NaN     126  29.0     158

Si les lignes ont des labels textuels, on peut au préalable aller les récupérer à l'aide de la méthode `index()` :

In [None]:
label_pos_0 = df.index[0]
print("Supprimer la première ligne :  \n", df.drop(label_pos_0))

In [None]:
## Supprimer la première ligne :  
##     height  weight   age  taille
## 1    59.0     117  33.0     156
## 2    60.0     120  31.0     172
## 3    61.0     123   NaN     160
## 4     NaN     126  29.0     158

Pour supprimer plusieurs lignes, on donne le nom de ces lignes dans une liste à la méthode `drop()` :

In [None]:
print("Supprimer les 1ère et 4e lignes :  \n", df.drop([0,3]))

In [None]:
## Supprimer les 1ère et 4e lignes :  
##     height  weight   age  taille
## 1    59.0     117  33.0     156
## 2    60.0     120  31.0     172
## 4     NaN     126  29.0     158

Ou encore, en indiquant les positions des lignes :

In [None]:
label_pos = df.index[[0, 3]]
print("Supprimer les 1ère et 4e lignes :  \n", df.drop(label_pos))

In [None]:
## Supprimer les 1ère et 4e lignes :  
##     height  weight   age  taille
## 1    59.0     117  33.0     156
## 2    60.0     120  31.0     172
## 4     NaN     126  29.0     158

Il est possible d'utiliser un découpage également pour obtenir la série sans le ou les éléments (c.f. Sections\ \@ref(decoupage-df-lignes) et \@ref(decoupage-df-colonnes))


#### Suppressions de colonnes


Pour supprimer une colonne d'un dataframe, on procède de la même manière que pour les lignes, mais en ajoutant le paramètre `axis=1` à la méthode `drop()` pour préciser que l'on s'intéresse aux colonnes :

In [None]:
print("Supprimer la première colonne :  \n", df.drop("height", axis=1))

In [None]:
## Supprimer la première colonne :  
##     weight   age  taille
## 0     115  28.0     162
## 1     117  33.0     156
## 2     120  31.0     172
## 3     123   NaN     160
## 4     126  29.0     158

On peut au préalable aller récupérer les labels des colonnes en fonction de leur position à l'aide de la méthode `columns()` :

In [None]:
label_pos = df.columns[0]
print("label_pos : ", label_pos)

In [None]:
## label_pos :  height

In [None]:
print("Supprimer la première colonne :  \n", df.drop(label_pos, axis=1))

In [None]:
## Supprimer la première colonne :  
##     weight   age  taille
## 0     115  28.0     162
## 1     117  33.0     156
## 2     120  31.0     172
## 3     123   NaN     160
## 4     126  29.0     158

Pour supprimer plusieurs colonnes, on donne le nom de ces colonnes dans une liste à la méthode `drop()` :

In [None]:
print("Supprimer les 1ère et 4e colonnes :  \n", df.drop(["height", "taille"], axis = 1))

In [None]:
## Supprimer les 1ère et 4e colonnes :  
##     weight   age
## 0     115  28.0
## 1     117  33.0
## 2     120  31.0
## 3     123   NaN
## 4     126  29.0

Ou encore, en indiquant les positions des colonnes :

In [None]:
label_pos = df.columns[[0, 3]]
print("Supprimer les 1ère et 4e colonnes :  \n", df.drop(label_pos, axis=1))

In [None]:
## Supprimer les 1ère et 4e colonnes :  
##     weight   age
## 0     115  28.0
## 1     117  33.0
## 2     120  31.0
## 3     123   NaN
## 4     126  29.0

Il est possible d'utiliser un découpage également pour obtenir la série sans le ou les éléments (c.f. Sections\ \@ref(decoupage-df-lignes) et \@ref(decoupage-df-colonnes))


## Remplacement de valeurs

Nous allons à présent regarder comment modifier une ou plusieurs valeurs, dans le cas d'une série puis d'un dataframe.

### Pour une série

Pour modifier une valeur particulière dans une série ou dans un dataframe, on peut utiliser le symbole égale (`=`) en ayant au préalable ciblé l'emplacement de la valeur à modifier, à l'aide des techniques d'extraction expliquées dans la Section\ \@ref(pandas-selection).

Par exemple, considérons la série suivante :

In [None]:
s_num = pd.Series([1, 4, -1, np.nan],
             index = [5, 0, 4, 1])
print("s_num : ", s_num)

In [None]:
## s_num :  5    1.0
## 0    4.0
## 4   -1.0
## 1    NaN
## dtype: float64

Modifions le deuxième élément élément de `s_num`, pour lui donner la valeur -3 :

In [None]:
s_num.iloc[1] = -3
print("s_num : ", s_num)

In [None]:
## s_num :  5    1.0
## 0   -3.0
## 4   -1.0
## 1    NaN
## dtype: float64

Il est évidemment possible de modifier plusieurs valeurs à la fois.

Il suffit à nouveau de cibler les positions (on peu utiliser de nombreuses manières de le faire) et de fournir un objet de dimensions équivalentes pour venir remplacer les valeurs ciblées. Par exemple, dans notre série `s_num`, allons remplacer les valeurs en position 1 et 3 (2e et 4e valeurs) par -10 et -9 :

In [None]:
s_num.iloc[[1,3]] = [-10, -9]
print(s_num)

In [None]:
## 5     1.0
## 0   -10.0
## 4    -1.0
## 1    -9.0
## dtype: float64

### Pour un dataframe

Considérons le dataframe suivant :

In [None]:
dico = {"ville" : ["Marseille", "Aix",
                   "Marseille", "Aix", "Paris", "Paris"],
        "annee": [2019, 2019, 2018, 2018,2019, 2019],
        "x": [1, 2, 2, 2, 0, 0],
        "y": [3, 3, 2, 1, 4, 4],
       }
df = pd.DataFrame(dico)
print("df : \n", df)

In [None]:
## df : 
##         ville  annee  x  y
## 0  Marseille   2019  1  3
## 1        Aix   2019  2  3
## 2  Marseille   2018  2  2
## 3        Aix   2018  2  1
## 4      Paris   2019  0  4
## 5      Paris   2019  0  4

#### Modifications d'une valeur particulière

Modifions la valeur de la première ligne de `df` pour la colonne `annee`, pour que celle-ci vaille 2020. Dans un premier temps, récupérons la position de la colonne `annee` dans le dataframe, à l'aide de la méthode `get_loc()` appliquée à l'attribut `colnames` du dataframe :

In [None]:
pos_annee = df.columns.get_loc("annee")
print("pos_annee : ", pos_annee)

In [None]:
## pos_annee :  1

Ensuite, effectuons la modification :

In [None]:
df.iloc[0,pos_annee] = 2020
print("df : \n", df)

In [None]:
## df : 
##         ville  annee  x  y
## 0  Marseille   2020  1  3
## 1        Aix   2019  2  3
## 2  Marseille   2018  2  2
## 3        Aix   2018  2  1
## 4      Paris   2019  0  4
## 5      Paris   2019  0  4

#### Modifications sur une ou plusieurs colonnes

Pour modifier toutes les valeurs d'une colonne pour y placer une valeur particulière, par exemple un 2 dans la colonne `x` de `df` :

In [None]:
df.x = 2
print("df : \n", df)

In [None]:
## df : 
##         ville  annee  x  y
## 0  Marseille   2020  2  3
## 1        Aix   2019  2  3
## 2  Marseille   2018  2  2
## 3        Aix   2018  2  1
## 4      Paris   2019  2  4
## 5      Paris   2019  2  4

On peut également modifier les valeurs de la colonne en fournissant une liste de valeurs :

In [None]:
df.x = [2, 3, 4, 2, 1, 0]
print("df : \n", df)

In [None]:
## df : 
##         ville  annee  x  y
## 0  Marseille   2020  2  3
## 1        Aix   2019  3  3
## 2  Marseille   2018  4  2
## 3        Aix   2018  2  1
## 4      Paris   2019  1  4
## 5      Paris   2019  0  4

On peut donc  imaginer modifier les valeurs d'une colonne en fonction des valeurs que l'on lit dans une autre colonne. Par exemple, admettons le code suivant : si la valeur de `y` vaut 2, alors celle de x vaut "a", si la valeur de `y` vaut 1, lors celle de `x` vaut "b", sinon, elle vaut `NaN`. Dans un premier temps, construisons une liste contenant les valeurs à insérer (que nous nommerons `nv_val`), à l'aide d'une boucle. Nous allons parcourir tous les éléments de la colonne `y`, et à chaque itération ajouter à `nv_val` la valeur obtenue en effectuant nos comparaisons :

In [None]:
nv_val = []
for i in np.arange(len(df.index)):
        if df.y[i] == 2:
            nv_val.append("a")
        elif df.y[i] == 1:
            nv_val.append("b")
        else:
            nv_val.append(np.nan)
print("nv_val : ", nv_val)

In [None]:
## nv_val :  [nan, nan, 'a', 'b', nan, nan]

Nous sommes prêts à modifier le contenu de la colonne `x` de `df` pour le remplacer par `nv_val` :

In [None]:
df.x = nv_val
print("df : \n", df)

In [None]:
## df : 
##         ville  annee    x  y
## 0  Marseille   2020  NaN  3
## 1        Aix   2019  NaN  3
## 2  Marseille   2018    a  2
## 3        Aix   2018    b  1
## 4      Paris   2019  NaN  4
## 5      Paris   2019  NaN  4

Pour remplacer plusieurs colonnes en même temps :

In [None]:
df[["x", "y"]] = [[2, 3, 4, 2, 1, 0], 1]
print("df : \n", df)

In [None]:
## df : 
##         ville  annee  x  y
## 0  Marseille   2020  2  1
## 1        Aix   2019  3  1
## 2  Marseille   2018  4  1
## 3        Aix   2018  2  1
## 4      Paris   2019  1  1
## 5      Paris   2019  0  1

Dans l'instruction précédente, nous avons remplacé le contenu des colonnes `x` et `y` par une vecteur de valeurs écrites à la main pour `x` et par la valeur 1 pour toutes les observations pour `y`.



#### Modifications sur une ou plusieurs lignes


Pour remplacer une ligne par une valeur constante (peu d'intérêt ici) :

In [None]:
df.iloc[1,:] = 1
print("df : \n", df)

In [None]:
## df : 
##         ville  annee  x  y
## 0  Marseille   2020  2  1
## 1          1      1  1  1
## 2  Marseille   2018  4  1
## 3        Aix   2018  2  1
## 4      Paris   2019  1  1
## 5      Paris   2019  0  1

Il peut être plus intéressant de remplacer une observation comme suit :

In [None]:
df.iloc[1,:] = ["Aix", 2018, 1, 2, 3]

In [None]:
## ValueError: Must have equal len keys and value when setting with an iterable
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/indexing.py", line 189, in __setitem__
##     self._setitem_with_indexer(indexer, value)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/indexing.py", line 606, in _setitem_with_indexer
##     raise ValueError('Must have equal len keys and value '

In [None]:
print("df : \n", df)

In [None]:
## df : 
##         ville  annee  x  y
## 0  Marseille   2020  2  1
## 1          1      1  1  1
## 2  Marseille   2018  4  1
## 3        Aix   2018  2  1
## 4      Paris   2019  1  1
## 5      Paris   2019  0  1

Pour remplacer plusieurs lignes, la méthode est identique :

In [None]:
df.iloc[[1,3],:] = [
    ["Aix", 2018, 1, 2, 3],
    ["Aix", 2018, -1, -1, -1]
]

In [None]:
## ValueError: Must have equal len keys and value when setting with an ndarray
## 
## Detailed traceback: 
##   File "<string>", line 3, in <module>
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/indexing.py", line 189, in __setitem__
##     self._setitem_with_indexer(indexer, value)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/indexing.py", line 590, in _setitem_with_indexer
##     raise ValueError('Must have equal len keys and value '

In [None]:
print("df : \n", df)

In [None]:
## df : 
##         ville  annee  x  y
## 0  Marseille   2020  2  1
## 1          1      1  1  1
## 2  Marseille   2018  4  1
## 3        Aix   2018  2  1
## 4      Paris   2019  1  1
## 5      Paris   2019  0  1

## Ajout de valeurs {#pandas-ajout-valeurs}

Regardons à présent comment ajouter des valeurs, dans une série d'abord, puis dans un dataframe.

### Pour une série

Considérons la série suivante :

In [None]:
s_num = pd.Series([1, 4, -1, np.nan],
             index = [5, 0, 4, 1])
print("s_num : ", s_num)

In [None]:
## s_num :  5    1.0
## 0    4.0
## 4   -1.0
## 1    NaN
## dtype: float64

#### Ajout d'une seule valeur dans une série


Pour ajouter une valeur, on utlise la méthode `append()`. Ici, avec `s_num`, comme l'index est manuel, nous sommes obligé de fournir une série avec une valeur pour l'index également :

In [None]:
s_num_2 = pd.Series([1], index = [2])
print("s_num_2 : \n", s_num_2)

In [None]:
## s_num_2 : 
##  2    1
## dtype: int64

In [None]:
s_num = s_num.append(s_num_2)
print("s_num : \n", s_num)

In [None]:
## s_num : 
##  5    1.0
## 0    4.0
## 4   -1.0
## 1    NaN
## 2    1.0
## dtype: float64

On note que la méthode `append()` retourne une vue, et que pour répercuter l'ajout, il est nécessaire d'effectuer une nouvelle assignation.


En ayant une série avec un index numérique généré automatiquement, on peut préciser la valeur `True` pour le paramètre `ignore_index` de la méthode `append()` pour indiquer de ne pas tenir compte de la valeur de l'index de l'objet que l'on ajoute :

In [None]:
s = pd.Series([10, 2, 4])
s = s.append(pd.Series([2]), ignore_index=True)
print("s : \n", s)

In [None]:
## s : 
##  0    10
## 1     2
## 2     4
## 3     2
## dtype: int64

#### Ajout de plusieurs valeurs dans une série

Pour ajouter plusieurs valeurs, on utlise la méthode `append()`. Ici, avec `s_num`, comme l'index est manuel, nous sommes obligé de fournir une série avec une valeur pour l'index également :

In [None]:
s_num_2 = pd.Series([1], index = [2])
s_num.append(s_num_2)
print("s_num : ", s_num)

In [None]:
## s_num :  5    1.0
## 0    4.0
## 4   -1.0
## 1    NaN
## 2    1.0
## dtype: float64

En ayant une série avec un index numérique généré automatiquement :

In [None]:
s = pd.Series([10, 2, 4])
s.append(pd.Series([2]), ignore_index=True)

### Pour un dataframe

Reprenons notre dataframe :

In [None]:
dico = {"ville" : ["Marseille", "Aix",
                   "Marseille", "Aix", "Paris", "Paris"],
        "annee": [2019, 2019, 2018, 2018,2019, 2019],
        "x": [1, 2, 2, 2, 0, 0],
        "y": [3, 3, 2, 1, 4, 4],
       }
df = pd.DataFrame(dico)
print("df : \n", df)

In [None]:
## df : 
##         ville  annee  x  y
## 0  Marseille   2019  1  3
## 1        Aix   2019  2  3
## 2  Marseille   2018  2  2
## 3        Aix   2018  2  1
## 4      Paris   2019  0  4
## 5      Paris   2019  0  4

#### Ajout d'une ligne dans un dataframe {#pandas-ajout-ligne-df}

Comme pour une série, pour ajouter une ligne, on utlise la méthode `append()`. Dans un premier temps, créons un nouveau dataframe avec la ligne à ajouter :

In [None]:
nv_ligne = pd.DataFrame([["Marseille", "2021", 2, 4]],
                       columns = df.columns)
print("nv_ligne : \n", nv_ligne)

In [None]:
## nv_ligne : 
##         ville annee  x  y
## 0  Marseille  2021  2  4

On s'est assuré d'avoir le même nom de colonnes ici, en indiquant au paramètre `columns` de la méthode `pd.DataFrame` le nom des colonnes de `df`, c'est-à-dire `df.columns`.

Ajoutons la nouvelle ligne à `df` :

In [None]:
df = df.append(nv_ligne, ignore_index=True)

À nouveau,la méthode `append()` appliquée à un dataframe, retourne une vue et n'affecte pas l'objet.


On peut noter que lors de l'ajout d'une ligne, si le nom des colonnes n'est pas indiqué dans le même ordre que dans le dataframe dans lequel est effectué l'ajout, il faut rajouter une indication au paramètre `sort` de la méthode `append()` :

- si `sort=True`, l'ordre des colonnes de la ligne ajoutée sera appliqué au dataframe de destination ;
- si `sort=False`, l'odre des colonnes du dataframe de destination ne sera pas modifié.

In [None]:
nv_ligne = pd.DataFrame([["2021", "Marseille", 2, 4]],
                       columns = ["annee", "ville", "x", "y"])
print("nv_ligne : \n", nv_ligne)

In [None]:
## nv_ligne : 
##    annee      ville  x  y
## 0  2021  Marseille  2  4

In [None]:
print("avec sort=True : \n",
  df.append(nv_ligne, ignore_index=True, sort = True))

In [None]:
## avec sort=True : 
##    annee      ville  x  y
## 0  2019  Marseille  1  3
## 1  2019        Aix  2  3
## 2  2018  Marseille  2  2
## 3  2018        Aix  2  1
## 4  2019      Paris  0  4
## 5  2019      Paris  0  4
## 6  2021  Marseille  2  4
## 7  2021  Marseille  2  4

#### Ajout de plusieurs lignes dans un dataframe

Pour ajouter plusieurs lignes, c'est exactement le même principe qu'avec une seule, il suffit juste d'ajouter un dataframe de plusieurs lignes, avec encore une fois les mêmes noms.

Les lignes à insérer :

In [None]:
nv_lignes = pd.DataFrame([
    ["Marseille", "2022", 2, 4],
    ["Aix", "2022", 3, 3]],
    columns = df.columns)
print("nv_ligne : \n", nv_lignes)

In [None]:
## nv_ligne : 
##         ville annee  x  y
## 0  Marseille  2022  2  4
## 1        Aix  2022  3  3

Puis l'insertion :

In [None]:
df = df.append(nv_lignes, ignore_index=True)

#### Ajout d'une colonne dans un dataframe

Pour ajouter une colonne dans un dataframe, on utilise la méthode `assign()`, en indiquant le nom et les valeurs.

In [None]:
from numpy import random
df = df.assign(z = random.rand(len(df.index)))
print("df : \n", df)

In [None]:
## df : 
##         ville annee  x  y         z
## 0  Marseille  2019  1  3  0.031246
## 1        Aix  2019  2  3  0.850069
## 2  Marseille  2018  2  2  0.772513
## 3        Aix  2018  2  1  0.772964
## 4      Paris  2019  0  4  0.823019
## 5      Paris  2019  0  4  0.505914
## 6  Marseille  2021  2  4  0.795789
## 7  Marseille  2022  2  4  0.965597
## 8        Aix  2022  3  3  0.570067

#### Ajout de plusieurs colonnes dans un dataframe

Pour ajouter plusieurs colonnes, le même principe s'applique :

In [None]:
df = df.assign(a = random.rand(len(df.index)),
          b = random.rand(len(df.index)))
print("df : \n", df)

In [None]:
## df : 
##         ville annee  x  y         z         a         b
## 0  Marseille  2019  1  3  0.031246  0.483742  0.862877
## 1        Aix  2019  2  3  0.850069  0.227201  0.784325
## 2  Marseille  2018  2  2  0.772513  0.644586  0.698261
## 3        Aix  2018  2  1  0.772964  0.929557  0.548058
## 4      Paris  2019  0  4  0.823019  0.981020  0.086862
## 5      Paris  2019  0  4  0.505914  0.449373  0.264962
## 6  Marseille  2021  2  4  0.795789  0.838224  0.228424
## 7  Marseille  2022  2  4  0.965597  0.665365  0.637504
## 8        Aix  2022  3  3  0.570067  0.286336  0.130732

## Retrait des valeurs dupliquées


Pour retirer les valeurs dupliquées dans un dataframe, `NumPy` propose la méthode `drop_duplicates()`, qui prend plusieurs paramètres optionnels :

- `subset` : en indiquant un ou plusieurs noms de colonnes, la recherche de doublons se fait uniquement sur ces colonnes ;
- `keep` : permet d'indiquer quelle observation garder en cas de doublons identifies :

  - si `keep='first'`, tous les doublons sont retirés sauf la première occurrence,
  - si `keep='last'`, tous les doublons sont retirés sauf la dernière occurrence,
  -si `keep='False'`, tous les doublons sont retirés ;

- `inplace` : booléen (défaut : `False`) pour indiquer si le retrait des doublons doit s'effectuer sur le dataframe ou bien si une copie doit être retournée (par défaut).


Donnons quelques exemples à l'aide de ce dataframe qui compose deux doublons quand on considère sa totalité. Si on se concentre uniquement sur les années ou les villes, ou les deux, d'autres doublons peuvent être identifiés.

In [None]:
dico = {"ville" : ["Marseille", "Aix",
                   "Marseille", "Aix", "Paris", "Paris"],
        "annee": [2019, 2019, 2018, 2018,2019, 2019],
        "x": [1, 2, 2, 2, 0, 0],
        "y": [3, 3, 2, 1, 4, 4],
       }
df = pd.DataFrame(dico)
print(df)

In [None]:
##        ville  annee  x  y
## 0  Marseille   2019  1  3
## 1        Aix   2019  2  3
## 2  Marseille   2018  2  2
## 3        Aix   2018  2  1
## 4      Paris   2019  0  4
## 5      Paris   2019  0  4

Pour retirer les doublons :

In [None]:
print(df.drop_duplicates())

In [None]:
##        ville  annee  x  y
## 0  Marseille   2019  1  3
## 1        Aix   2019  2  3
## 2  Marseille   2018  2  2
## 3        Aix   2018  2  1
## 4      Paris   2019  0  4

Retirer les doublons en gardant la dernière valeur des doublons identifiés :

In [None]:
df.drop_duplicates(keep='last')

Pour retirer les doublons identifiés quand on se concentre sur le nom des villes, et en conservant uniquement la première valeur :

In [None]:
print(df.drop_duplicates(subset = ["ville"], keep = 'first'))

In [None]:
##        ville  annee  x  y
## 0  Marseille   2019  1  3
## 1        Aix   2019  2  3
## 4      Paris   2019  0  4

Idem mais en se concentrant sur les couples (ville, annee)

In [None]:
print(df.drop_duplicates(subset = ["ville", "annee"], keep = 'first'))

In [None]:
##        ville  annee  x  y
## 0  Marseille   2019  1  3
## 1        Aix   2019  2  3
## 2  Marseille   2018  2  2
## 3        Aix   2018  2  1
## 4      Paris   2019  0  4

On note que le dataframe original n'a pas été impacté, puisque nous n'avons pas touché au paramètre `inplace`. Si à présent, nous demandons à ce que les changement soient opérés sur le dataframe plutôt que de récupérer une copie :

In [None]:
df.drop_duplicates(subset = ["ville", "annee"], keep = 'first', inplace = True)
print(df)

In [None]:
##        ville  annee  x  y
## 0  Marseille   2019  1  3
## 1        Aix   2019  2  3
## 2  Marseille   2018  2  2
## 3        Aix   2018  2  1
## 4      Paris   2019  0  4

Pour savoir si une valeur est dupliquée dans un dataframe, `NumPy` propose la méthode `duplicated()`, qui retourne un masque indiquant pour chaque observation, si elle est dupliquée ou non. Son fonctionnement est similaire à `df.drop_duplicates()`, hormis pour le paramètre `inplace` qui n'est pas présent.

In [None]:
print(df.duplicated(subset = ["ville"], keep = 'first'))

In [None]:
## 0    False
## 1    False
## 2     True
## 3     True
## 4    False
## dtype: bool

On peut utiliser la méthode `any()` par la suite pour savoir s'il existe des doublons :

In [None]:
print(df.duplicated(subset = ["ville"], keep = 'first').any())

In [None]:
## True

## Opérations

Il est souvent nécessaire de devoir effectuer des opérations sur les colonnes d'un dataframe, notamment lorsqu'il s'agit de créer une nouvelle variable.

En reprenant les principes de modification de colonnes (c.f. Section\ \@ref(#pandas-ajout-valeurs)), on imagine assez facilement qu'il est possible d'appliquer les fonctions et méthodes de `NumPy` (c.f. Section\ \@ref(numpy-tableaux)) sur les valeurs des colonnes.

Par exemple, considérons le dataframe suivant :

In [None]:
dico = {"height" :
               [58, 59, 60, 61, 62,
                63, 64, 65, 66, 67,
                68, 69, 70, 71, 72],
        "weight":
               [115, 117, 120, 123, 126,
                129, 132, 135, 139, 142,
                146, 150, 154, 159, 164]
       }
df = pd.DataFrame(dico)
print(df)

In [None]:
##     height  weight
## 0       58     115
## 1       59     117
## 2       60     120
## 3       61     123
## 4       62     126
## 5       63     129
## 6       64     132
## 7       65     135
## 8       66     139
## 9       67     142
## 10      68     146
## 11      69     150
## 12      70     154
## 13      71     159
## 14      72     164

Ajoutons la colonne `height_2`, élevant les valeurs de la colonne `height` au carré :

In [None]:
df = df.assign(height_2 = df.height**2)
print(df.head(3))

In [None]:
##    height  weight  height_2
## 0      58     115      3364
## 1      59     117      3481
## 2      60     120      3600

À présent, ajoutons la colonne `imc`, fournissant les valeurs de l'indicateur de masse corporelle pour les individus du dataframe ($\text{IMC} = \frac{\text{weight}}{\text{height}^2}$) :

In [None]:
df = df.assign(imc = df.weight / df.height_2)
print(df.head(3))

In [None]:
##    height  weight  height_2       imc
## 0      58     115      3364  0.034185
## 1      59     117      3481  0.033611
## 2      60     120      3600  0.033333

### Statistiques {pandas-statistiques-df}

`pandas` propose quelques méthodes pour effectuer des statistiques descriptives pour chaque colonne ou par ligne. Pour cela, la syntaxe est la suivante (tous les paramètres ont une valeur par défaut, la liste est simplifiée ici) :

In [None]:
dataframe.fonction_stat(axis, skipna)

- `axis` : 0 pour les lignes, 1 pour les colonnes ;
- `skipna` : si `True`, exclue les valeurs manquantes pour effectuer les calculs.

Parmi les méthodes disponibles :
- `mean()` : moyenne ;
- `mode()` : mode ;
- `median()` : médiane ;
- `std()` : écart-type ;
- `min()` : minimum ;
- `max()` : maximum
- `mad()` : écart absolu à la moyenne ;
- `sum()` : somme des valeurs ;
- `prod()` : produit de tous les éléments ;
- `count()` : comptage du nombre d'éléments.


Par exemple, pour calculer la moyenne des valeurs pour chaque colonne :

In [None]:
dico = {"height" : [58, 59, 60, 61, 62],
        "weight": [115, 117, 120, 123, 126],
        "age": [28, 33, 31, 31, 29],
        "taille": [162, 156, 172, 160, 158],
        "married": [True, True, False, False, True],
        "city": ["A", "B", "B", "B", "A"]
       }
df = pd.DataFrame(dico)
print(df.mean())

In [None]:
## height      60.0
## weight     120.2
## age         30.4
## taille     161.6
## married      0.6
## dtype: float64

Si on le souhaite, on peut faire la moyenne des valeurs en colonne (sans aucun sens ici) :

In [None]:
print(df.mean(axis=1))

In [None]:
## 0    72.8
## 1    73.2
## 2    76.6
## 3    75.0
## 4    75.2
## dtype: float64

Ces fonctions peuvent s'appliquer sur une seule colonne. Par exemple, pour afficher la valeur minimum :

In [None]:
print("min : ", df.height.min())

In [None]:
## min :  58

Il est aussi utile de pouvoir obtenir la position des valeurs min et max ; ce qu'on peut obtenir avec les méthodes `idxmin()` et `idxmax()`, respectivement.

In [None]:
print("pos min : ", df.height.idxmin())

In [None]:
## pos min :  0

In [None]:
print("pos min : ", df.height.idxmax())

In [None]:
## pos min :  4

Une méthode très pratique est `describe()`, elle permet de retourner des statistiques descriptives sur l'ensemble des colonnes numériques :

In [None]:
print(df.describe())

In [None]:
##           height      weight        age      taille
## count   5.000000    5.000000   5.000000    5.000000
## mean   60.000000  120.200000  30.400000  161.600000
## std     1.581139    4.438468   1.949359    6.228965
## min    58.000000  115.000000  28.000000  156.000000
## 25%    59.000000  117.000000  29.000000  158.000000
## 50%    60.000000  120.000000  31.000000  160.000000
## 75%    61.000000  123.000000  31.000000  162.000000
## max    62.000000  126.000000  33.000000  172.000000

## Tri

Il est aisé de trier un dataframe par ordre croissant ou décroissant d'une ou plusieurs de ses colonnes. Pour ce faire, on utilise la méthode `sort_values()`. La syntaxe est la suivante :

In [None]:
DataFrame.sort_values(by, axis=0, ascending=True,
                      inplace=False, kind="quicksort",
                      na_position="last")

In [None]:
## NameError: name 'DataFrame' is not defined
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>

- `by` : nom ou liste de nom de la ou les colonnes utilisées pour effectuer le tri ;
- `axis` : `0` pour l'index (par défaut), `1` pour les colonnes
- `ascending` : booléen ou liste de booléens, quand `True` le tri est fait par valeurs croissantes (par défaut), quand `False` il est effectué par valeurs décroissantes
- `inplace` : si `True`, le tri affecte le dataframe, sinon il retourne une vue ;
- `kind` : choix de l'algorithme de tri (`quicksort` (par défaut), `mergesort`, `heapsort`) ;
- `na_position` : si `first`, les valeurs manquantes sont placées au début ; si `last` (par défaut), à la fin.


Donnons quelques exemples :

In [None]:
dico = {"height" : [58, 59, 60, 61, 62],
        "weight": [115, np.nan, 120, 123, 126],
        "age": [28, 33, 31, 31, 29],
        "taille": [162, 156, 172, 160, 158],
        "married": [True, True, np.nan, False, True],
        "city": ["A", "B", "B", "B", "A"]
       }
df = pd.DataFrame(dico)

Si on trie les valeurs par ordre décroissant des valeurs de la colonne `height` :

In [None]:
df.sort_values(by="height", ascending=False)

Pour effectuer un tri par ordre croissant des valeurs de `married` (rappel, `True` est interprété comme 1 et `False` comme 0), puis décoissant de `weight`, en plaçant les valeurs `NaN` en premier :

In [None]:
df.sort_values(by=["married", "weight"],
               ascending=[True, False],
               na_position="first")

On note que les valeurs `NaN` sont remontées en avant pour les sous-groupes composés en fonction des valeurs de `married`.


## Concaténation

Il est fréquent d'avoir des données en provenance de plusieurs sources lorsque l'on réalise une analyse. Il est alors nécessaire de pouvoir combiner les différentes sources dans une seule. Dans cette section, nous allons nous contenter de concaténer différents dataframes entre-eux, dans des cas simples dans lesquels on sait *a priori* qu'il suffit de coller deux dataframes côte-à-côte ou l'un en-dessous de l'aure. Le cas des jointures un peu plus élaborées avec appariement en fonction d'une ou plusieurs colonnes est abordé dans la Section\ \@ref(pandas-jointures).


Dans un premier temps, créons deux dataframes avec le même nombre de lignes :

In [None]:
x_1 = pd.DataFrame(np.random.randn(5, 4),
                   columns=["a", "b", "c", "d"])
x_2 = pd.DataFrame(np.random.randn(5, 2),
                   columns = ["e", "f"])
print("x_1 : \n", x_1)

In [None]:
## x_1 : 
##            a         b         c         d
## 0 -0.934151  0.199081  2.228332  1.017562
## 1  0.122852 -0.508954 -0.990649 -1.317584
## 2 -0.587927  1.143379 -0.727581  0.550802
## 3  0.465462 -0.801028 -0.330786 -0.356580
## 4  1.984981 -0.298151  1.622325 -1.091701

In [None]:
print("\nx_2 : \n", x_2)

In [None]:
## 
## x_2 : 
##            e         f
## 0 -0.399488  0.093400
## 1 -0.118235 -0.000539
## 2 -1.324270 -1.896939
## 3 -1.702150 -0.458594
## 4 -1.893025  0.104179

Pour "coller" le dataframe `x_2` à droite de `x_1`, on peut utiliser la méthode `concat()` de `pandas`. Pour indiquer que la concaténation s'effectue sur les colonnes, on précise la valeur `1` pour le paramètre `axix` comme suit :

In [None]:
print(pd.concat([x_1, x_2], axis = 1))

In [None]:
##           a         b         c         d         e         f
## 0 -0.934151  0.199081  2.228332  1.017562 -0.399488  0.093400
## 1  0.122852 -0.508954 -0.990649 -1.317584 -0.118235 -0.000539
## 2 -0.587927  1.143379 -0.727581  0.550802 -1.324270 -1.896939
## 3  0.465462 -0.801028 -0.330786 -0.356580 -1.702150 -0.458594
## 4  1.984981 -0.298151  1.622325 -1.091701 -1.893025  0.104179

Pour coller les dataframes les uns en-dessous des autres, on peut utiliser la méthode `append()`, comme indiqué dans la Section\ \@ref(pandas-ajout-ligne-df), ou on peut aussi utiliser la méthode `concat()`.

In [None]:
x_3 = pd.DataFrame(np.random.randn(5, 2),
                   columns = ["e", "f"])
print("x_3 : \n", x_3)

In [None]:
## x_3 : 
##            e         f
## 0  0.516207 -0.189252
## 1  1.600819  1.375482
## 2 -0.053003 -0.866226
## 3 -0.121132 -0.923849
## 4 -1.000382 -0.192948

Rajoutons les observations de `x_3` en-dessous de celles de `x_2` :

In [None]:
print(pd.concat([x_2, x_3], axis = 0))

In [None]:
##           e         f
## 0 -0.399488  0.093400
## 1 -0.118235 -0.000539
## 2 -1.324270 -1.896939
## 3 -1.702150 -0.458594
## 4 -1.893025  0.104179
## 0  0.516207 -0.189252
## 1  1.600819  1.375482
## 2 -0.053003 -0.866226
## 3 -0.121132 -0.923849
## 4 -1.000382 -0.192948

Comme on peut le voir, l'indice des lignes de `x_2` n'a pas été modifié. Si on souhaite qu'il le soit, on peut le préciser via le paramètre `ignore_index` :

In [None]:
print(pd.concat([x_2, x_3], axis = 0, ignore_index=True))

In [None]:
##           e         f
## 0 -0.399488  0.093400
## 1 -0.118235 -0.000539
## 2 -1.324270 -1.896939
## 3 -1.702150 -0.458594
## 4 -1.893025  0.104179
## 5  0.516207 -0.189252
## 6  1.600819  1.375482
## 7 -0.053003 -0.866226
## 8 -0.121132 -0.923849
## 9 -1.000382 -0.192948

Si le nom des colonnes n'est pas ientique, des valeurs `NaN` seront introduites :

In [None]:
x_4 = pd.DataFrame(np.random.randn(5, 2),
                   columns = ["e", "g"])
print("x_4 : \n", x_4)

In [None]:
## x_4 : 
##            e         g
## 0  0.625343 -1.140830
## 1  0.629732  1.321686
## 2  0.455775  2.474280
## 3  0.125557  1.111580
## 4  1.314148  0.989392

In [None]:
pd.concat([x_2, x_4], axis = 0, sort=False, ignore_index=True)

## Jointures {#pandas-jointures}

Il est plus fréquent d'avoir recours à des jointures un peu plus élaborées pour rassembler les différentes sources de données en une seule. `pandas` offre un moyen performant pour rassembler les données, la fonction `merge()`.


Pour illustrer les différentes jointures de cette section, créons quelques dataframes :

In [None]:
exportations_fr = pd.DataFrame(
    {"country" : "France",
     "year" : np.arange(2014, 2017),
     "exportations" : [816.8192172, 851.6632573, 867.4014253]
    })
importations_fr = pd.DataFrame(
    {"country" : "France",
     "year" : np.arange(2015, 2018),
     "importations" : [898.5242962, 936.3691166, 973.8762149]
    })
exportations_us = pd.DataFrame(
    {"country" : "USA",
     "year" : np.arange(2014, 2017),
     "exportations" : [2208.678084, 2217.733347, 2210.442218]
    })
importations_us = pd.DataFrame(
    {"country" : "USA",
     "year" : np.arange(2015, 2018),
     "importations" : [2827.336251, 2863.264745, np.nan]
    })
importations_maroc = pd.DataFrame(
    {"pays" : "Maroc",
     "annee" : np.arange(2015, 2018),
     "importations" : [46.39884177, 53.52375588, 56.68165748]
    })
exportations_maroc = pd.DataFrame(
    {"country" : "Maroc",
     "year" : np.arange(2014, 2017),
     "exportations" : [35.50207915, 37.45996653, 39.38228396]
    })
exportations = pd.concat([exportations_fr, exportations_us], ignore_index=True)
importations = pd.concat([importations_fr, importations_us], ignore_index=True)
print("exportations : \n", exportations)

In [None]:
## exportations : 
##    country  year  exportations
## 0  France  2014    816.819217
## 1  France  2015    851.663257
## 2  France  2016    867.401425
## 3     USA  2014   2208.678084
## 4     USA  2015   2217.733347
## 5     USA  2016   2210.442218

In [None]:
print("\nimportations : \n", importations)

In [None]:
## 
## importations : 
##    country  year  importations
## 0  France  2015    898.524296
## 1  France  2016    936.369117
## 2  France  2017    973.876215
## 3     USA  2015   2827.336251
## 4     USA  2016   2863.264745
## 5     USA  2017           NaN

La fonction `merge()` de `pandas` nécessite de préciser la table de gauche (que l'on appellera ici `x`) via le paramètre `left` sur qui viendra s'effectuer la jointure de la table de droite (que l'on appellera ici `y`) via le paramètre `right`.

Par défaut, la fonction `merge()` réalise une jointure de type `inner`, c'est-à-dire que toutes les toutes les lignes de `x` qui trouvent une correspondance dans `y`, et toutes les colonnes de `x` et `y` seront dans le résultat de la jointure :

In [None]:
print(pd.merge(left = importations, right = exportations))

In [None]:
##   country  year  importations  exportations
## 0  France  2015    898.524296    851.663257
## 1  France  2016    936.369117    867.401425
## 2     USA  2015   2827.336251   2217.733347
## 3     USA  2016   2863.264745   2210.442218

Si on désire changer le type de jointure, on peut modifier la valeur du paramètre `how` de la fonction `merge()`, pour lui donner une des valeurs suivantes :

- `left` : toutes les lignes de `x`, et toutes les colonnes de `x` et `y`. Les lignes dans `x` pour lesquelles il n'y a pas de correspondance dans `y` auront des valeurs `NaN` dans les
nouvelles colonnes. S'il y a plusieurs correspondances dans les noms entre `x` et `y`, toutes
les combinaisons sont retournées ;
- `inner` :  toutes les lignes de `x` pour lesquelles il y a des valeurs correspondantes dans `y`, et toutes les colonnes de `x` et `y`. S'il y a plusieurs correspondances dans les noms
entre `x` et `y`, toutes les combinaisons possibles sont retournées ;
- `right` : toutes les lignes de `y`, et toutes les colonnes de `y` et `x`. Les lignes dans
`y` pour lesquelles il n'y a pas de correspondance dans `x` auront des valeurs `NaN` dans les
nouvelles colonnes. S'il y a plusieurs correspondances dans les noms entre `y` et `x`, toutes
les combinaisons sont retournées ;
- `outer`: toutes les lignes de `x` et de `y`, et toutes les colonnes de `x` et `y`. Les lignes de `x` pour lesquelles il n'y a pas de correspondance dabs `y` et celles de `y` pour lesquelles il n'y a pas de correspondance dans `x` auront des valeurs `NaN`.

In [None]:
print("left : \n", pd.merge(left = importations, right = exportations, how="left"))

In [None]:
## left : 
##    country  year  importations  exportations
## 0  France  2015    898.524296    851.663257
## 1  France  2016    936.369117    867.401425
## 2  France  2017    973.876215           NaN
## 3     USA  2015   2827.336251   2217.733347
## 4     USA  2016   2863.264745   2210.442218
## 5     USA  2017           NaN           NaN

In [None]:
print("\nright : \n", pd.merge(left = importations, right = exportations, how="right"))

In [None]:
## 
## right : 
##    country  year  importations  exportations
## 0  France  2015    898.524296    851.663257
## 1  France  2016    936.369117    867.401425
## 2     USA  2015   2827.336251   2217.733347
## 3     USA  2016   2863.264745   2210.442218
## 4  France  2014           NaN    816.819217
## 5     USA  2014           NaN   2208.678084

In [None]:
print("\nouter : \n", pd.merge(left = importations, right = exportations, how="outer"))

In [None]:
## 
## outer : 
##    country  year  importations  exportations
## 0  France  2015    898.524296    851.663257
## 1  France  2016    936.369117    867.401425
## 2  France  2017    973.876215           NaN
## 3     USA  2015   2827.336251   2217.733347
## 4     USA  2016   2863.264745   2210.442218
## 5     USA  2017           NaN           NaN
## 6  France  2014           NaN    816.819217
## 7     USA  2014           NaN   2208.678084

Le paramètre `on`, qui attend un nom de colonne ou une liste de noms sert à désigner les colonnes permettant de faire la jointure. Les noms de colonnes doivent être identiques dans les deux dataframes.

In [None]:
print(pd.merge(left = importations, right = exportations, on = "country"))

In [None]:
##    country  year_x  importations  year_y  exportations
## 0   France    2015    898.524296    2014    816.819217
## 1   France    2015    898.524296    2015    851.663257
## 2   France    2015    898.524296    2016    867.401425
## 3   France    2016    936.369117    2014    816.819217
## 4   France    2016    936.369117    2015    851.663257
## 5   France    2016    936.369117    2016    867.401425
## 6   France    2017    973.876215    2014    816.819217
## 7   France    2017    973.876215    2015    851.663257
## 8   France    2017    973.876215    2016    867.401425
## 9      USA    2015   2827.336251    2014   2208.678084
## 10     USA    2015   2827.336251    2015   2217.733347
## 11     USA    2015   2827.336251    2016   2210.442218
## 12     USA    2016   2863.264745    2014   2208.678084
## 13     USA    2016   2863.264745    2015   2217.733347
## 14     USA    2016   2863.264745    2016   2210.442218
## 15     USA    2017           NaN    2014   2208.678084
## 16     USA    2017           NaN    2015   2217.733347
## 17     USA    2017           NaN    2016   2210.442218

Si le nom des colonnes devant servir à réaliser la jointure sont différents entre le dataframe de gauche et celui de droite, on indique au paramètre `left_on` le ou les noms de colonnes du dataframe de gauche à utiliser pour la jointure ; et au paramètre `right_on`, le ou les noms correspondants dans le dataframe de doite :

In [None]:
pd.merge(left = importations_maroc, right = exportations_maroc,
         left_on= ["pays", "annee"], right_on = ["country", "year"] )

Avec le paramètre `suffixes`, on peut définir des suffixes à ajouter aux noms des colonnes lorsqu'il existe des colonnes dans `x` et dans `y` portant le même nom mais ne servant pas à la jointure. Par défaut, les suffixes (`_x` et `_y`) sont rajoutés.

In [None]:
print(pd.merge(left = importations, right = exportations,
               on = "country",
               suffixes=("_gauche", "_droite")).head(3))

In [None]:
##   country  year_gauche  importations  year_droite  exportations
## 0  France         2015    898.524296         2014    816.819217
## 1  France         2015    898.524296         2015    851.663257
## 2  France         2015    898.524296         2016    867.401425

## Agrégation

Il arrive de vouloir agréger les valeurs d'une variable, pour passer par exemple d'une dimension
trimestrielle à annuelle. Avec des observations spatiales, cela peut aussi être le cas, comme
par exemple lorsque l'on dispose de données à l'échelle des départements et que l'on souhaite
connaître les valeurs agrégées à l'échelle des régions.

Pour illustrer les différentes opérations d'agrégation, créons un dataframe avec des des données de chômage dans différentes régions, départements et années :

In [None]:
chomage = pd.DataFrame(
    {"region" : (["Bretagne"]*4 + ["Corse"]*2)*2,
     "departement" : ["Cotes-d'Armor", "Finistere",
                      "Ille-et-Vilaine", "Morbihan",
                      "Corse-du-Sud", "Haute-Corse"]*2,
     "annee" : np.repeat([2011, 2010], 6),
     "ouvriers" : [8738, 12701, 11390, 10228, 975, 1297,
                   8113, 12258, 10897, 9617, 936, 1220],
     "ingenieurs" : [1420, 2530, 3986, 2025, 259, 254,
                     1334, 2401, 3776, 1979, 253, 241]
    })
print(chomage)

In [None]:
##       region      departement  annee  ouvriers  ingenieurs
## 0   Bretagne    Cotes-d'Armor   2011      8738        1420
## 1   Bretagne        Finistere   2011     12701        2530
## 2   Bretagne  Ille-et-Vilaine   2011     11390        3986
## 3   Bretagne         Morbihan   2011     10228        2025
## 4      Corse     Corse-du-Sud   2011       975         259
## 5      Corse      Haute-Corse   2011      1297         254
## 6   Bretagne    Cotes-d'Armor   2010      8113        1334
## 7   Bretagne        Finistere   2010     12258        2401
## 8   Bretagne  Ille-et-Vilaine   2010     10897        3776
## 9   Bretagne         Morbihan   2010      9617        1979
## 10     Corse     Corse-du-Sud   2010       936         253
## 11     Corse      Haute-Corse   2010      1220         241

Comme nous l'avons vu précédemment (c.f. Section\ \@ref(pandas-statistiques-df)), on peut utiliser des méthodes permettant de calculer des statistiques simples sur l'ensemble des données. Par exemple, pour afficher la moyenne de chacune des colonnes numériques :

In [None]:
print(chomage.mean())

In [None]:
## annee         2010.500000
## ouvriers      7364.166667
## ingenieurs    1704.833333
## dtype: float64

Ce qui nous intéresse dans cette section, est d'effectuer des calculs sur des sous-groupes de données. Le principe est simple : dans un premier temps, on sépare les données en fonction de groupes identifiés (*split*), puis on applique une opération sur chacun des groupes (*apply*), et enfin on rassemble les résultats (*combine*). Pour effectuer le regroupement, en fonction de facteurs avant d'effectuer les calculs d'agrégation, `pandas` propose la méthode `groupby()`. On lui fournit en paramètre le ou les noms de colonnes servant à effectuer les groupes.

### Agrégation selon les valeurs d'une seule colonne

Par exemple, admettons que nous souhaitons obtenir le nombre total de chomeurs ouvriers par année. Dans un premier temps, on utilise la méthode `groupby()` sur notre dataframe en indiquant que les groupes doivent être créés selon les valeurs de la colonne `annee`

In [None]:
print(chomage.groupby("annee"))

In [None]:
## <pandas.core.groupby.groupby.DataFrameGroupBy object at 0x119526860>

Ensuite, on récupère la variable `ouvriers` :

In [None]:
print(chomage.groupby("annee").annee)
# Ou bien

In [None]:
## <pandas.core.groupby.groupby.SeriesGroupBy object at 0x11951d7b8>

In [None]:
print(chomage.groupby("annee")["annee"])

In [None]:
## <pandas.core.groupby.groupby.SeriesGroupBy object at 0x11951d748>

Et enfin, on peut effectuer le calcul sur chaque sous-groupe et afficher le résultat :

In [None]:
print(chomage.groupby("annee")["ouvriers"].sum())

In [None]:
## annee
## 2010    43041
## 2011    45329
## Name: ouvriers, dtype: int64

Si on veut effectuer ce calcul pour plusieurs colonnes, par exemple `ouvriers` et `ingenieurs`, il suffit de sélectionner *a priori* la variale de regroupement et les variables pour lesquelles on désire effectuer le calcul :

In [None]:
chomage.loc[:,["annee", "ouvriers", "ingenieurs"]].groupby("annee").sum()

### Agrégation selon les valeurs de plusieurs colonnes

À présent, admettons que l'on souhaite effectuer une agrégation en fonction de l'année et de la région. Il s'agit simplement de donner une liste contenant les noms des colonnes utilisées pour créer les différents groupes :

In [None]:
chomage.loc[:,["annee", "region",
               "ouvriers", "ingenieurs"]].groupby(["annee",
                                                   "region"]).sum()

## Stacking et unstacking


À compléter


## Exportation et importation de données

`pandas` offre de nombreuses fonctions pour importer et exporter des données dans différents formats.


### Exportation des données


#### Exportation de données tabulaires


##### Vers un fichier CSV {pandas-export_csv}


Pour exporter des données tabulaires, comme celles contenues dans un dataframe, `NumPy` propose la méthode `to_csv()`, qui accepte de nombreuses spécifications. Regardons quelques-unes d'entre-elles qui me semblent les plus courantes :

| Paramètre | Description |
| ---------------: | -------------------------------------------------: |
| `path_or_buf` | chemin vers le fichier |
| `sep` | caractère de séparation des champs |
| `decimal` | Caractère à utiliser pour le séparateur de décimales |
| `na_rep` | représentation à utiliser pour les valeurs manquantes |
| `header` | indique si le nom des colonnes doit être exporté (`True` par défaut) |
| `index` | indique si le nom des lignes doit être exporté (`True` par défaut) |
| `mode` | mode d'écriture python (c.f. Tableau\ \@ref(tab:open-mode-ouverture), par défaut `w`) |
| `encoding` | encodage des caractères (`utf-8` par défaut) |
| `compression` | compression à utiliser pour le fichier de destination (`gzip`, `bz2`, `zip`,  `xz`) |
| `line_terminator` | caractère de fin de ligne |
| `quotechar` | Caractère utilisé pour mettre les champs entre *quotes* |
| `chunksize` | (entier) nombre de lignes à écrire à la fois |
| `date_format` | format de dates pour les objets `datetime` |

Table: (#tab:pandasto-csv) Paramètres principaux de la fonction `to_csv`

Admettons que nous souhaitons exporter le contenu du dataframe `chomage` vers un fichier CSV dont les champs sont séparés par des points-virgules, et en n'exportant pas l'index :

In [None]:
chomage = pd.DataFrame(
    {"region" : (["Bretagne"]*4 + ["Corse"]*2)*2,
     "departement" : ["Cotes-d'Armor", "Finistere",
                      "Ille-et-Vilaine", "Morbihan",
                      "Corse-du-Sud", "Haute-Corse"]*2,
     "annee" : np.repeat([2011, 2010], 6),
     "ouvriers" : [8738, 12701, 11390, 10228, 975, 1297,
                   8113, 12258, 10897, 9617, 936, 1220],
     "ingenieurs" : [1420, 2530, 3986, 2025, 259, 254,
                     1334, 2401, 3776, 1979, 253, 241]
    })
print(chomage)

In [None]:
##       region      departement  annee  ouvriers  ingenieurs
## 0   Bretagne    Cotes-d'Armor   2011      8738        1420
## 1   Bretagne        Finistere   2011     12701        2530
## 2   Bretagne  Ille-et-Vilaine   2011     11390        3986
## 3   Bretagne         Morbihan   2011     10228        2025
## 4      Corse     Corse-du-Sud   2011       975         259
## 5      Corse      Haute-Corse   2011      1297         254
## 6   Bretagne    Cotes-d'Armor   2010      8113        1334
## 7   Bretagne        Finistere   2010     12258        2401
## 8   Bretagne  Ille-et-Vilaine   2010     10897        3776
## 9   Bretagne         Morbihan   2010      9617        1979
## 10     Corse     Corse-du-Sud   2010       936         253
## 11     Corse      Haute-Corse   2010      1220         241

Pour l'exportation :

In [None]:
chemin = "./fichiers_exemples/chomage.csv"
chomage.to_csv(chemin, decimal=";", index=False)

In [None]:
## FileNotFoundError: [Errno 2] No such file or directory: './fichiers_exemples/chomage.csv'
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/frame.py", line 1745, in to_csv
##     formatter.save()
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/formats/csvs.py", line 136, in save
##     compression=None)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/common.py", line 400, in _get_handle
##     f = open(path_or_buf, mode, encoding=encoding)

Si on désire que le fichier CSV soit compressé dans un fichier `gzip`, on le nomme avec l'extention `.csv.gz` et on ajoute la valeur `gzip` au paramètre `compression` :

In [None]:
chemin = "./Python_pour_economistes/fichiers_exemples/chomage.csv.gz"
chomage.to_csv(chemin, decimal=";", index=False, compression="gzip")

In [None]:
## FileNotFoundError: [Errno 2] No such file or directory: './Python_pour_economistes/fichiers_exemples/chomage.csv.gz'
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/frame.py", line 1745, in to_csv
##     formatter.save()
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/formats/csvs.py", line 136, in save
##     compression=None)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/common.py", line 400, in _get_handle
##     f = open(path_or_buf, mode, encoding=encoding)

##### Vers un fichier HDF5


Pour enregistrer les données d'un dataframe dans un fichier HDF5 utilisant HDFStore, `pandas` propose la méthode `to_hdf()` qui fonctionne de la même manière que la fonction `to_csv()` (cf. Section\ \@ref(pandas-export_csv)).

Il est nécessaire de spécifier le paramètre `path_or_buf` pour indiquer le chemin et le paramètre `key` pour identifier l'objet à enregistrer dans le fichier.

La syntaxe est la suivante :

In [None]:
chemin = "./fichiers_exemples/chomage.h5"
chomage.to_hdf(chemin, "base_chomage", decimal=";", index=False)

In [None]:
## OSError: ``./fichiers_exemples`` does not exist
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>
##   File "/anaconda3/lib/python3.6/site-packages/pandas/core/generic.py", line 1993, in to_hdf
##     return pytables.to_hdf(path_or_buf, key, self, **kwargs)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/pytables.py", line 278, in to_hdf
##     complib=complib) as store:
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/pytables.py", line 491, in __init__
##     self.open(mode=mode, **kwargs)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/pytables.py", line 604, in open
##     self._handle = tables.open_file(self._path, self._mode, **kwargs)
##   File "/anaconda3/lib/python3.6/site-packages/tables/file.py", line 320, in open_file
##     return File(filename, mode, title, root_uep, filters, **kwargs)
##   File "/anaconda3/lib/python3.6/site-packages/tables/file.py", line 784, in __init__
##     self._g_new(filename, mode, **params)
##   File "tables/hdf5extension.pyx", line 371, in tables.hdf5extension.File._g_new
##   File "/anaconda3/lib/python3.6/site-packages/tables/utils.py", line 185, in check_file_access
##     check_file_access(filename, 'w')
##   File "/anaconda3/lib/python3.6/site-packages/tables/utils.py", line 175, in check_file_access
##     raise IOError("``%s`` does not exist" % (parentname,))

## Importation des données

`pandas` propose de nombreuses fonctions pour importer des données. Dans cette version des notes de cours, nous allons en aborder 3 : `read_csv()`, pour lire des fichiers CSV ; `read_excel()`, pour lire des fichiers Excel ; et `read_hdf()` pour lire des fichiers HDF5.

Dans la prochaine version, des ajouts sur `read_html()`, `read_fwf()`, `read_stata()`, `read_json()`.



### Fichiers CSV {#pandas-importation-csv}


Pour importer des données depuis un fichier CSV, `pandas` propose la fonction `read_csv()` :

In [None]:
chemin = "./fichiers_exemples/chomage.csv"
chomage = pd.read_csv(chemin, decimal=";", index=False)

In [None]:
## TypeError: parser_f() got an unexpected keyword argument 'index'
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>

Il est possible de fournir une URL pointant vers un fichier CSV comme chemin, la fonction `read_csv()`.

Parmi les paramètres que l'on utilise fréquemment :

- `sep`, `delimiter` : séparateur de champs ;
- `decimal` : séparateur de décimales ;
- `header` : numéro(s) de ligne(s) à utiliser comme en-tête des données ;
- `skiprows` : numéro(s) de ligne(s) à sauter au début ;
- `skipfooter` : numéro(s) de ligne(s) à sauter à la fin ;
- `nrows` : nombre de ligne à lire ;
- `na_values` : chaînes de caractères supplémentaires à considérer comme valeurs manquantes (en plus de `#N/A`, `#N/A N/A`, `#NA`, `-1.#IND`, `-1.#QNAN`, `-NaN`, `-nan`, `1.#IND`, `1.#QNAN`, `N/A`, `NA`, `NULL`, `NaN`, `n/a`, `nan`, `null`) ;
- `quotechar` : caractère de *quote* ;
- `encoding` : encodage des caractères (défaut `utf-8`).




### Fichiers Excel {#pandas-importation-excel}

Pour importer des fichiers Excel, `pandas` propose la fonction `read_excel()`.

In [None]:
chemin = "./fichiers_exemples/chomage.xlsx"
chomage = pd.read_excel(chemin, skiprows=2, header=1, sheet = 1)

In [None]:
## FileNotFoundError: [Errno 2] No such file or directory: './fichiers_exemples/chomage.xlsx'
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>
##   File "/anaconda3/lib/python3.6/site-packages/pandas/util/_decorators.py", line 177, in wrapper
##     return func(*args, **kwargs)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/util/_decorators.py", line 177, in wrapper
##     return func(*args, **kwargs)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/excel.py", line 307, in read_excel
##     io = ExcelFile(io, engine=engine)
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/excel.py", line 394, in __init__
##     self.book = xlrd.open_workbook(self._io)
##   File "/anaconda3/lib/python3.6/site-packages/xlrd/__init__.py", line 116, in open_workbook
##     with open(filename, "rb") as f:

In [None]:
print(chomage)

In [None]:
##       region      departement  annee  ouvriers  ingenieurs
## 0   Bretagne    Cotes-d'Armor   2011      8738        1420
## 1   Bretagne        Finistere   2011     12701        2530
## 2   Bretagne  Ille-et-Vilaine   2011     11390        3986
## 3   Bretagne         Morbihan   2011     10228        2025
## 4      Corse     Corse-du-Sud   2011       975         259
## 5      Corse      Haute-Corse   2011      1297         254
## 6   Bretagne    Cotes-d'Armor   2010      8113        1334
## 7   Bretagne        Finistere   2010     12258        2401
## 8   Bretagne  Ille-et-Vilaine   2010     10897        3776
## 9   Bretagne         Morbihan   2010      9617        1979
## 10     Corse     Corse-du-Sud   2010       936         253
## 11     Corse      Haute-Corse   2010      1220         241

Parmi les paramètres fréquemment utilisés :

- `header` : numéro de ligne à utiliser comme en-tête ;
- `sheet` : nom ou numéro de feuille ;
- `skiprows` : nombre de lignes à sauter au début ;
- `thousands` : séparateur de milliers.


### Fichiers HDF5 {#pandas-importation-hdf}

In [None]:
chemin = "./fichiers_exemples/chomage.h5"
print(pd.read_hdf(chemin, "base_chomage"))

In [None]:
## FileNotFoundError: File ./fichiers_exemples/chomage.h5 does not exist
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>
##   File "/anaconda3/lib/python3.6/site-packages/pandas/io/pytables.py", line 371, in read_hdf
##     'File %s does not exist' % path_or_buf)

## Exercice



**Exercice 1 : Importation et exportation**

1. Télécharger à la main le fichier csv à l'adresse suivante : http://egallic.fr/Enseignement/Python/Exercices/donnees/notes.csv et le placer dans le répertoire courant. Importer son contenu dans Python.
2. Importer à nouveau les données dans Python, mais en fournissant cette fois le l’url directement à la fonction d'importation.
3. À présent, importer le contenu du fichier disponible à l’adresse http://egallic.fr/Enseignement/Python/Exercices/donnees/notes_decim.csv. Le séparateur de champs est un point virgule
et le séparateur décimal est une virgule.
4. Importer le contenu du fichier http://egallic.fr/Enseignement/Python/Exercices/donnees/notes_h.csv. Le nom des colonnes n’est pas présent.
5. Importer le contenu du fichier http://egallic.fr/Enseignement/Python/Exercices/donnees/notes_h_s.csv. La première ligne n’est pas à importer.
6. Importer le contenu de la première feuille du fichier Excel http://egallic.fr/Enseignement/Python/Exercices/donnees/notes.xlsx.
7. Importer le contenu de la seconde feuille (`notes_h_s`) du fichier Excel disponible ici : http://egallic.fr/Enseignement/Python/Exercices/donnees/notes.xlsx. La première ligne est un commentaire à ne pas considérer durant l’importaiton.
8. Exporter le contenu de l’objet contenant les notes de la question précédente au format csv (virgule
en séparateur de champs, point en séparateur décimal, ne pas conserver le numéro des
lignes).


**Exercice 2 : Manipulation de tableaux de données**

1. À l'aide de la fonction `read_excel()` de la librairie `pandas`, importer le contenu de la feuille intitulée `notes_2012` du fichier Excel disponible à l'adresse suivante : http://egallic.fr/Enseignement/Python/Exercices/donnees/notes_etudiants.xlsx et le stocker dans une variable que l'on nommera notes_2012.
2. Afficher les 6 premières lignes du jeu de données, puis les dimensions du tableau.
3. Conserver uniquement la colonne `note_stat` du tableau de données `notes_2012` dans un objet que l'on appellera `tmp`.
4. Conserver uniquement les colonnes `num_etudiant`, `note_stat` et `note_macro` dans un objet nommé `tmp`.
5. Remplacer le contenu de `tmp` par les observations de `notes_2012` pour lesquelles l'individu a obtenu une note de stat supérieure (strictement) à 10.
6. Remplacer le contenu de tmp par les observations de `notes_2012` pour lesquelles l'individu a obtenu une note de stats comprise dans l'intervalle (10, 15).
7. Regarder s'il y a des doublons dans le tableau de données `notees_2012` ; le cas échéant, les retirer du tableau.
8. Afficher le type des données de la colonne `num_etudiant`, puis afficher le type de toutes les colonnes de notes_2012.
9. Ajouter au tableau `notes_2012` les colonnes suivantes :

  (a) `note_stat_maj` : la note de stat (`note_stat`) majorée d'un point,
  (b) `note_macro_maj` : la note de macro (`note_macro`) majorée de trois points (le faire en deux étapes : d'abord deux points en plus, puis un point).
10. Renommer la colonne year en annee.
11. Depuis le fichier `notes_etudiants.xlsx` (c.f. question 1), importer le contenu des feuilles `notes_2013`, `notes_2014` et `prenoms` et le stocker dans les objets `notes_2013`, `notes_2014` et `prenoms`, respectivement.
12. Empiler le contenu des tableaux de données `notes_2012`, `notes_2013` et `notes_2014` dans un objet que l'on nommera `notes`.
13. Fusionner les tableaux `notes` et `prenoms` à l'aide d'une jointure gauche, de manière à rajouter les informations contenues dans le tableau prenoms aux observations de notes. La jointure doit se faire par le numéro d'étudiant et l'année, l'objet final viendra remplacer le contenu de notes.
14. Trier le tableau notes par années croissantes et notes de macro décroissantes.
15. Créer une colonne `apres_2012` qui prend la valeur `True` si l'observation concerne une note attribuée après 2012.
16. En effectuant des regroupements sur le dataframe `notes` calculer :

  (a) la moyenne et l'écart-type annuels des notes pour chacune des deux matières,
  (b) la moyenne et l'écart-type annuels et par sexe des notes pour chacune des deux matières.