# Introduction à Numpy {#numpy}

Ce chapitre est consacré à une librairie importante pour les calculs numérique : `NumPy` (abréviation de *Numerical Python*).

Il est coutume d'importer `NumPy` en lui attribuant l'alias `np` :

In [None]:
import numpy as np

## Tableaux {#numpy-tableaux}

NumPy propose une structure de données populaire, les tableaux (de type *array*), sur lesquels il est possible d'effectuer de manière efficace des calculs. Les tableaux sont une structure notamment utile pour effectuer des opérations statistiques basiques ainsi que de la génération pseudo-aléatoire de nombres.

La stucture des tableaux ressemble à celle des listes, mais ces dernières sont moins rapides à être traitées et utilisent davantage de mémoire. Le gain de vitesse de traitement des tableaux en `NumPy` vient du fait que les données sont stockées dans des blocs contigus de mémoire, facilitant ainsi les accès en lecture.

Pour s'en convaincre, on peut reprendre l'exemple de Pierre Navaro [donné dans son *notebook* sur `NumPy`](https://github.com/pnavaro/python-notebooks/blob/master/13.Numpy.ipynb). Créons deux listes de longueur 1000 chacune, avec des nombres tirés aléatoirement à l'aide de la fonction `random()` du module `random`. Divisons chaque élément de la première liste par l'élément à la même position dans la seconde ligne, puis calculons la somme de ces 1000 divisions. Regardons ensuite le temps d'exécution à l'aide de la fonction magique `%timeit` :

In [None]:
from random import random
from operator import truediv
l1 = [random() for i in range(1000)]
l2 = [random() for i in range(1000)]
# %timeit s = sum(map(truediv,l1,l2))

(décommenter la dernière ligne et tester sur un Jupyter Notebook)

À présent, transformons les deux listes en tableaux `NumPy` avec la méthode `array()`, et effectuons le même calcul à l'aide d'une méthode `NumPy` :

In [None]:
a1 = np.array(l1)
a2 = np.array(l2)
# %timeit s = np.sum(a1/a2)

Comme on peut le constater en exécutant ces codes dans un environnement IPython, le temps d'exécution est bien plus rapide avec les méthodes de `NumPy` pour ce calcul.

### Création

La création d'un tableau peut s'effectuer avec la méthode `array()`, à partir d'une liste, comme nous venon de le faire :

In [None]:
liste = [1,2,4]
tableau = np.array(liste)
print(tableau)

In [None]:
## [1 2 4]

In [None]:
print(type(tableau))

In [None]:
## <class 'numpy.ndarray'>

Si on fournit à `array()` une liste de listes imbriquées de même longueur, un tableau multidimensionnel sera créé :

In [None]:
liste_2 = [ [1,2,3], [4,5,6] ]
tableau_2 = np.array(liste_2)
print(tableau_2)

In [None]:
## [[1 2 3]
##  [4 5 6]]

In [None]:
print(type(tableau_2))

In [None]:
## <class 'numpy.ndarray'>

Les tableaux peuvent aussi être créés à partir de n-uplets :

In [None]:
nuplet = (1, 2, 3)
tableau = np.array(nuplet)
print(tableau)

In [None]:
## [1 2 3]

In [None]:
print(type(tableau))

In [None]:
## <class 'numpy.ndarray'>

Un tableau en dimension 1 peut être changé en tableau en dimension 2 (si possible), en modifiant son attribut `shape` :

In [None]:
tableau = np.array([3, 2, 5, 1, 6, 5])
tableau.shape = (3,2)
print(tableau)

In [None]:
## [[3 2]
##  [5 1]
##  [6 5]]

#### Quelques fonctions générant des `array`

Certaines fonctions de `NumPy` produisent des tableaux pré-remplis. C'est le cas de la fonction `zeros()`. Quand on lui fournit une valeur entière $n$, la fonction `zeros()` créé un tableau à une dimension, avec $n$ 0 :

In [None]:
print( np.zeros(4) )

In [None]:
## [0. 0. 0. 0.]

On peut préciser le type des zéros (par exemple `int`, `int32`, `int64`, `float`, `float32`, `float64`, etc.), à l'aide du paramètre `dtype` :

In [None]:
print( np.zeros(4, dtype = "int") )

In [None]:
## [0 0 0 0]

D'avantage d'explications sur les types de données avec `NumPy` sont disponibles [sur la documentation en ligne](https://docs.scipy.org/doc/numpy-1.15.1/reference/arrays.dtypes.html).


Le type des éléments d'un tableau est indiqué dans l'attribut `dtype` :

In [None]:
x = np.zeros(4, dtype = "int")
print(x, x.dtype)

In [None]:
## [0 0 0 0] int64

Il est par ailleurs possible de convertir le type des éléments dans un un autre type, à l'aide de la méthode `astype()` :

In [None]:
y = x.astype("float")
print(x, x.dtype)

In [None]:
## [0 0 0 0] int64

In [None]:
print(y, y.dtype)

In [None]:
## [0. 0. 0. 0.] float64

Quand on lui fournit un n-uplet de longueur supérieure à 1, `zeros()` créé un tableau à plusieurs dimensions :

In [None]:
print( np.zeros((2, 3)) )

In [None]:
## [[0. 0. 0.]
##  [0. 0. 0.]]

In [None]:
print( np.zeros((2, 3, 4)) )

In [None]:
## [[[0. 0. 0. 0.]
##   [0. 0. 0. 0.]
##   [0. 0. 0. 0.]]
## 
##  [[0. 0. 0. 0.]
##   [0. 0. 0. 0.]
##   [0. 0. 0. 0.]]]

La fonction `empty()` de `Numpy` retourne également un tableau sur le même principe que `zeros()`, mais sans initialiser les valeurs à l'intérieur.

In [None]:
print( np.empty((2, 3), dtype = "int") )

In [None]:
## [[0 0 0]
##  [0 0 0]]

La fonction `ones()` de `Numpy` retourne le même genre de tableaux, avec des 1 en valeurs initialisées :

In [None]:
print( np.ones((2, 3), dtype = "float") )

In [None]:
## [[1. 1. 1.]
##  [1. 1. 1.]]

Pour choisir une valeur spécifique pour l'initialisation, on peut utiliser la fonction `full()` de `Numpy` :

In [None]:
print( np.full((2, 3), 10, dtype = "float") )

In [None]:
## [[10. 10. 10.]
##  [10. 10. 10.]]

In [None]:
print( np.full((2, 3), np.inf) )

In [None]:
## [[inf inf inf]
##  [inf inf inf]]

La fonction `eye()` de `Numpy` créé un tableau à deux dimensions dans laquelle tous les éléments sont initalisés à zéro, sauf ceux de la diagonale initialisés à 1 :

In [None]:
print( np.eye(2, dtype="int64") )

In [None]:
## [[1 0]
##  [0 1]]

En modifiant le paramètre mot-clé `k`, on peut décaler la diagonale :

In [None]:
print( np.eye(3, k=-1) )

In [None]:
## [[0. 0. 0.]
##  [1. 0. 0.]
##  [0. 1. 0.]]

La fonction `identity()` de `Numpy` créé quant à elle une matrice identité sous la forme d'un tableau :

In [None]:
print( np.identity(3, dtype = "int") )

In [None]:
## [[1 0 0]
##  [0 1 0]
##  [0 0 1]]

La fonction `arange()` de `Numpy` permet de générer une séquence de nombres séparés par un interval fixe, le tout stocké dans un tableau. La syntaxe est la suivante :

In [None]:
np.arange( start, stop, step, dtype )

avec `start` la valeur de départ, `stop` celle d'arrivée, `step` le pas, l'espacement entre les nombres de la séquence et `dtype` le type des nombres :

In [None]:
print( np.arange(5) )

In [None]:
## [0 1 2 3 4]

In [None]:
print( np.arange(2, 5) )

In [None]:
## [2 3 4]

In [None]:
print( np.arange(2, 10, 2) )

In [None]:
## [2 4 6 8]

### Dimensions

Pour connaître la dimension d'un tableau, on peut afficher la valeur de l'attribut `ndim` :

In [None]:
print("ndim tableau : ", tableau.ndim)

In [None]:
## ndim tableau :  2

In [None]:
print("ndim tableau_2 : ", tableau_2.ndim)

In [None]:
## ndim tableau_2 :  2

Le nombre d'éléments dans le tableau peut s'obtenir par l'attribut `size` ou par la fonction `size()` de `Numpy` :

In [None]:
print("size tableau : ", tableau.size)

In [None]:
## size tableau :  6

In [None]:
print("size tableau_2 : ", tableau_2.size)

In [None]:
## size tableau_2 :  6

In [None]:
print("np.size(tableau) :", np.size(tableau))

In [None]:
## np.size(tableau) : 6

L'attribut `shape` retourne un n-uplet indiquant la longueur pour chaque dimension du tableau :

In [None]:
print("size tableau : ", tableau.shape)

In [None]:
## size tableau :  (3, 2)

In [None]:
print("size tableau_2 : ", tableau_2.shape)

In [None]:
## size tableau_2 :  (2, 3)

### Extraction des éléments d'un tableau

L'accès aux éléments d'un tableau se fait de la même manière que pour les listes  (c.f. Section\ \@ref(stucture-liste-extraction)), grâce à l'indiçage. La syntaxe est la suivante :

In [None]:
tableau[lower:upper:step]

avec `lower` la borne inférieur de la plage d'indices, `upper` la plage supérieur, et `step` l'espacement entre les valeurs.

- Lorsque `lower` n'est pas précisé, le premier élément (indicé 0) est considéré comme la valeur attribuée à `lower`.
- Lorsque `upper` n'est pas précisé, le dernier élément est considéré comme la valeur attribuée à `upper`.
- Lorsque `step` n'est pas précisé, un pas de 1 est attribué par défaut.

Reprenons rapidement quelques exemples, en s'appuyant sur deux objets : un tableau de dimension 1, et un second de dimension 2.

In [None]:
tableau_1 = np.arange(1,13)
tableau_2 = [ [1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]
tableau_2 = np.array(tableau_2)

L'accès au premier élément :

In [None]:
message = "tableau_{}[0] : {} (type : {})"
print(message.format(0, tableau_1[0], type(tableau_1[0])))

In [None]:
## tableau_0[0] : 1 (type : <class 'numpy.int64'>)

In [None]:
print(message.format(1, tableau_2[0], type(tableau_2[0])))

In [None]:
## tableau_1[0] : [1 2 3] (type : <class 'numpy.ndarray'>)

L'accès aux éléments peut se faire en partant par la fin :

In [None]:
print("tableau_1[-1] : ", tableau_1[-1]) # dernier élément

In [None]:
## tableau_1[-1] :  12

In [None]:
print("tableau_2[-1] : ", tableau_2[-1]) # dernier élément

In [None]:
## tableau_2[-1] :  [10 11 12]

Le découpage est possible :

In [None]:
# les éléments du 2e (non inclus) au 4e
print("Slice Tableau 1 : \n", tableau_1[2:4])

In [None]:
## Slice Tableau 1 : 
##  [3 4]

In [None]:
print("Sclie Tableau 2 : \n", tableau_2[2:4])

In [None]:
## Sclie Tableau 2 : 
##  [[ 7  8  9]
##  [10 11 12]]

Pour les tableaux à deux dimensions, on peut accéder aux éléments de la manière suivante, de manière équivalente :

In [None]:
# Dans le 3e élément, accéder au 1er élément
print(tableau_2[2][0])

In [None]:
## 7

In [None]:
print(tableau_2[2,0])

In [None]:
## 7

Pour extraire des colonnes d'un tableau à deux entrées :

In [None]:
print("Deuxième colonne : \n", tableau_2[:, [1]])

In [None]:
## Deuxième colonne : 
##  [[ 2]
##  [ 5]
##  [ 8]
##  [11]]

In [None]:
print("Deuxièmes et troisièmes colonnes : \n", tableau_2[:, [1,2]])

In [None]:
## Deuxièmes et troisièmes colonnes : 
##  [[ 2  3]
##  [ 5  6]
##  [ 8  9]
##  [11 12]]

Pour cette dernière instruction, on indique avec le premier paramètre non renseigné (avant les deux points) que l'on désire tous les éléments de la première dimension, puis, avec la virgule, on indique qu'on regarde à l'intérieur de chaque élément de la première dimension, et qu'on veut les valeurs aux positions 1 et 2 (donc les éléments des colonnes 2 et 3).


Pour extraire seulement certains éléments d'un tableau à 1 dimension, on peut indiquer les indices des éléments à récupérer :

In [None]:
print("2e et 4e éléments : \n", tableau_2[[1,3]])

In [None]:
## 2e et 4e éléments : 
##  [[ 4  5  6]
##  [10 11 12]]

#### Extraction à l'aide de booléens


Pour extraire ou non des éléments d'un tableu, on peut utiliser des tableaux de booléens en tant que masques. L'idée est de fournir un tableau de booléens (un masque) de même dimension que celui pour lequel on désire extraire des éléments sous certaines conditions. Lorsque la valeur du booléen dans le masque vaut `True`, l'élément correspondant du tableau est retourné ; sinon, il ne l'est pas.

In [None]:
tableau = np.array([0, 3, 2, 5, 1, 4])
res = tableau[[True, False, True, False, True, True]]
print(res)

In [None]:
## [0 2 1 4]

Seuls les éléments en position 1, 3, 5 et 6 on été retournés.

En pratique, le masque n'est que très rarement créé par l'utilisateur, il est plutôt issu d'une instruction logique appliquée au tableau d'intérêt. Par exemple, dans notre tableau, nous pouvons dans un premier temps créer un masque de manière à identifier les éléments pairs :

In [None]:
masque = tableau % 2 == 0
print(masque)

In [None]:
## [ True False  True False False  True]

In [None]:
print(type(masque))

In [None]:
## <class 'numpy.ndarray'>

Une fois ce masque créé, on peut l'appliquer au tableau pour extraire uniquement les éléments pour lesquels la valeur correspondante dans le masque vaut `True` :

In [None]:
print(tableau[masque])

In [None]:
## [0 2 4]

### Modification

Pour remplacer les valeurs d'un tableau, on utilise le signe égal (`=`) :

In [None]:
tableau = np.array([ [1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
tableau[0] = [11, 22, 33]
print(tableau)

In [None]:
## [[11 22 33]
##  [ 4  5  6]
##  [ 7  8  9]
##  [10 11 12]]

Si on fournit un scalaire lors du remplacement, la valeur sera répétée pour tous les éléments de la dimension :

In [None]:
tableau[0] = 100
print(tableau)

In [None]:
## [[100 100 100]
##  [  4   5   6]
##  [  7   8   9]
##  [ 10  11  12]]

Idem avec un découpage :

In [None]:
tableau[0:2] = 100
print(tableau)

In [None]:
## [[100 100 100]
##  [100 100 100]
##  [  7   8   9]
##  [ 10  11  12]]

D'ailleurs, un découpage avec juste les deux points sans préciser les paramètres de début et de fin du découpage suivi d'un signe égal et d'un nombre remplace toutes les valeurs du tableau par ce nombre :

In [None]:
tableau[:] = 0
print(tableau)

In [None]:
## [[0 0 0]
##  [0 0 0]
##  [0 0 0]
##  [0 0 0]]

#### Ajout d'éléments

Pour ajouter des éléments, on utilise la fonction `append()` de `NumPy`. Il faut noter que l'appel à cette fonction ne modifie pas l'objet auquel on ajoute les valeurs. Si on désire que les modifications sont apportées à cet objet, il faut l'écraser :

In [None]:
t_1 = np.array([1,3,5])
print("t_1 : ", t_1)

In [None]:
## t_1 :  [1 3 5]

In [None]:
t_1 = np.append(t_1, 1)
print("t_1 après l'ajout : ", t_1)

In [None]:
## t_1 après l'ajout :  [1 3 5 1]

Pour ajouter une colonne à un tableau à deux dimensions :

In [None]:
t_2 = np.array([[1,2,3], [5,6,7]])
print("t_2 : \n", t_2)

In [None]:
## t_2 : 
##  [[1 2 3]
##  [5 6 7]]

In [None]:
ajout_col_t_2 = np.array([[4], [8]])
t_2 = np.append(t_2,ajout_col_t_2, axis = 1)
print("t_2 après ajout colonne : \n", t_2)

In [None]:
## t_2 après ajout colonne : 
##  [[1 2 3 4]
##  [5 6 7 8]]

Pour ajouter une ligne, on utilise la fonction `vstack()` de `Numpy` :

In [None]:
ajout_ligne_t_2 = np.array([10, 11, 12, 13])
t_2 = np.vstack([t_2,ajout_ligne_t_2])
print("t_2 après ajout ligne : \n", t_2)

In [None]:
## t_2 après ajout ligne : 
##  [[ 1  2  3  4]
##  [ 5  6  7  8]
##  [10 11 12 13]]

#### Suppression d'éléments

Pour supprimer des éléments, on utilise la fonction `delete()` de `NumPy` :

In [None]:
print("t_1 : ", t_1)
# Supprimer le dernier élément

In [None]:
## t_1 :  [1 3 5 1]

In [None]:
np.delete(t_1, (-1))

Note : pour que la suppression soit effective, on assigne le résultat de `np.delete()` à l'objet.

Pour supprimer plusieurs éléments :

In [None]:
print("t_1 : ", t_1)
# Supprimer les 1er et 2e éléments

In [None]:
## t_1 :  [1 3 5 1]

In [None]:
t_1 = np.delete(t_1, ([0, 2]))
print(t_1)

In [None]:
## [3 1]

Pour supprimer une colonne d'un tableau à deux dimensions :

In [None]:
print("t_2 : ", t_2)
# Supprimer la première colonne :

In [None]:
## t_2 :  [[ 1  2  3  4]
##  [ 5  6  7  8]
##  [10 11 12 13]]

In [None]:
np.delete(t_2, (0), axis=1)

Supprimer plusieurs colonnes :

In [None]:
print("t_2 : ", t_2)
# Supprimer la 1ère et la 3e colonne :

In [None]:
## t_2 :  [[ 1  2  3  4]
##  [ 5  6  7  8]
##  [10 11 12 13]]

In [None]:
np.delete(t_2, ([0,2]), axis=1)

Et pour supprimer une ligne :

In [None]:
print("t_2 : ", t_2)
# Supprimer la première ligne :

In [None]:
## t_2 :  [[ 1  2  3  4]
##  [ 5  6  7  8]
##  [10 11 12 13]]

In [None]:
np.delete(t_2, (0), axis=0)

Supprimer plusieurs lignes :

In [None]:
print("t_2 : ", t_2)
# Supprimer la 1ère et la 3e ligne

In [None]:
## t_2 :  [[ 1  2  3  4]
##  [ 5  6  7  8]
##  [10 11 12 13]]

In [None]:
np.delete(t_2, ([0,2]), axis=0)

### Copie de tableau

La copie d'un tableau, comme pour les listes (c.f. Section\ \@ref(copie-de-liste)), ne doit pas se faire avec le symbole égal (`=`).

In [None]:
tableau_1 = np.array([1, 2, 3])
tableau_2 = tableau_1

Modifions le premier élément de `tableau_2`, et observons le contenu de `tableau_2` et de `tableau_1` :

In [None]:
tableau_2[0] = 0
print("Tableau 1 : \n", tableau_1)

In [None]:
## Tableau 1 : 
##  [0 2 3]

In [None]:
print("Tableau 2 : \n", tableau_2)

In [None]:
## Tableau 2 : 
##  [0 2 3]

Comme on peut le constater, le fait d'avoir utilisé le signe égal a simplement créé une référence et non pas une copie.

Pour effectuer une copie de tableaux, plusieurs façons existent. Parmi elles, l'utilisation de la fonction `np.array()` :

In [None]:
tableau_1 = np.array([1, 2, 3])
tableau_2 = np.array(tableau_1)
tableau_2[0] = 0
print("tableau_1 : ", tableau_1)

In [None]:
## tableau_1 :  [1 2 3]

In [None]:
print("tableau_2 : ", tableau_2)

In [None]:
## tableau_2 :  [0 2 3]

On peut également utiliser la méthode `copy()` :

In [None]:
tableau_1 = np.array([1, 2, 3])
tableau_2 = tableau_1.copy()
tableau_2[0] = 0
print("tableau_1 : ", tableau_1)

In [None]:
## tableau_1 :  [1 2 3]

In [None]:
print("tableau_2 : ", tableau_2)

In [None]:
## tableau_2 :  [0 2 3]

On peut noter que lorsque l'on fait un découpement, un nouvel objet est créé, pas une référence :

In [None]:
tableau_1 = np.array([1, 2, 3, 4])
tableau_2 = tableau_1[:2]
tableau_2[0] = 0
print("tableau_1 : ", tableau_1)

In [None]:
## tableau_1 :  [0 2 3 4]

In [None]:
print("tableau_2 : ", tableau_2)

In [None]:
## tableau_2 :  [0 2]

### Tri

La librairie `NumPy` fournit une fonction pour trier les tableaux : `sort()`.

In [None]:
tableau = np.array([3, 2, 5, 1, 6, 5])
print("Tableau trié : ", np.sort(tableau))

In [None]:
## Tableau trié :  [1 2 3 5 5 6]

In [None]:
print("Tableau : ", tableau)

In [None]:
## Tableau :  [3 2 5 1 6 5]

Comme on peut le constater, la fonction `sort()` de `NumPy` propose une vue : le tableau n'est pas modifié, ce qui n'est  pas le cas si on utilise la méthode `sort()` :

In [None]:
tableau = np.array([3, 2, 5, 1, 6, 5])
tableau.sort()
print("Le tableau a été modifié : ", tableau)

In [None]:
## Le tableau a été modifié :  [1 2 3 5 5 6]

### Transposition {#transposition-tableau}

Pour obtenir la transposée d'un tableau, on fait appel à l'attribut `T`. Il faut noter que l'on obtient une vue de l'objet, que cela ne le modifie pas.

In [None]:
tableau = np.array([3, 2, 5, 1, 6, 5])
tableau.shape = (3,2)
print("Tableau : \n", tableau)

In [None]:
## Tableau : 
##  [[3 2]
##  [5 1]
##  [6 5]]

In [None]:
print("Tableau transposé : \n", tableau.T)

In [None]:
## Tableau transposé : 
##  [[3 5 6]
##  [2 1 5]]

On peut également utiliser la fonction `transpose()` de `NumPy` :

In [None]:
print(np.transpose(tableau))

In [None]:
## [[3 5 6]
##  [2 1 5]]

Attention, si on assigne un nom à la transposée, que ce soit en utilisant l'attribut `T` ou la méthode `np.transpose()`, cela créé une référence, pas une copie d'élément...

In [None]:
tableau_transpose = np.transpose(tableau)
tableau_transpose[0,0] = 99
print("tableau : \n", tableau)

In [None]:
## tableau : 
##  [[99  2]
##  [ 5  1]
##  [ 6  5]]

In [None]:
print("tableau_transpose : \n", tableau_transpose)

In [None]:
## tableau_transpose : 
##  [[99  5  6]
##  [ 2  1  5]]

Pour savoir si un tableau est une vue ou non, on peut afficher l'attribut `base`, qui retourne `None` si ce n'est pas le cas :

In [None]:
print("tableau : ", tableau.base)

In [None]:
## tableau :  None

In [None]:
print("tableau_transpose : ", tableau_transpose.base)

In [None]:
## tableau_transpose :  [[99  2]
##  [ 5  1]
##  [ 6  5]]

### Opérations sur les tableaux {#operations-tableaux}

Il est possible d'utiliser des opérateurs sur les tableaux. Leur effet nécessite quelques explications.

#### Opérateurs `+` et `-`

Lorsque l'opérateur `+` (`-`) est utilisé entre deux tableaux de même dimension, une addition (soustraction) terme à terme est effectuée :

In [None]:
t_1 = np.array([1, 2, 3, 4])
t_2 = np.array([5, 6, 7, 8])
t_3 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
t_4 = np.array([[13, 14, 15, 16], [17, 18, 19, 20], [21, 22, 23, 24]])
t_1 + t_2

In [None]:
t_3 + t_4

In [None]:
t_1 - t_2

Lorsque l'opérateur `+` (`-`) est utilisé entre un scalaire et un tableau, le scalaire est ajouté (soustrait) à tous les éléments du tableau :

In [None]:
print("t_1 + 3 : \n", t_1 + 3)

In [None]:
## t_1 + 3 : 
##  [4 5 6 7]

In [None]:
print("t_1 + 3. : \n", t_1 + 3.)

In [None]:
## t_1 + 3. : 
##  [4. 5. 6. 7.]

In [None]:
print("t_3 + 3 : \n", t_3 + 3)

In [None]:
## t_3 + 3 : 
##  [[ 4  5  6  7]
##  [ 8  9 10 11]
##  [12 13 14 15]]

In [None]:
print("t_3 - 3 : \n", t_3 - 3)

In [None]:
## t_3 - 3 : 
##  [[-2 -1  0  1]
##  [ 2  3  4  5]
##  [ 6  7  8  9]]

#### Opérateurs `*` et `/`

Lorsque l'opérateur `*` (`/`) est utilisé entre deux tableaux de même dimension, une multiplication (division) terme à terme est effectuée :

In [None]:
t_1 * t_2

In [None]:
t_3 * t_4

In [None]:
t_3 / t_4

Lorsque l'opérateur `*` (`/`) est utilisé entre un scalaire et un tableau, tous les éléments du tableau sont multipliés (divisés) par ce scalaire :

In [None]:
print("t_1 * 3 : \n", t_1 * 3)

In [None]:
## t_1 * 3 : 
##  [ 3  6  9 12]

In [None]:
print("t_1 / 3 : \n", t_1 / 3)

In [None]:
## t_1 / 3 : 
##  [0.33333333 0.66666667 1.         1.33333333]

#### Puissance

Il est également possible d'élever chaque nombre d'un tableau à une puissance donnée :

In [None]:
print("t_1 ** 3 : \n", t_1 ** 3)

In [None]:
## t_1 ** 3 : 
##  [ 1  8 27 64]

#### Opérations sur des matrices

En plus des opérations/soustraction/multiplication/division terme à terme ou par un scalaire, il est possible d'effectuer certains calculs sur des tableaux à deux dimension.

Nous avons déjà vu la tranposée en Section\ \@ref(transposition-tableau).

Pour effectuer un produit matriciel, `NumPy` fournit la fonction `dot()` :

In [None]:
np.dot(t_3, t_4.T)

Il faut bien s'assurer d'avoir des matrices compatibles, sinon, une erreur sera retournée :

In [None]:
np.dot(t_3, t_4)

In [None]:
## ValueError: shapes (3,4) and (3,4) not aligned: 4 (dim 1) != 3 (dim 0)
## 
## Detailed traceback: 
##   File "<string>", line 1, in <module>

Le produit matriciel peut également s'obtenir à l'aide de l'opérateur `@` :

In [None]:
t_3 @ t_4.T

Le produit d'un vecteur avec une matrice est également possible :

In [None]:
np.dot(t_1, t_3.T)

### Opérateurs logiques

Pour effectuer des tests logiques sur les éléments d'un tableau, `NumPy` propose des fonctions, répertoriées dans le Tableau\ \@ref(numpy-operateurs-logiques). Le résultat retourné par l'application de ces fonctions est un tableau de booléens.

| Code | Description |
| ------------: | ----------------------------------------------------: |
| `greater()` | Supérieur à  |
| `greater_equal()` | Supérieur ou égal à |
| `less()` | Inférieur à  |
| `less_equal()` | Inférieur ou égal à  |
| `equal()` | Égal à  |
| `not_equal()` | Différent de |
| `logical_and()` | Et logique |
| `logical_or()` | Ou logique |
| `logical_xor()` | XOR logique |

Table: (#tab:numpy-operateurs-logiques) Fonctions logiques

Par exemple, pour obtenir les éléments de `t` compris entre 10 et 20 (inclus) :

In [None]:
t = np.array([[1, 10, 3, 24], [9, 12, 40, 2], [0, 7, 2, 14]])
masque = np.logical_and(t <= 20, t >= 10)
print("masque : \n", masque)

In [None]:
## masque : 
##  [[False  True False False]
##  [False  True False False]
##  [False False False  True]]

In [None]:
print("les éléments de t compris entre 10 et 20 : \n",
      t[masque])

In [None]:
## les éléments de t compris entre 10 et 20 : 
##  [10 12 14]

### Quelques constantes {numpy-constantes}


`NumPy` propose quelques constantes, dont certaines sont reportées dans le Tableau\ \@ref(tab:constantes-numpy).

| Code | Description |
| ------------: | ----------------------------------------------------: |
| `np.inf` | Infini (on obtient $-\infty$ en écrivant `-np.inf` ou `np.NINF`) |
| `np.nan` | Représentation en tant que nombre à virgule flottante de Not a Number |
| `np.e` | Constante d'Euler ($e$) |
| `np.euler_gamma` | Constante d'Euler-Mascheroni ($\gamma$) |
| `np.pi` | Nombre Pi ($\pi$) |

Table: (#tab:constantes-numpy) Codes de formatages

On peut noter la présence de la valeur `NaN`, qui est une valeur spéciale parmi les nombres à virgule flottante. Le comportement de cette constante est spécial.


Quand on additionne, soustrait, multiplie ou divise un nombre par cette valeur `NaN`, on obtient `NaN` :

In [None]:
print("Addition : ", np.nan + 1)

In [None]:
## Addition :  nan

In [None]:
print("Soustraction : ", np.nan - 1)

In [None]:
## Soustraction :  nan

In [None]:
print("Multiplication : ", np.nan + 1)

In [None]:
## Multiplication :  nan

In [None]:
print("AddDivisiontion : ", np.nan / 1)

In [None]:
## AddDivisiontion :  nan

### Fonctions universelles

Les fonctions universelles (*ufunc* pour *universal functions*) sont des fonctions qui peuvent être appliquées terme à terme aux éléments d'un tableau. On distingue deux types de fonctions universelles : les fonctions unaires, qui effectuent une opération sur une seule, et les fonctions binaires qui effectuent une opération sur deux opérandes.


Parmi les *ufuncs*, on retrouve des opérations arithmétiques (addition, multiplication, puissance, valeur absolue, etc.) et des fonctions mathématiques usuelles (fonctions trigonométriques, exponentielle, logarithme, etc.). Le Tableau\ \@ref(tab:ufuncs-unaires) répertorie quelques fonctions universelles unaires, tandis que le Tableau\ \@ref(tab:ufuncs-binaires) répertories quelques fonctions universelles binaires.

| Code | Description |
| ------------: | ----------------------------------------------------: |
| `negative(x)` | Opposés des éléments de `x` |
| `absolute(x)` | Valeurs absolues des éléments de `x` |
| `sign(x)` | Signes des éléments de `x` (0, 1 ou -1) |
| `rint(x)` | Arrondi de `x` à l'entier |
| `floor(x)` | Troncature de `x` à l'entier inférieur |
| `ceil(x)` | Troncature de `x` à l'entier supérieur |
| `sqrt(x)` | Racine carrée de `x` |
| `square(x)` | Carré de `x` |
| `sin(x)`, `cos(x)`, `tan(x)` | Sinus (cosinus, et tangente) de `x` |
| `sinh(x)`, `cosh(x)`, `tanh(x)` | Sinus (cosinus, et tangente) hyperbolique de `x`  |
| `arcsin(x)`, `arccos(x)`, `arctan(x)` | Arc-sinus (arc-cosinus, et arc-tangente) de ``x |
| `arcsinh(x)`, `arccosh(x)`, `arctanh(x)` | Arc-sinus (arc-cosinus, et arc-tangente) hyperbolique de ``x |
| `hypoth(x,y)` | Hypoténuse $\sqrt{x^2+y^2}$ |
| `degrees(x)` | Conversion des angles `x` de radians en degrés |
| `radians(x)` | Conversion des angles `x` de degrés en radians |
| `exp(x)` | Exponentielle de `x` |
| `expm1(x)` | $e^x-1$ |
| `log(x)` | Logarithme népérien des éléments de `x` |
| `log10(x)` | Logatithme des éléments de `x` en base 10 |
| `log2(x)` | Logarithme des éléments de `x` en base 2 |
| `log1p(x)` | $ln(1+x$ |
| `exp2(x)` | $2^x$ |
| `isnan(x)` | Tableau de booléens indiquant `True` pour les éléments `NaN` |
| `isfinite(x)` | Tableau de booléens indiquant `True` pour les éléments non infinis et non-NaN |
| `isinf(x)` | Tableau de booléens indiquant `True` pour les éléments infinis |


Table: (#tab:ufuncs-unaires) Fonctions universelles unaires


| Code | Description |
| ------------: | ----------------------------------------------------: |
| `add(x,y)` | Addition terme à terme de `x` et `y` |
| `subtract(x,y)` | Soustraction terme à terme de `x` et `y` |
| `multiply(x,y)` | Multiplication terme à terme de `x` et `y` |
| `divide(x,y)` | Division terme à terme de `x` et `y` |
| `floor_divide(x,y)` | Quotients entiers des divisions terme à terme de `x` et `y`|
| `power(x,y)` | Élévation des éléments de `x` à la puissance des éléments de `y` |
| `mod(x,y)` | Restes des divisions eucliennes des éléments de `x` par ceux de `y` |
| `round(x,n)` | Arrondi de `x` à $n$ décimales |
| `arctan2(x,y)` | Angles polaires de `x` et `y` |

Table: (#tab:ufuncs-binaires) Fonctions universelles binaires


Pour utiliser ses fonctions, procéder comme dans l'exemple suivant :

In [None]:
t_1 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
t_2 = np.array([[13, 14, 15, 16], [17, 18, 19, 20], [21, 22, 23, 24]])
np.log(t_1) # Logarithme népérien
np.subtract(t_1, t_2) # Soustraction des éléments de t_1 par ceux de t_2

### Méthodes et fonctions mathématiques et statistiques

`NumPy` fournit de nombreuses méthodes pour calculer des statistiques sur l'ensemble des valeurs des tableaux, ou sur un des axes des tableaux (par exemple sur l'équivalent de lignes ou des colonnes dans les tableaux à deux dimensions). Certaines sont reportées dans le Tableau\ \@ref(tab:numpy-maths-methodes).



| Code | Description |
| ------------: | ----------------------------------------------------: |
| `sum()` | Retourne la somme des éléments |
| `prod()` | Retourne le produit des éléments |
| `cumsum()` | Retourne la somme cumulée des éléments |
| `cumprod()` | Retourne le produit cumulé des éléments |
| `mean()` | Retourne la moyenne |
| `var()` | Retourne la variance |
| `std()` | Retourne l'écart-type |
| `min()` | Retourne la valeur minimale |
| `max()` | Retourne la valeur maximale |
| `argmin()` | Retourne l'indice du premier élément à la plus petite valeur |
| `argmax()` | Retourne l'indice du premier élément à la plus grande valeur |

Table: (#tab:numpy-maths-methodes) Méthodes mathématiques et statistiques


Donnons un exemple de l'utilisation de ces méthodes :

In [None]:
t_1 = np.array([[1, 2, 3, 4], [-1, 6, 7, 8], [9, -1, 11, 12]])
print("t_1 : \n", t_1)

In [None]:
## t_1 : 
##  [[ 1  2  3  4]
##  [-1  6  7  8]
##  [ 9 -1 11 12]]

In [None]:
print("Somme des éléments : ", t_1.sum())

In [None]:
## Somme des éléments :  61

In [None]:
print("Covariance des éléments : ", t_1.var())

In [None]:
## Covariance des éléments :  18.07638888888889

Pour appliquer ces fonctions sur un axe donné, on modifie la valeur du paramètre ` axis` :

In [None]:
print("Somme par colonne: ", t_1.sum(axis=0))

In [None]:
## Somme par colonne:  [ 9  7 21 24]

In [None]:
print("Somme par ligne: ", t_1.sum(axis=1))

In [None]:
## Somme par ligne:  [10 20 31]

`NumPy` offre aussi certaines fonctions spécifiques aux statistiques, dont certaines sont répertoriées dans le Tableau\ \@ref(tab:numpy-stats-fonctions).

| Code | Description |
| ---------------: | ----------------------------------------------------: |
| `sum(x)`, `nansum(x)` | Somme de `x` (`nansum(x)` ne tient pas compte des valeurs `NaN`) |
| `mean(x)`, `nanmean()` | Moyenne de `x` |
| `median(x)`, `nanmedian()` | Médiane de `x` |
| `average(x)` | Moyenne de `x` (possibilité d'utiliser des poids à l'aide du paramètre `weight`) |
| `min(x)`, `nanmin()` | Minimum de `x` |
| `max(x)`, `nanmax()` | Maximum de `x` |
| `percentile(x,p)`, `nanpercentile(n,p)` | P-ème percentile de `x` |
| `var(x)`, `nanvar(x)` | Variance de `x` |
| `std(x)`, `nanstd()` | Écart-type de `x` |
| `cov(x)` | Covariance de `x` |
| `corrcoef(x)` | Coefficients de corrélation |

Table: (#tab:numpy-stats-fonctions) Fonctions statistiques

Pour utiliser les fonctions statistiques :

In [None]:
t_1 = np.array([[1, 2, 3, 4], [-1, 6, 7, 8], [9, -1, 11, 12]])
print("t_1 : \n", t_1)

In [None]:
## t_1 : 
##  [[ 1  2  3  4]
##  [-1  6  7  8]
##  [ 9 -1 11 12]]

In [None]:
print("Variance: ", np.var(t_1))

In [None]:
## Variance:  18.07638888888889

Si le tableau comporte des valeurs `NaN`, pour calculer la somme par exempe, si on utilise `sum()`, le résultat sera `NaN`. Pour ignorer les valeurs `NaN`, on utilise une fonction spécifique (ici, `nansum()`) :

In [None]:
t_1 = np.array([[1, 2, np.NaN, 4], [-1, 6, 7, 8], [9, -1, 11, 12]])
print("somme : ", np.sum(t_1))

In [None]:
## somme :  nan

In [None]:
print("somme en ignorant les NaN : ", np.nansum(t_1))

In [None]:
## somme en ignorant les NaN :  58.0

Pour calculer une moyenne pondérée (prenons un vecteur) :

In [None]:
v_1 = np.array([1, 1, 4, 2])
w = np.array([1, 1, .5, 1])
print("Moyenne pondérée : ", np.average(v_1, weights=w))

In [None]:
## Moyenne pondérée :  1.7142857142857142

## Génération de nombres pseudo-aléatoires


La génération de nombres pseudo-aléatoires est permise par le module `random` de `Numpy`. Le lecteur intéressé par les aspects plus statistiques pourra trouver davantage de notions abordées dans le sous-module `stats` de `SciPy`.

In [None]:
from numpy import random

Le Tableau\ \@ref(tab:numpy-pseudo-aleatoires) répertorie quelques fonctions permettant de tirer de manière pseudo-aléatoire des nombres avec le module `random` de `Numpy` (en évaluant `??random`, on obtient une liste exhaustive).


| Code | Description |
| ------------: | ----------------------------------------------------: |
| `rand(size)` | Tirage de `size` valeurs selon une Uniforme $[0,1]$ |
| `uniform(a,b,size)` | Tirage de `size` valeurs selon une Uniforme $[a ; b]$ |
| `randint(a,b,size)` | Tirage de `size` valeurs selon une Uniforme $[a ; b[$ |
| `randn(size)` | Tirage de `size` valeurs selon une Normale centrée réduite |
| `normal(mu, std, size)` | Tirage de `size` valeurs selon une Normale d'espérance `mu` et d'écart-type `std` |
| `binomial(size)` | Tirage de `size` valeurs selon une $\mathcal{B}in(n,p)$  |
| `beta(alpha, beta, size)` | Tirage de `size` valeurs selon une loi bêta de paramètres alpha et beta |
| `poisson(lambda, size)` | Tirage de `size` valeurs selon une loi de Poisson de paramètre lambda |
| `f(size)` | Tirage de `size` valeurs selon une |
| `standard_t(df, size)` | Tirage de `size` valeurs selon une loi de Student à `df` degrés de liberté |


Table: (#tab:numpy-pseudo-aleatoires) Quelques fonctions de génération de nombres pseudo-aléatoires


Voici un exemple de génération de nombres pseudo aléatoires selon une distribution Gaussienne :

In [None]:
x = np.random.normal(size=10)
print(x)

In [None]:
## [ 0.17829408 -0.21763412  0.17442365  0.34213148  0.87857196  0.6505711
##  -0.21430156  0.62979871 -1.68140073  1.73371405]

On peut générer un tableau à plusieurs dimensions. Par exemple, un tableau à deux dimensions, dans lequel la première dimension contient 10 éléments, contenant chacun 4 tirages aléatoires selon une $\mathcal{N}(0,1)$ :

In [None]:
x = np.random.randn(10, 4)
print(x)

In [None]:
## [[-0.54174921 -0.04748063  0.53051893  0.18748516]
##  [-0.05221076  0.50723686 -0.18340768  1.2204466 ]
##  [ 1.10208709  0.14218753 -0.53491523  2.23497303]
##  [-0.12120334  0.3126148  -0.84962088  1.96682462]
##  [ 1.38963091 -0.36872079 -0.21167973 -0.30396998]
##  [-0.25034757 -0.85750103  1.39865852  1.02237202]
##  [ 0.19528422 -0.57441387  0.67004501 -2.89735275]
##  [ 0.75609816 -0.77209713 -0.17980928  0.33324138]
##  [ 1.3728439   1.25022637 -0.93213787 -0.30889486]
##  [-0.88703165 -0.09420696  0.54368064 -2.55861324]]

La génération des nombres s'effectue en fonction d'une graine (*seed*), c'est-à-dire un nombre initiant le générateur de nombres pseudo aléatoires. Il est possible de fixer cette graine, pour pouvoir avoir des résultats reproductibles par exemple. Pour ce faire, on peut faire appel à la méthode `seed()`, à qui on indique une valeur en paramètre :

In [None]:
np.random.seed(1234)
x = np.random.normal(size=10)
print(x)

In [None]:
## [ 0.47143516 -1.19097569  1.43270697 -0.3126519  -0.72058873  0.88716294
##   0.85958841 -0.6365235   0.01569637 -2.24268495]

En fixant à nouveau la graîne, on obtiendra exactement le même tirage :

In [None]:
np.random.seed(1234)
x = np.random.normal(size=10)
print(x)

In [None]:
## [ 0.47143516 -1.19097569  1.43270697 -0.3126519  -0.72058873  0.88716294
##   0.85958841 -0.6365235   0.01569637 -2.24268495]

Pour éviter d'affecter l'environnement global par la graine aléatoire, on peut utiliser la méthode `RandomState`du sous-module `random` de `NumPy` :

In [None]:
from numpy.random import RandomState
rs = RandomState(123)
x = rs.normal(10)
print(x)

In [None]:
## 8.914369396699438

Par ailleurs, la fonction `permutation()` du sous-module `random` permet d'effectuer une permutation aléatoire :

In [None]:
x = np.arange(10)
y = np.random.permutation(x)
print("x : ", x)

In [None]:
## x :  [0 1 2 3 4 5 6 7 8 9]

In [None]:
print("y : ", y)

In [None]:
## y :  [9 7 4 3 8 2 6 1 0 5]

La fonction `shuffle()` du sous-module `random` permet quant à elle d'effectuer une permutation aléatoire des éléments :

In [None]:
x = np.arange(10)
print("x avant permutation : ", x)

In [None]:
## x avant permutation :  [0 1 2 3 4 5 6 7 8 9]

In [None]:
np.random.permutation(x)
print("x après permutation : ", x)

In [None]:
## x après permutation :  [0 1 2 3 4 5 6 7 8 9]

## Exercice



*Premier exercice*

Considérons le vecteur suivant : $x = \begin{bmatrix}1 & 2 & 3 & 4 & 5\end{bmatrix}$

  1. Créer ce vecteur à l'aide d'un tableau que l'on appellera `x`.
  2. Afficher le type de `x` puis sa longueur.
  3. Extraire le premier élément, puis en faire de même avec le dernier.
  4. Extraire les trois premiers éléments et les stocker dans un vecteur que l'on nommera `a`.
  5. Extraire les 1er, 2e et 5e éléments du vecteur (attention aux positions) ; les stocker dans un vecteur que l'on nommera `b`.
  6. Additionner le nombre 10 au vecteur `x`, puis multiplier le résultat par 2.
  7. Effectuer l'addition de `a` et `b`, commenter le résultat.
  8. Effectuer l'addition suivante : `x+a` ; commenter le résultat, puis regarder le résultat de `a+x`.
  9. Multiplier le vecteur par le scalaire `c` que l'on fixera à 2.
  10. Effectuer la multiplication de `a` et `b` ; commenter le résultat.
  11. Effectier la multiplication suivante : `x*a` ; commenter le résultats.
  12. Récupérer les positions des multiples de 2 et les stocker dans un vecteur que l'on nommera `ind`, piuis conserver uniquement les multiples de 2 de `x` dans un vecteur que l'on nommera `mult_2`.
  13. Afficher les éléments de `x` qui sont multiples de 3 *et* multiples de 2.
  14. Afficher les éléments de `x` qui sont multiples de 3 *ou* multiples de 2.
  15. Calculer la somme des éléments de `x`.
  16. Remplacer le premier élément de `x` par un 4.
  17. Remplacer le premier élément de `x` par la valeur `NaN`, puis calculer la somme des éléments de `x`.
  18 Supprimer le vecteur `x`.

*Deuxième exercice*

  1. Créer la matrice suivante : $A = \begin{bmatrix} -3 & 5 & 6 \\ -1 & 2 & 2 \\ 1 & -1 & -1 \end{bmatrix}$.
  2. Afficher la dimension de `A`, son nombre de colonnes, son nombre de lignes et sa longueur.
  3. Extraire la seconde colonne de `A`, puis la première ligne.
  4.Extraire l'élément en troisième position à la première ligne.
  5. Extraire la sous-matrice de dimension $2\times 2$ du coin inférieur de `A`, c'est-à-dire $\begin{bmatrix} 2 & 2 \\ -1 & -1 \end{bmatrix}$.
  6. Calculer la somme des colonnes puis des lignes de A.
  7. Afficher la diagonale de `A`.
  8. Rajouter le vecteur $\begin{bmatrix} 1 & 2 & 3\end{bmatrix}^\top$ à droite de la matrice `A` et stocker le résultat dans un objet appelé `B`.
  9. Retirer le quatrième vecteur de `B`.
  10. Retirer la première et la troisième ligne de `B`.
  11. Ajouter le scalaire 10 à `A`.
  12. Ajouter le vecteur $\begin{bmatrix} 1 & 2 & 3\end{bmatrix}^\top$ à `A`.
  13. Ajouter la matrice identité $I_3$ à `A`.
  14. Diviser tous les éléments de la matrice `A` par 2.
  15. Multiplier la matrice `A` par le vecteur ligne $\begin{bmatrix} 1 & 2 & 3\end{bmatrix}^\top$.
  16. Afficher la transposée de `A`.
  17. Effectuer le produit avec transposition $A^\top A$.





<!-- # Manipulation de données avec `pandas` {#pandas} -->

<!-- `pandas` est une librairie open-source basée sur `NumPy` fournissant des structures de données facile à manipuler, et des outils d'analyse de données. Le lecteur familier avec les fonctions de base du langage `R` retrouvera de nombreuses fonctionnalités similaires avec `pandas`. -->



<!-- Pour avoir accès aux fonctionnalités de `pandas`, il est coutume de charger la librairie en lui accordant l'alias `pd` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- import pandas as pd -->
<!-- ``` -->

<!-- Nous allons également utiliser des fonctions de `numpy` (c.f. Section\ \@ref(numpy)). Assurons-nous de charger cette librairie, si ce n'est pas déjà fait : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- import numpy as np -->
<!-- ``` -->

<!-- ## Structures -->

<!-- Nous allons nous pencher sur deux types de structures, les séries (`serie`) et les dataframes (`DataFrame`). -->


<!-- ### Séries -->

<!-- Les séries sont des tableaux à une dimension de données indexées. -->

<!-- #### Création de séries à partir d'un dictionnaire -->

<!-- Pour en créer,on peut définir une liste, puis appliquer la fonction `Series` de `pandas` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([1, 4, -1, np.nan, .5, 1]) -->
<!-- print(s) -->
<!-- ``` -->

<!-- L'affichage précédent montre que la série `s` créée contient à la fois les données et un index associé. L'attribut `values` permet d'afficher les valeurs qui sont stockées dans un tableau `numpy` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("valeur de s : ", s.values) -->
<!-- print("type des valeurs de s : ", type(s.values)) -->
<!-- ``` -->

<!-- L'indice est quand à lui stocké dans une structure spécifique de `pandas` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("index de s : ", s.index) -->
<!-- print("type de l'index de s : ", type(s.index)) -->
<!-- ``` -->


<!-- Il est possible d'attribuer un nom à la série ainsi qu'à l'index : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s.name = "ma_serie" -->
<!-- s.name = "nom_index" -->
<!-- print("nom de la série : {} , nom de l'index : {}".format(s.name, s.index.name)) -->
<!-- print("série s : \n", s) -->
<!-- ``` -->



<!-- #### Définition de l'index -->

<!-- L'index peut être défini par l'utilisateur, au moment de la création de la série : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([1, 4, -1, np.nan], -->
<!--              index = ["o", "d", "i", "l"]) -->
<!-- print(s) -->
<!-- ``` -->

<!-- On peut définir l'indice avec des valeurs numériques également, sans être forcé de respecter un ordre précis : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([1, 4, -1, np.nan], -->
<!--              index = [4, 40, 2, 3]) -->
<!-- print(s) -->
<!-- ``` -->


<!-- L'index peut être modifié par la suite, en venant écraser l'attribut `index` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s.index = ["o", "d", "i", "l"] -->
<!-- print("Série s : \n", s) -->
<!-- ``` -->


<!-- #### Création de séries particulières -->

<!-- Il existe une petite astuce pour créer des séries avec une valeur répétée, qui consiste à fournir un scalaire à la fonction `Series` de `NumPy` et un index dont la longueur correspondra au nombre de fois où le scalaire sera répété : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series(5, index = [np.arange(4)]) -->
<!-- print(s) -->
<!-- ``` -->


<!-- On peut créer une série à partir d'un dictionnaire : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dictionnaire = {"Roi": "Arthur", -->
<!--                 "Chevalier_pays_galles": "Perceval", -->
<!--                 "Druide": "Merlin"} -->
<!-- s = pd.Series(dictionnaire) -->
<!-- print(s) -->
<!-- ``` -->

<!-- Comme on le note dans la sortie précédente, les clés du dictionnaire ont été utilisées pour l'index. Lors de la création de la série, on peut préciser au paramètre clé des valeurs spécifiques : cela aura pour conséquence de ne récupérer que les observations correspondant à ces clés : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dictionnaire = {"Roi": "Arthur", -->
<!--                 "Chevalier_pays_galles": "Perceval", -->
<!--                 "Druide": "Merlin"} -->
<!-- s = pd.Series(dictionnaire, index = ["Roi", "Druide"]) -->
<!-- print(s) -->
<!-- ``` -->


<!-- ### Dataframes -->


<!-- Les Dataframes correspondent au format de données que l'on rencontre classiquement en économie, des tableaux à deux dimensions, avec des variables en colonnes et des observations en ligne. Les colonnes et lignes des dataframes sont indexées. -->

<!-- #### Création de dataframes à partir d'un dictionnaire -->

<!-- Pour créer un dataframe, on peut fournir à la fonction `DataFrame()` de `pandas` un dictionnaire pouvant être transformé en `serie`. C'est le cas d'un dictionnaire dont les valeurs associées aux clés ont toutes la même longueur : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"height" : -->
<!--                [58, 59, 60, 61, 62, -->
<!--                 63, 64, 65, 66, 67, -->
<!--                 68, 69, 70, 71, 72], -->
<!--         "weight": -->
<!--                [115, 117, 120, 123, 126, -->
<!--                 129, 132, 135, 139, 142, -->
<!--                 146, 150, 154, 159, 164] -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- print(df) -->
<!-- ``` -->

<!-- La position des éléments dans le dataframe sert d'index. Comme pour les séries, les valeur sont accessibles dans l'attribut `values` et l'index dans l'attribut `index`. Les colonnes sont également indexées : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.columns) -->
<!-- ``` -->


<!-- La méthode `head()` permet d'afficher les premières lignes (les 5 premières, par défaut). On peut modifier son paramètre `n` pour indiquer le nombre de lignes à retourner : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.head(2) -->
<!-- ``` -->

<!-- Lors de la création d'un dataframe à partir d'un dictionnaire, si on précise le nom des colonnes à importer par une liste de chaînes de caractères fournie au paramètree `columns` de la fonction `DataFrame`, on peut non seulement définir les colonnes à remplir mais également leur ordre d'apparition. -->

<!-- Par exemple, pour n'importer que la colonne `weight` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df = pd.DataFrame(dico, columns = ["weight"]) -->
<!-- print(df.head(2)) -->
<!-- ``` -->

<!-- Et pour définir l'ordre dans lequel les colonnes apparaîtront : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df = pd.DataFrame(dico, columns = ["weight", "height"]) -->
<!-- print(df.head(2)) -->
<!-- ``` -->


<!-- Si on indique un nom de colonne absent parmi les clés du dictionnaires, le dataframe résultant contiendra une colonne portant ce nom mais remplie de valeurs `NaN` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df = pd.DataFrame(dico, columns = ["weight", "height", "age"]) -->
<!-- print(df.head(2)) -->
<!-- ``` -->


<!-- #### Création de dataframes à partir d'une série -->

<!-- Un dataframe peut être créé à partir d'une série : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"]) -->
<!-- s.name = "nom_variable" -->
<!-- df = pd.DataFrame(s, columns = ["nom_variable"]) -->
<!-- print(df) -->
<!-- ``` -->

<!-- Si on n'attribue pas de nom à la série, il suffit de ne pas renseigner le paramètre `columns` de la fonction `DataFrame`. Mais dans ce cas, la colonne n'aura pas de non, juste un index numérique. -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([1, 4, -1, np.nan], index = ["o", "d", "i", "l"]) -->
<!-- df = pd.DataFrame(s) -->
<!-- print(df) -->
<!-- print(df.columns.name) -->
<!-- ``` -->

<!-- #### Création de dataframes à partir d'une liste de dictionnaire -->


<!-- Un dataframe peut être créé à partir d'une liste de dictionnaires : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico_1 = { -->
<!--     "Nom": "Pendragon", -->
<!--     "Prenom": "Arthur", -->
<!--     "Role": "Roi de Bretagne" -->
<!-- } -->
<!-- dico_2 = { -->
<!--     "Nom": "de Galles", -->
<!--     "Prenom": "Perceval", -->
<!--     "Role": "Chevalier du Pays de Galles" -->
<!-- } -->

<!-- df = pd.DataFrame([dico_1, dico_2]) -->
<!-- print(df) -->
<!-- ``` -->

<!-- Si certaines clés sont absentes dans un ou plusieurs des dictionnaires de la liste, les valeurs correspondantes dans le dataframe seront `NaN` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico_3 = { -->
<!--     "Prenom": "Guenièvre", -->
<!--     "Role": "Reine de Bretagne" -->
<!-- } -->
<!-- df = pd.DataFrame([dico_1, dico_2, dico_3]) -->
<!-- print(df) -->
<!-- ``` -->


<!-- #### Création de dataframes à partir d'un dictionnaire de séries -->


<!-- On peut aussi créer un dataframe à partir d'un dictionnaire de séries. Pour illustrer la méthode, créons deux dictionnaires : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- # PIB annuel 2017 -->
<!-- # En millions de dollars courants -->
<!-- dico_gdp_current = { -->
<!--     "France": 2582501.31, -->
<!--     "USA": 19390604.00, -->
<!--     "UK": 2622433.96 -->
<!-- } -->
<!-- # Indice annuel des prix à la consommation -->
<!-- dico_cpi = { -->
<!--     "France": 0.2, -->
<!--     "UK": 0.6, -->
<!--     "USA": 1.3, -->
<!--     "Germany": 0.5 -->
<!-- } -->
<!-- ``` -->

<!-- À partir de ces deux dictionnaires, créons deux séries correspondantes : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_gdp_current = pd.Series(dico_gdp_current) -->
<!-- s_cpi = pd.Series(dico_cpi) -->

<!-- print("s_gdp_current : \n", s_gdp_current) -->
<!-- print("\ns_cpi : \n", s_cpi) -->
<!-- ``` -->

<!-- Puis, créons un dictionnaire de séries : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico_de_series = { -->
<!--     "gdp": s_gdp_current, -->
<!--     "cpi": s_cpi -->
<!-- } -->
<!-- print(dico_de_series) -->
<!-- ``` -->


<!-- Enfin, créons notre dataframe : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.DataFrame(dico_de_series) -->
<!-- print(s) -->
<!-- ``` -->

<!-- Remarque -->

<!-- Le dictionnaire `dico_gdp_current` ne contient pas de clé `Germany`, contrairement au dictionnaire `dico_cpi`. Lors de la création du dataframe, la valeur du PIB pour l'Allemagne a dont été assignée comme `NaN`. -->




<!-- #### Création de dataframes à partir d'un tableau `NumPy` à deux dimensions -->

<!-- On peut aussi créer un dataframe à partir d'un tableau `Numpy`. Lors de la création, avec la fonction `DataFrame()` de `NumPy`, il est possible de préciser le nom des colonnes (à défaut, l'indiçage des colonnes sera numérique) : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- liste = [ -->
<!--     [1, 2, 3], -->
<!--     [11, 22, 33], -->
<!--     [111, 222, 333], -->
<!--     [1111, 2222, 3333] -->
<!-- ] -->
<!-- tableau_np = np.array(tableau) -->
<!-- print(df = pd.DataFrame(tableau_np, -->
<!--                   columns = ["a", "b", "c"])) -->
<!-- ``` -->

<!-- #### Dimensions -->

<!-- On accède aux dimensions d'un dataframe avec l'attribut `shape`. -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("shape : ", df.shape) -->
<!-- ``` -->

<!-- On peut aussi afficher le nombre de lignes comme suit : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("shape : ", len(df)) -->
<!-- ``` -->


<!-- Et le nombre de colonnes : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("shape : ", len(df.columns)) -->
<!-- ``` -->



<!-- #### Modification de l'index -->

<!-- Comme pour les séries, on peut modifier l'index une fois que le dataframe a été créé, en venant écraser les valeurs des attributs `index` et `columns`, pour l'index des lignes et colonnes, respectivement : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.index = ["o", "d", "i", "l"] -->
<!-- df.columns = ["aa", "bb", "cc"] -->
<!-- print(df) -->
<!-- ``` -->



<!-- ## Sélection {#pandas-selection} -->

<!-- Dans cette section, nous regardons différentes manières de sélectionner des données dans des séries et dataframes. On note deux manières bien distinctes : -->

<!-- - une première basée sur l'utiliation de crochets directement sur l'objet pour lequel on souhaite sélectionner certaines parties ; -->
<!-- - seconde s'appuyant sur des indexeurs, accessibles en tant qu'attributs d'objets `NumPy` (`loc`, `at`, `iat`, etc.) -->

<!-- La seconde méthode permet d'éviter certaines confusions qui peuvent apparaître dans le cas d'index numériques. -->

<!-- ### Pour les séries -->

<!-- Dans un premier temps, regardons les manières d'extraire des valeurs contenues dans des séries. -->


<!-- #### Avec les crochets -->

<!-- On peut utiliser l'index pour extraire les données : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([1, 4, -1, np.nan, .5, 1]) -->
<!-- s[0] # 1er élément de s -->
<!-- s[1:3] # du 2e élément (inclus) au 4e (non inclus) -->
<!-- s[[0,4]] # 1er et 5e éléments -->
<!-- ``` -->

<!-- On note que contrairement aux tableaux `numpy` ou aux listes, on ne peut pas utiliser des valeurs négatives pour l'index afin de récupérer les données en comptant leur position par rapport à la fin : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s[-2] -->
<!-- ``` -->


<!-- Dans le cas d'un indice composé de chaînes de caractères, il est alors possible, pour extraire les données de la série, de faire référence soit au contenu de l'indice (pour faire simple, son nom), soit à sa position : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([1, 4, -1, np.nan], -->
<!--              index = ["o", "d", "i", "l"]) -->
<!-- print("La série s : \n", s) -->
<!-- print('s["d"] : \n', s["d"]) -->
<!-- print('s[1] : \n', s[1]) -->
<!-- print("éléments o et i : \n", s[["o", "i"]]) -->
<!-- ``` -->



<!-- Par contre, dans le cas où l'indice est défini avec des valeurs numériques, pour extraire les valeurs à l'aide des crochets, ce sera par la valeur de l'indice et pas en s'appuyant sur la position : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([1, 4, -1, np.nan], -->
<!--              index = [4, 40, 2, 3]) -->
<!-- print(s[40]) -->
<!-- ``` -->


<!-- #### Avec les indexeurs -->

<!-- Pandas propose deux types d'indiçage multi-axes : `loc`, `iloc`.  Le premier est principalement basé sur l'utilisation des labels des axes, tandis que le second s'appuie principalement sur les positions à l'aide d'entiers. -->

<!-- Pour les besoins de cette partie, créons deux séries ; une première avec un index textuel, une deuxième avec un index numérique : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_num = pd.Series([1, 4, -1, np.nan], -->
<!--              index = [5, 0, 4, 1]) -->
<!-- s_texte = pd.Series([1, 4, -1, np.nan], -->
<!--              index = ["c", "a", "b", "d"]) -->
<!-- ``` -->

<!-- ##### Extraction d'un seul élément -->

<!-- Pour extraire un objet avec `loc`, on utilise le nom de l'indice : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(s_num.loc[5], s_texte.loc["c"]) -->
<!-- ``` -->

<!-- Pour extraire un élément unique avec `iloc`, il suffit d'indiquer sa position : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- (s_num.iloc[1], s_texte.iloc[1]) -->
<!-- ``` -->


<!-- ##### Extraction de plusieurs éléments -->


<!-- Pour extraire plusieurs éléments avec `loc`, on utilise les noms (labels) des indices, que l'on fournit dans une liste : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("éléments aux labels 5 et 4 :\n", s_num.loc[[5,4]]) -->
<!-- print("éléments aux labels c et b : \n", s_texte.loc[["c", "b"]]) -->
<!-- ``` -->

<!-- Pour extraire plusieurs éléments avec `iloc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("éléments aux positions 0 et 2 :\n", s_num.iloc[[0,2]]) -->
<!-- print("éléments aux positions 0 et 2 : \n", s_texte.iloc[[0,2]]) -->
<!-- ``` -->


<!-- ##### Découpage {#decoupage-series} -->


<!-- On peut effectuer des découpages de séries, pour récupérer des éléments consécutifs : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("éléments des labels 5 jusqu'à 4 :\n", s_num.loc[5:4]) -->
<!-- print("éléments des labels c à b : \n", s_texte.loc["c":"b"]) -->
<!-- ``` -->

<!-- Pour extraire plusieurs éléments avec `iloc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("éléments aux positions de 0 à 2 :\n", s_num.iloc[0:2]) -->
<!-- print("éléments aux positions de 0 à 2 : \n", s_texte.iloc[0:2]) -->
<!-- ``` -->

<!-- Comme ce que l'on a vu jusqu'à présent, la valeur supérieur de la limite n'est pas incluse dans le découpage. -->


<!-- ##### Masque -->

<!-- On peut aussi utiliser un masque pour extraire des éléments, indifféremment en utilisant `loc` ou `iloc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("\n",s_num.loc[[True, False, False, True]]) -->
<!-- print("\n", s_texte.loc[[True, False, False, True]]) -->
<!-- print("\n", s_num.iloc[[True, False, False, True]]) -->
<!-- print("\n", s_texte.iloc[[True, False, False, True]]) -->
<!-- ``` -->




<!-- ##### Quel est l'intérêt ? -->


<!-- Pourquoi introduir de telles manières d'extraire les données et ne pas se contenter de l'extraction à l'aide des crochers sur les objets ? Regardons un exemple simple. Admettons que nous disposons de la série `s_num`, avec un indice composé d'entiers n'étant pas une séquence allant de 0 au nombre d'éléments. Dans ce cas, si nous souhaitons récupérer récupérer le 2e élément, du fait de l'indice composé de valeurs numériques, nous ne pouvons pas l'obtenir en demandant `s[1]`. Pour extraire le 2e de la série, on doit savoir que son indice vaut `0` et ainsi demander : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("L'élément dont l'index vaut 0 : ", s_num[0]) -->
<!-- ``` -->

<!-- Pour pouvoir effectuer l'extraction en fonction de la position, il est bien pratique d'avoir cet attribut `iloc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("L'élément en 2e position :", s_num.iloc[1]) -->
<!-- ``` -->



<!-- ### Pour les dataframes -->

<!-- À présent, regardons différentes manières d'extraire des données depuis un dataframe. Créons deux dataframes en exemple, l'une avec un index numérique ; une autre avec un index textuel : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"height" : [58, 59, 60, 61, 62], -->
<!--         "weight": [115, 117, 120, 123, 126], -->
<!--         "age": [28, 33, 31, 31, 29], -->
<!--         "taille": [162, 156, 172, 160, 158], -->
<!--        } -->
<!-- df_num = pd.DataFrame(dico) -->
<!-- df_texte = pd.DataFrame(dico, index=["a", "e", "c", "b", "d"]) -->
<!-- print("df_num : \n", df_num) -->
<!-- print("df_texte : \n", df_texte) -->
<!-- ``` -->


<!-- Pour faire simple, lorsqu'on veut effectuer une extraction avec les attributs  `iloc`, la syntaxe est la suivante : -->

<!-- ```{python, eval=F, echo=TRUE, error=TRUE} -->
<!-- df.iloc[selection_lignes, selection_colonnes] -->
<!-- ``` -->

<!-- avec `selection_lignes` : -->

<!-- - une valeur unique : `1` (seconde ligne) ; -->
<!-- - une liste de valeurs : `[2, 1, 3]` (3e ligne, 2e ligne et 4e ligne) ; -->
<!-- - un découpage : `[2:4]` (de la 3e ligne à la 4e ligne (non incluse)). -->

<!-- pour `selection_colonnes` : -->

<!-- - une valeur unique : `1` (seconde colonne) ; -->
<!-- - une liste de valeurs : `[2, 1, 3]` (3e colonne, 2e colonne et 4e colonne) ; -->
<!-- - un découpage : `[2:4]` (de la 3e colonne à la 4e colonne (non incluse)). -->


<!-- Avec `loc`, la syntaxe est la suivante : -->


<!-- ```{python, eval=F, echo=TRUE, error=TRUE} -->
<!-- df.loc[selection_lignes, selection_colonnes] -->
<!-- ``` -->

<!-- avec `selection_lignes` : -->

<!-- - une valeur unique : `"a"` (ligne nommée `a`) ; -->
<!-- - une liste de noms : `["a", "c", "b"]` (lignes nommées "a", "c" et "b") ; -->
<!-- - un masque : `df.['a']<10` (lignes pour lesquelles les valeurs du masque valent `True`). -->

<!-- pour `selection_colonnes` : -->

<!-- - une valeur unique : `a` (colonne nommée `a`) ; -->
<!-- - une liste de valeurs : `["a", "c", "b"]` (colonnes nommées "a", "c" et "b") ; -->
<!-- - un découpage : `["a":"c"]` (de la colonne nommée "a" à la colonne nommée "c"). -->

<!-- #### Extraction d'une ligne -->

<!-- Pour extraire une ligne d'un dataframe, on peut utiliser le nom de la ligne avec `loc` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Ligne nommée 'e':\n", df_texte.loc["e"]) -->
<!-- print("\nLigne nommée 'e':\n", df_num.loc[1]) -->
<!-- ``` -->


<!-- Ou bien, sa position avec `iloc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Ligne en position 0:\n", df_texte.iloc[0]) -->
<!-- print("\nLigne en position 0:\n", df_num.iloc[0]) -->
<!-- ``` -->



<!-- #### Extraction de plusieurs lignes -->

<!-- Pour extraire plusieurs lignes d'un dataframe, on peut utiliser leur noms avec `loc` (dans un tableau) : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Lignes nommées a et c :\n", df_texte.loc[["a", "c"]]) -->
<!-- print("\nLignes nommées 0 et 2:\n", df_num.loc[[0, 2]]) -->
<!-- ``` -->


<!-- Ou bien, leur position avec `iloc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Lignes aux positions 0 et 3:\n", df_texte.iloc[[0, 3]]) -->
<!-- print("\nLignes aux positions 0 et 3:\n", df_num.iloc[[0, 3]]) -->
<!-- ``` -->



<!-- #### Découpage de plusieurs lignes {#decoupage-df-lignes} -->

<!-- On peut récupérer une suite de ligne en délimitant la première et la dernière à extraire en fonction de leur nom et en utilisant `loc` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Lignes du label a à c:\n", df_texte.loc["a":"c"]) -->
<!-- print("\Lignes du label 0 à 2:\n", df_num.loc[0:2]) -->
<!-- ``` -->

<!-- Avec l'attribut `iloc`, c'est également possible (encore une fois, la borne supérieure n'est pas incluse) : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Lignes des positions 0 à 3 (non incluse):\n", df_texte.iloc[0:3]) -->
<!-- print("\nLignes des positions 0 à 3 (non incluse):\n", df_num.iloc[0:3]) -->
<!-- ``` -->



<!-- #### Masque {#masque-extraction-ligne} -->

<!-- On peut aussi utiliser un masque pour sélectionner certaines lignes. Par exemple, si on souhaite récupérer les lignes pour lesquelles la variable `height` a une valeur supérieure à 60, on utilise le masque suivante : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- masque = df_texte["height"]> 60 -->
<!-- print(masque) -->
<!-- ``` -->

<!-- Pour filtrer : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df_texte.loc[masque]) -->
<!-- ``` -->



<!-- #### Extraction d'une seule colonne -->

<!-- Pour extraire une colonne d'un dataframe, on peut utiliser des crochets et faire référence au nom de la colonne (qui est indexée par les noms) : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df_texte['weight'].head(2)) -->
<!-- ``` -->

<!-- En ayant sélectionné une seule colonne, on obtient une série (l'index du dataframe est conservé pour la série) : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(type(df_texte['weight'])) -->
<!-- ``` -->


<!-- On peut également extraire une colonne en faisant référence à l'attribut du dataframe portant le nom de cette colonne : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df_texte.weight.head(2)) -->
<!-- ``` -->


<!-- Comme pour les séries, on peut s'appuyer sur les attributs `loc` et `iloc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Colone 2 (loc):\n", df_texte.loc[:,"weight"]) -->
<!-- print("Colonne 2 (iloc):\n", df_texte.iloc[:,1]) -->
<!-- ``` -->


<!-- #### Extraction de plusieurs colonnes -->


<!-- Pour extraire plusieurs colonnes, il suffit de placer les noms des colonnes dans un tableau : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df_texte[["weight", "height"]]) -->
<!-- ``` -->

<!-- L'ordre dans lequel on appelle ces colonnes correspond à l'ordre dans lequel elles seront retournées. -->

<!-- À nouveau, on peut utuliser l'attribut `loc` (on utilise les deux points ici pour dire que l'on veut toutes les lignes) : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Colonnes de weight à height:\n", df_texte.loc[:,["weight", "height"]]) -->
<!-- ``` -->


<!-- Et l'attribut `iloc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Colonnes 2 et 1 :\n", df_num.iloc[:,[1,0]]) -->
<!-- ``` -->

<!-- #### Découpage de plusieurs colonnes {#decoupage-df-colonnes} -->

<!-- Pour effectuer un découpage, on peut utiliser les attributs `loc` et `iloc`. Attention, on ne place pas le nom des colonnes servant pour le découpage dans un tableau ici : -->

<!-- Avec `loc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Colones 2 et 2:\n", df_texte.loc[:, "height":"age"]) -->
<!-- ``` -->


<!-- Et avec l'attribut `iloc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Colonnes de la position 0 à 2 (non incluse) :\n", -->
<!--       df_texte.iloc[:, 0:2]) -->
<!-- ``` -->




<!-- #### Extraction de lignes et colonnes -->

<!-- À présent que nous avons passé en revue de nombreuses manières de sélectionner une ou plusieurs lignes ou colonnes, nous pouvons également mentionner qu'il est possible de faire des sélections de colonnes et de lignes dans une même instruction. -->


<!-- Par exemple, avec `iloc`, sélectionnons les lignes de la position 0 à la position 2 (non incluse) et les colonnes de la position 1 à 3 (non incluse) : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df_texte.iloc[0:2, 1:3]) -->
<!-- ``` -->


<!-- Avec `loc`, sélectionnons les lignes nommées `a` et `c` et les colonnes de celle nommée `weight` jusqu'à `age`. -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df_texte.loc[["a", "c"], "weight":"age"] -->
<!-- ``` -->


<!-- ## Renommage des colonnes dans un dataframe -->

<!-- Pour renommer une colonne dans un dataframe, `pandas` propose la méthode `rename()`. Prenons un exemple avec notre dataframe `df` : -->


<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"height" : [58, 59, 60, 61, 62], -->
<!--         "weight": [115, 117, 120, 123, 126], -->
<!--         "age": [28, 33, 31, 31, 29], -->
<!--         "taille": [162, 156, 172, 160, 158], -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- print(df) -->
<!-- ``` -->

<!-- Renommons la colonne `height` en `taille`, à l'aide d'un dicionnaire précisé au paramètre `columns`, avec comme clé le nom actuel de la colonne, et en valeur le nouveau nom : -->


<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.rename(index=str, columns={"height": "taille"}, inplace=True) -->
<!-- print(df) -->
<!-- ``` -->

<!-- Pour que le changement soit effectif, on indique `inplace=True`, sinon, la modification n'est pas apportée au dataframe. -->

<!-- Pour renommer plusieurs colonnes en même temps, il suffit de fournir plusieurs couples de clés valeurs dans le dictionnaire : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.rename(index=str, -->
<!--           columns={"weight": "masse", "age" : "annees"}, -->
<!--           inplace=True) -->
<!-- print(df) -->
<!-- ``` -->

<!-- ## Filtrage -->


<!-- Pour effectuer une filtration des données dans un tableau, en fonction des valeurs rencontrées pour certaines variables, on utilise des masques, comme indiqué dans la Section\ \@ref(masque-extraction-ligne). -->


<!-- Redennons quelques exemples ici, en redéfinissant notre dataframe : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"height" : [58, 59, 60, 61, 62], -->
<!--         "weight": [115, 117, 120, 123, 126], -->
<!--         "age": [28, 33, 31, 31, 29], -->
<!--         "taille": [162, 156, 172, 160, 158], -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- print(df) -->
<!-- ``` -->

<!-- L'idée consiste à créer un masque retournant une série contenant des valeurs booléennes, une par ligne. Lorsque la valeur de la ligne du masque vaut `True`, la ligne du dataframe sur lequel sera appliqué le masque sera retenue, tandis qu'elle ne le sera pas quand la valeur de la ligne du masque vaut `False`. -->


<!-- Regardons un exemple simple, dans lequel nous souhaitons conserver les observations uniquement pour lesquelles la valeur de la variable `age` est inférieure à 30 : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- masque = df["age"] < 30 -->
<!-- print(masque) -->
<!-- ``` -->

<!-- Il reste alors à appliquer ce masque, avec `loc`. On souhaite l'ensemble des colonnes, mais seulement quelques lignes : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.loc[masque]) -->
<!-- ``` -->

<!-- Note : cela fonctionne aussi sans `loc` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df[masque]) -->
<!-- ``` -->

<!-- Plus simplement, on peut utiliser la méthode `query()` de `pandas`. On fournit une expression booléenne à évaluer à cette méthode pour filtrer les données : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.query(age<30)) -->
<!-- ``` -->


<!-- La requête peut être un peu plus complexe, en combinant opérateurs de comparaison (c.f. Section\ \@ref(operateurs-comparaison)) et opérateurs logiques (c.f. Section\ \@ref(operateurs-logiques)). Par exemple, admettons que nous voulons filtrer les valeurs du dataframe pour ne retenir que les observations pour lesquelles la taille est inférieure ou égale à 62 et la masse strictement supérieure à 120. La requête serait alors : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.query("weight > 120 and height < 62")) -->
<!-- ``` -->

<!-- On peut noter que l'instruction suivante donne le même résultat : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.query("weight > 120").query("height < 62")) -->
<!-- ``` -->


<!-- ### Test d'appartenance -->

<!-- Pour créer un masque indiquant si les valeurs d'une série ou d'un dataframe appartiennent à un ensemble, on peut utiliser la méthode `isin()`. Par exemple, retournons un masque indiquant si les valeurs de la colonne `height` de `df` sont dans l'intervalle $[59,60]$ : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.height.isin(np.arange(59,61)) -->
<!-- ``` -->



<!-- ## Valeurs manquantes -->

<!-- En économie, il est assez fréquent de récupérer des données incomplètes. La manière dont les données manquantes sont gérées par `pandas` est le recours aux deux valeurs spéciales : `None` et `NaN`. -->

<!-- La valeur `None` peut être utilisée dans les tableaux `NumPy` uniquement quand le type de ces derniers est `object`. -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- tableau_none = np.array([1, 4, -1, None]) -->
<!-- print(tableau_none) -->
<!-- print(type(tableau_none)) -->
<!-- ``` -->

<!-- Avec un tableau de type `object`, les opérations effectuées sur les données seront moins efficaces qu'avec un tableau d'un type numérique [@vanderplas2016python, p 121]. -->

<!-- La valeur `NaN` est une valeur de nombre à virgule flottante (c.f. Section\ \@ref(numpy-constantes)). `NumPy` la gère différemment de `NaN`, et n'assigne passe type `object` d'emblée en présence de `NaN` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- tableau_nan = np.array([1, 4, -1, np.nan]) -->
<!-- print(tableau_nan) -->
<!-- print(type(tableau_nan)) -->
<!-- ``` -->

<!-- Avec `pandas`, ces deux valeurs, `None` et `NaN` peuvent être présentes : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([1, None, -1, np.nan]) -->
<!-- print(s) -->
<!-- print(type(s)) -->
<!-- ``` -->

<!-- Cela tient aussi pour les tableaux : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"height" : [58, 59, 60, 61, np.nan], -->
<!--         "weight": [115, 117, 120, 123, 126], -->
<!--         "age": [28, 33, 31, np.nan, 29], -->
<!--         "taille": [162, 156, 172, 160, 158], -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- print(df) -->
<!-- ``` -->

<!-- On note toutefois que seule le type des variables pour lesquelles existent des valeurs manquantes sont passées en `float64` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.dtypes) -->
<!-- ``` -->



<!-- Remarque -->

<!-- On note que les données sont enregistrées sur un type `float64`. Lorsqu'on travaille sur un tableau ne comportant pas de valeurs manquantes, dont le type est `int` ou `bool`, si on introduit une valeur manquante, `pandas` changera le type des données en `float64` et `object`, respectivement. -->



<!-- `pandas` propose différentes pour manipuler les valeurs manquantes. -->


<!-- ### Repérer les valeurs manquantes -->

<!-- Avec la méthode `isnull()`, un masque de booléens est retournée, indiquant `True` pour les observations dont la valeur est `NaN` ou `None` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(s.isnull()) -->
<!-- ``` -->


<!-- Pour savoir si une valeur n'est pas nulle, on dispose de la méthode `notnull()` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(s.notnull()) -->
<!-- ``` -->


<!-- ### Retirer les observations avec valeurs manquantes -->

<!-- La méthode `dropna()` permet quant à elle de retirer les observations disposant de valeurs nulles : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.dropna()) -->
<!-- ``` -->

<!-- ### Retirer les valeurs manquantes par d'autres valeurs -->

<!-- Pour remplacer les valeurs manquantes par d'autres valeurs, `pandas` propose d'utiliser la méthode `fillna()` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.fillna(-9999)) -->
<!-- ``` -->




<!-- ## Suppressions -->

<!-- Pour supprimer une valeur sur un des axes d'une série ou d'un dataframe, `NumPy` propose la méthode `drop()`. -->


<!-- ### Suppression d'éléments dans une série -->

<!-- Pour illustrer le fonctionnement de la méthode `drop()`, créons une série avec un index numérique, une autre avec un index textuel : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_num = pd.Series([1, 4, -1, np.nan], -->
<!--              index = [5, 0, 4, 1]) -->
<!-- s_texte = pd.Series([1, 4, -1, np.nan], -->
<!--              index = ["c", "a", "b", "d"]) -->

<!-- ``` -->

<!-- On peut supprimer un élément d'une série en utilisant son nom : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("pour s_num : \n", s_num.drop(5)) -->
<!-- print("\npour s_texte : \n", s_texte.drop("c")) -->
<!-- ``` -->

<!-- On peut aussi aller récupérer le nom en fonction de la position, en passant par un détour en utilisant la méthode `index()` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- pritn(s.drop(s_num.index[0])) -->
<!-- print("s_num.index[0] : ", s_num.index[0]) -->
<!-- print("s_texte.index[0] : ", s_texte.index[0]) -->

<!-- print("pour s_num : \n", s_num.drop(s_num.index[0])) -->
<!-- print("\npour s_texte : \n", s_texte.drop(s_texte.index[0])) -->
<!-- ``` -->



<!-- Pour supprimer plusieurs éléments, il suffit de fournir plusieurs noms d'indice dans une liste à la méthode `drop()` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("pour s_num : \n", s_num.drop([5, 4])) -->
<!-- print("\npour s_texte : \n", s_texte.drop(["c", "b"])) -->
<!-- ``` -->


<!-- À nouveau, on peut aller récupérer le nom en fonction de la position, en passant par un détour en utilisant la méthode `index()` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- pritn(s.drop(s_num.index[0])) -->
<!-- print("s_num.index[[0,2]] : ", s_num.index[[0,2]]) -->
<!-- print("s_texte.index[[0,2]] : ", s_texte.index[[0,2]]) -->

<!-- print("pour s_num : \n", s_num.drop(s_num.index[[0,2]])) -->
<!-- print("\npour s_texte : \n", s_texte.drop(s_texte.index[[0,2]])) -->
<!-- ``` -->



<!-- Il est possible d'utiliser un découpage également pour obtenir la série sans le ou les éléments (c.f. Section\ \@ref(decoupage-series)) -->


<!-- ### Suppression d'éléments dans un dataframe -->


<!-- Pour illustrer le fonctionnement de la méthode `drop()` sur un dataframe, créons-en un : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_num = pd.Series([1, 4, -1, np.nan], -->
<!--              index = [5, 0, 4, 1]) -->
<!-- s_texte = pd.Series([1, 4, -1, np.nan], -->
<!--              index = ["c", "a", "b", "d"]) -->
<!-- dico = {"height" : [58, 59, 60, 61, np.nan], -->
<!--         "weight": [115, 117, 120, 123, 126], -->
<!--         "age": [28, 33, 31, np.nan, 29], -->
<!--         "taille": [162, 156, 172, 160, 158], -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- ``` -->

<!-- #### Suppressions de lignes -->

<!-- Pour supprimer une ligne d'un dataframe, on peut faire référence à son nom (ici, les noms sont des numéros, mais ce sont bien des labels) : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Supprimer la première ligne :  \n", df.drop(0)) -->
<!-- ``` -->

<!-- Si les lignes ont des labels textuels, on peut au préalable aller les récupérer à l'aide de la méthode `index()` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- label_pos_0 = df.index[0] -->
<!-- print("Supprimer la première ligne :  \n", df.drop(label_pos_0)) -->
<!-- ``` -->


<!-- Pour supprimer plusieurs lignes, on donne le nom de ces lignes dans une liste à la méthode `drop()` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Supprimer les 1ère et 4e lignes :  \n", df.drop([0,3])) -->
<!-- ``` -->

<!-- Ou encore, en indiquant les positions des lignes : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- label_pos = df.index[[0, 3]] -->
<!-- print("Supprimer les 1ère et 4e lignes :  \n", df.drop(label_pos)) -->
<!-- ``` -->

<!-- Il est possible d'utiliser un découpage également pour obtenir la série sans le ou les éléments (c.f. Sections\ \@ref(decoupage-df-lignes) et \@ref(decoupage-df-colonnes)) -->


<!-- #### Suppressions de colonnes -->


<!-- Pour supprimer une colonne d'un dataframe, on procède de la même manière que pour les lignes, mais en ajoutant le paramètre `axis=1` à la méthode `drop()` pour préciser que l'on s'intéresse aux colonnes : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Supprimer la première colonne :  \n", df.drop("height", axis=1)) -->
<!-- ``` -->

<!-- On peut au préalable aller récupérer les labels des colonnes en fonction de leur position à l'aide de la méthode `columns()` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- label_pos = df.columns[0] -->
<!-- print("label_pos : ", label_pos) -->
<!-- print("Supprimer la première colonne :  \n", df.drop(label_pos, axis=1)) -->
<!-- ``` -->


<!-- Pour supprimer plusieurs colonnes, on donne le nom de ces colonnes dans une liste à la méthode `drop()` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("Supprimer les 1ère et 4e colonnes :  \n", df.drop(["height", "taille"], axis = 1)) -->
<!-- ``` -->

<!-- Ou encore, en indiquant les positions des colonnes : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- label_pos = df.columns[[0, 3]] -->
<!-- print("Supprimer les 1ère et 4e colonnes :  \n", df.drop(label_pos, axis=1)) -->
<!-- ``` -->

<!-- Il est possible d'utiliser un découpage également pour obtenir la série sans le ou les éléments (c.f. Sections\ \@ref(decoupage-df-lignes) et \@ref(decoupage-df-colonnes)) -->


<!-- ## Remplacement de valeurs -->

<!-- Nous allons à présent regarder comment modifier une ou plusieurs valeurs, dans le cas d'une série puis d'un dataframe. -->

<!-- ### Pour une série -->

<!-- Pour modifier une valeur particulière dans une série ou dans un dataframe, on peut utiliser le symbole égale (`=`) en ayant au préalable ciblé l'emplacement de la valeur à modifier, à l'aide des techniques d'extraction expliquées dans la Section\ \@ref(pandas-selection). -->

<!-- Par exemple, considérons la série suivante : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_num = pd.Series([1, 4, -1, np.nan], -->
<!--              index = [5, 0, 4, 1]) -->
<!-- print("s_num : ", s_num) -->
<!-- ``` -->

<!-- Modifions le deuxième élément élément de `s_num`, pour lui donner la valeur -3 : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_num.iloc[1] = -3 -->
<!-- print("s_num : ", s_num) -->
<!-- ``` -->


<!-- Il est évidemment possible de modifier plusieurs valeurs à la fois. -->

<!-- Il suffit à nouveau de cibler les positions (on peu utiliser de nombreuses manières de le faire) et de fournir un objet de dimensions équivalentes pour venir remplacer les valeurs ciblées. Par exemple, dans notre série `s_num`, allons remplacer les valeurs en position 1 et 3 (2e et 4e valeurs) par -10 et -9 : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_num.iloc[[1,3]] = [-10, -9] -->
<!-- print(s_num) -->
<!-- ``` -->


<!-- ### Pour un dataframe -->

<!-- Considérons le dataframe suivant : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"ville" : ["Marseille", "Aix", -->
<!--                    "Marseille", "Aix", "Paris", "Paris"], -->
<!--         "annee": [2019, 2019, 2018, 2018,2019, 2019], -->
<!--         "x": [1, 2, 2, 2, 0, 0], -->
<!--         "y": [3, 3, 2, 1, 4, 4], -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- print("df : \n", df) -->
<!-- ``` -->


<!-- #### Modifications d'une valeur particulière -->

<!-- Modifions la valeur de la première ligne de `df` pour la colonne `annee`, pour que celle-ci vaille 2020. Dans un premier temps, récupérons la position de la colonne `annee` dans le dataframe, à l'aide de la méthode `get_loc()` appliquée à l'attribut `colnames` du dataframe : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- pos_annee = df.columns.get_loc("annee") -->
<!-- print("pos_annee : ", pos_annee) -->
<!-- ``` -->

<!-- Ensuite, effectuons la modification : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.iloc[0,pos_annee] = 2020 -->
<!-- print("df : \n", df) -->
<!-- ``` -->


<!-- #### Modifications sur une ou plusieurs colonnes -->

<!-- Pour modifier toutes les valeurs d'une colonne pour y placer une valeur particulière, par exemple un 2 dans la colonne `x` de `df` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.x = 2 -->
<!-- print("df : \n", df) -->
<!-- ``` -->


<!-- On peut également modifier les valeurs de la colonne en fournissant une liste de valeurs : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.x = [2, 3, 4, 2, 1, 0] -->
<!-- print("df : \n", df) -->
<!-- ``` -->

<!-- On peut donc  imaginer modifier les valeurs d'une colonne en fonction des valeurs que l'on lit dans une autre colonne. Par exemple, admettons le code suivant : si la valeur de `y` vaut 2, alors celle de x vaut "a", si la valeur de `y` vaut 1, lors celle de `x` vaut "b", sinon, elle vaut `NaN`. Dans un premier temps, construisons une liste contenant les valeurs à insérer (que nous nommerons `nv_val`), à l'aide d'une boucle. Nous allons parcourir tous les éléments de la colonne `y`, et à chaque itération ajouter à `nv_val` la valeur obtenue en effectuant nos comparaisons : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- nv_val = [] -->
<!-- for i in np.arange(len(df.index)): -->
<!--         if df.y[i] == 2: -->
<!--             nv_val.append("a") -->
<!--         elif df.y[i] == 1: -->
<!--             nv_val.append("b") -->
<!--         else: -->
<!--             nv_val.append(np.nan) -->
<!-- print("nv_val : ", nv_val) -->
<!-- ``` -->

<!-- Nous sommes prêts à modifier le contenu de la colonne `x` de `df` pour le remplacer par `nv_val` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.x = nv_val -->
<!-- print("df : \n", df) -->
<!-- ``` -->


<!-- Pour remplacer plusieurs colonnes en même temps : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df[["x", "y"]] = [[2, 3, 4, 2, 1, 0], 1] -->
<!-- print("df : \n", df) -->
<!-- ``` -->

<!-- Dans l'instruction précédente, nous avons remplacé le contenu des colonnes `x` et `y` par une vecteur de valeurs écrites à la main pour `x` et par la valeur 1 pour toutes les observations pour `y`. -->



<!-- #### Modifications sur une ou plusieurs lignes -->


<!-- Pour remplacer une ligne par une valeur constante (peu d'intérêt ici) : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.iloc[1,:] = 1 -->
<!-- print("df : \n", df) -->
<!-- ``` -->

<!-- Il peut être plus intéressant de remplacer une observation comme suit : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.iloc[1,:] = ["Aix", 2018, 1, 2, 3] -->
<!-- print("df : \n", df) -->
<!-- ``` -->


<!-- Pour remplacer plusieurs lignes, la méthode est identique : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.iloc[[1,3],:] = [ -->
<!--     ["Aix", 2018, 1, 2, 3], -->
<!--     ["Aix", 2018, -1, -1, -1] -->
<!-- ] -->
<!-- print("df : \n", df) -->
<!-- ``` -->


<!-- ## Ajout de valeurs {#pandas-ajout-valeurs} -->

<!-- Regardons à présent comment ajouter des valeurs, dans une série d'abord, puis dans un dataframe. -->

<!-- ### Pour une série -->

<!-- Considérons la série suivante : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_num = pd.Series([1, 4, -1, np.nan], -->
<!--              index = [5, 0, 4, 1]) -->
<!-- print("s_num : ", s_num) -->
<!-- ``` -->

<!-- #### Ajout d'une seule valeur dans une série -->


<!-- Pour ajouter une valeur, on utlise la méthode `append()`. Ici, avec `s_num`, comme l'index est manuel, nous sommes obligé de fournir une série avec une valeur pour l'index également : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_num_2 = pd.Series([1], index = [2]) -->
<!-- print("s_num_2 : \n", s_num_2) -->
<!-- s_num = s_num.append(s_num_2) -->
<!-- print("s_num : \n", s_num) -->
<!-- ``` -->

<!-- On note que la méthode `append()` retourne une vue, et que pour répercuter l'ajout, il est nécessaire d'effectuer une nouvelle assignation. -->


<!-- En ayant une série avec un index numérique généré automatiquement, on peut préciser la valeur `True` pour le paramètre `ignore_index` de la méthode `append()` pour indiquer de ne pas tenir compte de la valeur de l'index de l'objet que l'on ajoute : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([10, 2, 4]) -->
<!-- s = s.append(pd.Series([2]), ignore_index=True) -->
<!-- print("s : \n", s) -->
<!-- ``` -->

<!-- #### Ajout de plusieurs valeurs dans une série -->

<!-- Pour ajouter plusieurs valeurs, on utlise la méthode `append()`. Ici, avec `s_num`, comme l'index est manuel, nous sommes obligé de fournir une série avec une valeur pour l'index également : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s_num_2 = pd.Series([1], index = [2]) -->
<!-- s_num.append(s_num_2) -->
<!-- print("s_num : ", s_num) -->
<!-- ``` -->


<!-- En ayant une série avec un index numérique généré automatiquement : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- s = pd.Series([10, 2, 4]) -->
<!-- s.append(pd.Series([2]), ignore_index=True) -->
<!-- ``` -->



<!-- ### Pour un dataframe -->

<!-- Reprenons notre dataframe : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"ville" : ["Marseille", "Aix", -->
<!--                    "Marseille", "Aix", "Paris", "Paris"], -->
<!--         "annee": [2019, 2019, 2018, 2018,2019, 2019], -->
<!--         "x": [1, 2, 2, 2, 0, 0], -->
<!--         "y": [3, 3, 2, 1, 4, 4], -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- print("df : \n", df) -->
<!-- ``` -->



<!-- #### Ajout d'une ligne dans un dataframe {#pandas-ajout-ligne-df} -->

<!-- Comme pour une série, pour ajouter une ligne, on utlise la méthode `append()`. Dans un premier temps, créons un nouveau dataframe avec la ligne à ajouter : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- nv_ligne = pd.DataFrame([["Marseille", "2021", 2, 4]], -->
<!--                        columns = df.columns) -->
<!-- print("nv_ligne : \n", nv_ligne) -->
<!-- ``` -->

<!-- On s'est assuré d'avoir le même nom de colonnes ici, en indiquant au paramètre `columns` de la méthode `pd.DataFrame` le nom des colonnes de `df`, c'est-à-dire `df.columns`. -->

<!-- Ajoutons la nouvelle ligne à `df` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df = df.append(nv_ligne, ignore_index=True) -->
<!-- ``` -->

<!-- À nouveau,la méthode `append()` appliquée à un dataframe, retourne une vue et n'affecte pas l'objet. -->


<!-- On peut noter que lors de l'ajout d'une ligne, si le nom des colonnes n'est pas indiqué dans le même ordre que dans le dataframe dans lequel est effectué l'ajout, il faut rajouter une indication au paramètre `sort` de la méthode `append()` : -->

<!-- - si `sort=True`, l'ordre des colonnes de la ligne ajoutée sera appliqué au dataframe de destination ; -->
<!-- - si `sort=False`, l'odre des colonnes du dataframe de destination ne sera pas modifié. -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- nv_ligne = pd.DataFrame([["2021", "Marseille", 2, 4]], -->
<!--                        columns = ["annee", "ville", "x", "y"]) -->
<!-- print("nv_ligne : \n", nv_ligne) -->
<!-- print("avec sort=True : \n", -->
<!--   df.append(nv_ligne, ignore_index=True, sort = True)) -->
<!-- ``` -->


<!-- #### Ajout de plusieurs lignes dans un dataframe -->

<!-- Pour ajouter plusieurs lignes, c'est exactement le même principe qu'avec une seule, il suffit juste d'ajouter un dataframe de plusieurs lignes, avec encore une fois les mêmes noms. -->

<!-- Les lignes à insérer : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- nv_lignes = pd.DataFrame([ -->
<!--     ["Marseille", "2022", 2, 4], -->
<!--     ["Aix", "2022", 3, 3]], -->
<!--     columns = df.columns) -->
<!-- print("nv_ligne : \n", nv_lignes) -->
<!-- ``` -->

<!-- Puis l'insertion : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df = df.append(nv_lignes, ignore_index=True) -->
<!-- ``` -->


<!-- #### Ajout d'une colonne dans un dataframe -->

<!-- Pour ajouter une colonne dans un dataframe, on utilise la méthode `assign()`, en indiquant le nom et les valeurs. -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- from numpy import random -->
<!-- df = df.assign(z = random.rand(len(df.index))) -->
<!-- print("df : \n", df) -->
<!-- ``` -->



<!-- #### Ajout de plusieurs colonnes dans un dataframe -->

<!-- Pour ajouter plusieurs colonnes, le même principe s'applique : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df = df.assign(a = random.rand(len(df.index)), -->
<!--           b = random.rand(len(df.index))) -->
<!-- print("df : \n", df) -->
<!-- ``` -->








<!-- ## Retrait des valeurs dupliquées -->


<!-- Pour retirer les valeurs dupliquées dans un dataframe, `NumPy` propose la méthode `drop_duplicates()`, qui prend plusieurs paramètres optionnels : -->

<!-- - `subset` : en indiquant un ou plusieurs noms de colonnes, la recherche de doublons se fait uniquement sur ces colonnes ; -->
<!-- - `keep` : permet d'indiquer quelle observation garder en cas de doublons identifies : -->

<!--   - si `keep='first'`, tous les doublons sont retirés sauf la première occurrence, -->
<!--   - si `keep='last'`, tous les doublons sont retirés sauf la dernière occurrence, -->
<!--   -si `keep='False'`, tous les doublons sont retirés ; -->

<!-- - `inplace` : booléen (défaut : `False`) pour indiquer si le retrait des doublons doit s'effectuer sur le dataframe ou bien si une copie doit être retournée (par défaut). -->


<!-- Donnons quelques exemples à l'aide de ce dataframe qui compose deux doublons quand on considère sa totalité. Si on se concentre uniquement sur les années ou les villes, ou les deux, d'autres doublons peuvent être identifiés. -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"ville" : ["Marseille", "Aix", -->
<!--                    "Marseille", "Aix", "Paris", "Paris"], -->
<!--         "annee": [2019, 2019, 2018, 2018,2019, 2019], -->
<!--         "x": [1, 2, 2, 2, 0, 0], -->
<!--         "y": [3, 3, 2, 1, 4, 4], -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- print(df) -->
<!-- ``` -->


<!-- Pour retirer les doublons : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.drop_duplicates()) -->
<!-- ``` -->

<!-- Retirer les doublons en gardant la dernière valeur des doublons identifiés : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.drop_duplicates(keep='last') -->
<!-- ``` -->


<!-- Pour retirer les doublons identifiés quand on se concentre sur le nom des villes, et en conservant uniquement la première valeur : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.drop_duplicates(subset = ["ville"], keep = 'first')) -->
<!-- ``` -->

<!-- Idem mais en se concentrant sur les couples (ville, annee) -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.drop_duplicates(subset = ["ville", "annee"], keep = 'first')) -->
<!-- ``` -->


<!-- On note que le dataframe original n'a pas été impacté, puisque nous n'avons pas touché au paramètre `inplace`. Si à présent, nous demandons à ce que les changement soient opérés sur le dataframe plutôt que de récupérer une copie : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.drop_duplicates(subset = ["ville", "annee"], keep = 'first', inplace = True) -->
<!-- print(df) -->
<!-- ``` -->


<!-- Pour savoir si une valeur est dupliquée dans un dataframe, `NumPy` propose la méthode `duplicated()`, qui retourne un masque indiquant pour chaque observation, si elle est dupliquée ou non. Son fonctionnement est similaire à `df.drop_duplicates()`, hormis pour le paramètre `inplace` qui n'est pas présent. -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.duplicated(subset = ["ville"], keep = 'first')) -->
<!-- ``` -->

<!-- On peut utiliser la méthode `any()` par la suite pour savoir s'il existe des doublons : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.duplicated(subset = ["ville"], keep = 'first').any()) -->
<!-- ``` -->



<!-- ## Opérations -->

<!-- Il est souvent nécessaire de devoir effectuer des opérations sur les colonnes d'un dataframe, notamment lorsqu'il s'agit de créer une nouvelle variable. -->

<!-- En reprenant les principes de modification de colonnes (c.f. Section\ \@ref(#pandas-ajout-valeurs)), on imagine assez facilement qu'il est possible d'appliquer les fonctions et méthodes de `NumPy` (c.f. Section\ \@ref(numpy-tableaux)) sur les valeurs des colonnes. -->

<!-- Par exemple, considérons le dataframe suivant : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"height" : -->
<!--                [58, 59, 60, 61, 62, -->
<!--                 63, 64, 65, 66, 67, -->
<!--                 68, 69, 70, 71, 72], -->
<!--         "weight": -->
<!--                [115, 117, 120, 123, 126, -->
<!--                 129, 132, 135, 139, 142, -->
<!--                 146, 150, 154, 159, 164] -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- print(df) -->
<!-- ``` -->

<!-- Ajoutons la colonne `height_2`, élevant les valeurs de la colonne `height` au carré : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df = df.assign(height_2 = df.height**2) -->
<!-- print(df.head(3)) -->
<!-- ``` -->


<!-- À présent, ajoutons la colonne `imc`, fournissant les valeurs de l'indicateur de masse corporelle pour les individus du dataframe ($\text{IMC} = \frac{\text{weight}}{\text{height}^2}$) : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df = df.assign(imc = df.weight / df.height_2) -->
<!-- print(df.head(3)) -->
<!-- ``` -->


<!-- ### Statistiques {pandas-statistiques-df} -->

<!-- `pandas` propose quelques méthodes pour effectuer des statistiques descriptives pour chaque colonne ou par ligne. Pour cela, la syntaxe est la suivante (tous les paramètres ont une valeur par défaut, la liste est simplifiée ici) : -->

<!-- ```{python, eval=F, echo=TRUE, error=TRUE} -->
<!-- dataframe.fonction_stat(axis, skipna) -->
<!-- ``` -->

<!-- - `axis` : 0 pour les lignes, 1 pour les colonnes ; -->
<!-- - `skipna` : si `True`, exclue les valeurs manquantes pour effectuer les calculs. -->

<!-- Parmi les méthodes disponibles : -->
<!-- - `mean()` : moyenne ; -->
<!-- - `mode()` : mode ; -->
<!-- - `median()` : médiane ; -->
<!-- - `std()` : écart-type ; -->
<!-- - `min()` : minimum ; -->
<!-- - `max()` : maximum -->
<!-- - `mad()` : écart absolu à la moyenne ; -->
<!-- - `sum()` : somme des valeurs ; -->
<!-- - `prod()` : produit de tous les éléments ; -->
<!-- - `count()` : comptage du nombre d'éléments. -->


<!-- Par exemple, pour calculer la moyenne des valeurs pour chaque colonne : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"height" : [58, 59, 60, 61, 62], -->
<!--         "weight": [115, 117, 120, 123, 126], -->
<!--         "age": [28, 33, 31, 31, 29], -->
<!--         "taille": [162, 156, 172, 160, 158], -->
<!--         "married": [True, True, False, False, True], -->
<!--         "city": ["A", "B", "B", "B", "A"] -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- print(df.mean()) -->
<!-- ``` -->

<!-- Si on le souhaite, on peut faire la moyenne des valeurs en colonne (sans aucun sens ici) : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.mean(axis=1)) -->
<!-- ``` -->


<!-- Ces fonctions peuvent s'appliquer sur une seule colonne. Par exemple, pour afficher la valeur minimum : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("min : ", df.height.min()) -->
<!-- ``` -->

<!-- Il est aussi utile de pouvoir obtenir la position des valeurs min et max ; ce qu'on peut obtenir avec les méthodes `idxmin()` et `idxmax()`, respectivement. -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("pos min : ", df.height.idxmin()) -->
<!-- print("pos min : ", df.height.idxmax()) -->
<!-- ``` -->

<!-- Une méthode très pratique est `describe()`, elle permet de retourner des statistiques descriptives sur l'ensemble des colonnes numériques : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(df.describe()) -->
<!-- ``` -->



<!-- ## Tri -->

<!-- Il est aisé de trier un dataframe par ordre croissant ou décroissant d'une ou plusieurs de ses colonnes. Pour ce faire, on utilise la méthode `sort_values()`. La syntaxe est la suivante : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- DataFrame.sort_values(by, axis=0, ascending=True, -->
<!--                       inplace=False, kind="quicksort", -->
<!--                       na_position="last") -->
<!-- ``` -->

<!-- - `by` : nom ou liste de nom de la ou les colonnes utilisées pour effectuer le tri ; -->
<!-- - `axis` : `0` pour l'index (par défaut), `1` pour les colonnes -->
<!-- - `ascending` : booléen ou liste de booléens, quand `True` le tri est fait par valeurs croissantes (par défaut), quand `False` il est effectué par valeurs décroissantes -->
<!-- - `inplace` : si `True`, le tri affecte le dataframe, sinon il retourne une vue ; -->
<!-- - `kind` : choix de l'algorithme de tri (`quicksort` (par défaut), `mergesort`, `heapsort`) ; -->
<!-- - `na_position` : si `first`, les valeurs manquantes sont placées au début ; si `last` (par défaut), à la fin. -->


<!-- Donnons quelques exemples : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- dico = {"height" : [58, 59, 60, 61, 62], -->
<!--         "weight": [115, np.nan, 120, 123, 126], -->
<!--         "age": [28, 33, 31, 31, 29], -->
<!--         "taille": [162, 156, 172, 160, 158], -->
<!--         "married": [True, True, np.nan, False, True], -->
<!--         "city": ["A", "B", "B", "B", "A"] -->
<!--        } -->
<!-- df = pd.DataFrame(dico) -->
<!-- ``` -->

<!-- Si on trie les valeurs par ordre décroissant des valeurs de la colonne `height` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.sort_values(by="height", ascending=False) -->
<!-- ``` -->


<!-- Pour effectuer un tri par ordre croissant des valeurs de `married` (rappel, `True` est interprété comme 1 et `False` comme 0), puis décoissant de `weight`, en plaçant les valeurs `NaN` en premier : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- df.sort_values(by=["married", "weight"], -->
<!--                ascending=[True, False], -->
<!--                na_position="first") -->
<!-- ``` -->

<!-- On note que les valeurs `NaN` sont remontées en avant pour les sous-groupes composés en fonction des valeurs de `married`. -->


<!-- ## Concaténation -->

<!-- Il est fréquent d'avoir des données en provenance de plusieurs sources lorsque l'on réalise une analyse. Il est alors nécessaire de pouvoir combiner les différentes sources dans une seule. Dans cette section, nous allons nous contenter de concaténer différents dataframes entre-eux, dans des cas simples dans lesquels on sait *a priori* qu'il suffit de coller deux dataframes côte-à-côte ou l'un en-dessous de l'aure. Le cas des jointures un peu plus élaborées avec appariement en fonction d'une ou plusieurs colonnes est abordé dans la Section\ \@ref(pandas-jointures). -->


<!-- Dans un premier temps, créons deux dataframes avec le même nombre de lignes : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- x_1 = pd.DataFrame(np.random.randn(5, 4), -->
<!--                    columns=["a", "b", "c", "d"]) -->
<!-- x_2 = pd.DataFrame(np.random.randn(5, 2), -->
<!--                    columns = ["e", "f"]) -->
<!-- print("x_1 : \n", x_1) -->
<!-- print("\nx_2 : \n", x_2) -->
<!-- ``` -->

<!-- Pour "coller" le dataframe `x_2` à droite de `x_1`, on peut utiliser la méthode `concat()` de `pandas`. Pour indiquer que la concaténation s'effectue sur les colonnes, on précise la valeur `1` pour le paramètre `axix` comme suit : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(pd.concat([x_1, x_2], axis = 1)) -->
<!-- ``` -->


<!-- Pour coller les dataframes les uns en-dessous des autres, on peut utiliser la méthode `append()`, comme indiqué dans la Section\ \@ref(pandas-ajout-ligne-df), ou on peut aussi utiliser la méthode `concat()`. -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- x_3 = pd.DataFrame(np.random.randn(5, 2), -->
<!--                    columns = ["e", "f"]) -->
<!-- print("x_3 : \n", x_3) -->
<!-- ``` -->

<!-- Rajoutons les observations de `x_3` en-dessous de celles de `x_2` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(pd.concat([x_2, x_3], axis = 0)) -->
<!-- ``` -->

<!-- Comme on peut le voir, l'indice des lignes de `x_2` n'a pas été modifié. Si on souhaite qu'il le soit, on peut le préciser via le paramètre `ignore_index` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(pd.concat([x_2, x_3], axis = 0, ignore_index=True)) -->
<!-- ``` -->

<!-- Si le nom des colonnes n'est pas ientique, des valeurs `NaN` seront introduites : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- x_4 = pd.DataFrame(np.random.randn(5, 2), -->
<!--                    columns = ["e", "g"]) -->
<!-- print("x_4 : \n", x_4) -->
<!-- pd.concat([x_2, x_4], axis = 0, sort=False, ignore_index=True) -->
<!-- ``` -->

<!-- ## Jointures {#pandas-jointures} -->

<!-- Il est plus fréquent d'avoir recours à des jointures un peu plus élaborées pour rassembler les différentes sources de données en une seule. `pandas` offre un moyen performant pour rassembler les données, la fonction `merge()`. -->


<!-- Pour illustrer les différentes jointures de cette section, créons quelques dataframes : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- exportations_fr = pd.DataFrame( -->
<!--     {"country" : "France", -->
<!--      "year" : np.arange(2014, 2017), -->
<!--      "exportations" : [816.8192172, 851.6632573, 867.4014253] -->
<!--     }) -->

<!-- importations_fr = pd.DataFrame( -->
<!--     {"country" : "France", -->
<!--      "year" : np.arange(2015, 2018), -->
<!--      "importations" : [898.5242962, 936.3691166, 973.8762149] -->
<!--     }) -->

<!-- exportations_us = pd.DataFrame( -->
<!--     {"country" : "USA", -->
<!--      "year" : np.arange(2014, 2017), -->
<!--      "exportations" : [2208.678084, 2217.733347, 2210.442218] -->
<!--     }) -->

<!-- importations_us = pd.DataFrame( -->
<!--     {"country" : "USA", -->
<!--      "year" : np.arange(2015, 2018), -->
<!--      "importations" : [2827.336251, 2863.264745, np.nan] -->
<!--     }) -->

<!-- importations_maroc = pd.DataFrame( -->
<!--     {"pays" : "Maroc", -->
<!--      "annee" : np.arange(2015, 2018), -->
<!--      "importations" : [46.39884177, 53.52375588, 56.68165748] -->
<!--     }) -->
<!-- exportations_maroc = pd.DataFrame( -->
<!--     {"country" : "Maroc", -->
<!--      "year" : np.arange(2014, 2017), -->
<!--      "exportations" : [35.50207915, 37.45996653, 39.38228396] -->
<!--     }) -->

<!-- exportations = pd.concat([exportations_fr, exportations_us], ignore_index=True) -->
<!-- importations = pd.concat([importations_fr, importations_us], ignore_index=True) -->

<!-- print("exportations : \n", exportations) -->
<!-- print("\nimportations : \n", importations) -->
<!-- ``` -->


<!-- La fonction `merge()` de `pandas` nécessite de préciser la table de gauche (que l'on appellera ici `x`) via le paramètre `left` sur qui viendra s'effectuer la jointure de la table de droite (que l'on appellera ici `y`) via le paramètre `right`. -->

<!-- Par défaut, la fonction `merge()` réalise une jointure de type `inner`, c'est-à-dire que toutes les toutes les lignes de `x` qui trouvent une correspondance dans `y`, et toutes les colonnes de `x` et `y` seront dans le résultat de la jointure : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(pd.merge(left = importations, right = exportations)) -->
<!-- ``` -->


<!-- Si on désire changer le type de jointure, on peut modifier la valeur du paramètre `how` de la fonction `merge()`, pour lui donner une des valeurs suivantes : -->

<!-- - `left` : toutes les lignes de `x`, et toutes les colonnes de `x` et `y`. Les lignes dans `x` pour lesquelles il n'y a pas de correspondance dans `y` auront des valeurs `NaN` dans les -->
<!-- nouvelles colonnes. S'il y a plusieurs correspondances dans les noms entre `x` et `y`, toutes -->
<!-- les combinaisons sont retournées ; -->
<!-- - `inner` :  toutes les lignes de `x` pour lesquelles il y a des valeurs correspondantes dans `y`, et toutes les colonnes de `x` et `y`. S'il y a plusieurs correspondances dans les noms -->
<!-- entre `x` et `y`, toutes les combinaisons possibles sont retournées ; -->
<!-- - `right` : toutes les lignes de `y`, et toutes les colonnes de `y` et `x`. Les lignes dans -->
<!-- `y` pour lesquelles il n'y a pas de correspondance dans `x` auront des valeurs `NaN` dans les -->
<!-- nouvelles colonnes. S'il y a plusieurs correspondances dans les noms entre `y` et `x`, toutes -->
<!-- les combinaisons sont retournées ; -->
<!-- - `outer`: toutes les lignes de `x` et de `y`, et toutes les colonnes de `x` et `y`. Les lignes de `x` pour lesquelles il n'y a pas de correspondance dabs `y` et celles de `y` pour lesquelles il n'y a pas de correspondance dans `x` auront des valeurs `NaN`. -->


<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print("left : \n", pd.merge(left = importations, right = exportations, how="left")) -->
<!-- print("\nright : \n", pd.merge(left = importations, right = exportations, how="right")) -->
<!-- print("\nouter : \n", pd.merge(left = importations, right = exportations, how="outer")) -->
<!-- ``` -->


<!-- Le paramètre `on`, qui attend un nom de colonne ou une liste de noms sert à désigner les colonnes permettant de faire la jointure. Les noms de colonnes doivent être identiques dans les deux dataframes. -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(pd.merge(left = importations, right = exportations, on = "country")) -->
<!-- ``` -->

<!-- Si le nom des colonnes devant servir à réaliser la jointure sont différents entre le dataframe de gauche et celui de droite, on indique au paramètre `left_on` le ou les noms de colonnes du dataframe de gauche à utiliser pour la jointure ; et au paramètre `right_on`, le ou les noms correspondants dans le dataframe de doite : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- pd.merge(left = importations_maroc, right = exportations_maroc, -->
<!--          left_on= ["pays", "annee"], right_on = ["country", "year"] ) -->
<!-- ``` -->


<!-- Avec le paramètre `suffixes`, on peut définir des suffixes à ajouter aux noms des colonnes lorsqu'il existe des colonnes dans `x` et dans `y` portant le même nom mais ne servant pas à la jointure. Par défaut, les suffixes (`_x` et `_y`) sont rajoutés. -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(pd.merge(left = importations, right = exportations, -->
<!--                on = "country", -->
<!--                suffixes=("_gauche", "_droite")).head(3)) -->
<!-- ``` -->


<!-- ## Agrégation -->

<!-- Il arrive de vouloir agréger les valeurs d'une variable, pour passer par exemple d'une dimension -->
<!-- trimestrielle à annuelle. Avec des observations spatiales, cela peut aussi être le cas, comme -->
<!-- par exemple lorsque l'on dispose de données à l'échelle des départements et que l'on souhaite -->
<!-- connaître les valeurs agrégées à l'échelle des régions. -->

<!-- Pour illustrer les différentes opérations d'agrégation, créons un dataframe avec des des données de chômage dans différentes régions, départements et années : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chomage = pd.DataFrame( -->
<!--     {"region" : (["Bretagne"]*4 + ["Corse"]*2)*2, -->
<!--      "departement" : ["Cotes-d'Armor", "Finistere", -->
<!--                       "Ille-et-Vilaine", "Morbihan", -->
<!--                       "Corse-du-Sud", "Haute-Corse"]*2, -->
<!--      "annee" : np.repeat([2011, 2010], 6), -->
<!--      "ouvriers" : [8738, 12701, 11390, 10228, 975, 1297, -->
<!--                    8113, 12258, 10897, 9617, 936, 1220], -->
<!--      "ingenieurs" : [1420, 2530, 3986, 2025, 259, 254, -->
<!--                      1334, 2401, 3776, 1979, 253, 241] -->
<!--     }) -->
<!-- print(chomage) -->
<!-- ``` -->


<!-- Comme nous l'avons vu précédemment (c.f. Section\ \@ref(pandas-statistiques-df)), on peut utiliser des méthodes permettant de calculer des statistiques simples sur l'ensemble des données. Par exemple, pour afficher la moyenne de chacune des colonnes numériques : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(chomage.mean()) -->
<!-- ``` -->


<!-- Ce qui nous intéresse dans cette section, est d'effectuer des calculs sur des sous-groupes de données. Le principe est simple : dans un premier temps, on sépare les données en fonction de groupes identifiés (*split*), puis on applique une opération sur chacun des groupes (*apply*), et enfin on rassemble les résultats (*combine*). Pour effectuer le regroupement, en fonction de facteurs avant d'effectuer les calculs d'agrégation, `pandas` propose la méthode `groupby()`. On lui fournit en paramètre le ou les noms de colonnes servant à effectuer les groupes. -->

<!-- ### Agrégation selon les valeurs d'une seule colonne -->

<!-- Par exemple, admettons que nous souhaitons obtenir le nombre total de chomeurs ouvriers par année. Dans un premier temps, on utilise la méthode `groupby()` sur notre dataframe en indiquant que les groupes doivent être créés selon les valeurs de la colonne `annee` -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(chomage.groupby("annee")) -->
<!-- ``` -->

<!-- Ensuite, on récupère la variable `ouvriers` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(chomage.groupby("annee").annee) -->
<!-- # Ou bien -->
<!-- print(chomage.groupby("annee")["annee"]) -->
<!-- ``` -->

<!-- Et enfin, on peut effectuer le calcul sur chaque sous-groupe et afficher le résultat : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- print(chomage.groupby("annee")["ouvriers"].sum()) -->
<!-- ``` -->


<!-- Si on veut effectuer ce calcul pour plusieurs colonnes, par exemple `ouvriers` et `ingenieurs`, il suffit de sélectionner *a priori* la variale de regroupement et les variables pour lesquelles on désire effectuer le calcul : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chomage.loc[:,["annee", "ouvriers", "ingenieurs"]].groupby("annee").sum() -->
<!-- ``` -->

<!-- ### Agrégation selon les valeurs de plusieurs colonnes -->

<!-- À présent, admettons que l'on souhaite effectuer une agrégation en fonction de l'année et de la région. Il s'agit simplement de donner une liste contenant les noms des colonnes utilisées pour créer les différents groupes : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chomage.loc[:,["annee", "region", -->
<!--                "ouvriers", "ingenieurs"]].groupby(["annee", -->
<!--                                                    "region"]).sum() -->
<!-- ``` -->



<!-- ## Stacking et unstacking -->


<!-- À compléter -->


<!-- ## Exportation et importation de données -->

<!-- `pandas` offre de nombreuses fonctions pour importer et exporter des données dans différents formats. -->


<!-- ### Exportation des données -->


<!-- #### Exportation de données tabulaires -->


<!-- ##### Vers un fichier CSV {pandas-export_csv} -->


<!-- Pour exporter des données tabulaires, comme celles contenues dans un dataframe, `NumPy` propose la méthode `to_csv()`, qui accepte de nombreuses spécifications. Regardons quelques-unes d'entre-elles qui me semblent les plus courantes : -->

<!-- | Paramètre | Description | -->
<!-- | ---------------: | -------------------------------------------------: | -->
<!-- | `path_or_buf` | chemin vers le fichier | -->
<!-- | `sep` | caractère de séparation des champs | -->
<!-- | `decimal` | Caractère à utiliser pour le séparateur de décimales | -->
<!-- | `na_rep` | représentation à utiliser pour les valeurs manquantes | -->
<!-- | `header` | indique si le nom des colonnes doit être exporté (`True` par défaut) | -->
<!-- | `index` | indique si le nom des lignes doit être exporté (`True` par défaut) | -->
<!-- | `mode` | mode d'écriture python (c.f. Tableau\ \@ref(tab:open-mode-ouverture), par défaut `w`) | -->
<!-- | `encoding` | encodage des caractères (`utf-8` par défaut) | -->
<!-- | `compression` | compression à utiliser pour le fichier de destination (`gzip`, `bz2`, `zip`,  `xz`) | -->
<!-- | `line_terminator` | caractère de fin de ligne | -->
<!-- | `quotechar` | Caractère utilisé pour mettre les champs entre *quotes* | -->
<!-- | `chunksize` | (entier) nombre de lignes à écrire à la fois | -->
<!-- | `date_format` | format de dates pour les objets `datetime` | -->

<!-- Table: (#tab:pandasto-csv) Paramètres principaux de la fonction `to_csv` -->

<!-- Admettons que nous souhaitons exporter le contenu du dataframe `chomage` vers un fichier CSV dont les champs sont séparés par des points-virgules, et en n'exportant pas l'index : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chomage = pd.DataFrame( -->
<!--     {"region" : (["Bretagne"]*4 + ["Corse"]*2)*2, -->
<!--      "departement" : ["Cotes-d'Armor", "Finistere", -->
<!--                       "Ille-et-Vilaine", "Morbihan", -->
<!--                       "Corse-du-Sud", "Haute-Corse"]*2, -->
<!--      "annee" : np.repeat([2011, 2010], 6), -->
<!--      "ouvriers" : [8738, 12701, 11390, 10228, 975, 1297, -->
<!--                    8113, 12258, 10897, 9617, 936, 1220], -->
<!--      "ingenieurs" : [1420, 2530, 3986, 2025, 259, 254, -->
<!--                      1334, 2401, 3776, 1979, 253, 241] -->
<!--     }) -->
<!-- print(chomage) -->
<!-- ``` -->


<!-- Pour l'exportation : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chemin = "./fichiers_exemples/chomage.csv" -->
<!-- chomage.to_csv(chemin, decimal=";", index=False) -->
<!-- ``` -->


<!-- Si on désire que le fichier CSV soit compressé dans un fichier `gzip`, on le nomme avec l'extention `.csv.gz` et on ajoute la valeur `gzip` au paramètre `compression` : -->
<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chemin = "./Python_pour_economistes/fichiers_exemples/chomage.csv.gz" -->
<!-- chomage.to_csv(chemin, decimal=";", index=False, compression="gzip") -->
<!-- ``` -->


<!-- ##### Vers un fichier HDF5 -->


<!-- Pour enregistrer les données d'un dataframe dans un fichier HDF5 utilisant HDFStore, `pandas` propose la méthode `to_hdf()` qui fonctionne de la même manière que la fonction `to_csv()` (cf. Section\ \@ref(pandas-export_csv)). -->

<!-- Il est nécessaire de spécifier le paramètre `path_or_buf` pour indiquer le chemin et le paramètre `key` pour identifier l'objet à enregistrer dans le fichier. -->

<!-- La syntaxe est la suivante : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chemin = "./fichiers_exemples/chomage.h5" -->
<!-- chomage.to_hdf(chemin, "base_chomage", decimal=";", index=False) -->
<!-- ``` -->


<!-- ## Importation des données -->

<!-- `pandas` propose de nombreuses fonctions pour importer des données. Dans cette version des notes de cours, nous allons en aborder 3 : `read_csv()`, pour lire des fichiers CSV ; `read_excel()`, pour lire des fichiers Excel ; et `read_hdf()` pour lire des fichiers HDF5. -->

<!-- Dans la prochaine version, des ajouts sur `read_html()`, `read_fwf()`, `read_stata()`, `read_json()`. -->



<!-- ### Fichiers CSV {#pandas-importation-csv} -->


<!-- Pour importer des données depuis un fichier CSV, `pandas` propose la fonction `read_csv()` : -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chemin = "./fichiers_exemples/chomage.csv" -->
<!-- chomage = pd.read_csv(chemin, decimal=";", index=False) -->
<!-- ``` -->

<!-- Il est possible de fournir une URL pointant vers un fichier CSV comme chemin, la fonction `read_csv()`. -->

<!-- Parmi les paramètres que l'on utilise fréquemment : -->

<!-- - `sep`, `delimiter` : séparateur de champs ; -->
<!-- - `decimal` : séparateur de décimales ; -->
<!-- - `header` : numéro(s) de ligne(s) à utiliser comme en-tête des données ; -->
<!-- - `skiprows` : numéro(s) de ligne(s) à sauter au début ; -->
<!-- - `skipfooter` : numéro(s) de ligne(s) à sauter à la fin ; -->
<!-- - `nrows` : nombre de ligne à lire ; -->
<!-- - `na_values` : chaînes de caractères supplémentaires à considérer comme valeurs manquantes (en plus de `#N/A`, `#N/A N/A`, `#NA`, `-1.#IND`, `-1.#QNAN`, `-NaN`, `-nan`, `1.#IND`, `1.#QNAN`, `N/A`, `NA`, `NULL`, `NaN`, `n/a`, `nan`, `null`) ; -->
<!-- - `quotechar` : caractère de *quote* ; -->
<!-- - `encoding` : encodage des caractères (défaut `utf-8`). -->




<!-- ### Fichiers Excel {#pandas-importation-excel} -->

<!-- Pour importer des fichiers Excel, `pandas` propose la fonction `read_excel()`. -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chemin = "./fichiers_exemples/chomage.xlsx" -->
<!-- chomage = pd.read_excel(chemin, skiprows=2, header=1, sheet = 1) -->
<!-- print(chomage) -->
<!-- ``` -->

<!-- Parmi les paramètres fréquemment utilisés : -->

<!-- - `header` : numéro de ligne à utiliser comme en-tête ; -->
<!-- - `sheet` : nom ou numéro de feuille ; -->
<!-- - `skiprows` : nombre de lignes à sauter au début ; -->
<!-- - `thousands` : séparateur de milliers. -->


<!-- ### Fichiers HDF5 {#pandas-importation-hdf} -->

<!-- ```{python, eval=T, echo=TRUE, error=TRUE} -->
<!-- chemin = "./fichiers_exemples/chomage.h5" -->
<!-- print(pd.read_hdf(chemin, "base_chomage")) -->
<!-- ``` -->


<!-- ## Exercice -->



<!-- **Exercice 1 : Importation et exportation** -->

<!-- 1. Télécharger à la main le fichier csv à l'adresse suivante : http://egallic.fr/Enseignement/Python/Exercices/donnees/notes.csv et le placer dans le répertoire courant. Importer son contenu dans Python. -->
<!-- 2. Importer à nouveau les données dans Python, mais en fournissant cette fois le l’url directement à la fonction d'importation. -->
<!-- 3. À présent, importer le contenu du fichier disponible à l’adresse http://egallic.fr/Enseignement/Python/Exercices/donnees/notes_decim.csv. Le séparateur de champs est un point virgule -->
<!-- et le séparateur décimal est une virgule. -->
<!-- 4. Importer le contenu du fichier http://egallic.fr/Enseignement/Python/Exercices/donnees/notes_h.csv. Le nom des colonnes n’est pas présent. -->
<!-- 5. Importer le contenu du fichier http://egallic.fr/Enseignement/Python/Exercices/donnees/notes_h_s.csv. La première ligne n’est pas à importer. -->
<!-- 6. Importer le contenu de la première feuille du fichier Excel http://egallic.fr/Enseignement/Python/Exercices/donnees/notes.xlsx. -->
<!-- 7. Importer le contenu de la seconde feuille (`notes_h_s`) du fichier Excel disponible ici : http://egallic.fr/Enseignement/Python/Exercices/donnees/notes.xlsx. La première ligne est un commentaire à ne pas considérer durant l’importaiton. -->
<!-- 8. Exporter le contenu de l’objet contenant les notes de la question précédente au format csv (virgule -->
<!-- en séparateur de champs, point en séparateur décimal, ne pas conserver le numéro des -->
<!-- lignes). -->


<!-- **Exercice 2 : Manipulation de tableaux de données** -->

<!-- 1. À l'aide de la fonction `read_excel()` de la librairie `pandas`, importer le contenu de la feuille intitulée `notes_2012` du fichier Excel disponible à l'adresse suivante : http://egallic.fr/Enseignement/Python/Exercices/donnees/notes_etudiants.xlsx et le stocker dans une variable que l'on nommera notes_2012. -->
<!-- 2. Afficher les 6 premières lignes du jeu de données, puis les dimensions du tableau. -->
<!-- 3. Conserver uniquement la colonne `note_stat` du tableau de données `notes_2012` dans un objet que l'on appellera `tmp`. -->
<!-- 4. Conserver uniquement les colonnes `num_etudiant`, `note_stat` et `note_macro` dans un objet nommé `tmp`. -->
<!-- 5. Remplacer le contenu de `tmp` par les observations de `notes_2012` pour lesquelles l'individu a obtenu une note de stat supérieure (strictement) à 10. -->
<!-- 6. Remplacer le contenu de tmp par les observations de `notes_2012` pour lesquelles l'individu a obtenu une note de stats comprise dans l'intervalle (10, 15). -->
<!-- 7. Regarder s'il y a des doublons dans le tableau de données `notees_2012` ; le cas échéant, les retirer du tableau. -->
<!-- 8. Afficher le type des données de la colonne `num_etudiant`, puis afficher le type de toutes les colonnes de notes_2012. -->
<!-- 9. Ajouter au tableau `notes_2012` les colonnes suivantes : -->

<!--   (a) `note_stat_maj` : la note de stat (`note_stat`) majorée d'un point, -->
<!--   (b) `note_macro_maj` : la note de macro (`note_macro`) majorée de trois points (le faire en deux étapes : d'abord deux points en plus, puis un point). -->
<!-- 10. Renommer la colonne year en annee. -->
<!-- 11. Depuis le fichier `notes_etudiants.xlsx` (c.f. question 1), importer le contenu des feuilles `notes_2013`, `notes_2014` et `prenoms` et le stocker dans les objets `notes_2013`, `notes_2014` et `prenoms`, respectivement. -->
<!-- 12. Empiler le contenu des tableaux de données `notes_2012`, `notes_2013` et `notes_2014` dans un objet que l'on nommera `notes`. -->
<!-- 13. Fusionner les tableaux `notes` et `prenoms` à l'aide d'une jointure gauche, de manière à rajouter les informations contenues dans le tableau prenoms aux observations de notes. La jointure doit se faire par le numéro d'étudiant et l'année, l'objet final viendra remplacer le contenu de notes. -->
<!-- 14. Trier le tableau notes par années croissantes et notes de macro décroissantes. -->
<!-- 15. Créer une colonne `apres_2012` qui prend la valeur `True` si l'observation concerne une note attribuée après 2012. -->
<!-- 16. En effectuant des regroupements sur le dataframe `notes` calculer : -->

<!--   (a) la moyenne et l'écart-type annuels des notes pour chacune des deux matières, -->
<!--   (b) la moyenne et l'écart-type annuels et par sexe des notes pour chacune des deux matières. -->



<!-- # Visualisation de données -->


<!-- https://seaborn.pydata.org/ -->
<!-- <!-- # Programmation parallèle --> -->

<!-- # References -->