# Organisation des données

Les données sont transversales dans les flux de travail en sciences. Elles alimentent l'analyse, et la modélisation. Les résultats qui en découlent sont aussi des données qui peuvent alimenter les travaux subséquents. Une bonne organisation des données facilitera le flux de travail.

> **Dicton**. Proportions de temps voué aux calcul scientifique: 80% de nettoyage de données mal organisées, 20% de calcul.

Qu'est-ce qu'une donnée? De manière abstraite, il s'agit d'une valeur associée à une variable. Une variable peut être une dimension, une date, une couleur, le résultat d'un test statistique, à laquelle on attribue la valeur quantitative ou qualitative d'un chiffre, d'une chaîne de charactère, d'un symbole conventionné, etc. Par exemple, lorsque vous commandez un café *latte* végane, *au latte* est la valeur que vous attribuez à la variable *type de café*, et *végane* est la valeur de la variable *type de lait*. 

Ce chapitre traite de l'importation, l'utilisation et l'exportation de données structurées, en Python, sous forme de vecteurs, matrices, tableaux et ensemble de tableaux (bases de données).

Bien qu'il soit toujour préférable d'organiser les structures qui accueilleront les données d'une expérience avant-même de procéder à la collecte de données, l'analyste doit s'attendre à réorganiser ses données en cours de route. Or, des données bien organisées au départ faciliteront aussi leur réoganisation.

Ce chapitre débute avec quelques définitions: les données et leurs types, les vecteurs, les matrices, les tableaux et les bases de données, ainsi que leur signification en Python. Puis nous verrons comment organiser un tableau selon quelques règles simples, mais importantes pour éviter les erreurs et les opérations fastidieuses pour reconstruire un tableau mal conçu. Ensuite, nous traiterons des formats de tableau courrant, pour enfin passer à l'utilisation de `pandas`, une bibliothèque Python utile pour effectuer des opérations sur les tableaux.

## Types de données

Dans la section précédente, nous avons survoler différents types d'objets: réels, entiers, chaînes de caractères et booléens. Les données peuvent appartenir à d'autres types: dates, catégories ordinales (ordonnées: faible, moyen, élevé) et nominales (non ordonnées: espèces, cultivars, couleurs, unité pédodlogique, etc.).


## Vecteurs

Dans la section d'introduction à Python, nous avons vu comment Python permet d'organiser des collections d'objets. Bien qu'il soit important de connaître leur existance pour apprendre à maîtriser Python, les listes et les dictionnaires sont peu pratiques pour le calcul. Par exemple, Python ne permet pas d'effectuer les opérations entre les scalaires et les listes.

In [131]:
ma_liste = [1, 2, 3, 4]
ma_liste + 1

TypeError: can only concatenate list (not "int") to list

Pour les listes, il faudrait passer par des boucles...

In [132]:
ma_liste_2 = []
for i in range(len(ma_liste)): 
    ma_liste_2.append(ma_liste[i] + 1)
ma_liste_2

[2, 3, 4, 5]

... ce qui est loin d'ête pratique. On préférera généralement utiliser des vecteurs, qui, grâce à la *vectorisation*, peuvent être soumis à des opérations avec des scalaires. Les vecteurs sont accessibles via la bibliothèque `numpy`. Par convention, les fonctions de `numpy` sont importés dans une instance `np`.

In [49]:
import numpy as np
mon_vecteur = np.array([1, 2, 3, 4])
mon_vecteur + 1

array([2, 3, 4, 5])

Contrairement à une liste, un vecteur contient obligatoirement des valeurs même type. À défaut de définir un même type, `numpy` transformera chaque valeur en chaîne de caractère.

In [50]:
[1, 2, 3, 'grenouille'] # liste

[1, 2, 3, 'grenouille']

In [51]:
np.array([1, 2, 3, 'grenouille']) # vecteur

array(['1', '2', '3', 'grenouille'], 
      dtype='<U21')

## Matrices
La matrice est une généralisation du vecteur. Alors que le vecteur a une seule dimension, la matrice acccepte un nombre le dimension $N$ (naturel positif) nécessaire pour l'application.

In [52]:
np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [53]:
np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]],
         [[10, 11, 12], [13, 14, 15], [16, 17, 18]]])

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]]])

Une matrice 2D peut indiquer l'élévation d'un point dans l'espace x, y. En 3D, vous pouvez inclure non seulement l'élévation, mais aussi l'épaisseur de solet d'autres variables. Ajouter une évolution dans le temps et vous obtenez une matrice 4D.

Vous ne pourrez toutefois pas ajouter une couche d'une variable catégorielle dans une matrice numérique: comme les vecteurs, les matrices ne contiennent qu'un seul type de données.

Elles sont utilisées surtout en modélisation. En analyse de données, on préférera les tableaux.

## Tableaux
De manière générale, un tableau de données est une organisation de données en deux dimensions, comportant des *lignes* et des *colonnes*. Il est préférable de respecter la convention selon laquelle les lignes sont des observations et les colonnes sont des variables. Ainsi, un tableau est une collection de vecteurs de même longueur, chaque vecteur représentant une variable. Chaque variable est libre de prendre le type de données approprié. La position d'une donnée dans le vecteur correspond à une observation.

## Base de données
Imaginez que vous consignez des données de différents sites (A, B et C), et que chaque site possède ses propres caractéristiques. Il est redondant de décrire le site pour chaque observation. Vous préférerez créer deux tableaux: un pour décrire vos observations, et un autre pour décrire les sites. De cette manière, vous créez une collection de tableaux intereliés: une *base de données*.

Dans Python, les données structurées en tableaux, ainsi que les opérations sur les tableaux, peuvent être gérés grâe à la bibliothèque `pandas`. Mais avant de se lancer dans l'utilisation de `pandas`, voyons quelques règles à suivre pour bien structurer ses données.

## Organiser un tableau de données

Afin de reprérer chaque cellule d'un tableau, on attribue à chaque lignes et à chaque colonne colonnes un identifiant *unique*, que l'on nomme *indice* pour les lignes et *entête* pour les colonnes.

***Règle no 1.** Une variable par colonne, une observation par ligne.* 

Les unités expérimentales sont décrits par une ou plusieurs variables par des chiffres ou des lettres. Chaque variable devrait être présente en une seule colonne, et chaque ligne devrait correspondre à une unité expérimentale où ces variables ont été mesurées. La règle parait simple, mais elle est rarement respectée. Prenez par exemple le tableau suivant.

| Site | Traitement A | Traitement B | Traitement C |
| --- | --- | --- | --- |
| Sainte-Paix | 4.1 | 8.2 | 6.8 |
| Saint-Foin | 5.8 | 5.9 | NA |
| Saint-Coincoin | 2.9 | 3.4 | 4.6 |

*Tableau 1. Rendements obtenus sur les sites expérimentaux selon les traitements.*

Qu'est-ce qui cloche avec ce tableau? Chaque ligne est une observation, mais contient plussieurs observations d'une même variable, le rendement, qui devient étalé sur plusieurs colonnes. *À bien y penser*, le type de traitement est une variable et le rendement en est une autre:

| Site | Traitement | Rendement |
| --- | --- | --- |
| Sainte-Paix | A | 4.1 |
| Sainte-Paix | B | 8.2 |
| Sainte-Paix | C | 6.8 |
| Saint-Foin | A | 5.8 |
| Saint-Foin | B | 5.9 |
| Saint-Foin | C | NA |
| Saint-Coincoin | A | 2.9 |
| Saint-Coincoin | B | 3.4 |
| Saint-Coincoin | C | 4.6 |

*Tableau 2. Rendements obtenus sur les sites expérimentaux selon les traitements.*

Plus précisément, l'expression *à bien y penser* suggère une réflexion sur la signification des données. Certaines variables peuvent parfois être intégrées dans une même colonne, parfois pas. Par exemple, les concentrations en cuivre, zinc et plomb dans un sol contaminé peuvent être placés dans la même colonne "Concentration" ou déclinées en plusieurs colonnes Cu, Zn et Pb. La première version trouvera son utilité pour des créer des graphiques (chapitre 5), alors que la deuxième favorise le traitement statistique (chapitre 4).

***Règle no 2.** Ne pas répéter les informations.*

Rerpenons la même expérience. Supposons que vous mesurez la précipitation à l'échelle du site.

| Site | Traitement | Rendement | Précipitations |
| --- | --- | --- | --- |
| Sainte-Paix | A | 4.1 | 813 |
| Sainte-Paix | B | 8.2 | 813 |
| Sainte-Paix | C | 6.8 | 813 |
| Saint-Foin | A | 5.8 | 642 |
| Saint-Foin | B | 5.9 | 642 |
| Saint-Foin | C | NA | 642 |
| Saint-Coincoin | A | 2.9 | 1028 |
| Saint-Coincoin | B | 3.4 | 1028 |
| Saint-Coincoin | C | 4.6 | 1028 |

*Tableau 3. Rendements obtenus sur les sites expérimentaux selon les traitements.*

Segmenter l'information en deux tableaux serait préférable.

| Site | Précipitations |
| --- | --- |
| Sainte-Paix | 813 |
| Saint-Foin | 642 |
| Saint-Coincoin | 1028 |

*Tableau 4. Précipitations sur les sites expérimentaux.*

Les tableaux 2 et 4, ensemble, forment une base de données (collection organisée de tableaux).

***Règle no 3.** Ne pas bousiller les données.*

Par exemple.

- *Ajouter des commentaires dans des cellules*. Si une cellule mérite d'être commentée, il est préférable de placer les commentaires soit dans un fichier décrivant le tableau de données, soit dans une colonne de commentaire justaposée à la colonne de la variable à commenter. Par exemple, si vous n'avez pas mesure le pH pour une observation, n'écrivez pas "échantillon contaminé" dans la cellule, mais annoter dans un fichier d'explication que l'échantillon no X a été contaminé. Si les commentaires sont systématique, il peut être pratique de les inscrire dans une colonne `commentaire_pH`.
- *Inscrition non systématiques*. Il arrive souvent que des catégories d'une variable ou que des valeurs manquantes soient annotées différemment. Il arrive même que le séparateur décimal soit non systématique, parfois noté par un point, parfois par une virgule. Par exemple, une fois importés dans votre session, les catégories `St-Ours` et `Saint-Ours` seront traitées comme deux catégories distinctes. De même, les cellules correspondant à des valeurs manquantes ne devraient pas être inscrite parfois avec une cellule vide, parfois avec un point, parfois avec un tiret ou avec la mention `NA`. Le plus simple est de laisser systématiquement ces cellules vides.
- *Inclure des notes dans un tableau*. La règle "une colonne, une variable" n'est pas respectée si on ajoute des notes un peu n'importe où sous ou à côté du tableau.
- *Ajouter des sommaires*. Si vous ajoutez une ligne sous un tableau comprenant la moyenne de chaque colonne, qu'est-ce qui arrivera lorsque vous importerez votre tableau dans votre session de travail? La ligne sera considérée comme une observation supplémentaire.
- *Inclure une hiérarchie dans le entêtes*. Afin de consigner des données de texture du sol, comprenant la proprotion de sable, de limon et d'argile, vous organisez votre entête en plusieurs lignes. Une ligne pour la catégorie de donnée, *Texture*, fusionnée sur trois colonnes, puis trois colonnes intitullées *Sable*, *Limon* et *Argile*. Votre tableau est joli, mais il ne pourra pas être importé conformément dans un votre session de calcul: on recherche *une entête unique par colonne*. Votre tableau de données devrait plutôt porter les entêtes *Texture sable*, *Texture limon* et *Texture argile*. Un conseil: réserver le travail esthétique à la toute fin d'un flux de travail.

## Formats de tableau

Plusieurs outils sont à votre disposition pour créer des tableaux. Je vous présente ici les plus communs.

### *xls* ou *xlsx*
Microsoft Excel est un logiciel de type *tableur*, ou chiffrier électronique. L'ancien format *xls* a été remplacé par le format *xlsx* avec l'arrivée de Microsoft Office 2010. Il s'agit d'un format propriétaire, dont l'alternative libre la plus connue est le format *ods*, popularisé par la suite bureautique LibreOffice. Les formats *xls*, *xlsx* ou *ods* sont davantage utilisés comme outils de calcul que d'entreposage de données. Ils contiennent des formules, des graphiques, du formattage de cellule, etc. *Je ne les recommande pas pour stocker des données*.

### *csv*
Le format *csv*, pour *comma separated values*, est un fichier texte, que vous pouvez ouvrir avec n'importe quel éditeur de texte brut (Bloc note, [Atom](https://atom.io), [Notepad++](https://notepad-plus-plus.org), etc.). Chaque colonne doit être délimitée par un caractère cohérent (conventionnellement une virgule, mais en français un point-virgule ou une tabulation pour éviter la confusion avec le séparateur décimal) et chaque ligne du tableau est un retour de ligne. Il est possible d'ouvrir et d'éditer les fichiers csv dans un éditeur texte, mais il est plus pratique de les ouvrir avec des tableurs (LibreOffice Calc, Microsoft Excel, Google Sheets, etc.).

**Encodage**. Puisque le format *csv* est un fichier texte, un souci particulier doit être porté sur la manière dont le texte est encodé. Les caractères accentués pourrait être importer incorrectement si vous importez votre tableau en spécifiant le mauvais encodage. Pour les fichiers en langues occidentales, l'encodage UTF-8 devrait être utilisé. Toutefois, par défaut, Excel utilise un encodage de Microsoft. Si le *csv* a été généré par Excel, il est préférable de l'ouvrir avec votre éditeur texte et de l'enregistrer dans l'encodage UTF-8.

### *json*
Comme le format *csv*, le format *json* indique un fichier en texte clair. Il est utilisé davantage pour le partage de données des applications web. En analyse et modélisation, ce format est surtout utilisé pour les données géoréférencées. L'encodage est géré de la même manière qu'un fichier *csv*.

### SQLite
SQLite est une application pour les bases de données relationnelles de type SQL qui n'a pas besoin de serveur pour fonctionner. Les bases de donnnées SQLite sont encodés dans des fichiers portant l'extension *db*, qui peuvent être facilement partagés.

### Suggestion
En *csv* pour les petits tableaux, en *sqlite* pour les bases de données plus complexes. Ce cours se concentre toutefois sur les données de type *csv*.

## Entreposer ses données

La manière la plus sécure pour entreposer ses données est de les confiner dans une base de données sécurisée sur un serveur sécurisé dans un environnement sécurisé. C'est aussi la manière la moins accessible. Des espaces de stockage nuagiques, comme Dropbox ou une [option similaire](https://alternativeto.net/software/dropbox/), peuvent être pratiques pour les backups et le partage des données avec une équipe de travail (qui risque en retour de bousiller vos données). Le suivi de version est possible chez certains fournisseurs d'espace de stockage. Mais pour un suivi de version plus rigoureux, les espaces de développement (comme GitHub) sont plus appropriés: nous verrons d'ailleurs, plus loin dans le manuel, comment un projet de recherche peut tirer profit de GitHub. Dans tous les cas, il est important de garder (1) des copies anciennes pour y revenir en cas d'erreurs et (2) un petit fichier décrivant les changements effectués sur les données.

## Manipuler des données avec `pandas`

La bibliothèque `pandas` est d'une aide préciseuse pour l'analyse de données en Python. Elle permet d'importer des données dans votre session de travail, de les explorer, de les transformer et de les exporter. Les tableaux de classe `pandas` peuvent être manipulés pour l'analyse et la modélisation grâce à d'autres bibliothèques, dont plusieurs sont couvertes dans ce manuel (`statsmodels`, `scikit-learn`, `scikit-bio`, etc.). Cette section se veut une brève introduction à `pandas`. Elle est loin de couvrir les nombreuses fonctionnalités qui sont offertes, qui sont couvertes de manière plus exhaustive dans le livre [Python for Data Analysis](http://shop.oreilly.com/product/0636920050896.do) (McKinney, 2016).


### L'objet `pandas.DataFrame`
Le type d'objet central de `pandas` est le `DataFrame`, ou tableau. Des tableaux peuvent être importés depuis des fichiers csv, json ou depuis des bases de données. Importons notre Tableau 1 spécifié en format csv avec un `;` en guise de délimiteur de colonne.

### Opérations sur un tableau

Que ce soit pour inspecter vos donner, pour effectuer des calculs sur celles-ci ou en faire des graphiques, vous devez être en mesure de sélectionner les lignes et les colonnes visées. Dans cette section, nous couvrirons comment sélectionner les données, des manières de les filtrer, les trier, et effectuer des opérations mathématiques sur celles-ci.

Pour effectuer ces opérations, utilisons un tableau de données de culture de la chicouté (*Rubus chamaemorus*), un petit fruit nordique, tiré de Parent et al. (2013).

![](https://pixabay.com/get/e83cb5092cfc063ed1534705fb0938c9bd22ffd41db816439cf2c77ca3/cloudberry-1946487_1920.jpg)

### Comment importer des données?

Pour accéder aux fonctionnalités de `pandas` dans un environnement de travail, on utilise par convention la notation abrégée `pd`.

In [76]:
import pandas as pd

Pour importer un tableau `csv`, on utilise la fonction `read_csv`.

In [149]:
chicoute = pd.read_csv('data/chicoute.csv', sep=';', header=0, index_col=0, na_values='',
                 encoding='utf-8')

Les principaux arguments ont été spécifiés, bien qu'ils auraient pu être laissés par défaut.

- `filepath_or_buffer`: le chemin vers le fichier. Ce chemin peut aussi bien être une adresse locale (telle que définit dans cet exemple) qu'une adresse internet (https://...).
- `sep`: le symbole délimitant les colonnes.
- `header`: le numéro de ligne utilisé pour le nom de l'entête.
- `index_col`: le numéro de colonne utilisé pour l'index. Si `False` est spécifié, l'index de la ligne est automatiquement imputé. La valeur de l'argument est de 0, puisque l'identifiant unique du tableau `chicoute` est positionné à la première colonne (Python comment à compter à 0).
- `na_values`: le symbole spécifiant une valeur manquante. L'argument `na_values=''` signifie que les cellules vides sont des données manquantes.
- `encoding`: le format d'encodage du fichier.

D'autres arguments peuvent être spécifiés au besoin, et les répéter ici dupliquerait l'information de la documentation de [la fonction `read_csv` de `pandas`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html). La documentation de `pandas` présente d'[autres fonctions](http://pandas.pydata.org/pandas-docs/stable/io.html) accessibles pour charger des données formattées en json, tsv, etc.

La fonction `.head()` permet d'afficher le haut du tableau, tout comme la fonction `.tail()` permet d'en afficher le bas.

In [150]:
chicoute.head(3)

Unnamed: 0_level_0,CodeTourbiere,Ordre,Site,Traitement,DemiParcelle,SousTraitement,Latitude_m,Longitude_m,Rendement_g.5m2,TotalRamet_nombre.m2,...,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,BEAU,A,1,,,,5702454,490627,,453.272218,...,1.213369,0.435481,0.470311,0.09765,0.002578,0.000175,0.004698,0.100602,0.013281,0.001558
2,BEAU,A,2,,,,5702452,490634,,460.911637,...,1.215155,0.336792,0.439383,0.09961,0.002578,0.000407,0.007288,0.078297,0.014773,0.00189
3,BEAU,A,3,,,,5702461,490638,,651.897122,...,1.049444,0.373216,0.420433,0.1044,0.002578,3.7e-05,0.007132,0.072201,0.014754,0.001602


Conformément aux règles de construction d'un tableau, `pandas` demande à ce que chaque colonne possède une entête unique, comme chaque ligne possède un indice unique, ce qui peut être vérifié avec les descriptifs `.columns` et `.index`.

In [151]:
print("Entêtes:", chicoute.columns)
print("Indices:", chicoute.index)

Entêtes: Index(['CodeTourbiere', 'Ordre', 'Site', 'Traitement', 'DemiParcelle',
       'SousTraitement', 'Latitude_m', 'Longitude_m', 'Rendement_g.5m2',
       'TotalRamet_nombre.m2', 'TotalVegetatif_nombre.m2',
       'TotalFloral_nombre.m2', 'TotalMale_nombre.m2',
       'TotalFemelle_nombre.m2', 'FemelleFruit_nombre.m2',
       'FemelleAvorte_nombre.m2', 'SterileFleur_nombre.m2', 'C_pourc',
       'N_pourc', 'P_pourc', 'K_pourc', 'Ca_pourc', 'Mg_pourc', 'S_pourc',
       'B_pourc', 'Cu_pourc', 'Zn_pourc', 'Mn_pourc', 'Fe_pourc', 'Al_pourc'],
      dtype='object')
Indices: Int64Index([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
            18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
            35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
            52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
            69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85,
            86, 87

### Les `DataFrame` et les `Series`

Dans un `DataFrame` de `pandas`, chaque colonne est une `Series`, à laquelle nous accédons ici avec un point suivi du nom de la colonne (nous verons plus tard comment soutirer précisément des éléments d'un tableau). Une `Series` peut être utilisée sans `DataFrame`, mais vous utiliserez probablement les `Series` en tant que colonnes d'un tableau.

La fonction `type` permet d'identifier le type de l'objet. `chicoute`, que nous avons importé d'un fichier csv, est un `DataFrame`.

In [152]:
print("Type d'un tableau:", type(chicoute))

Type d'un tableau: <class 'pandas.core.frame.DataFrame'>


Nous verrons dans la prochaine section une manière plus fiable de sélectionner une `Series`, mais notons pour cet exemple qu'une `Series` peut être accédée sous la forme `tableau.colonne`.

In [153]:
print("Type d'un tableau:", type(chicoute.CodeTourbiere))

Type d'un tableau: <class 'pandas.core.series.Series'>


### Comment sélectionner et filtrer des données?

On utiliser le terme *sélectionner* lorsque l'on désire choisir une ou plusieurs lignes et colonnes d'un tableau (la plupart du temps des colonnes). L'action de *filtrer* signifie de sélectionner des axes (la plupart du temps des lignes) selon certains critères.

Une matrice n'est pas contrainte à une structure tabulaire (lignes et colonnes). Isoler les parties désirées d'une matrice se fait dans `numpy` comme pour une liste Python. Pour rappel, les éléments d'une liste sont sélectionnés par l'indice de leur position dans la liste à partir de 0, placé entre des crochets suivant le nom de l'objet.

In [154]:
ma_liste = ['premier', 'deuxième', 'troisième', 'quatrième']
ma_liste[1]

'deuxième'

Dans `numpy`, on utilise aussi les crochets. Étant donné qu'une matrice est une liste de liste, les indices retenus sont ordonnés dans les crochets selon l'axe de la matrice (premier axe: lignes, deuxième axe: colonnes, troisième axe: profondeur, etc.). Les axes où l'on désire sélectionner tous les élément sont notés par un `:`.

In [155]:
ma_matrice = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
ma_matrice

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [156]:
ma_matrice[0, 1]

2

In [157]:
ma_matrice[0, :]

array([1, 2, 3])

In [158]:
ma_matrice[[0,2], 1]

array([2, 8])

`numpy` est approprié pour effectué des sélections et des filtres. Néanmoins, les possibilités offertes par `pandas` en font un outil souvent plus approprié pour effectuer ces opérations. Avec `pandas`, certaines approches sont implicites, d'autres explicites.

#### Sélectionner

Il y a deux manières implicites de sélectionner une colonne. La première est d'inscrire le nom du tableau, un point, puis le nom de la colonne désirée. Cette manière de fonctionner entraînent plusieurs inconvénients: impossible d'appeler plusieurs colonnes, erreurs si le nom de la colonne contient des caractères spéciaux, conflits avec les fonctions. Bien que plusieurs travaillent avec cette notation, nous travaillerons ici avec la notation en crochets, `[ ]`. Entre les crochets, il est possible de noter une les caractères correspondant à la colonne désirée. Si l'on désire appeler plusieurs colonnes, elles doivent être appelées sous forme d'une liste Python, elle-même délimitée par des crochets (d'où les doubles-crochets).

In [159]:
chicoute['CodeTourbiere'].head()

ID
1    BEAU
2    BEAU
3    BEAU
4    BEAU
5    BEAU
Name: CodeTourbiere, dtype: object

In [160]:
chicoute[['CodeTourbiere', 'Ordre']].head()

Unnamed: 0_level_0,CodeTourbiere,Ordre
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,BEAU,A
2,BEAU,A
3,BEAU,A
4,BEAU,A
5,BEAU,A


Il est possible de créer une liste de noms de colonnes, puis de la placer entre les crochets.

In [161]:
chicoute.columns[17:]

Index(['C_pourc', 'N_pourc', 'P_pourc', 'K_pourc', 'Ca_pourc', 'Mg_pourc',
       'S_pourc', 'B_pourc', 'Cu_pourc', 'Zn_pourc', 'Mn_pourc', 'Fe_pourc',
       'Al_pourc'],
      dtype='object')

In [162]:
fol_cols = chicoute.columns[17:] # noms des colonnes de concentration foliaire

In [163]:
chicoute[fol_cols].head()

Unnamed: 0_level_0,C_pourc,N_pourc,P_pourc,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,51.47,1.725,0.108283,1.213369,0.435481,0.470311,0.09765,0.002578,0.000175,0.004698,0.100602,0.013281,0.001558
2,51.29,2.183,0.0985,1.215155,0.336792,0.439383,0.09961,0.002578,0.000407,0.007288,0.078297,0.014773,0.00189
3,50.55,2.122,0.070767,1.049444,0.373216,0.420433,0.1044,0.002578,3.7e-05,0.007132,0.072201,0.014754,0.001602
4,51.58,1.948,0.090899,1.191574,0.500454,0.387801,0.09224,0.002578,9.3e-05,0.005497,0.031042,0.013455,0.000895
5,53.83,2.039,0.115247,0.946565,0.332687,0.47171,0.1062,0.002578,3.7e-05,0.005101,0.03455,0.012011,0.001021


Que venons-nous de faire? 

1. Visualiser les noms de colonne
2. Sélectionner les noms de colonnes correspondants à des concentrations foliaires.
3. Créer l'objet `fol_cols` contenant le nom des colonnes.
4. Sélectionner les colonnes `fol_cols` du tableau `chicoute`

On peut travailler en exclusion avec la fonction `drop`, par exemple exclure la colonne Site.

In [164]:
chicoute.drop(fol_cols, axis=1).head()

Unnamed: 0_level_0,CodeTourbiere,Ordre,Site,Traitement,DemiParcelle,SousTraitement,Latitude_m,Longitude_m,Rendement_g.5m2,TotalRamet_nombre.m2,TotalVegetatif_nombre.m2,TotalFloral_nombre.m2,TotalMale_nombre.m2,TotalFemelle_nombre.m2,FemelleFruit_nombre.m2,FemelleAvorte_nombre.m2,SterileFleur_nombre.m2
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1,BEAU,A,1,,,,5702454,490627,,453.272218,255.92055,197.351668,10.185893,187.165775,157.881334,8.912656,0.0
2,BEAU,A,2,,,,5702452,490634,,460.911637,333.587981,127.323657,0.0,124.777184,71.301248,14.005602,2.546473
3,BEAU,A,3,,,,5702461,490638,,651.897122,580.595875,71.301248,1.273237,70.028011,48.38299,19.098549,0.0
4,BEAU,A,4,,,,5702453,490647,,590.781767,440.539852,150.241915,104.405399,45.836516,39.470334,3.81971,0.0
5,BEAU,A,5,,,,5702445,490654,,564.043799,365.418895,198.624905,92.946269,105.678635,94.219506,2.546473,0.0


Nous verrons plus tard, en plus de détails, en quoi consiste l'argument `axis`. Pour l'instant, retenons que plusieurs fonctions de pandas sont disponibles dans l'axe vertical, celui des lignes, (`axis=0`) et dans l'axe horizontal, celui des colonnes (`axis=1`).

Cette approche est implicite, parce que `pandas` interprète que vous désirez sélectionner des colonnes. Les fonctions de localisation par nom `loc` et de locatlisation par indice `iloc` sont, quant à elles, explicites. Elles découlent de la notation de `numpy` et sont valides pour les lignes et les colonnes. Alors que `loc` demande des `Ìndex` (des noms de colonne ou des noms de ligne), `iloc` est uniquement basé sur la position des lignes et des colonnes.

In [165]:
chicoute.loc[1:4, fol_cols]

Unnamed: 0_level_0,C_pourc,N_pourc,P_pourc,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,51.47,1.725,0.108283,1.213369,0.435481,0.470311,0.09765,0.002578,0.000175,0.004698,0.100602,0.013281,0.001558
2,51.29,2.183,0.0985,1.215155,0.336792,0.439383,0.09961,0.002578,0.000407,0.007288,0.078297,0.014773,0.00189
3,50.55,2.122,0.070767,1.049444,0.373216,0.420433,0.1044,0.002578,3.7e-05,0.007132,0.072201,0.014754,0.001602
4,51.58,1.948,0.090899,1.191574,0.500454,0.387801,0.09224,0.002578,9.3e-05,0.005497,0.031042,0.013455,0.000895


La fonction `loc` permet de sélectionner une suite de colonnes.

In [166]:
chicoute.loc[1:4, 'TotalRamet_nombre.m2':'TotalFemelle_nombre.m2']

Unnamed: 0_level_0,TotalRamet_nombre.m2,TotalVegetatif_nombre.m2,TotalFloral_nombre.m2,TotalMale_nombre.m2,TotalFemelle_nombre.m2
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,453.272218,255.92055,197.351668,10.185893,187.165775
2,460.911637,333.587981,127.323657,0.0,124.777184
3,651.897122,580.595875,71.301248,1.273237,70.028011
4,590.781767,440.539852,150.241915,104.405399,45.836516


Dans les exemples précédents, `1:4` est l'indice des lignes, qui est ici différent de la position, dont l'accès se fait via `iloc`. Alors que `loc` inclue tous les noms de colonne et d'indice, `iloc` fonctionne comme les sélections dans les listes et les matrices `numpy`: en incluant la première position et en excluant la dernière.

In [167]:
chicoute.iloc[0:4, 17:]

Unnamed: 0_level_0,C_pourc,N_pourc,P_pourc,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,51.47,1.725,0.108283,1.213369,0.435481,0.470311,0.09765,0.002578,0.000175,0.004698,0.100602,0.013281,0.001558
2,51.29,2.183,0.0985,1.215155,0.336792,0.439383,0.09961,0.002578,0.000407,0.007288,0.078297,0.014773,0.00189
3,50.55,2.122,0.070767,1.049444,0.373216,0.420433,0.1044,0.002578,3.7e-05,0.007132,0.072201,0.014754,0.001602
4,51.58,1.948,0.090899,1.191574,0.500454,0.387801,0.09224,0.002578,9.3e-05,0.005497,0.031042,0.013455,0.000895


Effectuer une sélection sur un tableau comme pour une matrice, c'est-à-dire sans `iloc`, retournera une erreur.

In [168]:
chicoute[0:4, 17:]

TypeError: unhashable type: 'slice'

#### Filtrer

Un filtre est un vecteur booléen de même longueur que l'axe filtré (généralement le nombre de lignes). Effectué sur les lignes, chaque ligne conservée correspond à une valeur `True` dans le vecteur. Les lignes correspondant à la valeur `False` dans le vecteur filtrant seront excluent.

In [169]:
chicoute['CodeTourbiere'] == 'BEAU'

ID
1      True
2      True
3      True
4      True
5      True
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
      ...  
61    False
62    False
63    False
64    False
65    False
66    False
67    False
68    False
69    False
70    False
71    False
72    False
73    False
74    False
75    False
76    False
77    False
78    False
79    False
80    False
81    False
82    False
83    False
84    False
85    False
86    False
87    False
88    False
89    False
90    False
Name: CodeTourbiere, Length: 90, dtype: bool

Le filtre est appliqué sur le tableau en le passant entre les crochets: `pandas` détecte automatiquement que vous désirez effectuer un fitlre sur les lignes. C'est pourquoi cette approche est *implicite*.

In [170]:
chicoute[chicoute['CodeTourbiere'] == 'BEAU']

Unnamed: 0_level_0,CodeTourbiere,Ordre,Site,Traitement,DemiParcelle,SousTraitement,Latitude_m,Longitude_m,Rendement_g.5m2,TotalRamet_nombre.m2,...,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,BEAU,A,1,,,,5702454,490627,,453.272218,...,1.213369,0.435481,0.470311,0.09765,0.002578,0.000175,0.004698,0.100602,0.013281,0.001558
2,BEAU,A,2,,,,5702452,490634,,460.911637,...,1.215155,0.336792,0.439383,0.09961,0.002578,0.000407,0.007288,0.078297,0.014773,0.00189
3,BEAU,A,3,,,,5702461,490638,,651.897122,...,1.049444,0.373216,0.420433,0.1044,0.002578,3.7e-05,0.007132,0.072201,0.014754,0.001602
4,BEAU,A,4,,,,5702453,490647,,590.781767,...,1.191574,0.500454,0.387801,0.09224,0.002578,9.3e-05,0.005497,0.031042,0.013455,0.000895
5,BEAU,A,5,,,,5702445,490654,,564.043799,...,0.946565,0.332687,0.47171,0.1062,0.002578,3.7e-05,0.005101,0.03455,0.012011,0.001021


Toute opération booléenne est valide.

In [171]:
chicoute[chicoute['N_pourc'] > 2.8]

Unnamed: 0_level_0,CodeTourbiere,Ordre,Site,Traitement,DemiParcelle,SousTraitement,Latitude_m,Longitude_m,Rendement_g.5m2,TotalRamet_nombre.m2,...,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
11,2,6,11,fertilisant,left,Control,5702582,486522,0.0,66.4,...,1.192675,0.403273,0.499008,0.1303,0.004164,0.000111,0.009994,0.026289,0.01,0.001382
13,2,6,12,temoin,left,Control,5702562,486538,0.0,156.8,...,1.061237,0.197001,0.547072,0.1385,0.003321,0.000986,0.008257,0.013331,0.011007,0.002797
14,2,6,12,temoin,right,B,5702562,486538,0.0,112.8,...,1.326007,0.204416,0.49951,0.1378,0.003934,0.000671,0.007467,0.01092,0.010387,0.004158
15,2,7,13,fertilisant,left,Control,5702643,486498,0.0,152.4,...,1.008934,0.31522,0.399586,0.1668,0.003321,0.000252,0.006911,0.004139,0.009132,0.001963
18,2,7,14,temoin,right,Control,5702627,486501,0.38,78.4,...,1.206091,0.311528,0.469607,0.1571,0.004164,0.000686,0.011481,0.054341,0.01737,0.003759
22,2,8,16,temoin,right,Cu,5702537,486524,0.0,177.6,...,1.222893,0.320198,0.449377,0.1296,0.004167,0.000869,0.00661,0.01044,0.009338,0.001999
23,2,9,17,fertilisant,left,Control,5702544,486327,0.0,65.6,...,1.177441,0.365387,0.459838,0.1336,0.004164,0.000392,0.007018,0.008054,0.010646,0.002039
27,2,10,19,fertilisant,left,Control,5702478,486353,0.0,208.8,...,1.26959,0.368932,0.480966,0.1515,0.003321,0.000469,0.006456,0.017736,0.010357,0.001924


Les conditions booléennes peuvent être combinées avec les opérateurs *et*,  `&`, et *ou*, `|`. Pour rappel,


| Opération | Résultat |
| --------- | -------- |
| Vrai **et** Vrai | Vrai |
| Vrai **et** Faux | Faux |
| Faux **et** Faux | Faux |
| Vrai **ou** Vrai | Vrai |
| Vrai **ou** Faux | Vrai |
| Faux **ou** Faux | Faux |

Pour éviter les confusions liées aux préscéances d'opérations, `pandas` demande que les conditions soient spécifiées entre parenthèses.

In [172]:
chicoute[(chicoute['Ca_pourc'] < 0.4) & (chicoute['CodeTourbiere'] == 'BEAU')]

Unnamed: 0_level_0,CodeTourbiere,Ordre,Site,Traitement,DemiParcelle,SousTraitement,Latitude_m,Longitude_m,Rendement_g.5m2,TotalRamet_nombre.m2,...,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2,BEAU,A,2,,,,5702452,490634,,460.911637,...,1.215155,0.336792,0.439383,0.09961,0.002578,0.000407,0.007288,0.078297,0.014773,0.00189
3,BEAU,A,3,,,,5702461,490638,,651.897122,...,1.049444,0.373216,0.420433,0.1044,0.002578,3.7e-05,0.007132,0.072201,0.014754,0.001602
5,BEAU,A,5,,,,5702445,490654,,564.043799,...,0.946565,0.332687,0.47171,0.1062,0.002578,3.7e-05,0.005101,0.03455,0.012011,0.001021


Pour spécifier quelques options de correspondances exactes, utilisez la fonction `isin`.

In [173]:
chicoute[(chicoute['N_pourc'] > 2.8) | (chicoute['SousTraitement'].isin(['B', 'Cu']))]

Unnamed: 0_level_0,CodeTourbiere,Ordre,Site,Traitement,DemiParcelle,SousTraitement,Latitude_m,Longitude_m,Rendement_g.5m2,TotalRamet_nombre.m2,...,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
11,2,6,11,fertilisant,left,Control,5702582,486522,0.0,66.4,...,1.192675,0.403273,0.499008,0.1303,0.004164,0.000111,0.009994,0.026289,0.01,0.001382
12,2,6,11,fertilisant,right,Cu,5702582,486522,0.0,98.0,...,1.241096,0.326899,0.479595,0.1301,0.004167,0.001177,0.009641,0.013245,0.01017,0.002334
13,2,6,12,temoin,left,Control,5702562,486538,0.0,156.8,...,1.061237,0.197001,0.547072,0.1385,0.003321,0.000986,0.008257,0.013331,0.011007,0.002797
14,2,6,12,temoin,right,B,5702562,486538,0.0,112.8,...,1.326007,0.204416,0.49951,0.1378,0.003934,0.000671,0.007467,0.01092,0.010387,0.004158
15,2,7,13,fertilisant,left,Control,5702643,486498,0.0,152.4,...,1.008934,0.31522,0.399586,0.1668,0.003321,0.000252,0.006911,0.004139,0.009132,0.001963
16,2,7,13,fertilisant,right,B,5702643,486498,0.0,164.8,...,0.831373,0.334868,0.449515,0.1508,0.003934,0.000287,0.00729,0.004868,0.009565,0.001844
17,2,7,14,temoin,left,Cu,5702627,486501,0.0,158.8,...,1.006785,0.3724,0.510872,0.1359,0.004167,0.000387,0.010543,0.048363,0.00965,0.002705
18,2,7,14,temoin,right,Control,5702627,486501,0.38,78.4,...,1.206091,0.311528,0.469607,0.1571,0.004164,0.000686,0.011481,0.054341,0.01737,0.003759
19,2,8,15,fertilisant,left,B,5702537,486517,0.0,272.8,...,1.20663,0.360007,0.468216,0.1311,0.003934,0.000811,0.006169,0.008995,0.009935,0.002522
22,2,8,16,temoin,right,Cu,5702537,486524,0.0,177.6,...,1.222893,0.320198,0.449377,0.1296,0.004167,0.000869,0.00661,0.01044,0.009338,0.001999


#### Sélectionner et filtrer

Si l'approche implicite peut s'avérer simple pour rapidement sélectionner ou filtrer un tableau, elle risque de meer à des erreurs lorsqu'un tableau doit subit une sélection et un filtre. La fonction `loc` permet de gérer des sélections et des filtres.

In [178]:
chicoute.loc[chicoute.Ordre == 'A', ['Site', 'CodeTourbiere', 'Latitude_m', 'Longitude_m']]

Unnamed: 0_level_0,Site,CodeTourbiere,Latitude_m,Longitude_m
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,BEAU,5702454,490627
2,2,BEAU,5702452,490634
3,3,BEAU,5702461,490638
4,4,BEAU,5702453,490647
5,5,BEAU,5702445,490654


### Comment effectuer un sommaire?

Inspecter un tableau fait partie des premières étapes d'un flux de travail. La commande `.dtypes`, pour *data types* permet d'obtenir le type de données pour chaque colonne. Une colonne dont on devrait s'attendre être un nombre réel (*float64*), mais importée sous le type *object* indique souvent une erreur dans le fichier *csv*, possiblement due à une cellule annotée, l'utilisation non systématique de la notation d'une cellule vide. Une colonne de type *object* peut apparaître sous forme d'*int64*, même si le ficheir csv ne contient pas d'erreur. C'est le cas, par exemple, d'un numéro de site, dont le chiffre ne constitue pas une métrique.

In [179]:
chicoute.dtypes

CodeTourbiere                object
Ordre                        object
Site                          int64
Traitement                   object
DemiParcelle                 object
SousTraitement               object
Latitude_m                    int64
Longitude_m                   int64
Rendement_g.5m2             float64
TotalRamet_nombre.m2        float64
TotalVegetatif_nombre.m2    float64
TotalFloral_nombre.m2       float64
TotalMale_nombre.m2         float64
TotalFemelle_nombre.m2      float64
FemelleFruit_nombre.m2      float64
FemelleAvorte_nombre.m2     float64
SterileFleur_nombre.m2      float64
C_pourc                     float64
N_pourc                     float64
P_pourc                     float64
K_pourc                     float64
Ca_pourc                    float64
Mg_pourc                    float64
S_pourc                     float64
B_pourc                     float64
Cu_pourc                    float64
Zn_pourc                    float64
Mn_pourc                    

Ajustons le type de la colonne Site.

In [180]:
chicoute['Site'] = chicoute['Site'].astype('object')

La commande `.describre()` présente un sommaire des données en calculant certaines statistiques.

In [181]:
chicoute.describe()

Unnamed: 0,Latitude_m,Longitude_m,Rendement_g.5m2,TotalRamet_nombre.m2,TotalVegetatif_nombre.m2,TotalFloral_nombre.m2,TotalMale_nombre.m2,TotalFemelle_nombre.m2,FemelleFruit_nombre.m2,FemelleAvorte_nombre.m2,...,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
count,90.0,90.0,40.0,90.0,86.0,86.0,86.0,86.0,72.0,86.0,...,90.0,90.0,90.0,90.0,90.0,90.0,90.0,90.0,90.0,90.0
mean,5701840.0,485295.544444,13.328513,251.255911,199.024515,52.075858,24.400232,27.527575,19.966321,8.494,...,0.8887,0.388439,0.498014,0.134718,0.003091,0.000409,0.006662,0.033452,0.015149,0.002695
std,1915.498,6452.325843,21.557681,156.056608,139.126951,40.414169,26.865528,29.826415,23.786318,14.517165,...,0.265323,0.102243,0.084709,0.039346,0.00067,0.000642,0.00206,0.025192,0.005874,0.001326
min,5695688.0,459873.0,0.0,40.74357,22.918258,4.8,0.0,2.546473,0.4,0.0,...,0.345079,0.19407,0.364834,0.07,0.00182,3.7e-05,0.003267,0.002298,0.009132,0.000895
25%,5701868.0,485927.0,0.0,122.7,86.261777,22.918258,3.3,10.339419,7.639419,1.273237,...,0.688697,0.323119,0.449411,0.1107,0.002563,3.7e-05,0.005493,0.012048,0.010907,0.00192
50%,5702129.0,486500.0,0.945,212.915253,161.250522,43.0,15.278839,17.188694,11.459129,3.073237,...,0.860453,0.374775,0.479202,0.13005,0.003181,0.000213,0.00632,0.027872,0.014254,0.002362
75%,5702537.0,486544.75,15.627912,347.8,263.780138,69.521008,36.512656,31.957729,22.829565,10.139419,...,1.132929,0.435456,0.520374,0.1446,0.003503,0.000461,0.007194,0.050051,0.017271,0.003339
max,5706394.0,491955.0,72.435183,651.897122,580.595875,198.624905,104.405399,187.165775,157.881334,76.8,...,1.540768,0.876606,0.861527,0.2809,0.004167,0.004249,0.01624,0.10445,0.052065,0.009334


Le sommaire ne présente que 24 des 33 colonnes. La raison est que l'argument `include` de `.describe()` prend par défaut la valeur `['float64']`, soit une liste ne spécifiant que les colonnes contenant des nombres réels. On pourait forcer le sommaire à inclure tous les types de données, mais puisque les statistiques associées aux types de données sont différentes, il est préférable de les segmenter.

In [182]:
chicoute.describe(include=['object'])

Unnamed: 0,CodeTourbiere,Ordre,Site,Traitement,DemiParcelle,SousTraitement
count,90,90,90,40,40,40
unique,12,20,20,2,2,3
top,1,F,1,fertilisant,right,Control
freq,20,5,12,20,20,20


Les dimensions du tableau sont données par le descriptif `.shape`

In [183]:
chicoute.shape

(90, 30)

> **Pourquoi certaines commandes ont des parenthèses, et d'autres pas?** Les deux types de commandes découlent de l'instrance de l'objet, ici un DataFrame. Les commandes accompagnées de parenthèses appellent une action par une fonction. Celles qui n'en ont pas appelent un attribu, un élément descriptif.

> **Action**. grenouille.saute()

> **Description**. grenouille.couleur

`pandas` vous permet d'être plus spécifique sur les statistiques désirées. Supposons que vous désirez effectuer des calculs sur les concentrations en nutriment retrouvées dans les tissus foliaires.

In [184]:
chicoute[fol_cols].mean(axis=0)

C_pourc     50.279111
N_pourc      2.199411
P_pourc      0.138896
K_pourc      0.888700
Ca_pourc     0.388439
Mg_pourc     0.498014
S_pourc      0.134718
B_pourc      0.003091
Cu_pourc     0.000409
Zn_pourc     0.006662
Mn_pourc     0.033452
Fe_pourc     0.015149
Al_pourc     0.002695
dtype: float64

Nous avons sélectionné les colonnes désirées dans le tableau `chicoute`, demander la moyenne, à travers les lignes, l'axe vertical 0 (`axis=0`).

De la même manière, nous pourrions calculer la somme des concentrations sur chaque ligne. Puisque ce sont des pourcentages, le reste des constituants foliaires occupent $100 - \Sigma ~ nutriments$. Cette valeur de remplissage peut être insérée comme une novuelle colonne.

In [185]:
chicoute['Remplissage_pourc'] = 100 - chicoute[fol_cols].sum(axis=1)
fol_cols_R = chicoute.columns[17:] # noms des colonnes de concentration foliaire, en ajoutant le remplissage
chicoute[fol_cols_R].mean(axis=0)

C_pourc              50.279111
N_pourc               2.199411
P_pourc               0.138896
K_pourc               0.888700
Ca_pourc              0.388439
Mg_pourc              0.498014
S_pourc               0.134718
B_pourc               0.003091
Cu_pourc              0.000409
Zn_pourc              0.006662
Mn_pourc              0.033452
Fe_pourc              0.015149
Al_pourc              0.002695
Remplissage_pourc    45.411253
dtype: float64

#### Aggrégation

Avec `.describe()` ou des opérations plus spécifiques, vous obtenez des sommaires globaux. Si vous désirez plutôt stratifier vos sommaires selon des groupes, par exemple une moyenne par tourbières. Cette approche s'appelle l'aggrégation. La fonction `.groupby()` permet d'effectuer des calculs par groupe et sous-groupes.

Par exemple, calculons la médiane des pourcentages en nutrients pour chaque tourbière. Pour ce faire, nous avons besoin de l'information de regroupement, `CodeTourbiere`, ainsi que les données de concentration. L'objet `fol_cols` est de type `Index`, qui ne peut (à ma connaissance) être modifié à moins d'être préalablement transformé en liste Python.

In [204]:
loc_cols = list(fol_cols)
loc_cols.append('CodeTourbiere') # ou loc_cols = list(fol_cols) + ['CodeTourbiere']
loc_cols

['C_pourc',
 'N_pourc',
 'P_pourc',
 'K_pourc',
 'Ca_pourc',
 'Mg_pourc',
 'S_pourc',
 'B_pourc',
 'Cu_pourc',
 'Zn_pourc',
 'Mn_pourc',
 'Fe_pourc',
 'Al_pourc',
 'CodeTourbiere']

Puis lançons la commande en chaîne:

- `loc` pour isoler les colonnes dont nous avons besoin, 
- `groupby` pour regrouper les données selon la colonne spécifiée
- `median` pour l'opération à effectuer sur ces groupes

In [205]:
chicoute.loc[:, loc_cols].groupby('CodeTourbiere').median()

Unnamed: 0_level_0,C_pourc,N_pourc,P_pourc,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
CodeTourbiere,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,51.075,2.2175,0.153478,0.867125,0.308759,0.460216,0.1316,0.003503,3.7e-05,0.005466,0.012821,0.016051,0.001916
2,49.345,2.7775,0.173205,1.185058,0.359672,0.471584,0.13305,0.004049,0.000567,0.006964,0.012331,0.010007,0.002224
BEAU,51.47,2.039,0.0985,1.191574,0.373216,0.439383,0.09961,0.002578,9.3e-05,0.005497,0.072201,0.013455,0.001558
BP,51.24,2.132,0.155964,0.754352,0.43682,0.511286,0.1437,0.002391,3.7e-05,0.005968,0.038321,0.012753,0.00359
BS2,52.18,1.889,0.108064,1.085135,0.405428,0.458062,0.1879,0.002045,3.7e-05,0.006404,0.032914,0.013102,0.002481
MB,51.36,2.11,0.114974,0.73771,0.43517,0.52031,0.1245,0.002965,3.7e-05,0.006448,0.046816,0.014382,0.001764
MR,50.82,1.953,0.122603,0.906441,0.420845,0.456887,0.1145,0.00182,0.002127,0.005352,0.024742,0.018004,0.002492
NBM,52.04,2.056,0.118178,0.824847,0.311635,0.434202,0.104,0.002826,3.7e-05,0.004953,0.050373,0.013033,0.005911
NESP,48.17,1.751,0.134419,0.85053,0.423396,0.591242,0.2489,0.002563,0.000523,0.006876,0.06337,0.021251,0.004145
NTP,51.56,1.876,0.086949,0.397751,0.540665,0.555509,0.1092,0.003082,0.000308,0.007293,0.012224,0.01559,0.00203


Les groupes peuvent être classés en sous-groupes. De plus, une manière élégante de travailler avec les opérations en chaîne sur `pandas` est de segmenter les commandes en plusieurs lignes, avec la barre oblique inversée `\` pour signaler que la ligne suivante est la suite de la ligne courrante.

In [226]:
chicoute.loc[:, list(fol_cols) + ['CodeTourbiere', 'Ordre']].\
    groupby(['CodeTourbiere', 'Ordre']).\
    count()

Unnamed: 0_level_0,Unnamed: 1_level_0,C_pourc,N_pourc,P_pourc,K_pourc,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc
CodeTourbiere,Ordre,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,1,4,4,4,4,4,4,4,4,4,4,4,4,4
1,2,4,4,4,4,4,4,4,4,4,4,4,4,4
1,3,4,4,4,4,4,4,4,4,4,4,4,4,4
1,4,4,4,4,4,4,4,4,4,4,4,4,4,4
1,5,4,4,4,4,4,4,4,4,4,4,4,4,4
2,10,4,4,4,4,4,4,4,4,4,4,4,4,4
2,6,4,4,4,4,4,4,4,4,4,4,4,4,4
2,7,4,4,4,4,4,4,4,4,4,4,4,4,4
2,8,4,4,4,4,4,4,4,4,4,4,4,4,4
2,9,4,4,4,4,4,4,4,4,4,4,4,4,4


### Comment tirer les données?

La méthode à utiliser est `.sort_values()`. Les arguments principaux que prennent cette méthode sont la colonne ou les colonnes sur lequelles baser le tri (`by=`) ainsi que l'ordre du tri (`ascending=`). Il est possible de spécifier un tri par colonne, mais le tri par ligne, avec l'argument par défaut `axis=0`, est généralement utilisé. La commande suivante effectue un tri descendant sur le rendement, puis ne conserve que les 10 premières lignes.

In [239]:
chicoute.sort_values(by='Rendement_g.5m2', ascending=False).head(10)

Unnamed: 0_level_0,CodeTourbiere,Ordre,Site,Traitement,DemiParcelle,SousTraitement,Latitude_m,Longitude_m,Rendement_g.5m2,TotalRamet_nombre.m2,...,Ca_pourc,Mg_pourc,S_pourc,B_pourc,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc,Remplissage_pourc
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
67,1,1,1,fertilisant,right,Control,5702078,486544,72.435183,392.8,...,0.33037,0.443625,0.1005,0.003503,3.7e-05,0.005567,0.013476,0.014564,0.001919,44.635034
66,1,1,1,fertilisant,left,B,5702078,486544,63.989625,484.4,...,0.363668,0.404057,0.1385,0.003503,3.7e-05,0.005492,0.008877,0.010873,0.001382,43.482494
73,1,2,4,temoin,right,Control,5702129,486488,62.320034,450.0,...,0.282503,0.518224,0.09399,0.003503,3.7e-05,0.00609,0.012166,0.021162,0.002493,44.276919
70,1,2,3,fertilisant,left,Control,5702120,486488,55.583192,328.0,...,0.381351,0.407755,0.1134,0.003503,3.7e-05,0.003699,0.009081,0.009919,0.00105,43.430328
72,1,2,4,temoin,left,B,5702129,486488,54.067095,398.0,...,0.19407,0.388499,0.1382,0.003503,3.7e-05,0.005431,0.014267,0.010846,0.001323,44.129301
71,1,2,3,fertilisant,right,Cu,5702120,486488,48.954573,272.0,...,0.378598,0.493814,0.1467,0.003503,3.7e-05,0.005441,0.002298,0.015774,0.001461,43.183257
79,1,4,7,fertilisant,right,Control,5702076,486499,34.640063,554.8,...,0.283974,0.463906,0.1001,0.003503,3.7e-05,0.006465,0.03832,0.016327,0.001924,46.570094
78,1,4,7,fertilisant,left,B,5702076,486499,28.709263,377.6,...,0.262589,0.511956,0.1284,0.003503,3.7e-05,0.007033,0.027094,0.017099,0.001989,45.963264
81,1,4,8,temoin,right,Cu,5702081,486504,23.057676,354.4,...,0.31907,0.505159,0.1011,0.003503,0.001122,0.00733,0.024631,0.021298,0.001954,46.909145
80,1,4,8,temoin,left,Control,5702081,486504,21.109928,327.6,...,0.291566,0.450817,0.09706,0.003503,0.00023,0.005405,0.023804,0.01229,0.001416,46.006664


### Effectuer des calculs sur un tableau avec `apply`

 .................... À COMPLÉTER .........................

### Tableau large - tableau long

 .................... À COMPLÉTER .........................


### Comment combiner des tableaux?

.................... À COMPLÉTER .........................

Effectuer un exemple simple d'abord.

..........................................................


Nous avons introduit plus haut la notion de base de données. Supposons que nous voudrions examiner l'influence de deux indices climatiques (précipitations totales et températures moyennes) sur le rendement de la chicouté. Le tableau ne possède pas de tels indicateurs, mais il est possible de les soutirer de stations météos placées près des site. Ces données ne sont pas disponibles pour le tableau de la chicouté, alors j'utiliserai des données fictives pour l'exemple.

Prenez un moment pour réfléchir à l'organisation des données nécessaires à une telle opération...

Voici ce qui pourrait être fait.

1. Créer un tableau des stations météo ainsi que des indices météo associés à ces stations.
2. Lier chaque site à une station (à la main où selon la plus petite distance entre le site et la station).
3. Fusionner les inices climatiques aux sites, puis les sites aux mesures de rendement.

Ces opérations demandent habituellement du tâtonnement. Il serait surprenant que même une personne expérimentée soit en mesure de compiler ces opérations sans obtenir de message d'erreur, et retravailler jusqu'à obtenir le résultat souhaité. L'objectif de cette section est de vous présenté un flux de travail que vous pourriez être amenés à effectuer et de fournir quelques éléments nouveau pour mener à bien une opération. Il peut être frustant de ne pas saisir toutes les opérations: passez à travers cette section sans jugement. Si vous devez vous frotter à problème semblable, vous saurez que vous trouverez dans ce manuel une recette intéressante.

#### Créer le tableau des stations

Le tableau pourrait être monté avec un tableur (Excel), mais pour l'exemple, je vais le créer directement dans l'environnement de travail.

In [273]:
stations = pd.DataFrame({'Station': ['A', 'B', 'C'], 'Latitude_m': [5702453, 5701870, 5696421], 'Longitude_m': [490640, 484870, 485929], 't_moy_C': [13.8, 18.2, 16.3], 'prec_tot_mm': [687, 714, 732]})
stations

Unnamed: 0,Latitude_m,Longitude_m,Station,prec_tot_mm,t_moy_C
0,5702453,490640,A,687,13.8
1,5701870,484870,B,714,18.2
2,5696421,485929,C,732,16.3


#### Calculer les distances

Créons d'abord une fonction pour calculer les distances entre deux points en deux dimensions.

In [305]:
def eucldist(A, B):
    dist = np.sqrt((A[0] - B[0])**2 + (A[1] - B[1])**2)
    return(dist)

La fonction `eucldist` demande deux arguments. `A` correspondra au point du site, tandis que `B` correspondra au point de la station. Dans la fonction, les arguments sont décortiqués en [0] et [1]. Il faut donc que A et B soient des listes ou des vecteurs `numpy`. La méthode `.apply()` décrtiquera les lignes du tableau principal de cette manière. Toutefois, il faudra s'assurer que les stations soient aussi des vecteurs. Après tâtonnement, on y arrivera ainsi.

In [320]:
stationA = stations.loc[stations.Station == 'A', ['Latitude_m', 'Longitude_m']].values[0, :]
stationB = stations.loc[stations.Station == 'B', ['Latitude_m', 'Longitude_m']].values[0, :]
stationC = stations.loc[stations.Station == 'C', ['Latitude_m', 'Longitude_m']].values[0, :]

Créons un nouveau tableau qui hébergera les données des distances entre chaque point. Ces distances sont calculés grâce à la méthode `.apply()`.

In [322]:
distances_stations = pd.DataFrame()
distances_stations['distA'] = chicoute.loc[:, ['Latitude_m', 'Longitude_m']].\
    apply(lambda x: eucldist(A=x, B=stationA), axis=1)
distances_stations['distB'] = chicoute.loc[:, ['Latitude_m', 'Longitude_m']].\
    apply(lambda x: eucldist(A=x, B=stationB), axis=1)
distances_stations['distC'] = chicoute.loc[:, ['Latitude_m', 'Longitude_m']].\
    apply(lambda x: eucldist(A=x, B=stationC), axis=1)

#### Identifier la station la plus proche

Dans le tableau de distance que nous venons de créer, ajoutons au tableau principal une colonne vide qui incluera le nom de la station correspondant à la plus faible distance. Ensuite, déterminons la distance la plus faible parmi les trois colonnes.

In [323]:
chicoute['Station'] = np.nan
distance_minimum = distances_stations.min(axis=1)

Les lignes du tableau de distance où la colonne `distA` est égale à la distance minimum sont gardée, et on sélectionn la colonne vide. Ces cellules correspondent aux endroits où la station A est la plus proche et prendrons la valeur `A`. Idem our `B` et `C`.

In [324]:
chicoute.loc[distances_stations.distA == distance_minimum, 'Station'] = 'A'
chicoute.loc[distances_stations.distB == distance_minimum, 'Station'] = 'B'
chicoute.loc[distances_stations.distC == distance_minimum, 'Station'] = 'C'

Nous obtenons une `Series` incluant les stations les plus proches, dont nous soutirons le vecteur avec la méthode `.values`.

In [325]:
chicoute.Station.values

array(['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'C', 'A', 'A',
       'A', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',
       'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B'], dtype=object)

#### Fusionner les indices climatiques au tableau principal

La méthode `.merge()` permet d'effectuer des opérations entre les tableaux comme entre des bases de données. Fusionnons avec `.merge()` le tableau principal aux indices climatiques selon la colonne `Station`.

In [326]:
chicoute.merge(stations[['Station', 't_moy_C', 'prec_tot_mm']], on='Station')

Unnamed: 0,CodeTourbiere,Ordre,Site,Traitement,DemiParcelle,SousTraitement,Latitude_m,Longitude_m,Rendement_g.5m2,TotalRamet_nombre.m2,...,Cu_pourc,Zn_pourc,Mn_pourc,Fe_pourc,Al_pourc,Remplissage_pourc,station,Station,t_moy_C,prec_tot_mm
0,BEAU,A,1,,,,5702454,490627,,453.272218,...,0.000175,0.004698,0.100602,0.013281,0.001558,44.357013,A,A,13.8,687
1,BEAU,A,2,,,,5702452,490634,,460.911637,...,0.000407,0.007288,0.078297,0.014773,0.001890,44.232327,A,A,13.8,687
2,BEAU,A,3,,,,5702461,490638,,651.897122,...,0.000037,0.007132,0.072201,0.014754,0.001602,45.211436,A,A,13.8,687
3,BEAU,A,4,,,,5702453,490647,,590.781767,...,0.000093,0.005497,0.031042,0.013455,0.000895,44.155473,A,A,13.8,687
4,BEAU,A,5,,,,5702445,490654,,564.043799,...,0.000037,0.005101,0.034550,0.012011,0.001021,42.103293,A,A,13.8,687
5,MB,C,1,,,,5699342,491931,,218.996690,...,0.000037,0.006226,0.046816,0.014761,0.002658,44.557328,A,A,13.8,687
6,MB,C,2,,,,5699337,491935,,282.658518,...,0.000037,0.009344,0.043878,0.016786,0.003315,45.296496,A,A,13.8,687
7,MB,C,3,,,,5699330,491947,,291.571174,...,0.000460,0.006103,0.036144,0.014382,0.001764,44.692892,A,A,13.8,687
8,MB,C,4,,,,5699332,491955,,235.548765,...,0.000037,0.006448,0.080084,0.013639,0.001466,43.837998,A,A,13.8,687
9,MB,C,5,,,,5699362,491949,,243.188184,...,0.000037,0.006787,0.049085,0.014126,0.001513,43.352899,A,A,13.8,687


Pour terminer la section, pandas profiling....

https://github.com/JosPolfliet/pandas-profiling

Commandes usuelles.

- Sommaire
    - `df.head(5)`. Afficher les 5 premières lignes du tableau.
    - `df.tail(5)`. Afficher les 5 dernières lignes du tableau.
    - `df.describe()`. Afficher les statistiques sommaires du tableau.
- Importer / exporter
    - `pd.read_csv()`. Importer un tableau.
    - `pd.to_csv()`. Exporter un tableau

Références

[Python for Data Analysis](http://shop.oreilly.com/product/0636920050896.do) (McKinney, 2016).
Wickham, H. (2014) https://www.jstatsoft.org/index.php/jss/article/view/v059i10/v59i10.pdf

Parent L.E., Parent, S.É., Herbert-Gentile, V., Naess, K. et  Lapointe, L. 2013. Mineral Balance Plasticity of Cloudberry (Rubus chamaemorus) in Quebec-Labrador Bogs. American Journal of Plant Sciences, 4, 1508-1520. DOI: 10.4236/ajps.2013.47183 