# Organisation des données

Les données sont transversales dans les flux de travail en sciences. Elles alimentent l'analyse, et la modélisation. Les résultats qui en découlent sont aussi des données qui peuvent alimenter les travaux subséquents. Une bonne organisation des données facilitera le flux de travail.

> **Dicton**. Proportions de temps voué aux calcul scientifique: 80% de nettoyage de données mal organisées, 20% de calcul.

Qu'est-ce qu'une donnée? De manière abstraite, il s'agit d'une valeur associée à une variable. Une variable peut être une dimension, une date, une couleur, le résultat d'un test statistique, à laquelle on attribue la valeur quantitative ou qualitative d'un chiffre, d'une chaîne de charactère, d'un symbole conventionné, etc. Par exemple, lorsque vous commandez un café *latte* végane, *au latte* est la valeur que vous attribuez à la variable *type de café*, et *végane* est la valeur de la variable *type de lait*. 

Ce chapitre traite de l'importation, l'utilisation et l'exportation de données structurées, en Python, sous forme de vecteurs, matrices, tableaux et ensemble de tableaux (bases de données).

Bien qu'il soit toujour préférable d'organiser les structures qui accueilleront les données d'une expérience avant-même de procéder à la collecte de données, l'analyste doit s'attendre à réorganiser ses données en cours de route. Or, des données bien organisées au départ faciliteront aussi leur réoganisation.

Les principes et techniques d'organisation des données présentées dans ce manuel sont inspirées de l'article [Tidy Data, de Wickham (2014)](https://www.jstatsoft.org/article/view/v059i10).

## Types de données

Dans la section précédente, nous avons survoler différents types d'objets: réels, entiers, chaînes de caractères et booléens. Les données peuvent appartenir à d'autres types: dates, catégories ordinales (ordonnées: faible, moyen, élevé) et nominales (non ordonnées: espèces, cultivars, couleurs, unité pédodlogique, etc.).


## Vecteurs

Dans la section d'introduction à Python, nous avons vu comment Python permet d'organiser des collections d'objets. Bien qu'il soit important de connaître leur existance pour apprendre à maîtriser Python, les listes et les dictionnaires sont peu pratiques pour le calcul. Par exemple, Python ne permet pas d'effectuer les opérations entre les scalaires et les listes.

In [30]:
ma_liste = [1, 2, 3, 4]
ma_liste + 1

TypeError: can only concatenate list (not "int") to list

Pour les listes, il faudrait passer par des boucles...

In [31]:
ma_liste_2 = []
for i in range(len(ma_liste)): 
    ma_liste_2.append(ma_liste[i] + 1)
ma_liste_2

[2, 3, 4, 5]

... ce qui est loin d'ête pratique. On préférera généralement utiliser des vecteurs, qui, grâce à un processus nommé *vectorisation*, peuvent être soumis à des opérations avec des scalaires. Les vecteurs sont accessibles via la bibliothèque `numpy`.

In [32]:
import numpy as np
mon_vecteur = np.array([1, 2, 3, 4])
mon_vecteur + 1

array([2, 3, 4, 5])

Contrairement à une liste, un vecteur contient obligatoirement des valeurs même type. À défaut de définir un même type, `numpy` transformera chaque valeur en chaîne de caractère.

In [33]:
[1, 2, 3, 'grenouille'] # liste

[1, 2, 3, 'grenouille']

In [34]:
np.array([1, 2, 3, 'grenouille']) # vecteur

array(['1', '2', '3', 'grenouille'], 
      dtype='<U21')

## Matrices
La matrice est une généralisation du vecteur. Alors que le vecteur a une seule dimension, la matrice acccepte un nombre le dimension $N$ (naturel positif) nécessaire pour l'application.

In [35]:
np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [36]:
np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]],
         [[10, 11, 12], [13, 14, 15], [16, 17, 18]]])

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]]])

Une matrice 2D peut indiquer l'élévation d'un point dans l'espace x, y. En 3D, vous pouvez inclure non seulement l'élévation, mais aussi l'épaisseur de solet d'autres variables. Ajouter une évolution dans le temps et vous obtenez une matrice 4D.

Vous ne pourrez toutefois pas ajouter une couche d'une variable catégorielle dans une matrice numérique: comme les vecteurs, les matrices ne contiennent qu'un seul type de données.

Elles sont utilisées surtout en modélisation. En analyse de données, on préférera les tableaux.

## Tableaux
De manière générale, un tableau de données est une organisation de données en deux dimensions, comportant des *lignes* et des *colonnes*. Il est préférable de respecter la convention selon laquelle les lignes sont des observations et les colonnes sont des variables. Ainsi, un tableau est une collection de vecteurs de même longueur, chaque vecteur représentant une variable. Chaque variable est libre de prendre le type de données approprié. La position d'une donnée dans le vecteur correspond à une observation.

Imaginez que vous consignez des données de différents sites (A, B et C), et que chaque site possède ses propres caractéristiques. Il est redondant de décrire le site pour chaque observation. Vous préférerez créer deux tableaux: un pour décrire vos observations, et un autre pour décrire les sites.

IMAGE

De cette manière, vous créez une collection de tableaux: une *base de données*.

Dans Python, les données structurées en tableaux, ainsi que les opérations sur les tableaux, peuvent être gérés grâe à la bibliothèque `pandas`. Mais avant de se lancer dans l'utilisation de `pandas`, voyons quelques règles à suivre pour bien structurer ses données.

## Organiser un tableau de données

Afin de reprérer chaque cellule d'un tableau, on attribue à chaque lignes et à chaque colonne colonnes un identifiant *unique*, que l'on nomme *indice* pour les lignes et *entête* pour les colonnes.

***Règle no 1.** Une variable par colonne, une observation par ligne.* 

Les unités expérimentales sont décrits par une ou plusieurs variables par des chiffres ou des lettres. Chaque variable devrait être présente en une seule colonne, et chaque ligne devrait correspondre à une unité expérimentale où ces variables ont été mesurées. La règle parait simple, mais elle est rarement respectée. Prenez par exemple le tableau suivant.

| Site | Traitement A | Traitement B | Traitement C |
| --- | --- | --- | --- |
| Sainte-Paix | 4.1 | 8.2 | 6.8 |
| Saint-Foin | 5.8 | 5.9 | NA |
| Saint-Coincoin | 2.9 | 3.4 | 4.6 |

*Tableau 1. Rendements obtenus sur les sites expérimentaux selon les traitements.*

Qu'est-ce qui cloche avec ce tableau? Chaque ligne est une observation, mais contient plussieurs observations d'une même variable, le rendement, qui devient étalé sur plusieurs colonnes. *À bien y penser*, le type de traitement est une variable et le rendement en est une autre:

| Site | Traitement | Rendement |
| --- | --- | --- |
| Sainte-Paix | A | 4.1 |
| Sainte-Paix | B | 8.2 |
| Sainte-Paix | C | 6.8 |
| Saint-Foin | A | 5.8 |
| Saint-Foin | B | 5.9 |
| Saint-Foin | C | NA |
| Saint-Coincoin | A | 2.9 |
| Saint-Coincoin | B | 3.4 |
| Saint-Coincoin | C | 4.6 |

*Tableau 2. Rendements obtenus sur les sites expérimentaux selon les traitements.*

Plus précisément, l'expression *à bien y penser* suggère une réflexion sur la signification des données. Certaines variables peuvent parfois être intégrées dans une même colonne, parfois pas. Par exemple, les concentrations en cuivre, zinc et plomb dans un sol contaminé peuvent être placés dans la même colonne "Concentration" ou déclinées en plusieurs colonnes Cu, Zn et Pb. La première version trouvera son utilité pour des créer des graphiques (chapitre 5), alors que la deuxième favorise le traitement statistique (chapitre 4).

***Règle no 2.** Ne pas répéter les informations.*

Rerpenons la même expérience. Supposons que vous mesurez la précipitation à l'échelle du site.

| Site | Traitement | Rendement | Précipitations |
| --- | --- | --- | --- |
| Sainte-Paix | A | 4.1 | 813 |
| Sainte-Paix | B | 8.2 | 813 |
| Sainte-Paix | C | 6.8 | 813 |
| Saint-Foin | A | 5.8 | 642 |
| Saint-Foin | B | 5.9 | 642 |
| Saint-Foin | C | NA | 642 |
| Saint-Coincoin | A | 2.9 | 1028 |
| Saint-Coincoin | B | 3.4 | 1028 |
| Saint-Coincoin | C | 4.6 | 1028 |

*Tableau 3. Rendements obtenus sur les sites expérimentaux selon les traitements.*

Segmenter l'information en deux tableaux serait préférable.

| Site | Précipitations |
| --- | --- |
| Sainte-Paix | 813 |
| Saint-Foin | 642 |
| Saint-Coincoin | 1028 |

*Tableau 4. Précipitations sur les sites expérimentaux.*

Les tableaux 2 et 4, ensemble, forment une base de données (collection organisée de tableaux).

***Règle no 3.** Ne pas bousiller les données.*

Par exemple.

- *Ajouter des commentaires dans des cellules*. Si une cellule mérite d'être commentée, il est préférable de placer les commentaires soit dans un fichier décrivant le tableau de données, soit dans une colonne de commentaire justaposée à la colonne de la variable à commenter. Par exemple, si vous n'avez pas mesure le pH pour une observation, n'écrivez pas "échantillon contaminé" dans la cellule, mais annoter dans un fichier d'explication que l'échantillon no X a été contaminé. Si les commentaires sont systématique, il peut être pratique de les inscrire dans une colonne `commentaire_pH`.
- *Inscrition non systématiques*. Il arrive souvent que des catégories d'une variable ou que des valeurs manquantes soient annotées différemment. Il arrive même que le séparateur décimal soit non systématique, parfois noté par un point, parfois par une virgule. Par exemple, une fois importés dans votre session, les catégories `St-Ours` et `Saint-Ours` seront traitées comme deux catégories distinctes. De même, les cellules correspondant à des valeurs manquantes ne devraient pas être inscrite parfois avec une cellule vide, parfois avec un point, parfois avec un tiret ou avec la mention `NA`. Le plus simple est de laisser systématiquement ces cellules vides.
- *Inclure des notes dans un tableau*. La règle "une colonne, une variable" n'est pas respectée si on ajoute des notes un peu n'importe où sous ou à côté du tableau.
- *Ajouter des sommaires*. Si vous ajoutez une ligne sous un tableau comprenant la moyenne de chaque colonne, qu'est-ce qui arrivera lorsque vous importerez votre tableau dans votre session de travail? La ligne sera considérée comme une observation supplémentaire.

## Formats de tableau

Plusieurs outils sont à votre disposition pour créer des tableaux. Je vous présente ici les plus communs.

### *xls* ou *xlsx*
Microsoft Excel est un logiciel de type *tableur*, ou chiffrier électronique. L'ancien format *xls* a été remplacé par le format *xlsx* avec l'arrivée de Microsoft Office 2010. Il s'agit d'un format propriétaire, dont l'alternative libre la plus connue est le format *ods*, popularisé par la suite bureautique LibreOffice. Les formats *xls*, *xlsx* ou *ods* sont davantage utilisés comme outils de calcul que d'entreposage de données. Ils contiennent des formules, des graphiques, du formattage de cellule, etc. *Je ne les recommande pas pour stocker des données*.

### *csv*
Le format *csv*, pour *comma separated values*, est un fichier texte, que vous pouvez ouvrir avec n'importe quel éditeur de texte brut (de type "bloc note"). Chaque colonne doit être délimitée par un caractère cohérent (généralement une virgule, mais souvent un point-virgule ou une tabulation) et chaque ligne du tableau est un retour de ligne. Il est possible d'ouvrir et d'éditer les fichiers csv dans un éditeur texte, mais il est plus pratique de les ouvrir avec des tableurs (LibreOffice Calc, Microsoft Excel, Google Sheets, etc.). 

### *json*
Comme le format *csv*, le format *json* indique un fichier en texte clair. Il est utilisé davantage pour le partage de données pour les applications web. En analyse et modélisation, ce format est surtout utilisé pour les données géoréférencées.

### SQLite
SQLite est une application pour les bases de données relationnelles de type SQL qui n'a pas besoin de serveur pour fonctionner. Les bases de donnnées SQLite sont encodés dans des fichiers portant l'extension *db*, qui peuvent être facilement partagés.

### Suggestion
En *csv* pour les petits tableaux, en *sqlite* pour les bases de données plus complexes. Ce cours se concentre toutefois sur les données de type *csv*.

## Manipuler des données avec `pandas`

La bibliothèque `pandas` est d'une aide préciseuse pour l'analyse de données en Python. Elle permet d'importer des données dans votre session de travail, de les explorer, de les transformer et de les exporter. Les tableaux de classe `pandas` peuvent être manipulés pour l'analyse et la modélisation grâce à d'autres bibliothèques, dont plusieurs sont couvertes dans ce manuel (`statsmodels`, `scikit-learn`, `scikit-bio`, etc.).

Le type d'objet central de `pandas` est le `DataFrame`, ou tableau. Des tableaux peuvent être importés depuis des fichiers csv (je déconseille l'utilisation de tableau)

In [15]:
import pandas as pd
df = pd.read_csv('http://vincentarelbundock.github.io/Rdatasets/csv/ggplot2/diamonds.csv')

In [2]:
df.head()

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [4]:
type(df)

pandas.core.frame.DataFrame

In [3]:
df.shape

(53940, 11)

In [5]:
type(df['clarity'])

pandas.core.series.Series

In [None]:
df.dtypes

In [8]:
#df.describe()
df.describe(include=['object'])

Unnamed: 0,cut,color,clarity
count,53940,53940,53940
unique,5,7,8
top,Ideal,G,SI1
freq,21551,11292,13065


### Pourquoi certaines commandes ont des parenthèses, et d'autres pas?

Les deux types de commandes découlent de l'instrance de l'objet, ici un DataFrame. Les commandes accompagnées de parenthèses appellent une action par une fonction. Celles qui n'en ont pas appelent un attribu, un élément descriptif.

Action: grenouille.saute()
Description: grenouille.couleur



### Comment enlever une colonne?

`inplace=True` pour que ça enlève la colonne de df au lieu de retourner un tableau sans la colonne, mais sans modifier df.

In [9]:
df.drop(['carat', 'cut','price'], axis=1, inplace=False).head()

Unnamed: 0.1,Unnamed: 0,color,clarity,depth,table,x,y,z
0,1,E,SI2,61.5,55.0,3.95,3.98,2.43
1,2,E,SI1,59.8,61.0,3.89,3.84,2.31
2,3,E,VS1,56.9,65.0,4.05,4.07,2.31
3,4,I,VS2,62.4,58.0,4.2,4.23,2.63
4,5,J,SI2,63.3,58.0,4.34,4.35,2.75


### Comment tirer les données?

In [10]:
#df['depth'].sort_values()
df['color'].sort_values(ascending=False)

14123    J
42108    J
18423    J
18421    J
4861     J
13097    J
42195    J
18400    J
18395    J
13110    J
18375    J
18372    J
18371    J
18369    J
18367    J
4803     J
4802     J
18354    J
13118    J
42137    J
18440    J
4597     J
18443    J
4954     J
4948     J
4939     J
4929     J
4927     J
4922     J
42011    J
        ..
7734     D
35677    D
35681    D
35682    D
35686    D
7821     D
7726     D
35687    D
35693    D
35694    D
35700    D
35702    D
35673    D
35664    D
35637    D
7748     D
35587    D
35585    D
7753     D
35527    D
7769     D
35459    D
7791     D
7793     D
7804     D
7809     D
7815     D
7816     D
7817     D
53939    D
Name: color, Length: 53940, dtype: object

In [11]:
df.sort_values('depth', ascending=False)

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
52860,52861,0.50,Fair,E,VS2,79.0,73.0,2579,5.21,5.18,4.09
52861,52862,0.50,Fair,E,VS2,79.0,73.0,2579,5.21,5.18,4.09
41918,41919,1.03,Fair,E,I1,78.2,54.0,1262,5.72,5.59,4.42
46679,46680,0.99,Fair,J,I1,73.6,60.0,1789,6.01,5.80,4.35
53540,53541,0.90,Fair,G,SI1,72.9,54.0,2691,5.74,5.67,4.16
51928,51929,0.96,Fair,G,SI2,72.2,56.0,2438,6.01,5.81,4.28
8672,8673,1.02,Fair,H,VS1,71.8,56.0,4455,6.04,5.97,4.31
4307,4308,0.99,Fair,H,VS2,71.6,57.0,3593,5.94,5.80,4.20
45688,45689,0.70,Fair,D,SI2,71.6,55.0,1696,5.47,5.28,3.85
8186,8187,1.50,Fair,I,I1,71.3,58.0,4368,6.85,6.81,4.87


# Comment filter un tableau?

Si entre les crochets on retrouve une pd.Series, pandas interprète la commande comme un filtre selon une série.

In [12]:
#df[df.depth > 60]
#df.loc[df.depth > 60, :] # plus explicite
#df[(df.depth > 60) | (df.cut == "Good")]
df[(df.depth > 60) & (df.cut.isin(['Ideal', 'Good']))]

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
10,11,0.30,Good,J,SI1,64.0,55.0,339,4.25,4.28,2.73
11,12,0.23,Ideal,J,VS1,62.8,56.0,340,3.93,3.90,2.46
13,14,0.31,Ideal,J,SI2,62.2,54.0,344,4.35,4.37,2.71
16,17,0.30,Ideal,I,SI2,62.0,54.0,348,4.31,4.34,2.68
17,18,0.30,Good,J,SI1,63.4,54.0,351,4.23,4.29,2.70
18,19,0.30,Good,J,SI1,63.8,56.0,351,4.23,4.26,2.71
20,21,0.30,Good,I,SI2,63.3,56.0,351,4.26,4.30,2.71
36,37,0.23,Good,E,VS1,64.1,59.0,402,3.83,3.85,2.46


# Comment utiliser le paramètre "axis"

axis = 0, rows
axis = 1, columns

In [None]:
drinks = pd.read_csv("http://bit.ly/drinksbycountry")
drinks.head()

In [None]:
drinks.drop(2, axis=0).head()

In [None]:
drinks.mean(axis=0) # axis: across the axis 0, across the rows, axis is the direction of the movement
# drinks.mean(axis='index') # idem

In [None]:
#drinks.mean(axis=1) # axis: across the axis 1, across the columns
drinks.mean(axis='columns')

In [None]:
(df.groupby("color")
    [["price", "depth"]]
    .mean())

In [None]:
import bokeh.charts as bc
import bokeh.plotting as bk

In [None]:
(df.assign(xy = df.x / df.y)
    .sample(n=500)
    .pipe(bc.Scatter, "xy", "price"))

In [None]:
df.x.sample(3)

In [None]:
%pylab inline
import seaborn as sns
sns.barplot(x='cut', y='price', data=df)

In [None]:
sns.jointplot(x='carat', y='price', data=df, size=8, alpha=.25,
              color='k', marker='.')

Références
Wickham, H. (2014) https://www.jstatsoft.org/index.php/jss/article/view/v059i10/v59i10.pdf