# Donn√©es

> **Dicton**. Proportions de temps vou√© aux calcul scientifique: 80% de nettoyage de donn√©es mal organis√©es, 20% de calcul.

Une donn√©e est une valeur associ√©e √† une variable. Une variable peut √™tre une dimension, une date, une couleur, le r√©sultat d'un test statistique, √† laquelle on attribue la valeur quantitative ou qualitative d'un chiffre, d'une cha√Æne de caract√®re, d'un symbole conventionn√©, etc.

Ce chapitre traite de l'importation, l'utilisation et l'exportation de donn√©es structur√©es, en Python, sous forme de vecteurs, matrices, tableaux et ensemble de tableaux (bases de donn√©es).

Bien qu'il soit toujours pr√©f√©rable d'organiser les structures qui accueilleront les donn√©es d'une exp√©rience avant-m√™me de proc√©der √† la collecte de donn√©es, l'analyste doit s'attendre √† r√©organiser ses donn√©es en cours de route. Or, des donn√©es bien organis√©es au d√©part faciliteront aussi leur r√©organisation.

Ce chapitre d√©bute avec quelques d√©finitions¬†: les donn√©es et leurs types, les vecteurs, les matrices, les tableaux et les bases de donn√©es, ainsi que leur signification en Python. Puis, nous verrons comment organiser un tableau selon quelques r√®gles simples, mais importantes pour √©viter les erreurs et les op√©rations fastidieuses pour reconstruire un tableau mal con√ßu. Ensuite, nous traiterons des formats de tableau courant, pour enfin passer √† l'utilisation de pandas, une biblioth√®que Python utile pour effectuer des op√©rations sur les tableaux.

## Types de donn√©es

Dans la section pr√©c√©dente, nous avons survol√© diff√©rents types d'objets¬†: r√©els, entiers, cha√Ænes de caract√®res et bool√©ens. Les donn√©es peuvent appartenir √† d'autres types¬†: dates, cat√©gories ordinales (ordonn√©es¬†: faible, moyen, √©lev√©) et nominales (non-ordonn√©es : esp√®ces, cultivars, couleurs, etc.).


## Vecteurs

Dans la section d'introduction √† Python, nous avons vu comment Python permet d'organiser des collections d'objets. Bien qu'il soit important de conna√Ætre leur existence pour apprendre √† ma√Ætriser Python, les listes et les dictionnaires sont peu pratiques pour le calcul. Par exemple, Python ne permet pas d'effectuer les op√©rations entre les scalaires et les listes.

In [2]:
ma_liste = [1, 2, 3, 4]
ma_liste + 1

TypeError: can only concatenate list (not "int") to list

Pour les listes, il faudrait passer par des boucles... ce qui est loin d'√™tre pratique. On pr√©f√©rera g√©n√©ralement utiliser des vecteurs, qui, gr√¢ce √† la *vectorisation*, peuvent √™tre soumis √† des op√©rations avec des scalaires. Les vecteurs sont accessibles via le module Numpy. Par convention, les fonctions de Numpy sont import√©s avec l'alias `np`.

In [3]:
import numpy as np
mon_vecteur = np.array([1, 2, 3, 4])
mon_vecteur + 1

array([2, 3, 4, 5])

Contrairement √† une liste, un vecteur contient obligatoirement des valeurs m√™me type. √Ä d√©faut de d√©finir un m√™me type, Numpy transformera chaque valeur en cha√Æne de caract√®re.

In [4]:
[1, 2, 3, 'grenouille'] # liste

[1, 2, 3, 'grenouille']

In [5]:
np.array([1, 2, 3, 'grenouille']) # vecteur

array(['1', '2', '3', 'grenouille'], dtype='<U21')

## Matrices
La matrice est une g√©n√©ralisation du vecteur. Alors que le vecteur a une seule dimension, la matrice accepte un nombre le dimension N (naturel positif) n√©cessaire pour l'application.

In [6]:
np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [7]:
np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]],
         [[10, 11, 12], [13, 14, 15], [16, 17, 18]]])

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]]])

Une matrice 2D peut indiquer l'√©l√©vation d'un point dans l'espace x, y. En 3D, vous pouvez inclure non seulement l'√©l√©vation, mais aussi l'√©paisseur de sol et d'autres variables. Ajouter une √©volution dans le temps et vous obtenez une matrice 4D.

Vous ne pourrez toutefois pas ajouter une couche d'une variable cat√©gorielle dans une matrice num√©rique: comme les vecteurs, les matrices ne contiennent qu'un seul type de donn√©es.

Elles sont utilis√©es surtout en mod√©lisation. En analyse de donn√©es, on pr√©f√©rera les tableaux.

## Tableaux
De mani√®re g√©n√©rale, un tableau de donn√©es est une organisation de donn√©es en deux dimensions, comportant des *lignes* et des *colonnes*. Il est pr√©f√©rable de respecter la convention selon laquelle les lignes sont des observations et les colonnes sont des variables. Ainsi, un tableau est une collection de vecteurs de m√™me longueur, chaque vecteur repr√©sentant une variable. Chaque variable est libre de prendre le type de donn√©es appropri√©. La position d'une donn√©e dans le vecteur correspond √† une observation.

## Base de donn√©es
Imaginez que vous consignez des donn√©es de diff√©rents sites (A, B et C), et que chaque site poss√®de ses propres caract√©ristiques. Il est redondant de d√©crire le site pour chaque observation. Vous pr√©f√©rerez cr√©er deux tableaux: un pour d√©crire vos observations, et un autre pour d√©crire les sites. De cette mani√®re, vous cr√©ez une collection de tableaux intereli√©s: une *base de donn√©es*.

Dans Python, les donn√©es structur√©es en tableaux, ainsi que les op√©rations sur les tableaux, peuvent √™tre g√©r√©s gr√¢ce aux modules *Pandas* ou *Polars*. Mais avant de se lancer dans l'utilisation de ces outils, voyons quelques r√®gles √† suivre pour bien structurer ses donn√©es.

## Organiser un tableau de donn√©es

Afin de rep√©rer chaque cellule d'un tableau, on attribue √† chaque ligne et √† chaque colonne colonnes un identifiant *unique*, que l'on nomme *indice* pour les lignes et *ent√™te* pour les colonnes.

***R√®gle no 1.** Une variable par colonne, une observation par ligne.* 

Les unit√©s exp√©rimentales sont d√©crites par une ou plusieurs variables par des chiffres ou des lettres. Chaque variable devrait √™tre pr√©sente en une seule colonne, et chaque ligne devrait correspondre √† une unit√© exp√©rimentale o√π ces variables ont √©t√© mesur√©es. La r√®gle parait simple, mais elle est rarement respect√©e. Prenez par exemple le tableau suivant.

| Site | Traitement A | Traitement B | Traitement C |
| --- | --- | --- | --- |
| Sainte-Patente | 4.1 | 8.2 | 6.8 |
| Sainte-Affaire | 5.8 | 5.9 | NA |
| Saint-Gr√©ement | 2.9 | 3.4 | 4.6 |

*Tableau 1. Rendements obtenus sur les sites exp√©rimentaux selon les traitements.*

Qu'est-ce qui cloche avec ce tableau‚ÄØ? Chaque ligne est une observation, mais contient plusieurs observations d'une m√™me variable, le rendement, qui devient √©tal√© sur plusieurs colonnes. *√Ä bien y penser*, le type de traitement est une variable et le rendement en est une autre¬†:

| Site | Traitement | Rendement |
| --- | --- | --- |
| Sainte-Patente | A | 4.1 |
| Sainte-Patente | B | 8.2 |
| Sainte-Patente | C | 6.8 |
| Sainte-Affaire | A | 5.8 |
| Sainte-Affaire | B | 5.9 |
| Sainte-Affaire | C | NA |
| Saint-Gr√©ement | A | 2.9 |
| Saint-Gr√©ement | B | 3.4 |
| Saint-Gr√©ement | C | 4.6 |

*Tableau 2. Rendements obtenus sur les sites exp√©rimentaux selon les traitements.*

Plus pr√©cis√©ment, l'expression *√† bien y penser* sugg√®re une r√©flexion sur la signification des donn√©es. Certaines variables peuvent parfois √™tre int√©gr√©es dans une m√™me colonne, parfois pas. Par exemple, les concentrations en cuivre, zinc et plomb dans un sol contamin√© peuvent √™tre plac√©s dans la m√™me colonne "Concentration" ou d√©clin√©es en plusieurs colonnes Cu, Zn et Pb. La premi√®re version trouvera son utilit√© pour des cr√©er des graphiques (chapitre 5), alors que la deuxi√®me favorise le traitement statistique.

***R√®gle no 2.** Ne pas r√©p√©ter les informations.*

Rerpenons la m√™me exp√©rience. Supposons que vous mesurez la pr√©cipitation √† l'√©chelle du site.

| Site | Traitement | Rendement | Pr√©cipitations |
| --- | --- | --- | --- |
| Sainte-Patente | A | 4.1 | 813 |
| Sainte-Patente | B | 8.2 | 813 |
| Sainte-Patente | C | 6.8 | 813 |
| Sainte-Affaire | A | 5.8 | 642 |
| Sainte-Affaire | B | 5.9 | 642 |
| Sainte-Affaire | C | NA | 642 |
| Saint-Gr√©ement | A | 2.9 | 1028 |
| Saint-Gr√©ement | B | 3.4 | 1028 |
| Saint-Gr√©ement | C | 4.6 | 1028 |

*Tableau 3. Rendements obtenus sur les sites exp√©rimentaux selon les traitements.*

Segmenter l'information en deux tableaux serait pr√©f√©rable.

| Site | Pr√©cipitations |
| --- | --- |
| Sainte-Patente | 813 |
| Sainte-Affaire | 642 |
| Saint-Gr√©ement | 1028 |

*Tableau 4. Pr√©cipitations sur les sites exp√©rimentaux.*

Les tableaux 2 et 4, ensemble, forment une base de donn√©es (collection organis√©e de tableaux).

***R√®gle no 3.** Ne pas bousiller les donn√©es.*

Par exemple.

- *Ajouter des commentaires dans des cellules*. Si une cellule m√©rite d'√™tre comment√©e, il est pr√©f√©rable de placer les commentaires soit dans un fichier d√©crivant le tableau de donn√©es, soit dans une colonne de commentaire juxtapos√©e √† la colonne de la variable √† commenter. Par exemple, si vous n'avez pas mesur√© le pH pour une observation, n'√©crivez pas "√©chantillon contamin√©" dans la cellule, mais annoter dans un fichier d'explication que l'√©chantillon no X a √©t√© sont syst√©matiquessyst√©matique, il peut √™tre pratique de les inscrire dans une colonne `commentaire_pH`.
- *Inscriptions non syst√©matiques*. Il arrive souvent que des cat√©gories d'une variable ou que des valeurs manquantes soient annot√©es diff√©remment. Il arrive m√™me que le s√©parateur d√©cimal soit non syst√©matique, parfois not√© par un point, parfois par une virgule. Par exemple, une fois import√©s dans votre session, les cat√©gories `St-Ours` et `Saint-Ours` seront trait√©es comme deux cat√©gories distinctes. De m√™me, les cellules correspondant √† des valeurs manquantes ne devraient pas √™tre inscrites parfois avec une cellule vide, parfois avec un point, parfois avec un tiret ou avec la mention `NA`. Le plus simple est de laisser syst√©matiquement ces cellules vides.
- *Inclure des notes dans un tableau*. La r√®gle "une colonne, une variable" n'est pas respect√©e si on ajoute des notes un peu n'importe o√π sous ou √† c√¥t√© du tableau.
- *Ajouter des sommaires*. Si vous ajoutez une ligne sous un tableau comprenant la moyenne de chaque colonne, qu'est-ce qui arrivera lorsque vous importerez votre tableau dans votre session de travail‚ÄØ? La ligne sera consid√©r√©e comme une observation suppl√©mentaire.
- *Inclure une hi√©rarchie dans les ent√™tes*. Afin de consigner des donn√©es de texture du sol, comprenant la proportion de sable, de limon et d'argile, vous organisez votre ent√™te en plusieurs lignes. Une ligne pour la cat√©gorie de donn√©e, *Texture*, fusionn√©e sur trois colonnes, puis trois colonnes intitul√©es *Sable*, *Limon* et *Argile*. Votre tableau est joli, mais il ne pourra pas √™tre import√© conform√©ment dans un votre session de calcul¬†: on recherche *un ent√™te unique par colonne*. Votre tableau de donn√©es devrait plut√¥t porter les ent√™tes *Texture sable*, *Texture limon* et *Texture argile*. Un conseil¬†: r√©server le travail esth√©tique √† la toute fin d'un flux de travail.

## Formats de tableau

Plusieurs outils sont √† votre disposition pour cr√©er des tableaux. Je vous pr√©sente ici les plus communs.

### *.xls* ou *.xlsx*
Microsoft Excel est un logiciel de type *tableur*, ou chiffrier √©lectronique. L'ancien format *xls* a √©t√© remplac√© par le format *xlsx* avec l'arriv√©e de Microsoft Office 2010. Il s'agit d'un format propri√©taire, dont l'alternative libre la plus connue est le format *ods*, popularis√© par la suite bureautique LibreOffice. Les formats *xls*, *xlsx* ou *ods* sont davantage utilis√©s comme outils de calcul que d'entreposage de donn√©es. Ils contiennent des formules, des graphiques, du formatage de cellule, etc. **Je ne les recommande pas pour stocker des donn√©es**.

### *.csv* et *.json*
Le format *csv*, pour *comma separated values*, est un fichier texte, que vous pouvez ouvrir avec n'importe quel √©diteur de texte brut (Bloc note, [Visual studio code](https://code.visualstudio.com/), etc.). Chaque colonne doit √™tre d√©limit√©e par un caract√®re coh√©rent (conventionnellement une virgule, mais en fran√ßais un point-virgule ou une tabulation pour √©viter la confusion avec le s√©parateur d√©cimal) et chaque ligne du tableau est un retour de ligne. Il est possible d'ouvrir et d'√©diter les fichiers csv dans un √©diteur texte, mais il est parfois plus pratique de les ouvrir avec des tableurs (LibreOffice Calc, Microsoft Excel, Google Sheets, etc.).

Comme le format *csv*, le format *json* indique un fichier en texte clair. Il est utilis√© davantage pour le partage de donn√©es des applications web. En analyse et mod√©lisation, ce format est surtout utilis√© pour les donn√©es g√©or√©f√©renc√©es. L'encodage est g√©r√© de la m√™me mani√®re qu'un fichier *csv*.

**Encodage**. Puisque les formats *csv* et *json* sont des fichiers texte, un souci particulier doit √™tre port√© sur la mani√®re dont le texte est encod√©. Les caract√®res accentu√©s pourraient √™tre import√©s incorrectement si vous importez votre tableau en sp√©cifiant le mauvais encodage. Pour les fichiers en langues occidentales, l'encodage UTF-8 devrait √™tre utilis√©. Toutefois, par d√©faut, Excel utilise un encodage de Microsoft. Si le *csv* a √©t√© g√©n√©r√© par Excel, il est pr√©f√©rable de l'ouvrir avec votre √©diteur texte, de l'enregistrer dans l'encodage UTF-8, puis de s'assurer que le d√©limiteur d√©cimal est un point et que le d√©limiteur de colonne est une virgule.

### Autres formats
D'autres formats existent comme [Parquet](parquet.apache.org) pour le stockage de donn√©es massives, ou bien [Arrow](arrow.apache.org) pour le partage de donn√©es entre applications. L'extension .db est utilis√©e avec [SQLite](sqlite.org), un format de base de donn√©es utilis√© surtout pour entreposer des donn√©es g√©n√©riques, en format ligne. L'extension .db est aussi utilis√©e avec [DuckDB](duckdb.org), un format pour les bases de donn√©es stock√©es en format de colonnes.

### Entreposer ses donn√©es
La mani√®re la plus s√©cure pour entreposer ses donn√©es est de les confiner dans une base de donn√©es s√©curis√©e sur un serveur s√©curis√© dans un environnement s√©curis√©. C'est aussi la mani√®re la moins accessible. Des espaces de stockage nuagiques, comme Onedrive ou [autre](https://alternativeto.net/software/microsoft-onedrive/), peuvent √™tre pratiques pour les backups et le partage des donn√©es avec une √©quipe de travail (qui risque en retour de bousiller vos donn√©es). Le suivi de version est possible chez certains fournisseurs d'espace de stockage. Mais pour un suivi de version plus rigoureux, les espaces de d√©veloppement (comme GitHub) sont plus appropri√©s. Dans tous les cas, il est important de garder (1) des copies anciennes pour y revenir en cas d'erreurs et (2) un petit fichier d√©crivant les changements effectu√©s sur les donn√©es.

### Suggestion
En *csv* pour les petits tableaux, en *db* avec [DuckDB](https://duckdb.org/) pour les bases de donn√©es plus complexes, puis migrer vers [PostgreSQL](postgresql.org) ou [MariaDB](mariadb.org) si vous devez g√©rer des droits d'utilisation. Ce cours se concentre toutefois sur les donn√©es de type *csv*.

## Jouer avec les donn√©es avec *Polars*

Pour d√©marrer, j'ai cr√©√© un dossier `data`, et j'y ai d√©pos√© le jeu de donn√©es *Palmer penguins*, [arrang√© par Allison Horst](https://allisonhorst.github.io/palmerpenguins/) √† partir de recherches sur le dimorphisme sexuel chez les manchots ([Gorman et al., 2014](https://doi.org/10.1371/journal.pone.0090081)).

<center>
    <img src="https://github.com/allisonhorst/palmerpenguins/raw/main/man/figures/lter_penguins.png" width=50%>
    <img src="https://github.com/allisonhorst/palmerpenguins/raw/main/man/figures/culmen_depth.png" width=50%>
    <p><a href="https://github.com/allisonhorst/palmerpenguins">Images par Allison Horst</a></p>
</center>

Le module *Polars* est d'une aide pr√©cieuse pour l'analyse de donn√©es en Python. Il permet d'importer des donn√©es dans votre session de travail, de les explorer, de les transformer et de les exporter. Les tableaux de classe `polars` peuvent faire le pont vers d'autres modules que nous utiliserons plus loin.

*Polars* n'est pas install√© par d√©faut dans mon environnement Python. Installons-le avec le gestionnaire de modules *pip*. Le point d'exclamation dit que c'est une commande destin√©e au terminal, pas √† Python. √âcrire la version √† installer n'est pas obligatoire¬†: je le fais pour m'assurer que les codes qui suivent fonctionneront m√™me si *Polars* est modifi√© √† la suite d'une mis √† jour.

In [None]:
!pip install polars==0.19

Puis, importez le module *Polars* avec son alias conventionnellement adopt√© et importez vos donn√©es dans une session Python. Dans le *csv*, les valeurs manquantes sont inscrites comme `NA`.

In [9]:
import polars as pl
penguins = pl.read_csv("data/penguins.csv", null_values='NA')
penguins

rowid,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
i64,str,str,f64,f64,i64,i64,str,i64
1,"""Adelie""","""Torgersen""",39.1,18.7,181,3750,"""male""",2007
2,"""Adelie""","""Torgersen""",39.5,17.4,186,3800,"""female""",2007
3,"""Adelie""","""Torgersen""",40.3,18.0,195,3250,"""female""",2007
4,"""Adelie""","""Torgersen""",,,,,,2007
5,"""Adelie""","""Torgersen""",36.7,19.3,193,3450,"""female""",2007
6,"""Adelie""","""Torgersen""",39.3,20.6,190,3650,"""male""",2007
7,"""Adelie""","""Torgersen""",38.9,17.8,181,3625,"""female""",2007
8,"""Adelie""","""Torgersen""",39.2,19.6,195,4675,"""male""",2007
9,"""Adelie""","""Torgersen""",34.1,18.1,193,3475,,2007
10,"""Adelie""","""Torgersen""",42.0,20.2,190,4250,,2007


Conform√©ment aux r√®gles de construction d'un tableau, *Polars* demande √† ce que chaque colonne poss√®de un ent√™te unique, et qu'une colonne ne contienne qu'un type de donn√©es.

### S√©lectionner et filtrer des donn√©es

On utilise le terme *s√©lectionner* lorsque l'on d√©sire choisir une ou plusieurs lignes et colonnes d'un tableau (la plupart du temps des colonnes). L'action de *filtrer* signifie de s√©lectionner des axes (la plupart du temps des lignes) selon certains crit√®res.

#### S√©lectionner

Il y a plusieurs mani√®res de s√©lectionner une colonne. La plus rapide consiste √† fournir une liste entre crochets directement apr√®s avoir appel√© le tableau, i.e. `penguins[["bill_depth_mm", "bill_length_mm"]]`. La plus longue, et aussi celle que je trouve la plus claire, consiste √† appeler les m√©thodes dans une cha√Æne. S'il ne s'agit que de s√©lectionner, √ßa peut para√Ætre long pour rien, mais en encha√Ænant plusieurs op√©rations, le code devient ainsi plus clair.

In [10]:
(
    penguins
    .select(['bill_depth_mm', 'bill_length_mm'])
)

bill_depth_mm,bill_length_mm
f64,f64
18.7,39.1
17.4,39.5
18.0,40.3
,
19.3,36.7
20.6,39.3
17.8,38.9
19.6,39.2
18.1,34.1
20.2,42.0


Puisque, par d√©faut, Python termine une commande √† la fin d'une ligne, les parenth√®ses autour de la cha√Æne de commande sont n√©cessaires.

On peut travailler en exclusion avec la m√©thode `drop`.

In [11]:
(
    penguins
    .drop(['bill_depth_mm', 'bill_length_mm'])
)

rowid,species,island,flipper_length_mm,body_mass_g,sex,year
i64,str,str,i64,i64,str,i64
1,"""Adelie""","""Torgersen""",181,3750,"""male""",2007
2,"""Adelie""","""Torgersen""",186,3800,"""female""",2007
3,"""Adelie""","""Torgersen""",195,3250,"""female""",2007
4,"""Adelie""","""Torgersen""",,,,2007
5,"""Adelie""","""Torgersen""",193,3450,"""female""",2007
6,"""Adelie""","""Torgersen""",190,3650,"""male""",2007
7,"""Adelie""","""Torgersen""",181,3625,"""female""",2007
8,"""Adelie""","""Torgersen""",195,4675,"""male""",2007
9,"""Adelie""","""Torgersen""",193,3475,,2007
10,"""Adelie""","""Torgersen""",190,4250,,2007


ü§î Que feriez-vous si vous d√©siriez enregistrer votre nouveau tableau?

#### Filtrer

Pour filtrer, il vous faudmoins une colonne. Dans *Polars*, une colonne est appel√©e avec `pl.col('nom_de_la_colonne')`. √Ä partir de √ßa, vous appliquez les filtres que vous voulez, `&` pour les ET et des `|`pour les OU, et chaque condition doit √™tre entre parenth√®se pour que Python 

In [12]:
(
    penguins
    .filter(
        (pl.col('species') == 'Adelie') &
        (pl.col('flipper_length_mm') > 190) |
        (pl.col('body_mass_g') < 3600)
    )
)

rowid,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
i64,str,str,f64,f64,i64,i64,str,i64
3,"""Adelie""","""Torgersen""",40.3,18.0,195,3250,"""female""",2007
5,"""Adelie""","""Torgersen""",36.7,19.3,193,3450,"""female""",2007
8,"""Adelie""","""Torgersen""",39.2,19.6,195,4675,"""male""",2007
9,"""Adelie""","""Torgersen""",34.1,18.1,193,3475,,2007
11,"""Adelie""","""Torgersen""",37.8,17.1,186,3300,,2007
13,"""Adelie""","""Torgersen""",41.1,17.6,182,3200,"""female""",2007
14,"""Adelie""","""Torgersen""",38.6,21.2,191,3800,"""male""",2007
15,"""Adelie""","""Torgersen""",34.6,21.1,198,4400,"""male""",2007
17,"""Adelie""","""Torgersen""",38.7,19.0,195,3450,"""female""",2007
18,"""Adelie""","""Torgersen""",42.5,20.7,197,4500,"""male""",2007


Les op√©rations de s√©lection et de filtre peuvent bien s√ªr √™tre combin√©es!

In [13]:
(
    penguins
    .filter((pl.col('species') == 'Adelie') & (pl.col('island') == 'Dream'))
    .select(['flipper_length_mm', 'body_mass_g'])
)

flipper_length_mm,body_mass_g
i64,i64
178,3250
178,3900
188,3300
184,3900
195,3325
196,4150
190,3950
180,3550
181,3300
184,4650


### Effectuer un sommaire avec `groupby`

La m√©thode `groupby` permet d'effectuer des calculs par groupe et sous-groupes.

In [14]:
(
    penguins
    .filter(pl.col('island') == 'Dream')
    .groupby(['species', 'sex'])
    .mean()
)

  .groupby(['species', 'sex'])


species,sex,rowid,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
str,str,f64,str,f64,f64,f64,f64,f64
"""Adelie""","""female""",93.074074,,36.911111,17.618519,187.851852,3344.444444,2008.037037
"""Adelie""","""male""",92.107143,,40.071429,18.839286,191.928571,4045.535714,2008.0
"""Adelie""",,48.0,,37.5,18.9,179.0,2975.0,2007.0
"""Chinstrap""","""female""",310.294118,,46.573529,17.588235,191.735294,3527.205882,2007.970588
"""Chinstrap""","""male""",310.705882,,51.094118,19.252941,199.911765,3938.970588,2007.970588


### Effectuer des calculs avec `with_columns`

`with_columns` est super pratique pour effectuer des op√©rations sur des colonnes. On utilise `pl.col()` comme auparavant pour faire r√©f√©rence √† une colonne. Pour cr√©er une au lieu de remplacer l'ancienne, on n'a qu'√† lui donner un nouveau nom avec la m√©thode `alias('nom_de_la_nouvelle_colonne')`.


In [15]:
(
    penguins
    .with_columns((pl.col('flipper_length_mm') / 25.4).alias('flipper_length_inches'))
)

rowid,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year,flipper_length_inches
i64,str,str,f64,f64,i64,i64,str,i64,f64
1,"""Adelie""","""Torgersen""",39.1,18.7,181,3750,"""male""",2007,7.125984
2,"""Adelie""","""Torgersen""",39.5,17.4,186,3800,"""female""",2007,7.322835
3,"""Adelie""","""Torgersen""",40.3,18.0,195,3250,"""female""",2007,7.677165
4,"""Adelie""","""Torgersen""",,,,,,2007,
5,"""Adelie""","""Torgersen""",36.7,19.3,193,3450,"""female""",2007,7.598425
6,"""Adelie""","""Torgersen""",39.3,20.6,190,3650,"""male""",2007,7.480315
7,"""Adelie""","""Torgersen""",38.9,17.8,181,3625,"""female""",2007,7.125984
8,"""Adelie""","""Torgersen""",39.2,19.6,195,4675,"""male""",2007,7.677165
9,"""Adelie""","""Torgersen""",34.1,18.1,193,3475,,2007,7.598425
10,"""Adelie""","""Torgersen""",42.0,20.2,190,4250,,2007,7.480315


### Tableau large - tableau long

Le tableau de la chicout√© est formatt√© correctement selon les r√®gles √©tablies pr√©c√©demment. Ce n'est pas toujours le cas. Reprenons l'exemple des traitements appliqu√©s sur diff√©rents site, √©voqu√© pr√©cement dans ce carnet.

In [16]:
experience = pl.DataFrame({
    'Site': ['Sainte-Patente', 'Sainte-Affaire', 'Saint-Gr√©ement'],
    'Traitement A': [4.1, 5.8, 2.9], 'Traitement B': [8.2, 5.9, 3.4],
    'Traitement C': [6.8, np.NaN, 4.6]
})
experience

Site,Traitement A,Traitement B,Traitement C
str,f64,f64,f64
"""Sainte-Patente‚Ä¶",4.1,8.2,6.8
"""Sainte-Affaire‚Ä¶",5.8,5.9,
"""Saint-Gr√©ement‚Ä¶",2.9,3.4,4.6


Pour transformer ce tableau en mode *tidy* (organis√©), utilisons la m√©thode `.melt()`. Cette m√©thode prend, comme argument `id_var`, les colonnes qui ne doivent *pas* √™tre fusionn√©es. Dans ce cas-ci, les sites.

In [17]:
experience_tidy = experience.melt(id_vars='Site')
experience_tidy

Site,variable,value
str,str,f64
"""Sainte-Patente‚Ä¶","""Traitement A""",4.1
"""Sainte-Affaire‚Ä¶","""Traitement A""",5.8
"""Saint-Gr√©ement‚Ä¶","""Traitement A""",2.9
"""Sainte-Patente‚Ä¶","""Traitement B""",8.2
"""Sainte-Affaire‚Ä¶","""Traitement B""",5.9
"""Saint-Gr√©ement‚Ä¶","""Traitement B""",3.4
"""Sainte-Patente‚Ä¶","""Traitement C""",6.8
"""Sainte-Affaire‚Ä¶","""Traitement C""",
"""Saint-Gr√©ement‚Ä¶","""Traitement C""",4.6


La m√©thode `.rename()` permet de renommer les indices et les colonnes. Dans notre cas, nous allons renommer les colonnes `variable` et `value`.


In [18]:
experience_tidy = experience_tidy.rename({'variable': 'Traitement', 'value':'Rendement'})
experience_tidy

Site,Traitement,Rendement
str,str,f64
"""Sainte-Patente‚Ä¶","""Traitement A""",4.1
"""Sainte-Affaire‚Ä¶","""Traitement A""",5.8
"""Saint-Gr√©ement‚Ä¶","""Traitement A""",2.9
"""Sainte-Patente‚Ä¶","""Traitement B""",8.2
"""Sainte-Affaire‚Ä¶","""Traitement B""",5.9
"""Saint-Gr√©ement‚Ä¶","""Traitement B""",3.4
"""Sainte-Patente‚Ä¶","""Traitement C""",6.8
"""Sainte-Affaire‚Ä¶","""Traitement C""",
"""Saint-Gr√©ement‚Ä¶","""Traitement C""",4.6


L'op√©ration inverse avec la m√©thode `.pivot()`.

In [19]:
experience_tidy.pivot(index='Site', columns='Traitement', values='Rendement')

Site,Traitement A,Traitement B,Traitement C
str,f64,f64,f64
"""Sainte-Patente‚Ä¶",4.1,8.2,6.8
"""Sainte-Affaire‚Ä¶",5.8,5.9,
"""Saint-Gr√©ement‚Ä¶",2.9,3.4,4.6


### Combiner des tableaux

Nous avons introduit plus haut la notion de base de donn√©es. Nous voudrions peut-√™tre utiliser le nom de l'esp√®ce de manchot pour lui attribuer certaines caract√©ristiques.

In [20]:
penguins_meta = pl.read_csv('data/penguins_meta.csv')
penguins_meta

species,binomial nomenclature,status
str,str,str
"""Adelie""","""Pygoscelis ade‚Ä¶","""least concern"""
"""Chinstrap""","""Pygoscelis ant‚Ä¶","""least concern"""
"""Gentoo""","""Pygoscelis pap‚Ä¶","""least concern"""


Notre information est organis√©e en deux tableaux, li√©s par la colonne `species`. Comment fusionner l'information pour que l'info soit √™tre utilis√©e dans son ensemble‚ÄØ? Par des op√©rations de jointure. La plus commune est la jointure √† gauche, o√π le tableau de droit vient se coller au tableau de gauche.

In [21]:
(
    penguins # tableau de gauche
    .join(penguins_meta, on='species', how='left')
)

rowid,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year,binomial nomenclature,status
i64,str,str,f64,f64,i64,i64,str,i64,str,str
1,"""Adelie""","""Torgersen""",39.1,18.7,181,3750,"""male""",2007,"""Pygoscelis ade‚Ä¶","""least concern"""
2,"""Adelie""","""Torgersen""",39.5,17.4,186,3800,"""female""",2007,"""Pygoscelis ade‚Ä¶","""least concern"""
3,"""Adelie""","""Torgersen""",40.3,18.0,195,3250,"""female""",2007,"""Pygoscelis ade‚Ä¶","""least concern"""
4,"""Adelie""","""Torgersen""",,,,,,2007,"""Pygoscelis ade‚Ä¶","""least concern"""
5,"""Adelie""","""Torgersen""",36.7,19.3,193,3450,"""female""",2007,"""Pygoscelis ade‚Ä¶","""least concern"""
6,"""Adelie""","""Torgersen""",39.3,20.6,190,3650,"""male""",2007,"""Pygoscelis ade‚Ä¶","""least concern"""
7,"""Adelie""","""Torgersen""",38.9,17.8,181,3625,"""female""",2007,"""Pygoscelis ade‚Ä¶","""least concern"""
8,"""Adelie""","""Torgersen""",39.2,19.6,195,4675,"""male""",2007,"""Pygoscelis ade‚Ä¶","""least concern"""
9,"""Adelie""","""Torgersen""",34.1,18.1,193,3475,,2007,"""Pygoscelis ade‚Ä¶","""least concern"""
10,"""Adelie""","""Torgersen""",42.0,20.2,190,4250,,2007,"""Pygoscelis ade‚Ä¶","""least concern"""


Ainsi, les informations sont combin√©es. Plusieurs [types de jointure](https://en.wikipedia.org/wiki/Join_(SQL)) peuvent √™tre effectu√©es.

Par ailleurs, je n'ai pr√©sent√© que les op√©rations les plus importantes. Pour aller plus loin, le [guide d'utilisation de *Polars*](https://pola-rs.github.io/polars-book/user-guide/index.html#) est bourr√© d'exemples!