From 05593982482f74a482daa0477f4561340348a89f Mon Sep 17 00:00:00 2001 From: linogaliana Date: Sat, 5 Sep 2020 14:22:55 +0000 Subject: [PATCH] modifs marginales --- content/01_data/02_pandas.Rmd | 19 +++++++++++-------- 1 file changed, 11 insertions(+), 8 deletions(-) diff --git a/content/01_data/02_pandas.Rmd b/content/01_data/02_pandas.Rmd index d889ef0c7..8edcb0c02 100644 --- a/content/01_data/02_pandas.Rmd +++ b/content/01_data/02_pandas.Rmd @@ -328,19 +328,22 @@ df.shape df.size ``` -Pour déterminer le nombre de valeurs uniques d'une variable, la -méthode `nunique` est pratique. Par exemple, +Pour déterminer le nombre de valeurs uniques d'une variable, plutôt que chercher à écrire soi-même une fonction, +on utilise la +méthode `nunique`. Par exemple, ```{python} df['Commune'].nunique() ``` -| Opération | SQL | pandas | dplyr (`R`) | data.table (`R`) | -|-------------------------------|----------------|--------------|----------------|----------------------------| -| Récupérer le nom des colonnes | | `df.columns` | `colnames(df)` | `colnames(df)` | -| Récupérer les indices[^3] | | `df.index` | |`unique(df[,get(key(df))])` | -| Récupérer les dimensions | | `df.shape` | `c(nrow(df), ncol(df))` | `c(nrow(df), ncol(df))` | -| Récupérer le nombre de valeurs uniques d'une variable | | `df['myvar'].nunique()` | `df %>% summarise(distinct(myvar))` | `df[,uniqueN(myvar)]` | +Voici un premier résumé des méthodes `pandas` utiles, et un comparatif avec `R` + +| Opération | pandas | dplyr (`R`) | data.table (`R`) | +|-------------------------------|--------------|----------------|----------------------------| +| Récupérer le nom des colonnes | `df.columns` | `colnames(df)` | `colnames(df)` | +| Récupérer les indices[^3] | | `df.index` | |`unique(df[,get(key(df))])` | +| Récupérer les dimensions | `df.shape` | `c(nrow(df), ncol(df))` | `c(nrow(df), ncol(df))` | +| Récupérer le nombre de valeurs uniques d'une variable | `df['myvar'].nunique()` | `df %>% summarise(distinct(myvar))` | `df[,uniqueN(myvar)]` | ^[3]: Le principe d'indice n'existe pas dans `dplyr`. Les indices, au sens de `pandas`, sont appelés *clés* en `data.table`.