Skip to content

Commit

Permalink
Relecture antuki (#427)
Browse files Browse the repository at this point in the history
* relec 02a_pandas_tutorial

* relec 02b_pandas_TP

* quelques éléments de mon précédent commit passé à la trappe.

* Retire section doublon

* modifs de forme

* modifs de forme

* update

* see figure

---------

Co-authored-by: antuki <kim.demarty@laposte.net>
  • Loading branch information
linogaliana and antuki committed Oct 7, 2023
1 parent 721fe37 commit ac80862
Show file tree
Hide file tree
Showing 2 changed files with 108 additions and 121 deletions.
17 changes: 2 additions & 15 deletions content/manipulation/02a_pandas_tutorial.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -18,7 +18,7 @@ description: |
`Pandas` est l'élément central de l'écosystème `Python` pour la _data-science_.
Le succès récent de `Python` dans l'analyse de données tient beaucoup à `Pandas` qui a permis d'importer la
logique `SQL` dans le langage `Python`. `Pandas` embarque énormément de
fonctionalités qui permettent d'avoir des chaines de traitement efficaces pour
fonctionalités qui permettent d'avoir des chaînes de traitement efficaces pour
traiter des données de volumétrie moyenne (jusqu'à quelques Gigas). Au-delà
de cette volumétrie, il faudra se tourner vers d'autres solutions
(`DuckDB`, `Dask`, `Polars`, `Spark`...).
Expand Down Expand Up @@ -153,7 +153,7 @@ se trouve sur une unique cellule.
Concernant la syntaxe, une partie des commandes `Python` est inspirée par la logique `SQL`.
On retrouvera ainsi une philosophie proche de celle du SQL où on fait des opérations
de sélection de ligne ou de colonne. Voici une illustration de quelques manipulations de données
que nous mettrons en oeuvre par la suite:
que nous mettrons en oeuvre par la suite :

::: {layout-ncol=2}

Expand Down Expand Up @@ -723,19 +723,6 @@ des usages de manipulation des données
| Effectuer une opération par groupe | `GROUP BY` | `df.groupby('Commune').mean()` | `df %>% group_by(Commune) %>% summarise(m = mean)` | `df[,mean(Commune), by = Commune]` |
| Joindre deux bases de données (*inner join*) | `SELECT * FROM table1 INNER JOIN table2 ON table1.id = table2.x` | `table1.merge(table2, left_on = 'id', right_on = 'x')` | `table1 %>% inner_join(table2, by = c('id'='x'))` | `merge(table1, table2, by.x = 'id', by.y = 'x')` |

Quelques uns de ces concepts illustrés:

::: {layout-ncol=2}

![Sélectionner des colonnes](select_pandas.png)
![Renommer des colonnes](rename_pandas.png)

![Créer de nouvelles colonnes](mutate_pandas.png)
![Sélectionner des lignes](filter_pandas.png)

![Réordonner le _DataFrame_](arrange_pandas.png)

:::


### Opérations sur les colonnes: `select`, `mutate`, `drop`
Expand Down

0 comments on commit ac80862

Please sign in to comment.