# Pandas

## Pandas, pour quel genre de données ?

In [None]:
import pandas as pd

Pour charger le package pandas et commencer à travailler, on l'importe.

La convention dans la communauté Python est de l'importer en tant que `pd`, donc toute la documentation présume que c'est ce que vous avez fait.

### Représentation d'une table de données pandas

![](img/01_table_dataframe.svg)

Je veux stocker les données à propos des passagers du Titanic. Pour un certain nombre de passagers, je connais leurs noms (du texte), leur âge (des entiers), et leur sexe (M/F).

In [None]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)


df

Pour créer un tableau de données à la main, on crée une instance de `DataFrame`. Si on lui passe un dictionnaire python contenant des listes, les clés du dictionnaire seront les noms des colonnes, et les valeurs du dictionnaire (des listes) seront le contenu des colonnes.

Une `DataFrame` est une structure de données 2D qui peut stocker différents types de données (texte, entiers, réels, catégoriques, dates…) dans des colonnes. C'est similaire à un fichier tableur, une table SQL dans une base de données, ou l'objet `data.frame` du langage R.


Dans notre table,
- Il y a 3 colonnes, chacune avec son nom. Les noms sont respectivement `Name`, `Age` and `Sex`.
- La colonne `Name` contient des données texte, chaque valeur est un string. La colonne `Age` contient des nombres, et la colonne `Sex` contient aussi du texte

Dans un logiciel tableur, nos données aurait une représentation très similaire :milar:

![](img/01_table_spreadsheet.png)

### Chaque colonne est une instance de  `Series`

![](img/01_table_series.svg)

Je m'intéresse uniquement aux données dans la colonne `Age`

In [None]:
df["Age"]

Quand on sélectionne une seule colonne dans une `DataFrame`, le résultat est une `pandas.Series`. Pour sélectionner une colonne
on utilise le nom de la colonne entre crochets `[]`.



<div class='alert alert-info'>
Si vous êtes familiers des dictionnaires Python, la sélection d’une colonne unique est très similaire à la sélection d'une valeur dans un dictionnaire via sa clé.
</div>

On peut créer une Series ex-nihilo :

In [None]:
ages = pd.Series([22, 35, 58], name="Age")
ages

Une `pandas.Series` n'a pas de libellé de colonne, c'est juset une colonne d'une DataFrame. Mais elle a bien des libellés de ligne (par défaut 0, 1, 2 …)

### Agir sur une `pandas.Series`
Je veux connaître l’âge le plus élevé parmi les passagers.

On peut le trouver en sélectionnant la colonne `"Age"` dans notre `DataFrame` et en appliquant la méthode `.max()`.

In [None]:
df["Age"].max()

Idem sur une simple `Series` :

In [None]:
ages.max()

Comme illustré par la méthode `.max()`, on peut faire des choses avec une `DataFrame` ou une `Series`. Pandas nous offre plein de fonctionnalités, sous la forme de méthodes à utiliser sur une `DataFrame` ou `Series`. Comme les méthodes sont des fonctions, pensez bien à ajouter les parenthèses après leur nom `()`.

### Je veux voir des statistiques de base sur mes données numériques 

In [None]:
df.describe()

La méthode `describe()` nous donne un aperçu rapide des données numériques dans notre `DataFrame`. Comme les colonnes `Age` et `Sex` sont des données textuelles, elles sont ignorées par la méthode `describe()`.

De nombreuses opérations renvoient une nouvelle `DataFrame` ou `Series`. La méthode `describe()` est un exemple d’opération qui renvoie une `DataFrame`.

<div class='alert alert-info'>

Ce n'est que le début. Comme dans un tableur, **pandas** représente les données sous la forme d'un tableau avec des colonnes et des lignes. En plus de la représentation, les manipulations de données et les calculs que vous pouvez faire dans un tableur sont également faisables avec **pandas**, et nous allons voir ça dans ce guide.
    
</div>

<div class='alert alert-success'>

    
**À retenir:**

- On importe la bibliothèque pandas avec `import pandas as pd`
- Un tableau de données est stocké dans un objet `pandas.DataFrame`
- Chaque colonne dans une `DataFrame` est une `Series`
- Vous pouvez réaliser des opérations en appliquant des méthodes à une`DataFrame` ou une`Series`

</div>

## Comment lire et écrire des données tabulaires

![](img/02_io_readwrite.svg)

Je veux analyser les données des passagers du Titanic, disponibles sous la forme d'un fichier `csv`.

In [None]:
# création d'un sous-dossier data
!mkdir data
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv > data/titanic.csv

In [None]:
# chargement du CSV dans une DataFrame
titanic = pd.read_csv("data/titanic.csv")

Pandas a une fonction `read_csv(path)` qui va lire les données dans un fichier csv et vous renvoie une `DataFrame`. Pandas peut lire la plupart des formats de fichier de données  (csv, excel, sql, json, parquet, …) nativement, chacun de ces formats a sa fonction `read_*`.

Prenez le réflexe après avoir chargé un jeu de données de jeter un œil à la `DataFrame`. 

Appeler la `DataFrame` dans un notebook affiche les 5 premières et les 5 dernières lignes.

In [None]:
titanic

Je veux voir les 8 premières lignes de la DataFrame :

In [None]:
titanic.head(8)

La méthode `DataFrame.head(n)` permet de regarder les premières lignes (par défaut les 5 premières).

De même, la méthode `.tail(n)` affiche les `n` dernières lignes, et `.sample(n)` tire `n` lignes au hasard.

Pour vérifier comment pandas a interprété les données de chaque colonne, inspectez l'attribut `dtypes`.

In [None]:
titanic.dtypes

Pour chaque colonne, le type de données utilisé est affiché.

Ici on a : 
- des entiers (int64), 
- des réels (float64),
- des strings (object).

<div class='alert alert-info'>

Quand on demande `.dtypes`, il n’y a pas de parenthèses ! `dtypes` est un attribut des DataFrame et Series. Ce sont des variables internes, et non pas des fonctions, donc pas de parenthèses à ajouter à la fin. Les attributs sont des données internes, les méthodes (qui nécessitent des parenthèses) sont des fonctions, ou actions internes.

</div>

Mon collègue me demande les données du Titanic, sous la forme d'un fichier tableur. Dans le doute, on va lui faire en Excel et en LibreOffice.

On a juste deux petits packages à installer, `openpyxl` et `odfpy`.

In [None]:
# pour les utilisateurs d'anaconda
!conda install -c anaconda openpyxl odfpy

In [None]:
# pour ceux qui utilisent pip directement
!pip install openpyxl odfpy

In [None]:
# création d'un sous-dossier export
!mkdir export

# export avec la méthode .to_excel()
titanic.to_excel(
    "export/titanic.xlsx", sheet_name="passengers", index=False
)  # export vers excel

titanic.to_excel(
    "export/titanic.ods", sheet_name="passengers", index=False, engine="odf"
)  # export vers un fichier LibreOffice

Les fonctions `read_*` sont utilisées pour charger des données venant de fichiers vers une DataFrame, les fonctions `to_*` font l'opposé.

Dans l'exemple ci-dessus, le nom de la feuille est spécifié (sinon ce serait bêtement "Sheet1". L'option `index=False` fait en sorte que le libellé de chaque ligne ne soit pas exporté.


In [None]:
titanic = pd.read_excel(
    "export/titanic.xlsx", sheet_name="passengers"
)  # on recharge les données depuis le fichier excel

In [None]:
titanic.head() # est-ce que tout est bien là ?

### ❓ Je veux un résumé technique de ma `DataFrame`

In [None]:
titanic.info()

La méthode `.info()` me donne un résumé technique de ma DataFrame, regardons ça plus en détail.

- C'est bien une DataFrame.
- Il y a 891 entrées, soit 891 lignes. Chaque ligne a un libellé (appelé l'index), avec des valeurs entre 0 et 890.
- La table a 12 colonnes. 
- La plupart des colonnes ont une valeur dans chaque ligne (quand il y a 891 valeurs non-nulles). 
- Mais certaines colonnes ont moins de 891 valeurs non-nulles, donc il y a des valeurs manquantes par endroits. 
- Les colonnes `Name`, `Sex`, `Cabin` et `Embarked` sont des données textuelles (strings, ici désigné en tant que "object"). 
- Les autres colonnes sont numériques, certaines sont des entiers, d'autres des réels (float).
- Une estimation de l’emprunte mémoire de la DataFrame est indiquée

<div class='alert alert-success'>

**À retenir**
    
- Obtenir des données depuis différents types de fichiers est fait avec les fonctions qui commencent par `read_`.
- Exporter les données depuis pandas vers un fichier est fait par les différentes méthodes de DataFrame qui commencent par `to_`.
- Les méthodes `head`, `tail`, `info` et l'attribut `dtypes` sont utiles pour faire une première vérification sur les données .

</div>

## Sélectionner un sous-ensemble d'une `DataFrame`

In [None]:
# création de la dataframe en repartant du CSV titanic
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

### ❓ Comment sélectionner certaines colonnes 

![](img/03_subset_columns.svg)

Je veux uniquement l'âge des passagers

In [None]:
ages = titanic["Age"]

In [None]:
ages.head()

Pour sélectionner une seul colonne, on utilise des crochets `[]` avec le nom de la colonne.

Chaque colonne est un objet `Series`. Quand on sélectionne une seule colonne, l'objet renvoyé est une `Series`. On peut s'en assurer avec la 
foction `type()`.

In [None]:
type(titanic["Age"])

Ou regarder la forme de cet objet :

In [None]:
titanic["Age"].shape

`.shape` est un attribut (souvenez-vous, ce n'est pas une méthode, pas de parenthèses) sur une DataFrame ou une Series, qui contient le nombre de lignes et de colonnes. (nlignes, ncolonnes). 

Une Series est un tableau à 1 dimension, donc le tuple ne contient que le nombre de lignes.

---
Je veux m'intéresser à l'âge et au sexe des passagers du Titanic.

In [None]:
age_sex = titanic[["Age", "Sex"]]

In [None]:
age_sex.head()

Pour sélectionner plusieurs colonnes, je passe une liste de noms de colonnes à l'intérieur des crochets de sélection `[]`.



<div class='alert alert-info'>

La paire de crochets interne définit une liste Python contenant des noms de colonnes, la paire de crochets externe est utilisée pour sélectionner des données dans une DataFrame comme vu précédemment.


</div>

L'objet renvoyé est une nouvelle DataFrame :

In [None]:
type(titanic[["Age", "Sex"]])

In [None]:
titanic[["Age", "Sex"]].shape

Cette sélection a renvoyé une DataFrame a renvoyé une DataFrame avec 891 lignes et 2 colonnes

Souvenez-vous, une DataFrame est un objet à 2 dimensions, les lignes et les colonnes.

### ❓ Comment sélectionner certaines lignes dans la `DataFrame` 

Je m'intéresse maintenant aux passagers de plus de 35 ans.

In [None]:
above_35 = titanic[titanic["Age"] > 35]

In [None]:
above_35.head()

Pour sélectionner des lignes en fonction d'une expression conditionnelle, on exprime la condition dans les crochets `[]` de sélection.

La condition dans les crochets `titanic['Age'] > 35` vérifie pour quelle ligne cette condition est vraie.

In [None]:
titanic["Age"] > 35

Le retour d'une expression conditionnelle (`>`, mais aussi `==`, `<`` , `!=`, '>=` auraient fonctionné) est une `Series` de valeurs booléennes (des True ou False) avec le même nombre de ligne que la DataFrame d'origine. 

Une telle Series de valeurs booléennes peut être utilisée pour filtrer une DataFrame en la mettant dans les crochets de sélection `[]`. Seules les lignes pour lesquelles la valeur booléenne est `True` sont sélectionnées.

Nous savons que la DataFrame complète titanic contient 891 lignes. Regardons combien de lignes satisfont la condition `Age > 35` en regardant la forme de notre DatFrame filtrée `above_35` :

In [None]:
above_35.shape

---
Je m'intéresse aux passagers de seconde et 3ème classe.

In [None]:
class_23 = titanic[titanic["Pclass"].isin([2, 3])]
class_23.head()

Tout comme une expression conditionnelle, méthode `.isin()` renvoie `True` pour chaque ligne dont la valeur est dans liste passée en argument.
À nouveau, pour réduire une DataFrame aux lignes qui satisfont cette condition, on utilise cette méthode conditionnelle dans les crochets `[]` de sélection. 
Dans ce cas, la condition est d'avoir soit 2 soit 3 dans la colonne `Pclass`.

Ça revient, en étant plus concis, à tester l'appartenance à la classe 2, ou à la classe 3 avec l'opérateur ou logique : `|`.

In [None]:
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

class_23.head()

<div class='alert alert-warning'>


Quand on combine plusieurs expressions conditionnelles, chaque condition doit être mise entre parenthèses. De plus, vous ne pouvez pas utiliser directement les mots-clés `or`, `and` mais devez faire appel aux opérateurs `|` et `&`.


</div>

---
Je veux travailler uniquement sur les passagers dont l'âge est connu.

In [None]:
age_no_na = titanic[titanic["Age"].notna()]
age_no_na.head()

La méthode conditionnelle `notna()` renvoie `True` pour chaque ligne où la valeur est non nulle. On peut donc la combiner aux crochets de sélection pour filtrer notre DataFrame.

On peut se demander ce qui a vraiment changé, vu que les 5 premières lignes sont les mêmes qu’avant. Un bon moyen de vérifier ce qui a changé est de vérifier l’attribut `shape` :

In [None]:
age_no_na.shape

### ❓ Comment sélectionner des lignes et colonnes spécifiques

![](img/03_subset_columns_rows.svg)

Je m’intéresse aux noms des passagers de plus de 35 ans.

In [None]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

In [None]:
adult_names.head()

Dans ce cas, un sous-ensemble de lignes et colonnes est sélectionné d'un coup, et utiliser simplement les crochets de sélection `[]` n’est pas suffisant.

Les opérateurs `loc` et `.iloc` sont nécessaires juste avant les crochets de sélection. 

Quand on les utilise, la partie avant la virgule désigne la sélection de lignes, la partie après la virgule la sélection de colonnes.

Si vous utilisez les noms de colonnes, les noms de lignes, ou des expressions conditionnelles, utilisez l'opérateur `loc` avant les crochets de sélection.

On peut utiliser un seul nom de colonnes/ligne, une liste de noms, une expression conditionnelle ou un symbole "deux-points" `:`. Un `:` signifie qu'on sélectionne toutes les lignes ou colonnes.

---
Je veux sélectionner les lignes 10 à 25, et les colonnes 3 à 5.

In [None]:
titanic.iloc[9:25, 2:5]

À nouveau, je veux sélectionner un sous-ensemble de lignes et colonnes d'un coup d'un seul, et l'usage direct des crochets de sélection est insuffisant. Comme je m'intéresse aux lignes et colonnes en fonction de leur position (leur index), je vais utiliser l'opérateur `iloc` avant mes crochets de sélection.

Quand je sélectionne des lignes et colonnes avec `loc` ou `iloc`, je peux réassigner des valeurs dans ma DataFrame.
Par exemple, pour assigner le nom "anonymous" aux trois premiers éléments de la 3ème colonne :

In [None]:
titanic.iloc[0:3, 3] = "anonymous"

In [None]:
titanic.head()

<div class='alert alert-success'>


**À retenir**

- Quand on sélection un sous-ensemble de données, on utilise des crochets `[]`.
- À l'intérieur, on peut spécifier un simple nom de colonne, une liste de noms de colonnes, un slice de noms, une expression conditionnelle ou un `:`
- Pour sélectionner à la fois des lignes et des colonnes, on utilise `loc` si on exprime la sélection avec des noms de lignes / colonnes
- Pour sélectionner à la fois des lignes et des colonnes, on utilise `iloc` si on exprime la sélection avec des indices (numéro de position)
- On peut réassigner des valeurs à la sélection basée sur `loc`/`iloc`

</div>

## Comment faire des graphes en Pandas

In [None]:
import matplotlib.pyplot as plt

In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_no2.csv > data/air_quality_no2.csv

In [None]:
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)

air_quality.head()

<div class='alert alert-info'>

Ici on a utilisé les paramètres `index_col` et `parse_dates` de la fonction `read_csv()` pour définir que la première colonne (index 0) du fichier serait notre colonne index de la DataFrame à créer, et de convertir son contenu en objets datetime.
    
</div>

![](img/04_plot_overview.svg)

Je veux faire une rapide évaluation visuelle de mes données.

In [None]:
air_quality.plot();

Sur une DataFrame, pandas crée par défaut une graphe "ligne" pour chaque colonne de valeurs numériques.

Je ne veux tracer que la colonne correspondant aux données parisiennes.

In [None]:
air_quality["station_paris"].plot();

Pour tracer une colonne spécifique, on utilise la sélection comme d'habitude, enchaînée avec la méthode `plot()`. On peut en déduire que la méthode `plot()` fonctionne aussi bien sur les Series que sur les DataFrames.

In [None]:
air_quality.plot.scatter(x="station_london", y="station_paris", alpha=0.5);

En plus du traçage de ligne part défaut (`plot()`), il y a un certain nombre de fonction de tracé alternative. Utilisons un peu de Python pour extraire une liste de ces méthodes :

In [None]:
[
    method_name
    for method_name in dir(air_quality.plot)
    if not method_name.startswith("_")
]

<div class='alert alert-info'>

Dans la plupart des environnments de développement, et dans les notebook Jupyter, utilisez la touche TAB de votre clavier après un nom d'objet pour obtenir une liste des méthodes accessibles. Par exemple `air_quality.plot.` + `⌨️ TAB`

</div>

In [None]:
air_quality.plot.box();

---
Je veux chaque colonne dans un sous-graphe distinct.

In [None]:
axs = air_quality.plot.area(figsize=(12, 4), subplots=True)

Un subplot distinct pour chaque colonne est obtenu en passant l'argument `subplots=True` aux fonctions `plot()`.

---
Je veux personnaliser encore plus le graphe, y ajouter des éléments, ou sauvegarder l'image créée.

In [None]:
fig, ax = plt.subplots(figsize=(12, 4))
air_quality.plot.area(ax=ax)
ax.set_ylabel("NO$_2$ concentration")
fig.savefig("export/no2_concentrations.png")

Chacun des objets plot créés par pandas est un objet matplotlib. Matplotlib offre énormement d'option pour personnaliser les graphes. Ce lien direct de pandas à matplotlib vous permet de bénéficier de toute la puissance de matplotlib. 

Regardons plus en détail l’exemple précédent.


In [None]:
fig, ax = plt.subplots(
    figsize=(12, 4)
)  # On crée une figure et un objet Axes matplotlib Create an empty matplotlib Figure and Axes
air_quality.plot.area(
    ax=ax
)  # On utilise pandas pour tracer le graphe `area` sur l'objet Axes créé (appelé ax)
ax.set_ylabel(
    "NO$_2$ concentration"
)  # On personnalise comme on veut l'objet ax avec ses méthodes
fig.savefig(
    "export/no2_concentrations.png"
)  # On sauvegarde la figure finale avec la méthode de l'objet Figure (ici appelé fig)

<div class="alert alert-success">

**À retenir**
- Les méthodes `.plot.*` fonctionnent sur les Series **et** sur les DataFrames
- Par défaut, chaque colonne est tracée comme une élément du graphe (une ligne, une boîte à moustaches… selon le type de fonction plot.*)
- Tous les graphes faits par pandas sont des objets **Matplotlib**.

</div>

## Comment créer de nouvelles colonnes dérivées des colonnes existantes 

![](img/05_newcolumn_1.svg)

In [None]:
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)

air_quality.head()

Je veux exprimer la concentration de $NO_2$ de la station de Londre en $mg/m^3$

*En présumant une température de 25°C et une pression de 1013 hPa, le facteur de conversion est de 1.882*


In [None]:
air_quality["london_mg_per_cubic"] = (
    air_quality["station_london"] * 1.882
)  # création d’une nouvelle colonne à partir d'une autre
air_quality.head()

<div class='alert alert-info'>

Le calcul des valeurs est fait ligne à ligne. Cela signifie que chaque valeur dans la colonne "station_london" est multipliée par 1.882.   
Pas besoin de faire une boucle sur la colonne pour itérer sur chaque ligne.  
Si vous connaissez le module numpy, c'est le même principe que la mulplication d'un vecteur par un scalaire. 


</div>

![](img/05_newcolumn_2.svg)

---
Je veux vérifier le ratio des valeurs de Paris divisées par les valeurs d'Antwerp, et conserver le résultat dans une nouvelle colonne.

In [None]:
air_quality["ratio_paris_antwerp"] = (
    air_quality["station_paris"] / air_quality["station_antwerp"]
)


air_quality.head()

À nouveau, le calcul se fait ligne à ligne.

Toutes les opérations arithmétiques (+, - , \*, /, …) ou logiques (<, >, ==, …) se font ligne à ligne.

Si vous voulez appliquer une fonction plus complexe, vous pouvez utiliser la méthode `.apply()`.


---
Je veux renommer les colonnes en utilisant les identifiants des stations en vigueur sur openAQ


In [None]:
air_quality_renamed = air_quality.rename(
    columns={
        "station_antwerp": "BETR801",
        "station_paris": "FR04014",
        "station_london": "London Westminster",
    }
)

In [None]:
air_quality_renamed.head()

la méthode `rename()` peut être utilisée pour les noms des lignes ou des colonnes. Passez au paramètre `columns` ou `rows` un dictionnaire avec comme clé les noms actuels et comme valeurs correspondantes les nouveaux noms à utiliser.
    
Le mapping n'est pas limité aux noms établis, on peut utiliser une fonction qui renvoie un string également, par exemple, pour convertir les noms de colonnes en minuscule, on peut passer la méthode de string `str.lower`. Comme c'est la fonction elle-même qui est attendue, et pas son exécution, on passe le nom de la méthode seulement, sans parenthèses.

In [None]:
air_quality_renamed = air_quality_renamed.rename(columns=str.lower)

air_quality_renamed.head()

<div class='alert alert-success'>

**À retenir**
- on crée une nouvelle colonne en assignant le résultat d'une opération à un nouveau nom de colonne passé entre les crochets `[]`, comme pour assigner une nouvelle paire de clés et valeur dans un dictionnaire python
- les calculs sont faits ligne à ligne, pas besoin de faire une boucle sur les lignes
- la méthode `rename` combinée à un dictionnaire ou une fonction permet de renommer les lignes ou colonnes.

</div>

## Comment calculer des statistiques sur mes données 
On recharge les données pour cette section avec notre csv titanic

In [None]:
# recréons notre DataFrame titanic à partir du csv
titanic = pd.read_csv("data/titanic.csv")

titanic.head()

### stats aggrégées

![](img/06_aggregate.svg)

Quel est l'âge moyen des passagers du Titanic ?


In [None]:
titanic["Age"].mean()

Différentes statistiques sont disponibles et peuvent être appliquées aux colonnes contenant des valeurs numériques.
Ces opérations ignorent les valeurs manquantes et travaillent sur l'ensemble des lignes non-vides en général.


![](img/06_reduction.svg)

---
Quel sont l’âge médian et le tarif médian payé par les passagers ?

In [None]:
titanic[["Age", "Fare"]].median()

La méthode statistique appliquée à plusieurs colonnes comme ici est calculée pour chaque colonne numérique.

Vous vous rappelez la méthode `describe()` ?

In [None]:
titanic[["Age", "Fare"]].describe()

À la place de ces statistiques prédéfinies, vous pouvez spécifier les combinaisons de statistiques aggrégées que vous voulez pour chaque colonne avec la méthode `àgg()`.

In [None]:
titanic.agg(
    {
        "Age": ["min", "max", "median", "skew"],
        "Fare": ["min", "max", "median", "mean"],
    }
)

## Statistiques aggrégées groupées par catégorie

![](img/06_groupby.svg)

❓ Quel est l’âge moyen passagers, en regroupant les hommes et les femmes ?

In [None]:
titanic[["Sex", "Age"]].groupby("Sex").mean()

Comme ce qui nous intéresse est l’âge moyen par sexe, une sous-sélection sur ces deux colonnes est faite d'abord, avec `titanic[["Sex", "Age"]]`. Ensuite, la méthode `groupby()` est appliquée en indiquant la colonne `"Sex"` pour faire un groupe par catégorie. La moyenne des colonnes restantes (ici l'âge) est calculée et renvoyée dans une DataFrame.

Calculez une statistique donnée sur chaque catégorie présente dans une colonne (par exemple H/F dans une colonne "Sexe") est une pratique courante. La méthode `groupby` est là pour ça. Plus généralement, c’est un exemple du schéma classique "diviser / appliquer / combiner" :

- diviser les données dans des groupes
- appliquer une fonction à chaque groupe indépendamment
- combiner les résultats dans une structure de données

Les étapes appliquer et combiner sont ici faites automatiquement par pandas.

Dans l'exemple précédent, nous avons explicitement sélectionné les deux colonnes en premier lieu. Sans ça, la méthode `mean()` aurait calculé la moyenne sur chaque colonne contenant des données numériques.

In [None]:
titanic.groupby("Sex").mean()

Ça n’a pas beaucoup de sens de calculer la moyenne des classes, et encore moins des numéros de passager. Si l’âge est la seule colonne dont la moyenne nous intéresse, on peut également la sélectionner après avoir fait le `groupby('Sex')` : 

In [None]:
titanic.groupby("Sex")["Age"].mean()

![](img/06_groupby_select_detail.svg)

<div class='alert alert-warning'>

    
La colonne **Pclass** contient des nombres, mais qui représentent en réalité 3 catégories, qui s'appellent 1, 2 et 3. Calculer des statistiques avec ces nombres n’a pas beaucoup de sens.

Du coup, pandas dispose d'un type de donnée **Categorical** pour gérer ce type de données. Plus d'information sur ce point dans [la documentation du type Categorical](https://pandas.pydata.org/docs/user_guide/categorical.html#categorical).

</div>

---
❓ Quel le ticket moyen payé par chaque combinaison de sexe et classe ?

In [None]:
titanic.groupby(["Sex", "Pclass"])["Fare"].mean()

Le groupement peut se faire sur plusieurs colonnes d'un coup. Donnez les noms des colonnes voulues dans une liste à la méthode `groupby()`.

### Compter le nombre d’enregistrements par catégorie

![](img/06_valuecounts.svg)

Quel est le nombre de passager pour chaque classe de cabines ?

In [None]:
titanic["Pclass"].value_counts()

La méthode `value_count()` dénombre les enregistrements de chaque catégorie dans une colonne.

Cette fonction est un raccourci, en réalité elle opère un `groupby` puis compte le nombre de lignes dans chaque groupe.

Ça revient à :

In [None]:
titanic.groupby("Pclass")["Pclass"].count()

<div class='alert alert-info'>

les méthodes `size()` et `count()` peuvent toutes les deux être utilisées sur un `groupby()`. `size()` compte toutes les lignes, y compris celles où les valeurs sont manquantes, tandis que `count()` ne compte que les valeurs présentes. Avec la méthode `value_counts()`, utilisez l'argument `dropna` pour inclure ou pas les valeurs manquantes dans le compte.
</div>

<div class='alert alert-success'>

**À retenir**
        

- Les statistiques agrégées peuvent être calculées sur des colonnes entières.
- **groupby** vous permet d'appliquer le schéma "diviser / appliquer / combiner"
- **value_counts** est un raccouci pratique pour dénombrer chaque catégorie d'une variable

    
</div>

## Comment modifier l'agencement des tables

### Données pour cette section

In [None]:
titanic = pd.read_csv("data/titanic.csv")

In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_long.csv > data/air_quality_long.csv

In [None]:
air_quality = pd.read_csv(
    "data/air_quality_long.csv", index_col="date.utc", parse_dates=True
)

In [None]:
air_quality.head()

### Classer les lignes de la `DataFrame`

Je veux ordonner les lignes selon l'âge des passagers.

In [None]:
titanic.sort_values(by="Age").head(10)

---
Je veux classer les données par classe de cabine et âge en ordre décroissant.

In [None]:
titanic.sort_values(by=["Pclass", "Age"], ascending=False).head()

Avec `Series.sort_values()`, les lignes de la table sont réordonnées selon les colonnes passées dans l'argument `by`. L'index des lignes n'est pas modifié, ce qui permet de retrouver l'ordre originel.

### D'une table longue à une table large

Nous allons utiliser un petit échantillon du jeu de données sur la qualité de l'air. On va réduire nos données et sélectionner seulement les 2 premières mesures de chaque lieu (càd le `head(2)` de chaque groupe). On va appeler ça le `no2_subset`.

In [None]:
# on filtre sur le no2 uniquement

no2 = air_quality[air_quality["parameter"] == "no2"]

In [None]:
# on ne prend que deux lignes (head(2)) pour chaque lieu (grâce à groupby)

no2_subset = no2.sort_index().groupby(["location"]).head(2)

In [None]:
no2_subset

![](img/07_pivot.svg)

Je veux les valeurs des 3 stations en tant que colonnes distinctes.

In [None]:
no2_subset.pivot(columns="location", values="value")

La fonction `pivot()` change juste la forme de nos données : il suffit d'une seule valeur pour chaque combinaison d'index et de colonne.

Comme on peut tracer plusieurs colonnes, comme vu précédemment, la conversion d'une table longue à une table large permer de tracer différentes séries temporelles d'un coup.

In [None]:
no2.head()

In [None]:
no2.pivot(columns="location", values="value").plot();

<div class='alert alert-info'>

Si on ne précise pas de paramètre `index` au pivot, l'index existant (le nom des lignes, ici des dates/heures) est maintenu.

</div>

### Pivoter la table

![](img/07_pivot_table.svg)


Je veux les concentrations de  $NO_2$ et $PM_{2.5}$ pour chaque station, sous la forme d'une table.

In [None]:
air_quality.pivot_table(
    values="value", index="location", columns="parameter", aggfunc="mean"
)

Quand on fait un simple `pivot()`, les données sont simplement réarrangées. Quand plusieurs valeurs doivent être aggrégées (dans ce cas, des valeurs de différentes périodes de temps), on peut utiliser `pivot_table()`, en passant une fonction d'aggrégation (par exemple la moyenne, `mean`) pour préciser comment combiner les valeurs.

Pivoter une table est un concept classique dans un tableur. Si on désire aussi avoir le résumé de chaque ligne et chaque colonne, on passe `margin=True`.

In [None]:
air_quality.pivot_table(
    values="value",
    index="location",
    columns="parameter",
    aggfunc="mean",
    margins=True,
)

Au cas où vous vous le demandez, `pivot_table()` est bien sûr basée sur `groupby()`.

Le meme résultat peut être obtenu en groupant par paramètre et par lieu.

`air_quality.groupby(["parameter", "location"]).mean()`

In [None]:
air_quality.groupby(["parameter", "location"]).mean()

### D'une table large à une table longue

On repart de notre table large créée dans la section précédente :

In [None]:
no2_pivoted = no2.pivot(columns="location", values="value").reset_index()

no2_pivoted.head()

![](img/07_melt.svg)

Je veux ramasser toutes mes mesures de $NO_2$ en une seule colonne (format long).

In [None]:
no_2 = no2_pivoted.melt(id_vars="date.utc")
no_2.head()

La méthode `.melt()` sur une DataFrame converti la table du format large au format long. Les en-têtes de colonne deviennent les noms de variables dans une nouvelle colonne créé.

Ci-dessus, on a fait al version courte : la méthode `melt()` va "fondre" toutes les colonnes non mentionnées dans l'argement `id_vars` en 2 colonnes : une colonne avec les noms des anciennes colonnes, et une colonne avec les valeurs elles-mêmes. Le nom de cette colonne de valeur est par défaut **value**.

Ci-dessous, un appel un peu plus détaillé à la méthode `melt()` qui précise les noms de colonne voulus dans le résultat :

In [None]:
no_2 = no2_pivoted.melt(
    id_vars="date.utc",
    value_vars=["BETR801", "FR04014", "London Westminster"],
    value_name="NO_2",
    var_name="id_location",
)

no_2.head()

Le résultat final est le même, mais défini plus en détail:

- **value_vars** définit explicitement quelles colonnes fondre ensemble
- **value_name** donne un nom de colonne personnalisé pour la colonne des valeurs, au lieu de **value** par défaut
- **var_name** donne un nom de colonne personnalisé pour la colonne qui rassemble les anciens noms de colonnes. Sinon par défaut il prend le nom de l'index.

En bref, **value_name** et **var_name** sont des noms aux choix pour les colonnes générées. Les colonnes à fondre sont définies par **id_vars** et **value_vars**.

<div class='alert alert-success'>

**À retenir**

- Classer par une ou plusieurs colonnes est fait via **sort_values**
- La fonction **pivot()** est une simple restructuration des données, **pivot_table** permet de faire des aggrégations
- L'inverse du pivot (de long à large) est **melt** (de large vers long)


</div>

## Comment combiner les données de plusieurs tables ?

Données pour cette section :

In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_no2_long.csv > data/air_quality_no2_long.csv

### Données Nitrate

In [None]:
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]] # sélection de colonnes

air_quality_no2.head()

### Données particules



In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_pm25_long.csv > data/air_quality_pm25_long.csv

In [None]:
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]] # sélection de colonnes

air_quality_pm25.head()

### Concatenation d'objets `DataFrame`

![](img/08_concat_row.svg)

Je veux combiner les mesures de $NO_2$ et de $PM_25$, deux tables ayant une structure similaire, dans une seule table.

In [None]:
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0) # axis 0 : concaténation en vertical

air_quality.head() 

La fonction `concat()` concatène des tables sur un axe : en vertical (axis=0) ou à l'horizontale (axis=1).

Par défaut, la concaténation est sur l'axe 0, c'est à dire en vertical. La concaténation verticale de deux table ayant les mêmes entêtes de colonne doit produire une table avec le même nombre de colonnes et le cumul des lignes des tables d'origine.

On peut le vérifier en regardant les `shape` des tables d'origine et de la table issue de la concaténation.

In [None]:
print("Shape of the air_quality_pm25 table: ", air_quality_pm25.shape)

print("Shape of the air_quality_no2 table: ", air_quality_no2.shape)

print("Shape of the resulting air_quality table: ", air_quality.shape)

😌 La table concaténée a bien 1110 + 2068 soit 3178 lignes.

<div class='alert alert-success'>

Cet argument **axis** va apparaître dans plusieurs méthodes de pandas qui peuvent s'appliquer sur un axe. Une dataframe a deux axes :
    
- le premier, **axis=0**  est vertical
- le second, **axis=1** est horizontal
    
</div>

💡 Classer la table sur la colonne des dates / heures va bien montrer la combinaison des deux jeux de données $NO_2$ et $PM_25$ :


In [None]:
air_quality = air_quality.sort_values("date.utc")
air_quality.head()

Dans cet exemple en particulier, la colonne **parameter** fournie dans les jeux de donnée nous permet d'identifier les tables d'origine. Ce n'est pas toujours le cas.

La fonction `concat()` a une parade très pratique, avec l'argument `keys`, qui prend une liste de clés à ajouter à chaque ligne, selon sa table d'origine.

Par exemple :

In [None]:
air_quality_ = pd.concat([air_quality_pm25, air_quality_no2], keys=["PM25", "NO2"])
air_quality_.sample(10)

<div class='alert alert-info'>

La possibilité d'avoir plusieurs indices simultanément pour les lignes ou les colonnes n’a pas été mentionnée jusqu’ici, mais c'est une fonctionnalité avancée qui est hors de propos pour cette introduction.
    
Pour le moment, retenons simplement que la methode **reset_index()** peut être utilisée pour convertir tout niveau d'index en une colonne, par exemple :
    
    air_quality_.reset_index(level=0)

</div>

In [None]:
air_quality_.reset_index(level=0)

### Joindre des tables en utilisant un identifiant commun

![](img/08_merge_left.svg)

❓ Je veux ajouter les coordonnées des stations de mesure, fournies dans un fichier séparé, aux lignes correspondantes dans la table des mesures de qualité.


In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_stations.csv  > data/air_quality_stations.csv

In [None]:
stations_coord = pd.read_csv("data/air_quality_stations.csv")

stations_coord

<div class='alert alert-info'>

Les stations utilisées dans cet example (FR04014, BETR801 et London Westminster) sont juste 3 entrées parmi d'autres dans la table des métadonnées ci-dessus. Nous voulons seulement ajouter leur coordonnées dans la table contenant les mesures air_quality_table, sur chaque ligne correspondante.


</div>

In [None]:
air_quality.head()

In [None]:
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

air_quality.head()

En utilisant la fonction `merge()`, pour chaque ligne de la table air_quality, les coordonnées correspondantes sont ajoutées depuis la table des coordonnées. C'est grâce à la colonne **location** qui existe dans les deux table et est utilisé comme clé pour combiner les données. 

Le paramètre **how='left'** fait que seules les stations présentes dans la table des mesures (celle de gauche dans notre jointure) finissent dans la table finale. Ces jointures sont similaires aux jointures qu'on peut faire sur des tables dans une base de données relationnelle.

---
❓ Je veux ajouter la description et le nom complet de chaque *parameter* (pm25, nO2) qui proviennent d'une autre table 

In [None]:
# téléchargement d'un fichier CSV
!curl https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_parameters.csv  > data/air_quality_parameters.csv

In [None]:
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

air_quality_parameters.head()

In [None]:
air_quality = pd.merge(
    air_quality, air_quality_parameters, how="left", left_on="parameter", right_on="id"
)

air_quality.head()

Ici contrairement à l'exemple précédent, il n’y a pas de nom de colonne en commun. Cependant, la colonne **parameter** de la table `air_quality` et la colonne **id** dans la table `air_quality_parameters` contiennent en fait le nom du paramètre dans le même format. Les paramètres `left_on` et `right_on` dans la fonction `merge()` nous permettent d'expliciter comment faire le lien entre les deux tables pour la jointure.

<div class='alert alert-success'>


**À retenir**

- plusieurs tables peuvent être concaténées verticalement ou horizontalement avec la fonction **concat()**
- Pour des opérations de jointures similaire à celles des bases de données, on utilise la fonction **merge()**


</div>

## TODO How to handle time series data with ease?¶

In [None]:
import matplotlib.pyplot as plt

Data used for this tutorial: 

In [None]:
air_quality = pd.read_csv("data/air_quality_no2_long.csv")

air_quality = air_quality.rename(columns={"date.utc": "datetime"})

air_quality.head()

In [None]:
air_quality.city.unique()

### Using pandas datetime properties

I want to work with the dates in the column datetime as datetime objects instead of plain text

In [None]:
air_quality["datetime"] = pd.to_datetime(air_quality["datetime"])

air_quality["datetime"]

Initially, the values in datetime are character strings and do not provide any datetime operations (e.g. extract the year, day of the week,…). By applying the to_datetime function, pandas interprets the strings and convert these to datetime (i.e. datetime64[ns, UTC]) objects. In pandas we call these datetime objects similar to datetime.datetime from the standard library as pandas.Timestamp.


<div class='alert alert-info'>

As many data sets do contain datetime information in one of the columns, pandas input function like pandas.read_csv() and pandas.read_json() can do the transformation to dates when reading the data using the parse_dates parameter with a list of the columns to read as Timestamp:

`pd.read_csv("../data/air_quality_no2_long.csv", parse_dates=["datetime"])`

</div>

Why are these pandas.Timestamp objects useful? Let’s illustrate the added value with some example cases.

> What is the start and end date of the time series data set we are working with?


In [None]:
air_quality["datetime"].min(), air_quality["datetime"].max()

Using pandas.Timestamp for datetimes enables us to calculate with date information and make them comparable. Hence, we can use this to get the length of our time series:

In [None]:
air_quality["datetime"].max() - air_quality["datetime"].min()

The result is a pandas.Timedelta object, similar to datetime.timedelta from the standard Python library and defining a time duration.

I want to add a new column to the DataFrame containing only the month of the measurement

In [None]:
air_quality["month"] = air_quality["datetime"].dt.month

air_quality.head()

By using Timestamp objects for dates, a lot of time-related properties are provided by pandas. For example the month, but also year, weekofyear, quarter,… All of these properties are accessible by the dt accessor.

What is the average concentration for each day of the week for each of the measurement locations?

In [None]:
air_quality.groupby([air_quality["datetime"].dt.weekday, "location"])["value"].mean()

Remember the split-apply-combine pattern provided by groupby from the tutorial on statistics calculation? Here, we want to calculate a given statistic (e.g. mean ) for each weekday and for each measurement location. To group on weekdays, we use the datetime property weekday (with Monday=0 and Sunday=6) of pandas Timestamp, which is also accessible by the dt accessor. The grouping on both locations and weekdays can be done to split the calculation of the mean on each of these combinations.


<div class='alert alert-danger'>
    
    
As we are working with a very short time series in these examples, the analysis does not provide a long-term representative result!
    
    
</div>

Plot the typical $NO_2$ pattern during the day of our time series of all stations together. In other words, what is the average value for each hour of the day?

In [None]:
fig, ax = plt.subplots(figsize=(12, 4))

air_quality.groupby(air_quality["datetime"].dt.hour)["value"].mean().plot(
    kind="bar", rot=0, ax=ax
)

ax.set_xlabel("Hour of the day")
# custom x label using matplotlib

ax.set_ylabel("$NO_2 (µg/m^3)$");

Similar to the previous case, we want to calculate a given statistic (e.g. mean $NO_2$ ) for each hour of the day and we can use the split-apply-combine approach again. For this case, we use the datetime property hour of pandas Timestamp, which is also accessible by the dt accessor.

## Datetime comme index

In the tutorial on reshaping, pivot() was introduced to reshape the data table with each of the measurements locations as a separate column:

In [None]:
no_2 = air_quality.pivot(index="datetime", columns="location", values="value")

no_2.head()

<div class='alert alert-info'>

By pivoting the data, the datetime information became the index of the table. In general, setting a column as an index can be achieved by the set_index function.

</div>


Working with a datetime index (i.e. DatetimeIndex) provides powerful functionalities. For example, we do not need the dt accessor to get the time series properties, but have these properties available on the index directly:

In [None]:
no_2.index.year, no_2.index.weekday

Some other advantages are the convenient subsetting of time period or the adapted time scale on plots. Let’s apply this on our data.

? Create a plot of the $NO_2$ values in the different stations from the 20th of May till the end of 21st of May

In [None]:
no_2["2019-05-20":"2019-05-21"].plot();

> By providing a string that parses to a datetime, a specific subset of the data can be selected on a DatetimeIndex.

### Resample a time series to another frequency

? Aggregate the current hourly time series values to the monthly maximum value in each of the stations.

In [None]:
monthly_max = no_2.resample("M").max()

monthly_max

> A very powerful method on time series data with a datetime index, is the ability to resample() time series to another frequency (e.g., converting secondly data into 5-minutely data).

The `.resample()` method is similar to a groupby operation:

- it provides a time-based grouping, by using a string (e.g. M, 5H,…) that defines the target frequency
- it requires an aggregation function such as mean, max,…

When defined, the frequency of the time series is provided by the freq attribute:


In [None]:
monthly_max.index.freq

? Make a plot of the daily mean value in each of the stations.

In [None]:
no_2.resample("D").mean().plot(style="-o", figsize=(10, 5));

<div class='alert alert-info'>


REMEMBER

- Valid date strings can be converted to datetime objects using to_datetime function or as part of read functions.
- Datetime objects in pandas support calculations, logical operations and convenient date-related properties using the dt accessor.
- A DatetimeIndex contains these date-related properties and supports convenient slicing.
- Resample is a powerful method to change the frequency of a time series.



</div>

## Comment manipuler des données textuelles ?

Données utilisée dans cette section : Titanic

In [None]:
titanic = pd.read_csv("data/titanic.csv")

titanic.head()

? Make all name characters lowercase.

In [None]:
titanic["Name"].str.lower()



> To make each of the strings in the Name column lowercase, select the Name column (see the tutorial on selection of data), add the str accessor and apply the lower method. As such, each of the strings is converted element-wise.

Similar to datetime objects in the time series tutorial having a dt accessor, a number of specialized string methods are available when using the str accessor. These methods have in general matching names with the equivalent built-in string methods for single elements, but are applied element-wise (remember element-wise calculations?) on each of the values of the columns.

? Create a new column Surname that contains the surname of the passengers by extracting the part before the comma.

In [None]:
titanic["Name"].str.split(",")

Using the Series.str.split() method, each of the values is returned as a list of 2 elements. The first element is the part before the comma and the second element is the part after the comma.

In [None]:
titanic["Surname"] = titanic["Name"].str.split(",").str.get(0)

titanic["Surname"]

As we are only interested in the first part representing the surname (element 0), we can again use the str accessor and apply Series.str.get() to extract the relevant part. Indeed, these string functions can be concatenated to combine multiple functions at once!

? Extract the passenger data about the countesses on board of the Titanic.

In [None]:
titanic["Name"].str.contains("Countess")

In [None]:
titanic[titanic["Name"].str.contains("Countess")]

> (Interested in her story? See [Wikipedia](https://fr.wikipedia.org/wiki/Lucy_No%C3%ABl_Leslie_Martha)!)
>
> The string method Series.str.contains() checks for each of the values in the column Name if the string contains the word Countess and returns for each of the values True (Countess is part of the name) or False (Countess is not part of the name). This output can be used to subselect the data using conditional (boolean) indexing introduced in the subsetting of data tutorial. As there was only one countess on the Titanic, we get one row as a result.

<div class='alert alert-info'>
More powerful extractions on strings are supported, as the Series.str.contains() and Series.str.extract() methods accept regular expressions, but out of scope of this tutorial.
</div>

? Which passenger of the Titanic has the longest name?

In [None]:
titanic["Name"].str.len()

To get the longest name we first have to get the lengths of each of the names in the Name column. By using pandas string methods, the Series.str.len() function is applied to each of the names individually (element-wise).

In [None]:
titanic["Name"].str.len().idxmax()

Next, we need to get the corresponding location, preferably the index label, in the table for which the name length is the largest. The idxmax() method does exactly that. It is not a string method and is applied to integers, so no str is used.

In [None]:
titanic.loc[titanic["Name"].str.len().idxmax(), "Name"]

Based on the index name of the row (307) and the column (Name), we can do a selection using the loc operator, introduced in the tutorial on subsetting.

? In the “Sex” column, replace values of “male” by “M” and values of “female” by “F”.

In [None]:
titanic["Sex_short"] = titanic["Sex"].replace({"male": "M", "female": "F"})

titanic["Sex_short"]

Whereas replace() is not a string method, it provides a convenient way to use mappings or vocabularies to translate certain values. It requires a dictionary to define the mapping {from : to}.


<div class='alert alert-warning'>
    
There is also a replace() method available to replace a specific set of characters. However, when having a mapping of multiple values, this would become:

`titanic["Sex_short"] = titanic["Sex"].str.replace("female", "F")`

`titanic["Sex_short"] = titanic["Sex_short"].str.replace("male", "M")`

This would become cumbersome and easily lead to mistakes. Just think (or try out yourself) what would happen if those two statements are applied in the opposite order…
    
</div>

<div class='alert alert-success'>

REMEMBER

- String methods are available using the str accessor.
-String methods work element-wise and can be used for conditional indexing.
- The replace method is a convenient method to convert values according to a given dictionary.


</div>

## Ressources supplémentaires


<div>
<section id="community-tutorials">
<span id="communitytutorials"></span><h1>Community tutorials<a class="headerlink" href="#community-tutorials" title="Permalink to this headline">¶</a></h1>
<p>This is a guide to many pandas tutorials by the community, geared mainly for new users.</p>
<section id="pandas-cookbook-by-julia-evans">
<h2>pandas cookbook by Julia Evans<a class="headerlink" href="#pandas-cookbook-by-julia-evans" title="Permalink to this headline">¶</a></h2>
<p>The goal of this 2015 cookbook (by <a class="reference external" href="https://jvns.ca">Julia Evans</a>) is to
give you some concrete examples for getting started with pandas. These
are examples with real-world data, and all the bugs and weirdness that
entails.
For the table of contents, see the <a class="reference external" href="https://github.com/jvns/pandas-cookbook">pandas-cookbook GitHub
repository</a>.</p>
</section>
<section id="pandas-workshop-by-stefanie-molin">
<h2>pandas workshop by Stefanie Molin<a class="headerlink" href="#pandas-workshop-by-stefanie-molin" title="Permalink to this headline">¶</a></h2>
<p>An introductory workshop by <a class="reference external" href="https://github.com/stefmolin">Stefanie Molin</a>
designed to quickly get you up to speed with pandas using real-world datasets.
It covers getting started with pandas, data wrangling, and data visualization
(with some exposure to matplotlib and seaborn). The
<a class="reference external" href="https://github.com/stefmolin/pandas-workshop">pandas-workshop GitHub repository</a>
features detailed environment setup instructions (including a Binder environment),
slides and notebooks for following along, and exercises to practice the concepts.
There is also a lab with new exercises on a dataset not covered in the workshop for
additional practice.</p>
</section>
<section id="learn-pandas-by-hernan-rojas">
<h2>Learn pandas by Hernan Rojas<a class="headerlink" href="#learn-pandas-by-hernan-rojas" title="Permalink to this headline">¶</a></h2>
<p>A set of lesson for new pandas users: <a class="reference external" href="https://bitbucket.org/hrojas/learn-pandas">https://bitbucket.org/hrojas/learn-pandas</a></p>
</section>
<section id="practical-data-analysis-with-python">
<h2>Practical data analysis with Python<a class="headerlink" href="#practical-data-analysis-with-python" title="Permalink to this headline">¶</a></h2>
<p>This <a class="reference external" href="https://wavedatalab.github.io/datawithpython">guide</a> is an introduction to the data analysis process using the Python data ecosystem and an interesting open dataset.
There are four sections covering selected topics as <a class="reference external" href="https://wavedatalab.github.io/datawithpython/munge.html">munging data</a>,
<a class="reference external" href="https://wavedatalab.github.io/datawithpython/aggregate.html">aggregating data</a>, <a class="reference external" href="https://wavedatalab.github.io/datawithpython/visualize.html">visualizing data</a>
and <a class="reference external" href="https://wavedatalab.github.io/datawithpython/timeseries.html">time series</a>.</p>
</section>
<section id="exercises-for-new-users">
<span id="tutorial-exercises-new-users"></span><h2>Exercises for new users<a class="headerlink" href="#exercises-for-new-users" title="Permalink to this headline">¶</a></h2>
<p>Practice your skills with real data sets and exercises.
For more resources, please visit the main <a class="reference external" href="https://github.com/guipsamora/pandas_exercises">repository</a>.</p>
</section>
<section id="modern-pandas">
<span id="tutorial-modern"></span><h2>Modern pandas<a class="headerlink" href="#modern-pandas" title="Permalink to this headline">¶</a></h2>
<p>Tutorial series written in 2016 by
<a class="reference external" href="https://github.com/TomAugspurger">Tom Augspurger</a>.
The source may be found in the GitHub repository
<a class="reference external" href="https://github.com/TomAugspurger/effective-pandas">TomAugspurger/effective-pandas</a>.</p>
<ul class="simple">
<li><p><a class="reference external" href="https://tomaugspurger.github.io/modern-1-intro.html">Modern Pandas</a></p></li>
<li><p><a class="reference external" href="https://tomaugspurger.github.io/method-chaining.html">Method Chaining</a></p></li>
<li><p><a class="reference external" href="https://tomaugspurger.github.io/modern-3-indexes.html">Indexes</a></p></li>
<li><p><a class="reference external" href="https://tomaugspurger.github.io/modern-4-performance.html">Performance</a></p></li>
<li><p><a class="reference external" href="https://tomaugspurger.github.io/modern-5-tidy.html">Tidy Data</a></p></li>
<li><p><a class="reference external" href="https://tomaugspurger.github.io/modern-6-visualization.html">Visualization</a></p></li>
<li><p><a class="reference external" href="https://tomaugspurger.github.io/modern-7-timeseries.html">Timeseries</a></p></li>
</ul>
</section>
<section id="excel-charts-with-pandas-vincent-and-xlsxwriter">
<h2>Excel charts with pandas, vincent and xlsxwriter<a class="headerlink" href="#excel-charts-with-pandas-vincent-and-xlsxwriter" title="Permalink to this headline">¶</a></h2>
<ul class="simple">
<li><p><a class="reference external" href="https://pandas-xlsxwriter-charts.readthedocs.io/">Using Pandas and XlsxWriter to create Excel charts</a></p></li>
</ul>
</section>
<section id="video-tutorials">
<h2>Video tutorials<a class="headerlink" href="#video-tutorials" title="Permalink to this headline">¶</a></h2>
<ul class="simple">
<li><p><a class="reference external" href="https://www.youtube.com/watch?v=5JnMutdy6Fw">Pandas From The Ground Up</a>
(2015) (2:24)
<a class="reference external" href="https://github.com/brandon-rhodes/pycon-pandas-tutorial">GitHub repo</a></p></li>
<li><p><a class="reference external" href="https://www.youtube.com/watch?v=-NR-ynQg0YM">Introduction Into Pandas</a>
(2016) (1:28)
<a class="reference external" href="https://github.com/chendaniely/2016-pydata-carolinas-pandas">GitHub repo</a></p></li>
<li><p><a class="reference external" href="https://www.youtube.com/watch?v=7vuO9QXDN50">Pandas: .head() to .tail()</a>
(2016) (1:26)
<a class="reference external" href="https://github.com/TomAugspurger/pydata-chi-h2t">GitHub repo</a></p></li>
<li><p><a class="reference external" href="https://www.youtube.com/playlist?list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5U3u9y">Data analysis in Python with pandas</a>
(2016-2018)
<a class="reference external" href="https://github.com/justmarkham/pandas-videos">GitHub repo</a> and
<a class="reference external" href="https://nbviewer.org/github/justmarkham/pandas-videos/blob/master/pandas.ipynb">Jupyter Notebook</a></p></li>
<li><p><a class="reference external" href="https://www.youtube.com/playlist?list=PL5-da3qGB5IBITZj_dYSFqnd_15JgqwA6">Best practices with pandas</a>
(2018)
<a class="reference external" href="https://github.com/justmarkham/pycon-2018-tutorial">GitHub repo</a> and
<a class="reference external" href="https://nbviewer.org/github/justmarkham/pycon-2018-tutorial/blob/master/tutorial.ipynb">Jupyter Notebook</a></p></li>
</ul>
</section>
<section id="various-tutorials">
<h2>Various tutorials<a class="headerlink" href="#various-tutorials" title="Permalink to this headline">¶</a></h2>
<ul class="simple">
<li><p><a class="reference external" href="https://wesmckinney.com/archives.html">Wes McKinney’s (pandas BDFL) blog</a></p></li>
<li><p><a class="reference external" href="http://www.randalolson.com/2012/08/06/statistical-analysis-made-easy-in-python/">Statistical analysis made easy in Python with SciPy and pandas DataFrames, by Randal Olson</a></p></li>
<li><p><a class="reference external" href="https://conference.scipy.org/scipy2013/tutorial_detail.php?id=109">Statistical Data Analysis in Python, tutorial videos, by Christopher Fonnesbeck from SciPy 2013</a></p></li>
<li><p><a class="reference external" href="https://nbviewer.ipython.org/github/twiecki/financial-analysis-python-tutorial/blob/master/1.%20Pandas%20Basics.ipynb">Financial analysis in Python, by Thomas Wiecki</a></p></li>
<li><p><a class="reference external" href="http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/">Intro to pandas data structures, by Greg Reda</a></p></li>
<li><p><a class="reference external" href="https://manishamde.github.io/blog/2013/03/07/pandas-and-python-top-10/">Pandas and Python: Top 10, by Manish Amde</a></p></li>
<li><p><a class="reference external" href="https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python">Pandas DataFrames Tutorial, by Karlijn Willems</a></p></li>
<li><p><a class="reference external" href="https://tutswiki.com/pandas-cookbook/chapter1/">A concise tutorial with real life examples</a></p></li>
</ul>
</section>
</section>
</div>

