# S04 - Pandas - Survol

Le but de ce fichier est de vous fournir un récapitulatif des différents enseignements que vous avez vus pendant le [cours Kaggle sur pandas](https://www.kaggle.com/learn/pandas). `pandas` est une librairie (tierce) populaire pour analyser et manipuler les données. Construite sur le langage de programmation Python, c'est un outil rapide, puissant, flexible et facile à utiliser.

**Notez que la plupart des opérations dans `pandas` vous renvoient un nouvel objet. Ces opérations ne sont généralement pas effectuées en-place. Ainsi, si vous souhaitez conserver vos résultats, vous devez les assigner à une variable.**

# Création, lecture et écriture

Pour utiliser la librairie `pandas`, vous devez d'abord l'importer; vous ne pouvez et ne devez l'importer qu'une seule fois par `Jupyter Notebook`. Vous pouvez le faire de différentes façons (tout comme pour d'autres librairies). La première approche est la suivante:
``` python
import pandas
```
Ce faisant, vous devez ensuite écrire `pandas` devant tous les éléments `pandas` auxquels vous souhaitez accéder. Par exemple, pour créer un `DataFrame`, vous devez effectuer l'opération suivante:
``` pyton
pandas.DataFrame({'Yes':[50, 21], 'No':[131, 2]})
```

---

La deuxième approche consiste à importer la librairie sous un alias (c.-à-d., un nom différent). Une convention lors de l'importation de `pandas` est de l'importer sous le nom `pd`. Vous devez tout de même ensuite écrire `pd` devant tous les éléments `pandas` auxquels vous souhaitez accéder, mais cela permet de réduire le nombre de lettres à écrire. Par exemple, le code précédent se réduirait à:
``` python
import pandas as pd
pd.DataFrame({'Yes':[50, 21], 'No':[131, 2]})
```

---

La troisième approche consiste à importer uniquement les éléments de la librairie dont vous avez besoin. Par exemple, si vous avez seulement besoin de l'objet `DataFrame`, vous pouvez procéder de la façon suivante:
``` python
from pandas import DataFrame
DataFrame({'Yes':[50, 21], 'No':[131, 2]})
```

---

Importons `pandas` en utilisant la deuxième approche:

In [None]:
import pandas as pd

## `DataFrame` et `Series`
Les deux principaux objets d'intérêt dans la librairie `pandas` sont les objets` DataFrame` et `Series`.

---
Il est possible de créer un `DataFrame` en fournissant un dictionnaire où les clés sont les étiquettes des colonnes et les valeurs sont des listes contenant les différents éléments de la colonne correspondante. Notez que toutes les listes doivent être de la même longueur.

In [None]:
pd.DataFrame({'Yes':[50, 21], 'No':[131, 2]})

Il est possible de créer une `Series` en fournissant une liste. Une `Series` peut être considérée comme une colonne d'un `DataFrame`.

In [None]:
pd.Series([4, 5, 2, 9])

## Importer des données
La plupart du temps, les données ne sont pas entrées manuellement dans le constructeur, mais elles sont plutôt importées à partir d'un fichier externe. Cela peut être fait en utilisant les commandes `read_csv()` pour les fichiers CSV (*Comma-Separated Values* ou valeurs séparées par des virgules) ou `read_excel()` pour les fichiers Excel. D'autres options sont également disponibles dans la documentation `pandas`.

Importons maintenant un fichier CSV:

In [None]:
# Import la colonne WEEK_END_DATE en tant que date
url = 'https://raw.githubusercontent.com/acedesci/scanalytics/master/data/salesCerealsOriginal.csv'
df = pd.read_csv(url, parse_dates=['WEEK_END_DATE']) 
df.shape

In [None]:
df.head()

Voici une description des variables du précédent `DataFrame`. Notez que ce fichier sera également réutilisé aux séances suivantes.

| VARIABLE | DESCRIPTION | 
|:----|:----|
|WEEK_END_DATE|date de fin de semaine|
|STORE_NUM|numéro de magasin|
|UPC|identifiant spécifique au produit (*Universal Product Code*)|
|UNITS|nombre d'unités vendues|
|VISITS|nombre d'achats uniques (paniers) comprenant le produit|
|HHS|nombre de ménages acheteurs|
|SPEND|total dépensé (c.-à-d., $ ventes)|
|PRICE|montant réel facturé pour le produit en rayon|
|BASE_PRICE|prix de base de l'article|
|FEATURE|indication de si le produit était dans la circulaire du magasin|
|DISPLAY|indication de si le produit faisait partie de l'affichage promotionnel en magasin|
|TPR_ONLY|indication de si le produit était en réduction de prix temporaire (c.-à-d., étiquette d'étagère uniquement; pas sur l'affichage ou dans la circulaire)|
|DESCRIPTION|description du produit|
|CATEGORY|catégorie du produit|
|SUB_CATEGORY|sous-catégorie du produit|



## Exporter des données
L'exportation de données peut être effectuée avec des méthodes analogues telles que `to_csv()` et `to_excel()`.

Par exemple, pour exporter le `DataFrame` en fichier *CSV*, on utilise le code suivant:

In [None]:
df.to_csv("temp.csv")

Par la suite, si on est sur Google Colab, on doit exécuter le code suivant du module `files` afin de télécharger le fichier.

In [None]:
from google.colab import files

files.download("temp.csv")

# Indexation, sélection et affectation

Vous pouvez accéder à toutes les colonnes d'un `DataFrame` en utilisant la notation par point ou en utilisant les crochets `[]`. Ensuite, vous pouvez accéder à une ligne spécifique dans cette colonne en utilisant à nouveau les crochets `[]` avec le numéro de la ligne. Notez que cette seconde indexation peut parfois conduire à des résultats étranges selon la façon dont les index sont définis.

In [None]:
df.UPC

In [None]:
df['UPC']

In [None]:
df.UPC[0]

In [None]:
df['UPC'][0]

## Sélection basée sur un index
Une autre façon d'accéder aux éléments d'un `DataFrame` est d'utiliser la **sélection basée sur un index**, c'est-à-dire la méthode `iloc[]`. La sélection se fait par le numéro d'index de la ligne et de la colonne. Par exemple, pour accéder à la première ligne de la colonne numéro 3 (c'est-à-dire, la colonne 'UPC'), nous écrivons:

In [None]:
df.iloc[0, 2]

## Sélection basée sur les étiquettes
Une troisième option permettant d'accéder aux éléments d'un `DataFrame` est d'utiliser la **sélection basée sur les étiquettes**, c'est-à-dire la méthode `loc[]`. La sélection se fait par les étiquettes de ligne et de colonne. En revenant à notre notre dernier exemple, nous écrivons:

In [None]:
df.loc[0, 'UPC']

Il est également possible d'utiliser la méthode `loc[]` avec des masques booléens. Par exemple, pour afficher toutes les lignes liées à l'UPC 1111085319, nous pouvons écrire:

In [None]:
df.loc[df.UPC == 1111085319]

Ces expressions booléennes peuvent être combinées avec l'esperluette (`&`) permettant d'appliquer l'opérateur `and` sur chacun des éléments, et le tube (`|`) permettant la même chose avec l'opérateur `or`. La méthode `isin()` peut également être utile.

In [None]:
df.loc[(df.UPC == 1111085319) & (df.FEATURE == True)]

Enfin, pour trouver des valeurs nulles et non nulles, vous pouvez utiliser les méthodes `isnull()` et `notnull()`.

# Fonctions récapitulatives et *mappings*
## Fonctions récapitulatives
Certaines fonctions récapitulatives intéressantes sont les méthodes `describe()`, `unique()` et `value_counts()`:

- **Méthode `describe()`**
Cette méthode permet de visualiser certains détails statistiques de base comme la moyenne, la variance, les percentiles, etc.

- **Méthode `unique()`**
Cette méthode est utilisée pour obtenir des valeurs uniques d'une `Series`.

- **Méthode `value_counts()`**
Cette méthode est utilisée pour obtenir une série de valeurs uniques et le compte de chaque valeur.

En exécutant ces méthodes ci-dessous, nous constatons qu'il n'y a qu'un seul magasin et seulement 7 UPC différents dans cet ensemble de données. Nous constatons également que les données ont été compilées sur 156 semaines.

In [None]:
df.describe()

In [None]:
df.STORE_NUM.unique()

In [None]:
df.UPC.value_counts()

In [None]:
df.WEEK_END_DATE.value_counts()

## *Mappings*
### `map`
La méthode `map()` est utile pour appliquer une fonction à chaque élément d'un sous-ensemble d'un `DataFrame`. Elle est souvent utilisée avec une expression `lambda`. Avec le mot-clé lambda, il est possible de créer de petites fonctions anonymes; c.-à-d., de définir une fonction qui ne sera pas réutilisée ailleurs dans le code. Une expression `lambda` définit d'abord la ou les entrées sur le côté gauche des deux points (`:`). Ensuite, sur le côté droit des deux points (`:`), il fournit ce qui doit être retourné par cette fonction. *Si votre fonction nécessite plusieurs lignes de code, il peut être préférable de définir une fonction en utilisant une syntaxe standard `def ...` au lieu d'une expression `lambda`.*

À titre d'exemple, la fonction suivante:
``` python
def times_two(x):
    return x * 2
```
est équivalente à l'expression `lambda` suivante:
``` python
lambda x: x * 2
```

In [None]:
def times_two(x):
    return x * 2

df.PRICE.map(times_two)

In [None]:
df.PRICE.map(lambda x: x * 2)

In [None]:
# Normalisons la colonne SPEND
# Notez que le résultat n'est pas enregistré car il n'est pas affecté à une variable
df.SPEND.map(
    lambda x: (x - df.SPEND.mean()) / df.SPEND.std())

In [None]:
# Le code précédent équivaut au suivant
# où nous n'utilisons pas la méthode map()
# Ce code suivant est également généralement plus rapide
(df.SPEND - df.SPEND.mean()) / df.SPEND.std()

### `apply`
La méthode `apply()` permet de parcourir chaque ligne ou chaque colonne (au lieu de chaque élément comme pour la méthode `map()`). Elle peut également être utilisée avec une expression `lambda`.

À titre d'exemple, calculons le rabais en pourcentage ($\frac{\mathit{BASE\_PRICE} - \mathit{PRICE}}{\mathit{BASE\_PRICE}} $) lorsque l'article est dans la circulaire (FEATURE est égal à 1). On ajoute ensuite ce calcul à la colonne REBATE_PERC.

In [None]:
def rebate_perc(row):
    if row.FEATURE == 1:
        rebate = (row.BASE_PRICE - row.PRICE) / row.BASE_PRICE
        return rebate
    elif row.FEATURE == 0:
        return 0

# axis='columns' permet de parcourir chaque ligne
# axis='index' permet de parcourir chaque colonne
df['REBATE_PERC'] = df.apply(rebate_perc, axis='columns')
df.head()

# Regroupement et tri

## Regroupement
La méthode `groupby()` est similaire aux tableaux croisés dynamiques dans Excel. Elle permet de regrouper les éléments par une ou plusieurs dimensions (les zones *Lignes* et *Colonnes* de la fenêtre des paramètres du tableau croisé dynamique). Après avoir regroupé les éléments, vous pouvez ensuite calculer certaines fonctions d'aggrégation sur ces groupes (la zone *Valeurs* de la fenêtre des paramètres du tableau croisé dynamique). Ces fonctions d'aggrégation peuvent être les vôtres; définies par une expression `lambda` ou une définition de fonction standard (en utilisant `def ...`).

Comme premier exemple, calculons le prix de vente moyen de chaque UPC.

In [None]:
df.groupby('UPC').PRICE.mean()

Comme deuxième exemple, calculons le nombre de fois où chaque UPC est apparu dans la circulaire. N'oubliez pas que cette variable est une variable binaire/booléenne.

In [None]:
df.groupby('UPC').FEATURE.sum()

Comme troisième et dernier exemple, identifions les prix minimum et maximum pour chaque UPC et chaque valeur possible de la variable FEATURE (lorsque l'article est dans la circulaire, FEATURE est égal à 1). Notez que l'index renvoyé est maintenant un multi-index. Il est possible de déplacer ce multi-index sous forme de colonnes en appliquant la méthode `reset_index()`.

In [None]:
df.groupby(['UPC', 'FEATURE']).PRICE.agg([min, max])

## Tri
Il est également possible de trier un `DataFrame` ou une `Series` par une ou plusieurs variables en utilisant la méthode `sort_values()`. Si vous souhaitez plutôt trier sur l'index, vous devez utiliser la méthode `sort_index()`.

Par exemple, ci-dessous, nous trions d'abord par PRICE et, s'il y a des égalités, nous trions ensuite par BASE_PRICE. Ce tri se fait par ordre décroissant (`ascending=False`).

In [None]:
df.sort_values(by=['PRICE', 'BASE_PRICE'], ascending=False)

# Types de données et valeurs manquantes

## Types de données
`pandas` attribue différents types aux différentes colonnes. Certains types courants sont:
- `int` noté par `int64`
- `float` noté par `float64`
- `str` noté par `object`
- dates noté par `datetime64[ns]`

`pandas` peut désigner vos dates comme `object` s'il ne comprend pas que ce sont des dates. Il est important que vos dates soient du type `datetime64[ns]` si vous souhaitez utiliser certaines des fonctions intéressantes disponibles dans `pandas` pour manipuler les dates.

Il est possible de vérifier le type d'une colonne en utilisant la propriété `dtype`. Il est également possible de vérifier le type de toutes les colonnes en utilisant la propriété `dtypes` comme ci-dessous.

In [None]:
df.dtypes

Si vous souhaitez convertir le type d'une colonne, vous pouvez utiliser la méthode `astype()`.

Par exemple, si nous voulons convertir le type de STORE_NUM de `int64` en `float64`, nous procédons comme suit:

In [None]:
df.STORE_NUM.astype('float64')  # ou utiliser juste float

## Données manquantes
Il est possible de vérifier s'il y a des valeurs nulles dans une colonne d'un `DataFrame` (ou dans un `DataFrame` complet) en utilisant la méthode `isnull()` (ou son compagnon `notnull()`). Ceux-ci renvoient une valeur booléene indiquant si des valeurs nulles (désignées par `NaN`) sont présentes. Notez que les valeurs `NaN` sont toujours de type `float64`.

Vérifions ci-dessous si nous avons des valeurs manquantes dans la colonne SPEND.

In [None]:
df.SPEND.isnull()

In [None]:
df.SPEND.isnull().sum()

Vérifions maintenant s'il y a des valeurs manquantes dans des colonnes.

In [None]:
df.isnull().sum()

Si nous avions trouvé des valeurs manquantes, nous aurions pu les remplacer en utilisant la méthode `fillna()`. Il est également possible de remplacer d'autres valeurs en utilisant la méthode `replace()`.

Par exemple, dans la colonne STORE_NUM remplaçons la valeur 367 par du texte (c.-à-d., `'Kwik-E-Mart'`) et affichons ce texte dans une nouvelle colonne. Notez ici qu'il n'y a qu'un seul numéro de magasin dans les données.

In [None]:
df['STORE_TXT'] = df.STORE_NUM.replace(367, 'Kwik-E-Mart')  # la nouvelle colonne se retrouve à droite des colonnes existantes
df

# Renommage et combinaison

## Renommage
Il est également possible de renommer des index ou des colonnes en utilisant la méthode `rename()`. Une manière élégante d'utiliser cette méthode est de fournir un dictionnaire où les clés sont les index ou les étiquettes courants des colonnes, et les valeurs sont les nouveaux index ou les nouvelles étiquettes des colonnes.

Par exemple, renommons la colonne WEEK_END_DATE en END_DATE.

In [None]:
df.rename(columns={'WEEK_END_DATE': 'END_DATE'})

Comme autre exemple, renommmons l'index 0 `'First row'`, puis l'index 1 `'Second row'`.

In [None]:
df.rename(index={0:'First row', 1:'Second row'})

## Combinaison
Il existe plusieurs méthodes pour joindre deux `DataFrame` ensemble: `concat()`, `join()` et `merge()`. Pourtant, avec seulement `concat()` et `join()`, il est possible de presque tout faire.

- `concat()` est utile lorsque vous avez deux `DataFrame` qui contiennent les mêmes colonnes, mais des lignes différentes. En utilisant `concat()`, il est possible de mettre un `DataFrame` à la fin de l'autre (c.-à-d., en bas de l'autre) et d'obtenir ainsi un seul grand `DataFrame`.

- `join()` est utile pour joindre des données de deux `DataFrame` qui ont un index en commun. Ceci est quelque peu similaire à la fonction RECHERCHEV dans Excel. La méthode `join()` est souvent utilisée car les données sont souvent dispersées dans plusieurs bases de données.

Faisons maintenant un exemple de la méthode `join()`. Supposons que nous avons d'autres données décrivant nos UPC. Par exemple, disons que nous avons le poids (WEIGHT) de chaque UPC dans un autre `DataFrame`.

In [None]:
df2 = pd.DataFrame({
    'UPC': [1111085319, 1111085350, 1600027527, 1600027528, 1600027564, 3000006340, 3800031829],
    'WEIGHT': [500, 450, 300, 475, 550, 380, 525]})
df2

Pour pouvoir amener la variable WEIGHT dans le `DataFrame` principal, nous devrons d'abord définir l'index des deux `DataFrame` avec la colonne UPC.

In [None]:
right = df2.set_index('UPC')
right

In [None]:
left = df.set_index('UPC')
left

Il est maintenant possible de joindre les deux `DataFrame` comme suit (puis de réinitialiser l'index):

In [None]:
df = left.join(right).reset_index()
df

Notez cependant que l'ordre a changé. Trions donc les valeurs par WEEK_END_DATE, puis par UPC. Nous réinitialisons à nouveau l'index et supprimons l'ancien index par la suite (`drop=True`) car il n'est pas utile.

In [None]:
df.sort_values(by=['WEEK_END_DATE', 'UPC']).reset_index(drop=True)

# Visualisation des données

Différentes façons sont disponibles dans pandas afin de visualiser les données. Il suffit simplement d'utiliser un argument différent dans la méthode `.plot()` comme:
 - `'bar'` ou `'barh'` pour un diagramme à barre,
 - `'hist'` pour un histogramme,
 - `'box'` pour un boxplot,
 - `'kde'` ou `'density'` pour un diagramme de densité,
 - `'area'` pour un diagramme de surface,
 - `'scatter'` pour un nuage de points,
 - `'hexbin'` pour un diagramme hexagonal, et
 - `'pie'` pour un diagramme circulaire.
 
Vous pouvez consulter [cette page](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html) pour plus d'informations.

À titre d'exemple, visualisons le nombre d'unités (colonne `'UNITS'`). Nous utilisons ici des doubles crochets `[[]]` pour indiquer les colonnes que nous voulons visualiser. Un tracé linéaire est l'option par défaut de la méthode `.plot()`.

Dans le code suivant, nous choisissons un produit à tracer. Puisque l'indice sera sur l'axe des x, nous utilisons `WEEK_END_DATE` comme axe des x.

In [None]:
mask = df.UPC == 1111085319
single_prod_df = df.loc[mask][['UNITS', 'VISITS', 'WEEK_END_DATE']]
# on peut mettre 'WEEK_END_DATE' comme index
# noter que pour un produit les 'WEEK_END_DATE' sont tous différents
single_prod_df = single_prod_df.set_index('WEEK_END_DATE')
single_prod_df.plot()

In [None]:
# il est aussi possible de changer la taille du graphique
single_prod_df.plot(figsize=(12,3))

In [None]:
# on peut aussi tracer seulement une Series
single_prod_df.UNITS.plot()

Nous pouvons combiner certaines des fonctions et méthodes des objets `DataFrame` pour visualiser des informations importantes. Par exemple, si nous sommes intéressés à visualiser le nombre d'unités vendues de chaque produit (`'UPC'`), nous pouvons le faire :

In [None]:
df2 = df.groupby(['UPC']).sum() 
df2.plot(y='UNITS', kind='barh')

Ou si nous sommes intéressés par la visualisation du prix moyen et du prix de base pour chaque produit, nous pouvons le faire :

In [None]:
df3 = df.groupby(['UPC']).mean()
df3.plot(y=['PRICE', 'BASE_PRICE'], kind='barh')