# Pandas - Survol

Le but de ce fichier est de vous fournir un récapitulatif des différents enseignements que vous avez vus pendant le [cours Kaggle sur pandas](https://www.kaggle.com/learn/pandas). `pandas` est une librairie (tierce) populaire pour analyser et manipuler les données. Construite sur le langage de programmation Python, c'est un outil rapide, puissant, flexible et facile à utiliser.

**Notez que la plupart des opérations dans `pandas` vous renvoient un nouvel objet. Ces opérations ne sont généralement pas effectuées en-place. Ainsi, si vous souhaitez conserver vos résultats, vous devez les assigner à une variable.**

# Création, lecture et écriture

Pour utiliser la librairie `pandas`, vous devez d'abord l'importer; vous ne pouvez et ne devez l'importer qu'une seule fois par `Jupyter Notebook`. Vous pouvez le faire de différentes façons (tout comme pour d'autres librairies). La première approche est la suivante:
``` python
import pandas
```
Ce faisant, vous devez ensuite écrire `pandas` devant tous les éléments `pandas` auxquels vous souhaitez accéder. Par exemple, pour créer un `DataFrame`, vous devez effectuer l'opération suivante:
``` pyton
pandas.DataFrame({'Yes':[50, 21], 'No':[131, 2]})
```

---

La deuxième approche consiste à importer la librairie sous un alias (c.-à-d., un nom différent). Une convention lors de l'importation de `pandas` est de l'importer sous le nom `pd`. Vous devez tout de même ensuite écrire `pd` devant tous les éléments `pandas` auxquels vous souhaitez accéder, mais cela permet de réduire le nombre de lettres à écrire. Par exemple, le code précédent se réduirait à:
``` python
import pandas as pd
pd.DataFrame({'Yes':[50, 21], 'No':[131, 2]})
```

---

La troisième approche consiste à importer uniquement les éléments de la librairie dont vous avez besoin. Par exemple, si vous avez seulement besoin de l'objet `DataFrame`, vous pouvez procéder de la façon suivante:
``` python
from pandas import DataFrame
DataFrame({'Yes':[50, 21], 'No':[131, 2]})
```

---

Importons `pandas` en utilisant la deuxième approche:

In [1]:
import pandas as pd

## `DataFrame` et `Series`
Les deux principaux objets d'intérêt dans la librairie `pandas` sont les objets` DataFrame` et `Series`.

---
Il est possible de créer un `DataFrame` en fournissant un dictionnaire où les clés sont les étiquettes des colonnes et les valeurs sont des listes contenant les différents éléments de la colonne correspondante. Notez que toutes les listes doivent être de la même longueur.

In [2]:
pd.DataFrame({'Yes':[50, 21], 'No':[131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


Il est possible de créer une `Series` en fournissant une liste. Une `Series` peut être considérée comme une colonne d'un `DataFrame`.

In [3]:
pd.Series([4, 5, 2, 9])

0    4
1    5
2    2
3    9
dtype: int64

## Importer des données
La plupart du temps, les données ne sont pas entrées manuellement dans le constructeur, mais elles sont plutôt importées à partir d'un fichier externe. Cela peut être fait en utilisant les commandes `read_csv()` pour les fichiers CSV (*Comma-Separated Values* ou valeurs séparées par des virgules) ou `read_excel()` pour les fichiers Excel. D'autres options sont également disponibles dans la documentation `pandas`.

Importons maintenant un fichier CSV:

In [4]:
# Import la colonne WEEK_END_DATE en tant que date
df = pd.read_csv('salesCerealsOriginal.csv', parse_dates=['WEEK_END_DATE']) 
df.shape

(1067, 15)

In [None]:
import requests

url = https://raw.githubusercontent.com/

In [5]:
df.head()

Unnamed: 0,WEEK_END_DATE,STORE_NUM,UPC,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY
0,2009-01-14,367,1111085319,14,13,13,26.32,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
1,2009-01-14,367,1111085350,35,27,25,69.3,1.98,1.98,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL
2,2009-01-14,367,1600027527,12,10,10,38.28,3.19,3.19,0,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL
3,2009-01-14,367,1600027528,31,26,19,142.29,4.59,4.59,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL
4,2009-01-14,367,1600027564,56,48,42,152.32,2.72,3.07,1,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL


Voici une description des variables du précédent `DataFrame`. Notez que ce fichier sera également réutilisé aux séances suivantes.

| VARIABLE | DESCRIPTION | 
|:----|:----|
|WEEK_END_DATE|date de fin de semaine|
|STORE_NUM|numéro de magasin|
|UPC|identifiant spécifique au produit (*Universal Product Code*)|
|UNITS|nombre d'unités vendues|
|VISITS|nombre d'achats uniques (paniers) comprenant le produit|
|HHS|nombre de ménages acheteurs|
|SPEND|total dépensé (c.-à-d., $ ventes)|
|PRICE|montant réel facturé pour le produit en rayon|
|BASE_PRICE|prix de base de l'article|
|FEATURE|indication de si le produit était dans la circulaire du magasin|
|DISPLAY|indication de si le produit faisait partie de l'affichage promotionnel en magasin|
|TPR_ONLY|indication de si le produit était en réduction de prix temporaire (c.-à-d., étiquette d'étagère uniquement; pas sur l'affichage ou dans la circulaire)|
|DESCRIPTION|description du produit|
|CATEGORY|catégorie du produit|
|SUB_CATEGORY|sous-catégorie du produit|



## Exporter des données
L'exportation de données peut être effectuée avec des méthodes analogues telles que `to_csv()` et `to_excel()`.

# Indexation, sélection et affectation

Vous pouvez accéder à toutes les colonnes d'un `DataFrame` en utilisant la notation par point ou en utilisant les crochets `[]`. Ensuite, vous pouvez accéder à une ligne spécifique dans cette colonne en utilisant à nouveau les crochets `[]` avec le numéro de la ligne. Notez que cette seconde indexation peut parfois conduire à des résultats étranges selon la façon dont les index sont définis.

In [6]:
df.UPC

0       1111085319
1       1111085350
2       1600027527
3       1600027528
4       1600027564
           ...    
1062    1111085350
1063    1600027527
1064    1600027528
1065    1600027564
1066    3800031829
Name: UPC, Length: 1067, dtype: int64

In [7]:
df['UPC']

0       1111085319
1       1111085350
2       1600027527
3       1600027528
4       1600027564
           ...    
1062    1111085350
1063    1600027527
1064    1600027528
1065    1600027564
1066    3800031829
Name: UPC, Length: 1067, dtype: int64

In [8]:
df.UPC[0]

1111085319

In [9]:
df['UPC'][0]

1111085319

## Sélection basée sur un index
Une autre façon d'accéder aux éléments d'un `DataFrame` est d'utiliser la **sélection basée sur un index**, c'est-à-dire la méthode `iloc[]`. La sélection se fait par le numéro d'index de la ligne et de la colonne. Par exemple, pour accéder à la première ligne de la colonne numéro 3 (c'est-à-dire, la colonne 'UPC'), nous écrivons:

In [10]:
df.iloc[0, 2]

1111085319

## Sélection basée sur les étiquettes
Une troisième option permettant d'accéder aux éléments d'un `DataFrame` est d'utiliser la **sélection basée sur les étiquettes**, c'est-à-dire la méthode `loc[]`. La sélection se fait par les étiquettes de ligne et de colonne. En revenant à notre notre dernier exemple, nous écrivons:

In [11]:
df.loc[0, 'UPC']

1111085319

Il est également possible d'utiliser la méthode `loc[]` avec des masques booléens. Par exemple, pour afficher toutes les lignes liées à l'UPC 1111085319, nous pouvons écrire:

In [12]:
df.loc[df.UPC == 1111085319]

Unnamed: 0,WEEK_END_DATE,STORE_NUM,UPC,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY
0,2009-01-14,367,1111085319,14,13,13,26.32,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
7,2009-01-21,367,1111085319,12,12,12,22.68,1.89,1.89,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
14,2009-01-28,367,1111085319,18,17,16,33.66,1.87,1.87,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
21,2009-02-04,367,1111085319,13,13,13,24.44,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
28,2009-02-11,367,1111085319,16,16,16,29.92,1.87,1.87,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1037,2011-12-07,367,1111085319,12,12,12,21.84,1.82,1.82,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
1043,2011-12-14,367,1111085319,14,14,14,22.82,1.63,1.82,0,0,1,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
1049,2011-12-21,367,1111085319,8,8,8,13.36,1.67,1.67,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
1055,2011-12-28,367,1111085319,3,2,2,4.95,1.65,1.65,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL


Ces expressions booléennes peuvent être combinées avec l'esperluette (`&`) permettant d'appliquer l'opérateur `and` sur chacun des éléments, et le tube (`|`) permettant la même chose avec l'opérateur `or`. La méthode `isin()` peut également être utile.

In [13]:
df.loc[(df.UPC == 1111085319) & (df.FEATURE == True)]

Unnamed: 0,WEEK_END_DATE,STORE_NUM,UPC,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY
112,2009-05-06,367,1111085319,31,28,27,51.46,1.66,1.89,1,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
217,2009-08-19,367,1111085319,22,22,21,36.08,1.64,1.89,1,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
788,2011-03-16,367,1111085319,15,13,13,25.05,1.67,1.89,1,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL
802,2011-03-30,367,1111085319,14,12,12,23.38,1.67,1.89,1,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL


Enfin, pour trouver des valeurs nulles et non nulles, vous pouvez utiliser les méthodes `isnull()` et `notnull()`.

# Fonctions récapitulatives et *mappings*
## Fonctions récapitulatives
Certaines fonctions récapitulatives intéressantes sont les méthodes `describe()`, `unique()` et `value_counts()`:

- **Méthode `describe()`**
Cette méthode permet de visualiser certains détails statistiques de base comme la moyenne, la variance, les percentiles, etc.

- **Méthode `unique()`**
Cette méthode est utilisée pour obtenir des valeurs uniques d'une `Series`.

- **Méthode `value_counts()`**
Cette méthode est utilisée pour obtenir une série de valeurs uniques et le compte de chaque valeur.

En exécutant ces méthodes ci-dessous, nous constatons qu'il n'y a qu'un seul magasin et seulement 7 UPC différents dans cet ensemble de données. Nous constatons également que les données ont été compilées sur 156 semaines.

In [14]:
df.describe()

Unnamed: 0,STORE_NUM,UPC,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY
count,1067.0,1067.0,1067.0,1067.0,1067.0,1067.0,1067.0,1067.0,1067.0,1067.0,1067.0
mean,367.0,1951150000.0,21.25492,18.419869,14.753515,62.282971,2.913627,3.074808,0.085286,0.059044,0.156514
std,0.0,945967900.0,16.805829,13.416754,12.50794,47.895126,0.89475,0.863631,0.279438,0.235818,0.363512
min,367.0,1111085000.0,1.0,1.0,1.0,1.87,1.51,1.6,0.0,0.0,0.0
25%,367.0,1111085000.0,12.0,12.0,8.0,28.715,2.06,2.43,0.0,0.0,0.0
50%,367.0,1600028000.0,19.0,17.0,13.0,50.88,2.85,3.05,0.0,0.0,0.0
75%,367.0,3000006000.0,27.0,23.0,18.0,81.92,3.29,3.29,0.0,0.0,0.0
max,367.0,3800032000.0,243.0,187.0,179.0,414.4,4.79,4.79,1.0,1.0,1.0


In [15]:
df.STORE_NUM.unique()

array([367], dtype=int64)

In [16]:
df.UPC.value_counts()

1111085319    156
1111085350    156
1600027527    156
1600027528    156
3800031829    155
1600027564    155
3000006340    133
Name: UPC, dtype: int64

In [17]:
df.WEEK_END_DATE.value_counts()

2009-07-01    7
2010-11-24    7
2011-04-20    7
2009-06-24    7
2010-09-29    7
             ..
2011-09-07    6
2011-08-31    6
2011-10-26    6
2011-12-07    6
2011-11-02    6
Name: WEEK_END_DATE, Length: 156, dtype: int64

## *Mappings*
### `map`
La méthode `map()` est utile pour appliquer une fonction à chaque élément d'un sous-ensemble d'un `DataFrame`. Elle est souvent utilisée avec une expression `lambda`. Avec le mot-clé lambda, il est possible de créer de petites fonctions anonymes; c.-à-d., de définir une fonction qui ne sera pas réutilisée ailleurs dans le code. Une expression `lambda` définit d'abord la ou les entrées sur le côté gauche des deux points (`:`). Ensuite, sur le côté droit des deux points (`:`), il fournit ce qui doit être retourné par cette fonction. *Si votre fonction nécessite plusieurs lignes de code, il peut être préférable de définir une fonction en utilisant une syntaxe standard `def ...` au lieu d'une expression `lambda`.*

À titre d'exemple, la fonction suivante:
``` python
def times_two(x):
    return x * 2
```
est équivalente à l'expression `lambda` suivante:
``` python
lambda x: x * 2
```

In [18]:
def times_two(x):
    return x * 2

df.PRICE.map(times_two)

0       3.76
1       3.96
2       6.38
3       9.18
4       5.44
        ... 
1062    4.98
1063    3.86
1064    9.58
1065    6.38
1066    7.78
Name: PRICE, Length: 1067, dtype: float64

In [19]:
df.PRICE.map(lambda x: x * 2)

0       3.76
1       3.96
2       6.38
3       9.18
4       5.44
        ... 
1062    4.98
1063    3.86
1064    9.58
1065    6.38
1066    7.78
Name: PRICE, Length: 1067, dtype: float64

In [20]:
# Normalisons la colonne SPEND
# Notez que le résultat n'est pas enregistré car il n'est pas affecté à une variable
df.SPEND.map(
    lambda x: (x - df.SPEND.mean()) / df.SPEND.std())

0      -0.750869
1       0.146508
2      -0.501157
3       1.670463
4       1.879879
          ...   
1062   -1.248415
1063   -0.051215
1064    1.399872
1065    1.030732
1066    0.892513
Name: SPEND, Length: 1067, dtype: float64

In [21]:
# Le code précédent équivaut au suivant
# où nous n'utilisons pas la méthode map()
# Ce code suivant est également généralement plus rapide
(df.SPEND - df.SPEND.mean()) / df.SPEND.std()

0      -0.750869
1       0.146508
2      -0.501157
3       1.670463
4       1.879879
          ...   
1062   -1.248415
1063   -0.051215
1064    1.399872
1065    1.030732
1066    0.892513
Name: SPEND, Length: 1067, dtype: float64

### `apply`
La méthode `apply()` permet de parcourir chaque ligne ou chaque colonne (au lieu de chaque élément comme pour la méthode `map()`). Elle peut également être utilisée avec une expression `lambda`.

À titre d'exemple, calculons le rabais en pourcentage ($\frac{\mathit{BASE\_PRICE} - \mathit{PRICE}}{\mathit{BASE\_PRICE}} $) lorsque l'article est dans la circulaire (FEATURE est égal à 1). On ajoute ensuite ce calcul à la colonne REBATE_PERC.

In [22]:
def rebate_perc(row):
    if row.FEATURE == 1:
        rebate = (row.BASE_PRICE - row.PRICE) / row.BASE_PRICE
        return rebate
    elif row.FEATURE == 0:
        return 0

# axis='columns' permet de parcourir chaque ligne
# axis='index' permet de parcourir chaque colonne
df['REBATE_PERC'] = df.apply(rebate_perc, axis='columns')
df.head()

Unnamed: 0,WEEK_END_DATE,STORE_NUM,UPC,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY,REBATE_PERC
0,2009-01-14,367,1111085319,14,13,13,26.32,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0
1,2009-01-14,367,1111085350,35,27,25,69.3,1.98,1.98,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.0
2,2009-01-14,367,1600027527,12,10,10,38.28,3.19,3.19,0,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.0
3,2009-01-14,367,1600027528,31,26,19,142.29,4.59,4.59,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.0
4,2009-01-14,367,1600027564,56,48,42,152.32,2.72,3.07,1,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.114007


# Regroupement et tri

## Regroupement
La méthode `groupby()` est similaire aux tableaux croisés dynamiques dans Excel. Elle permet de regrouper les éléments par une ou plusieurs dimensions (les zones *Lignes* et *Colonnes* de la fenêtre des paramètres du tableau croisé dynamique). Après avoir regroupé les éléments, vous pouvez ensuite calculer certaines fonctions d'aggrégation sur ces groupes (la zone *Valeurs* de la fenêtre des paramètres du tableau croisé dynamique). Ces fonctions d'aggrégation peuvent être les vôtres; définies par une expression `lambda` ou une définition de fonction standard (en utilisant `def ...`).

Comme premier exemple, calculons le prix de vente moyen de chaque UPC.

In [23]:
df.groupby('UPC').PRICE.mean()

UPC
1111085319    1.788910
1111085350    2.183333
1600027527    2.893077
1600027528    4.498590
1600027564    2.893355
3000006340    2.878195
3800031829    3.256774
Name: PRICE, dtype: float64

Comme deuxième exemple, calculons le nombre de fois où chaque UPC est apparu dans la circulaire. N'oubliez pas que cette variable est une variable binaire/booléenne.

In [24]:
df.groupby('UPC').FEATURE.sum()

UPC
1111085319     4
1111085350     9
1600027527    18
1600027528    12
1600027564    16
3000006340    17
3800031829    15
Name: FEATURE, dtype: int64

Comme troisième et dernier exemple, identifions les prix minimum et maximum pour chaque UPC et chaque valeur possible de la variable FEATURE (lorsque l'article est dans la circulaire, FEATURE est égal à 1). Notez que l'index renvoyé est maintenant un multi-index. Il est possible de déplacer ce multi-index sous forme de colonnes en appliquant la méthode `reset_index()`.

In [25]:
df.groupby(['UPC', 'FEATURE']).PRICE.agg([min, max])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max
UPC,FEATURE,Unnamed: 2_level_1,Unnamed: 3_level_1
1111085319,0,1.6,1.99
1111085319,1,1.64,1.67
1111085350,0,1.82,2.49
1111085350,1,1.9,2.01
1600027527,0,1.68,3.39
1600027527,1,1.66,2.99
1600027528,0,2.67,4.79
1600027528,1,2.6,3.88
1600027564,0,1.51,3.29
1600027564,1,2.34,3.0


## Tri
Il est également possible de trier un `DataFrame` ou une `Series` par une ou plusieurs variables en utilisant la méthode `sort_values()`. Si vous souhaitez plutôt trier sur l'index, vous devez utiliser la méthode `sort_index()`.

Par exemple, ci-dessous, nous trions d'abord par PRICE et, s'il y a des égalités, nous trions ensuite par BASE_PRICE. Ce tri se fait par ordre décroissant (`ascending=False`).

In [26]:
df.sort_values(by=['PRICE', 'BASE_PRICE'], ascending=False)

Unnamed: 0,WEEK_END_DATE,STORE_NUM,UPC,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY,REBATE_PERC
784,2011-03-09,367,1600027528,27,20,8,129.33,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.0
791,2011-03-16,367,1600027528,14,12,7,67.06,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.0
798,2011-03-23,367,1600027528,16,15,4,76.64,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.0
805,2011-03-30,367,1600027528,39,31,11,186.81,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.0
812,2011-04-06,367,1600027528,29,22,6,138.91,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49,2009-03-04,367,1111085319,2,2,2,3.22,1.61,1.87,0,0,1,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0
308,2009-11-18,367,1111085319,20,20,20,32.00,1.60,1.88,0,0,1,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0
621,2010-09-29,367,1111085319,22,20,18,35.20,1.60,1.60,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0
635,2010-10-13,367,1111085319,30,24,24,48.00,1.60,1.60,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0


# Types de données et valeurs manquantes

## Types de données
`pandas` attribue différents types aux différentes colonnes. Certains types courants sont:
- `int` noté par `int64`
- `float` noté par `float64`
- `str` noté par `object`
- dates noté par `datetime64[ns]`

`pandas` peut désigner vos dates comme `object` s'il ne comprend pas que ce sont des dates. Il est important que vos dates soient du type `datetime64[ns]` si vous souhaitez utiliser certaines des fonctions intéressantes disponibles dans `pandas` pour manipuler les dates.

Il est possible de vérifier le type d'une colonne en utilisant la propriété `dtype`. Il est également possible de vérifier le type de toutes les colonnes en utilisant la propriété `dtypes` comme ci-dessous.

In [27]:
df.dtypes

WEEK_END_DATE    datetime64[ns]
STORE_NUM                 int64
UPC                       int64
UNITS                     int64
VISITS                    int64
HHS                       int64
SPEND                   float64
PRICE                   float64
BASE_PRICE              float64
FEATURE                   int64
DISPLAY                   int64
TPR_ONLY                  int64
DESCRIPTION              object
CATEGORY                 object
SUB_CATEGORY             object
REBATE_PERC             float64
dtype: object

Si vous souhaitez convertir le type d'une colonne, vous pouvez utiliser la méthode `astype()`.

Par exemple, si nous voulons convertir le type de STORE_NUM de `int64` en `float64`, nous procédons comme suit:

In [28]:
df.STORE_NUM.astype('float64')  # ou utiliser juste float

0       367.0
1       367.0
2       367.0
3       367.0
4       367.0
        ...  
1062    367.0
1063    367.0
1064    367.0
1065    367.0
1066    367.0
Name: STORE_NUM, Length: 1067, dtype: float64

## Données manquantes
Il est possible de vérifier s'il y a des valeurs nulles dans une colonne d'un `DataFrame` (ou dans un `DataFrame` complet) en utilisant la méthode `isnull()` (ou son compagnon `notnull()`). Ceux-ci renvoient une valeur booléene indiquant si des valeurs nulles (désignées par `NaN`) sont présentes. Notez que les valeurs `NaN` sont toujours de type `float64`.

Vérifions ci-dessous si nous avons des valeurs manquantes dans la colonne SPEND.

In [29]:
df.SPEND.isnull()

0       False
1       False
2       False
3       False
4       False
        ...  
1062    False
1063    False
1064    False
1065    False
1066    False
Name: SPEND, Length: 1067, dtype: bool

In [30]:
df.SPEND.isnull().sum()

0

Vérifions maintenant s'il y a des valeurs manquantes dans des colonnes.

In [31]:
df.isnull().sum()

WEEK_END_DATE    0
STORE_NUM        0
UPC              0
UNITS            0
VISITS           0
HHS              0
SPEND            0
PRICE            0
BASE_PRICE       0
FEATURE          0
DISPLAY          0
TPR_ONLY         0
DESCRIPTION      0
CATEGORY         0
SUB_CATEGORY     0
REBATE_PERC      0
dtype: int64

Si nous avions trouvé des valeurs manquantes, nous aurions pu les remplacer en utilisant la méthode `fillna()`. Il est également possible de remplacer d'autres valeurs en utilisant la méthode `replace()`.

Par exemple, dans la colonne STORE_NUM remplaçons la valeur 367 par du texte (c.-à-d., `'Kwik-E-Mart'`) et affichons ce texte dans une nouvelle colonne. Notez ici qu'il n'y a qu'un seul numéro de magasin dans les données.

In [32]:
df['STORE_TXT'] = df.STORE_NUM.replace(367, 'Kwik-E-Mart')  # la nouvelle colonne se retrouve à droite des colonnes existantes
df

Unnamed: 0,WEEK_END_DATE,STORE_NUM,UPC,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY,REBATE_PERC,STORE_TXT
0,2009-01-14,367,1111085319,14,13,13,26.32,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1,2009-01-14,367,1111085350,35,27,25,69.30,1.98,1.98,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
2,2009-01-14,367,1600027527,12,10,10,38.28,3.19,3.19,0,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
3,2009-01-14,367,1600027528,31,26,19,142.29,4.59,4.59,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
4,2009-01-14,367,1600027564,56,48,42,152.32,2.72,3.07,1,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.114007,Kwik-E-Mart
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1062,2012-01-04,367,1111085350,1,1,1,2.49,2.49,2.49,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1063,2012-01-04,367,1600027527,31,29,29,59.83,1.93,3.12,1,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.381410,Kwik-E-Mart
1064,2012-01-04,367,1600027528,27,26,21,129.33,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1065,2012-01-04,367,1600027564,35,29,25,111.65,3.19,3.19,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart


# Renommage et combinaison

## Renommage
Il est également possible de renommer des index ou des colonnes en utilisant la méthode `rename()`. Une manière élégante d'utiliser cette méthode est de fournir un dictionnaire où les clés sont les index ou les étiquettes courants des colonnes, et les valeurs sont les nouveaux index ou les nouvelles étiquettes des colonnes.

Par exemple, renommons la colonne WEEK_END_DATE en END_DATE.

In [33]:
df.rename(columns={'WEEK_END_DATE': 'END_DATE'})

Unnamed: 0,END_DATE,STORE_NUM,UPC,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY,REBATE_PERC,STORE_TXT
0,2009-01-14,367,1111085319,14,13,13,26.32,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1,2009-01-14,367,1111085350,35,27,25,69.30,1.98,1.98,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
2,2009-01-14,367,1600027527,12,10,10,38.28,3.19,3.19,0,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
3,2009-01-14,367,1600027528,31,26,19,142.29,4.59,4.59,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
4,2009-01-14,367,1600027564,56,48,42,152.32,2.72,3.07,1,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.114007,Kwik-E-Mart
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1062,2012-01-04,367,1111085350,1,1,1,2.49,2.49,2.49,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1063,2012-01-04,367,1600027527,31,29,29,59.83,1.93,3.12,1,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.381410,Kwik-E-Mart
1064,2012-01-04,367,1600027528,27,26,21,129.33,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1065,2012-01-04,367,1600027564,35,29,25,111.65,3.19,3.19,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart


Comme autre exemple, renommmons l'index 0 `'First row'`, puis l'index 1 `'Second row'`.

In [34]:
df.rename(index={0:'First row', 1:'Second row'})

Unnamed: 0,WEEK_END_DATE,STORE_NUM,UPC,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY,REBATE_PERC,STORE_TXT
First row,2009-01-14,367,1111085319,14,13,13,26.32,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
Second row,2009-01-14,367,1111085350,35,27,25,69.30,1.98,1.98,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
2,2009-01-14,367,1600027527,12,10,10,38.28,3.19,3.19,0,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
3,2009-01-14,367,1600027528,31,26,19,142.29,4.59,4.59,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
4,2009-01-14,367,1600027564,56,48,42,152.32,2.72,3.07,1,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.114007,Kwik-E-Mart
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1062,2012-01-04,367,1111085350,1,1,1,2.49,2.49,2.49,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1063,2012-01-04,367,1600027527,31,29,29,59.83,1.93,3.12,1,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.381410,Kwik-E-Mart
1064,2012-01-04,367,1600027528,27,26,21,129.33,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1065,2012-01-04,367,1600027564,35,29,25,111.65,3.19,3.19,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart


## Combinaison
Il existe plusieurs méthodes pour joindre deux `DataFrame` ensemble: `concat()`, `join()` et `merge()`. Pourtant, avec seulement `concat()` et `join()`, il est possible de presque tout faire.

- `concat()` est utile lorsque vous avez deux `DataFrame` qui contiennent les mêmes colonnes, mais des lignes différentes. En utilisant `concat()`, il est possible de mettre un `DataFrame` à la fin de l'autre (c.-à-d., en bas de l'autre) et d'obtenir ainsi un seul grand `DataFrame`.

- `join()` est utile pour joindre des données de deux `DataFrame` qui ont un index en commun. Ceci est quelque peu similaire à la fonction RECHERCHEV dans Excel. La méthode `join()` est souvent utilisée car les données sont souvent dispersées dans plusieurs bases de données.

Faisons maintenant un exemple de la méthode `join()`. Supposons que nous avons d'autres données décrivant nos UPC. Par exemple, disons que nous avons le poids (WEIGHT) de chaque UPC dans un autre `DataFrame`.

In [35]:
df2 = pd.DataFrame({
    'UPC': [1111085319, 1111085350, 1600027527, 1600027528, 1600027564, 3000006340, 3800031829],
    'WEIGHT': [500, 450, 300, 475, 550, 380, 525]})
df2

Unnamed: 0,UPC,WEIGHT
0,1111085319,500
1,1111085350,450
2,1600027527,300
3,1600027528,475
4,1600027564,550
5,3000006340,380
6,3800031829,525


Pour pouvoir amener la variable WEIGHT dans le `DataFrame` principal, nous devrons d'abord définir l'index des deux `DataFrame` avec la colonne UPC.

In [36]:
right = df2.set_index('UPC')
right

Unnamed: 0_level_0,WEIGHT
UPC,Unnamed: 1_level_1
1111085319,500
1111085350,450
1600027527,300
1600027528,475
1600027564,550
3000006340,380
3800031829,525


In [37]:
left = df.set_index('UPC')
left

Unnamed: 0_level_0,WEEK_END_DATE,STORE_NUM,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY,REBATE_PERC,STORE_TXT
UPC,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1111085319,2009-01-14,367,14,13,13,26.32,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1111085350,2009-01-14,367,35,27,25,69.30,1.98,1.98,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1600027527,2009-01-14,367,12,10,10,38.28,3.19,3.19,0,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1600027528,2009-01-14,367,31,26,19,142.29,4.59,4.59,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1600027564,2009-01-14,367,56,48,42,152.32,2.72,3.07,1,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.114007,Kwik-E-Mart
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1111085350,2012-01-04,367,1,1,1,2.49,2.49,2.49,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1600027527,2012-01-04,367,31,29,29,59.83,1.93,3.12,1,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.381410,Kwik-E-Mart
1600027528,2012-01-04,367,27,26,21,129.33,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart
1600027564,2012-01-04,367,35,29,25,111.65,3.19,3.19,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart


Il est maintenant possible de joindre les deux `DataFrame` comme suit (puis de réinitialiser l'index):

In [38]:
df = left.join(right).reset_index()
df

Unnamed: 0,UPC,WEEK_END_DATE,STORE_NUM,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY,REBATE_PERC,STORE_TXT,WEIGHT
0,1111085319,2009-01-14,367,14,13,13,26.32,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0,Kwik-E-Mart,500
1,1111085319,2009-01-21,367,12,12,12,22.68,1.89,1.89,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0,Kwik-E-Mart,500
2,1111085319,2009-01-28,367,18,17,16,33.66,1.87,1.87,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0,Kwik-E-Mart,500
3,1111085319,2009-02-04,367,13,13,13,24.44,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0,Kwik-E-Mart,500
4,1111085319,2009-02-11,367,16,16,16,29.92,1.87,1.87,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.0,Kwik-E-Mart,500
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1062,3800031829,2011-12-07,367,10,9,9,38.90,3.89,3.89,0,0,0,KELL BITE SIZE MINI WHEAT,COLD CEREAL,ALL FAMILY CEREAL,0.0,Kwik-E-Mart,525
1063,3800031829,2011-12-14,367,13,14,11,50.57,3.89,3.89,0,0,0,KELL BITE SIZE MINI WHEAT,COLD CEREAL,ALL FAMILY CEREAL,0.0,Kwik-E-Mart,525
1064,3800031829,2011-12-21,367,18,17,16,70.02,3.89,3.89,0,0,0,KELL BITE SIZE MINI WHEAT,COLD CEREAL,ALL FAMILY CEREAL,0.0,Kwik-E-Mart,525
1065,3800031829,2011-12-28,367,29,24,21,112.81,3.89,3.89,0,0,0,KELL BITE SIZE MINI WHEAT,COLD CEREAL,ALL FAMILY CEREAL,0.0,Kwik-E-Mart,525


Notez cependant que l'ordre a changé. Trions donc les valeurs par WEEK_END_DATE, puis par UPC. Nous réinitialisons à nouveau l'index et supprimons l'ancien index par la suite (`drop=True`) car il n'est pas utile.

In [40]:
df.sort_values(by=['WEEK_END_DATE', 'UPC']).reset_index(drop=True)

Unnamed: 0,UPC,WEEK_END_DATE,STORE_NUM,UNITS,VISITS,HHS,SPEND,PRICE,BASE_PRICE,FEATURE,DISPLAY,TPR_ONLY,DESCRIPTION,CATEGORY,SUB_CATEGORY,REBATE_PERC,STORE_TXT,WEIGHT
0,1111085319,2009-01-14,367,14,13,13,26.32,1.88,1.88,0,0,0,PL HONEY NUT TOASTD OATS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart,500
1,1111085350,2009-01-14,367,35,27,25,69.30,1.98,1.98,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart,450
2,1600027527,2009-01-14,367,12,10,10,38.28,3.19,3.19,0,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart,300
3,1600027528,2009-01-14,367,31,26,19,142.29,4.59,4.59,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart,475
4,1600027564,2009-01-14,367,56,48,42,152.32,2.72,3.07,1,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.114007,Kwik-E-Mart,550
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1062,1111085350,2012-01-04,367,1,1,1,2.49,2.49,2.49,0,0,0,PL BT SZ FRSTD SHRD WHT,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart,450
1063,1600027527,2012-01-04,367,31,29,29,59.83,1.93,3.12,1,0,0,GM HONEY NUT CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.381410,Kwik-E-Mart,300
1064,1600027528,2012-01-04,367,27,26,21,129.33,4.79,4.79,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart,475
1065,1600027564,2012-01-04,367,35,29,25,111.65,3.19,3.19,0,0,0,GM CHEERIOS,COLD CEREAL,ALL FAMILY CEREAL,0.000000,Kwik-E-Mart,550
