# Quelques commandes utiles dans la librairie *pandas*

*pandas* est une librairie Python rendant possible et plus rapide le traitement des bases de données relationnelles. 

---

*pandas* structure les données de façon particulière, grâce aux **DataFrame** ("trames de données"), qui permettent une lecture des données sous forme de n-uplets en ligne et d'attributs en colonne.

In [0]:
# Importation de la librairie pandas 
import pandas as pd
import numpy as np
import random

## A. Créer un DataFrame et le visualiser

In [0]:
### Création d'un DataFrame

var_id = list(range(100))
var_1 = random.sample(range(1, 1000), 100)
var_2 = np.random.normal(10, 1, 100)

df_dict = {
    'id': var_id,
    'var1': var_1,
    'var2': var_2
}

df = pd.DataFrame(df_dict)

In [0]:
## Description d'un DataFrame

df.describe()

Unnamed: 0,id,var1,var2
count,100.0,100.0,100.0
mean,49.5,512.14,9.981057
std,29.011492,280.445534,0.968468
min,0.0,18.0,7.788987
25%,24.75,288.0,9.426829
50%,49.5,500.0,9.892491
75%,74.25,746.25,10.622915
max,99.0,995.0,12.679907


In [0]:
## Visualisation du début d'un DataFrame

df.head()
# df.tail() ### Pour la fin d'un DataFrame
# df.sample(n) ### Pour voir n échantillons tirés aléatoirement

Unnamed: 0,id,var1,var2
0,0,679,10.944398
1,1,662,9.751607
2,2,273,10.204852
3,3,393,8.39398
4,4,36,8.859657


Pour contextualiser, posons que : 

*   **id** : identifiant du magasin
*   **var1** : Nombre d'unités de marchandises écoulées
*   **var2** : Prix moyen unitaire de la marchandise



In [0]:
## Renommer les colonnes du DataFrame
df = df.rename(str, columns = {'id': 'identifiant_client', 'var1': 'unites', 'var2': 'prix_moyen'})
df.head()

Unnamed: 0,identifiant_client,unites,prix_moyen
0,0,679,10.944398
1,1,662,9.751607
2,2,273,10.204852
3,3,393,8.39398
4,4,36,8.859657


## B. Gérer l'information d'un DataFrame (filtrage, calculs...)

In [0]:
## Ajouter une variable à la base de données structurées
# Exemple : une variable 'secteur' où 3 valeurs 'A', 'B' et 'C' sont possibles

var_3 = np.random.choice(['A', 'B', 'C'], size = 100, replace = True)

df['secteur'] = var_3
df.head()

# Pour supprimer, décommenter la ligne suivante
# del df['secteur']

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur
0,0,679,10.944398,C
1,1,662,9.751607,B
2,2,273,10.204852,A
3,3,393,8.39398,A
4,4,36,8.859657,C


In [0]:
## Renvoyer les secteurs "uniques" de l'attribut 'secteur'
print(df['secteur'].unique())

In [0]:
## Ne garder que les lignes où secteur == C

df_var3C = df[df['secteur'] == "C"]
df_var3C.head()

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur
0,0,679,10.944398,C
4,4,36,8.859657,C
8,8,205,10.843698,C
11,11,296,12.679907,C
16,16,511,9.876565,C


In [0]:
## Ne garder que les magasins qui a écoulé une certaine fourchette d'unités de marchandises ?
lb = 200
ub = 400

df_var1_lbub = df[df['unites'].isin(list(range(lb, ub)))]
df_var1_lbub.head()

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur
2,2,273,10.204852,A
3,3,393,8.39398,A
8,8,205,10.843698,C
11,11,296,12.679907,C
13,13,371,9.741526,B


In [0]:
## Combien de lignes reste-t-il ? 
print("Il y avait %s observations avant les filtres" % df.shape[0])
print("Il y a %s observations après le filtre sur la variable 'secteur'" % df_var3C.shape[0])
print("Il y a %s observations après le filtre sur la variable 'unites'" %df_var1_lbub.shape[0])
print("Il y a au total %s attributs (variables)" % df.shape[1])

Il y avait 100 observations avant les filtres
Il y a 36 observations après le filtre sur la variable 'secteur'
Il y a 24 observations après le filtre sur la variable 'unites'
Il y a au total 4 attributs (variables)


In [0]:
## Créer une variable à partir de plusieurs colonnes : le chiffre d'affaires moyen

df['CA_moyen'] = df['unites'] * df['prix_moyen']
df.head()

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur,CA_moyen
0,0,679,10.944398,C,7431.246292
1,1,662,9.751607,B,6455.564043
2,2,273,10.204852,A,2785.924483
3,3,393,8.39398,A,3298.83414
4,4,36,8.859657,C,318.947657


L'on peut directement appliquer des fonctions de calcul sur une colonne de la matrice à l'aide de fonctions intégrées à *pandas*

In [0]:
# Calculer la moyenne, la médiane, la variance
print('Les magasins ont vendu, en moyenne, %s unités' % round(df['unites'].mean()))
print('La variance des prix moyens est de %s' % df['prix_moyen'].var())
print("Le chiffre d'affaires médian est de %s euros" % round(df['CA_moyen'].median()))

Les magasins ont vendu, en moyenne, 512 unités
La variance des prix moyens est de 0.9379304905369505
Le chiffre d'affaires médian est de 4890 euros


In [0]:
# Trier dans l'ordre décroissant la variable 'chiffre d'affaires
df_trie = df.sort_values('CA_moyen', ascending = False)
df_trie.head()

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur,CA_moyen
85,85,977,10.828542,B,10579.48552
35,35,992,10.300894,B,10218.486636
28,28,970,10.474276,B,10160.047244
39,39,995,9.904106,C,9854.58558
40,40,812,11.91162,A,9672.235381


In [0]:
# Compter le nombre de magasins dans chaque secteur ? 
df['secteur'].value_counts()

C    36
A    35
B    29
Name: secteur, dtype: int64

In [0]:
# Calculer la moyenne de chiffre d'affaires par secteur ? 

print(df.groupby(['secteur'])['CA_moyen'].mean())

secteur
A    5451.388417
B    4818.665876
C    4963.123622
Name: CA_moyen, dtype: float64


Possibilité de faire des tableaux croisés dynamiques en Python !

In [0]:
## On crée une autre variable catégorielle : l'ancienneté. 

anciennete = np.random.choice(range(11), size = 100, replace = True)
df['anciennete'] = anciennete
df.head()

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur,CA_moyen,anciennete
0,0,679,10.944398,C,7431.246292,4
1,1,662,9.751607,B,6455.564043,0
2,2,273,10.204852,A,2785.924483,9
3,3,393,8.39398,A,3298.83414,5
4,4,36,8.859657,C,318.947657,3


In [0]:
tcd = pd.pivot_table(df, values = 'CA_moyen', index = ['anciennete'], columns = 'secteur', aggfunc = np.mean)
tcd

secteur,A,B,C
anciennete,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,6326.257037,5866.21056,2349.84061
1,8062.213051,,
2,5407.118553,5772.708923,7479.601319
3,5162.82389,5823.618697,996.170097
4,3520.896478,4531.356443,8423.308133
5,3289.752234,3913.486359,4476.147174
6,7391.121297,2476.5388,5034.800995
7,6124.307628,5735.115868,5361.318263
8,6831.710196,4754.274708,5389.711986
9,2938.521346,10218.486636,6160.866294


## C. Jointures

En cours, nous avons fait la différence entre les différentes jointures permettant d'enrichir les bases de données structurées, grâce à la correspondance entre deux tables ayant au moins un attribut (une variable) en commun.

---

Avec la librairie *pandas*, les jointures sont faites à partir de la commande **merge**.

In [0]:
# Créons un nouveau DataFrame 

df_complem = pd.DataFrame({
    'identifiant_client': list(range(50, 120)),
    'age_du_gerant': np.random.choice(list(range(18,65)), size = len(range(50, 120)), replace = True)
})

df_complem.head()

Unnamed: 0,identifiant_client,age_du_gerant
0,50,56
1,51,24
2,52,48
3,53,37
4,54,54


Nous allons enrichir la première table `df` avec la table `df_complem`, à partir d'une jointure.

In [0]:
# Jointure gauche 
j_g = pd.merge(df, df_complem, on = 'identifiant_client', how = 'left')
j_g.sample(10)

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur,CA_moyen,anciennete,age_du_gerant
99,99,671,9.671739,A,6489.736895,10,25.0
98,98,827,10.110895,A,8361.710053,1,45.0
76,76,368,12.208447,C,4492.70862,9,63.0
53,53,285,9.12062,B,2599.376595,8,37.0
32,32,989,9.469141,C,9364.980771,2,
96,96,701,10.786022,A,7561.001135,7,24.0
79,79,702,8.79018,B,6170.706424,8,28.0
24,24,975,9.43526,A,9199.378366,0,
29,29,821,10.054187,B,8254.487231,3,
31,31,289,9.263529,A,2677.159756,5,


In [0]:
# Jointure droite
j_d = pd.merge(df, df_complem, on = 'identifiant_client', how = 'right')
j_d.sample(10)

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur,CA_moyen,anciennete,age_du_gerant
6,56,379.0,10.816836,A,4099.580813,3.0,31
39,89,746.0,8.838916,A,6593.831001,10.0,28
30,80,203.0,9.226937,B,1873.068198,4.0,20
22,72,829.0,8.387322,B,6953.089607,5.0,36
58,108,,,,,,41
9,59,266.0,11.620745,A,3091.118209,9.0,60
53,103,,,,,,22
45,95,805.0,9.598848,C,7727.072402,7.0,44
21,71,888.0,10.602894,C,9415.369975,4.0,50
65,115,,,,,,35


In [0]:
# Jointure 'intersection'

j_i = pd.merge(df, df_complem, on = 'identifiant_client', how = 'inner')
j_i.sample(10)

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur,CA_moyen,anciennete,age_du_gerant
15,65,693,10.1529,A,7035.95971,8,26
7,57,182,10.956827,B,1994.142477,3,30
8,58,366,9.517824,A,3483.523547,0,30
23,73,763,10.765984,C,8214.445795,9,50
31,81,721,9.86133,C,7110.019004,9,63
26,76,368,12.208447,C,4492.70862,9,63
41,91,191,10.327169,A,1972.489217,3,42
14,64,305,9.556032,B,2914.589687,2,24
4,54,55,9.40437,B,517.240356,10,54
34,84,911,9.891613,C,9011.259597,8,55


In [0]:
# Jointure 'union'

j_u = pd.merge(df, df_complem, on = 'identifiant_client', how = 'outer')
j_u.sample(10)

Unnamed: 0,identifiant_client,unites,prix_moyen,secteur,CA_moyen,anciennete,age_du_gerant
118,118,,,,,,31.0
68,68,103.0,11.412382,B,1175.475309,6.0,34.0
70,70,18.0,9.184353,C,165.318349,7.0,41.0
94,94,241.0,9.856383,B,2375.388305,6.0,46.0
45,45,760.0,9.863591,A,7496.328904,1.0,
107,107,,,,,,57.0
93,93,879.0,8.797883,A,7733.33881,6.0,53.0
19,19,456.0,10.777578,B,4914.575436,6.0,
101,101,,,,,,41.0
88,88,400.0,10.094043,C,4037.617286,0.0,48.0


Les quatre types de jointures ne renvoient pas les mêmes résultats. Cela peut se voir sur les dimensions finales des quatre tables. 

In [0]:
print("Table de jointure à gauche : %s lignes" % j_g.shape[0])
print("Table de jointure à droite lignes : %s lignes" % j_d.shape[0])
print("Table de jointure par intersection : %s lignes" % j_i.shape[0])
print("Table de jointure par union : %s lignes" % j_u.shape[0])

Table de jointure à gauche : 100 lignes
Table de jointure à droite lignes : 70 lignes
Table de jointure par intersection : 50 lignes
Table de jointure par union : 120 lignes


Explication : 

*   La table **df** a 100 lignes, la jointure gauche **j_g** a donc gardé toutes ses lignes et associé les valeurs pour lesquelles **df_complem** avait une entrée.
*   La table **df_complem** a 70 lignes, la jointure droite **j_d** a donc gardé toutes ses lignes et associé les valeurs pour lesquelles **df** avait une entrée.
*   La table **df** a les indices clients de 0 à 99; la table **df_complem** a les indices de 50 à 119. Les indices communs vont donc de 50 à 99, soient les 50 observations de **j_i**.
*   La jointure **j_u** a simplement gardé toutes les observations, même celles qui n'avaient pas de valeur associée suite à la jointure.

