# Les bases de pandas pour faire interagir Excel avec Python

## I. Qu'est ce que Pandas ???
***


Pandas est une bibliothèque Python essentielle pour l'analyse de données, offrant des structures de données puissantes et flexibles conçues pour rendre la manipulation des données rapide et simple. Au cœur de Pandas se trouve le DataFrame, une structure de données bidimensionnelle permettant de stocker et de manipuler des tableaux de données avec des lignes et des colonnes.

### Qu'est-ce qu'un DataFrame ?

Un DataFrame est comparable à une feuille de calcul Excel ou à une table de base de données SQL. Il est composé de trois composants principaux : les données elles-mêmes, les colonnes et les index.

```python
import pandas as pd

# Exemple de création d'un DataFrame
df = pd.DataFrame(columns = ['Ventes', 'Boutiques'],
                  index=['01-01-2023', '02-01-2023'],
                  data = [[21000, 'Lyon'], [17000, 'Grenoble']])

```

### L'importance des composants d'un DataFrame

- **Les données** : Constituent le contenu du DataFrame, organisées en lignes et colonnes. Chaque colonne peut contenir un type de donnée différent (nombre, texte, booléen, etc.), ce qui rend les DataFrames particulièrement flexibles pour gérer diverses sources de données.

- **Les colonnes** : Représentent les variables du DataFrame. Chaque colonne a un label (ou nom), qui est utilisé pour accéder aux données qu'elle contient. Les colonnes sont cruciales pour structurer les données de manière significative, permettant des opérations telles que le tri, le filtrage et la transformation sur des ensembles de données spécifiques.

```python
# Accès aux données d'une colonne spécifique
ages = df['Ventes']
```

- **Les index** : Fournissent une étiquette pour chaque ligne du DataFrame, facilitant l'accès et la manipulation des lignes. Par défaut, Pandas attribue un index numérique séquentiel à chaque ligne, mais les index peuvent être modifiés pour utiliser des identifiants uniques, tels que des dates ou des noms.

```python
# Accès à une ligne par son index
premiere_ligne = df.loc['01-01-2023']
```

Les colonnes et les index sont des aspects fondamentaux qui distinguent les DataFrames d'autres structures de données, comme les arrays NumPy. Ils permettent une manipulation et une analyse des données à la fois puissantes et intuitives, rendant Pandas incontournable pour les projets d'analyse de données en Python.

## II. Selectionner les données
***

Avant toute choses, importons le package: **pandas**. Nous allons utiliser de manière extensive ce package au cours de la séance. Pour éviter de devoir répeter le nom du package dans le code, nous allons lui atrribuer un surnom: **pd**. 

In [5]:
import pandas as pd

### II.A Sélection simple

Pour sélectionner une colonne spécifique dans un DataFrame, vous pouvez utiliser la syntaxe suivante :

```python
nom_data_frame['nom_colonne']
```

Vous pouvez sélectionner plusieurs colonnes en spécifiant une liste de noms de colonnes :

```python
nom_data_frame[['nom_colonne1', 'nom_colonne2', ...]]
```

Vous pouvez sélectionner des lignes spécifiques en utilisant leur index avec la méthode loc[] :

```python
nom_data_frame.loc[index]
```

Commençons par uploader un fichier excel et accéder à quelques détails du fichier. 

In [3]:
df_reference = pd.read_excel('referentiel.xlsx')
df_reference

Unnamed: 0.1,Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
0,,BGR,Bulgarie,Europe,Europe de l'Est,EUE,,P00147,Robe,Haut-Et-Bas,marron,2018-01-01,7.20,9
1,,CZE,République Tchèque,Europe,Europe de l'Est,EUE,,P00249,Chemise,Haut,blanc,2018-06-01,11.34,14
2,,HUN,Hongrie,Europe,Europe de l'Est,EUE,,P00565,Robe,Haut-Et-Bas,orange,2017-05-01,13.05,15
3,,MDA,République de Moldavie,Europe,Europe de l'Est,EUE,,P00575,Pyjama,Haut-Et-Bas,blanc,2018-12-01,5.32,7
4,,POL,Pologne,Europe,Europe de l'Est,EUE,,P00626,Robe,Haut-Et-Bas,blanc,2018-04-01,14.25,15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,,,,,,,,P49378,Culotte,Bas,bleu,2018-03-01,5.70,6
396,,,,,,,,P49444,Soutien gorge,Haut,blanc,2017-03-01,4.05,5
397,,,,,,,,P49448,Chemise,Haut,vert,2017-07-01,5.95,7
398,,,,,,,,P49769,Pull,Haut,marron,2018-03-01,13.65,15


Le résultat est un peu trop imposant. En utilisant la fonction ```.head()```, nous pouvons spécifier la vue désirée de notre jeu de donnée: 

In [6]:
df_reference.head()

Unnamed: 0.1,Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
0,,BGR,Bulgarie,Europe,Europe de l'Est,EUE,,P00147,Robe,Haut-Et-Bas,marron,2018-01-01,7.2,9
1,,CZE,République Tchèque,Europe,Europe de l'Est,EUE,,P00249,Chemise,Haut,blanc,2018-06-01,11.34,14
2,,HUN,Hongrie,Europe,Europe de l'Est,EUE,,P00565,Robe,Haut-Et-Bas,orange,2017-05-01,13.05,15
3,,MDA,République de Moldavie,Europe,Europe de l'Est,EUE,,P00575,Pyjama,Haut-Et-Bas,blanc,2018-12-01,5.32,7
4,,POL,Pologne,Europe,Europe de l'Est,EUE,,P00626,Robe,Haut-Et-Bas,blanc,2018-04-01,14.25,15


Pour accéder aux noms des colonnes et/ou le nom des lignes, on peut utiliser les fonctions ```.columns``` ou ```.index```. 

In [15]:
print('Les colonnes de mon jeu de donnée sont: \n' + str(df_reference.columns))
print('Les lignes de mon jeu de donnée sont: \n' + str(df_reference.index))

Les colonnes de mon jeu de donnée sont: 
Index(['Unnamed: 0', 'Pays_Cod', 'Pays', 'Région', 'Sous-Région',
       'Code Sous-Région', 'Unnamed: 6', 'Product_Ref', 'Produit',
       'Catégorie de produit', 'Couleur', 'Créé le', 'Prix d'achat',
       'Prix vente HT'],
      dtype='object')
Les lignes de mon jeu de donnée sont: 
RangeIndex(start=0, stop=400, step=1)


La première colonne est vide. On peut le voir de par son nom 'Unnamed: 0' et les données manquantes 'NaN'. 

Nous pouvons disposer de cette colonne en utilisant la fonction ```.drop()```. Il faudra préciser alors le nom de la colonne à supprimer et spécifier ```axis=1``` pour indiquer que c'est effectivement une colonne. ```axis=0``` sera pour disposer d'une ligne. 

In [24]:
df_reference = df_reference.drop('Unnamed: 0', axis=1)
df_reference.head()

Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
0,BGR,Bulgarie,Europe,Europe de l'Est,EUE,,P00147,Robe,Haut-Et-Bas,marron,2018-01-01,7.2,9
1,CZE,République Tchèque,Europe,Europe de l'Est,EUE,,P00249,Chemise,Haut,blanc,2018-06-01,11.34,14
2,HUN,Hongrie,Europe,Europe de l'Est,EUE,,P00565,Robe,Haut-Et-Bas,orange,2017-05-01,13.05,15
3,MDA,République de Moldavie,Europe,Europe de l'Est,EUE,,P00575,Pyjama,Haut-Et-Bas,blanc,2018-12-01,5.32,7
4,POL,Pologne,Europe,Europe de l'Est,EUE,,P00626,Robe,Haut-Et-Bas,blanc,2018-04-01,14.25,15


### _Exercice 1_

Sélectionnez:
- Les trois premières lignes du DataFrame.

In [25]:
three_lines = df_reference.loc[:2]
three_lines.head()

Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
0,BGR,Bulgarie,Europe,Europe de l'Est,EUE,,P00147,Robe,Haut-Et-Bas,marron,2018-01-01,7.2,9
1,CZE,République Tchèque,Europe,Europe de l'Est,EUE,,P00249,Chemise,Haut,blanc,2018-06-01,11.34,14
2,HUN,Hongrie,Europe,Europe de l'Est,EUE,,P00565,Robe,Haut-Et-Bas,orange,2017-05-01,13.05,15


* les trois dernières colonnes

In [26]:
last_three_columns = df_reference[['Créé le',"Prix d'achat","Prix vente HT"]]
last_three_columns.head()

Unnamed: 0,Créé le,Prix d'achat,Prix vente HT
0,2018-01-01,7.2,9
1,2018-06-01,11.34,14
2,2017-05-01,13.05,15
3,2018-12-01,5.32,7
4,2018-04-01,14.25,15


### II.B Sélection conditionnelle
***

Vous pouvez sélectionner des lignes qui répondent à certaines conditions à l'aide de la méthode loc[] avec une expression conditionnelle :

```python
nom_data_frame.loc[condition]
```

Vous pouvez combiner plusieurs conditions à l'aide d'opérateurs logiques (& pour ET, | pour OU) :

```python
nom_data_frame.loc[(condition1) & (condition2)]
```

Par exemple, commençons par selectionner en priorité les informations des points de vente en Europe. 

In [32]:
condition_continent = (df_reference['Région'] == 'Europe')
df_europe = df_reference[condition_continent]
df_europe.head()

Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
0,BGR,Bulgarie,Europe,Europe de l'Est,EUE,,P00147,Robe,Haut-Et-Bas,marron,2018-01-01,7.2,9
1,CZE,République Tchèque,Europe,Europe de l'Est,EUE,,P00249,Chemise,Haut,blanc,2018-06-01,11.34,14
2,HUN,Hongrie,Europe,Europe de l'Est,EUE,,P00565,Robe,Haut-Et-Bas,orange,2017-05-01,13.05,15
3,MDA,République de Moldavie,Europe,Europe de l'Est,EUE,,P00575,Pyjama,Haut-Et-Bas,blanc,2018-12-01,5.32,7
4,POL,Pologne,Europe,Europe de l'Est,EUE,,P00626,Robe,Haut-Et-Bas,blanc,2018-04-01,14.25,15


Au sein de la région Europe tentons maintenant de nous focaliser sur les points de ventes en Pologne ou en Roumanie.

In [34]:
condition_pays = (df_europe['Pays']=='Pologne') | (df_europe['Pays']=='Roumanie')
df_pays = df_europe[condition_pays]
df_pays.head()

Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
4,POL,Pologne,Europe,Europe de l'Est,EUE,,P00626,Robe,Haut-Et-Bas,blanc,2018-04-01,14.25,15
5,ROU,Roumanie,Europe,Europe de l'Est,EUE,,P00632,T-shirt,Haut,noir,2018-06-01,4.5,6


Notez que si nous utilisons l'opérateur ```&```, python essayera alors de trouver un point de vente à la fois en Pologne et en Roumanie. Donc, le code retournera un dataframe vide.

Cherchons maintenant les points de ventes en Europe créés à après le 01-01-2018.

In [36]:
condition_2018 = (df_europe['Créé le'] > '01-01-2018')
df_post_2018 = df_europe[condition_2018]
df_post_2018.head()

Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
1,CZE,République Tchèque,Europe,Europe de l'Est,EUE,,P00249,Chemise,Haut,blanc,2018-06-01,11.34,14
3,MDA,République de Moldavie,Europe,Europe de l'Est,EUE,,P00575,Pyjama,Haut-Et-Bas,blanc,2018-12-01,5.32,7
4,POL,Pologne,Europe,Europe de l'Est,EUE,,P00626,Robe,Haut-Et-Bas,blanc,2018-04-01,14.25,15
5,ROU,Roumanie,Europe,Europe de l'Est,EUE,,P00632,T-shirt,Haut,noir,2018-06-01,4.5,6
6,RUS,Fédération de Russie,Europe,Europe de l'Est,EUE,,P00821,Débardeur,Haut,taupe,2018-09-01,6.93,9


### _Exercice 2_

Sélectionnez dans le référentiel : 

* Les produits dont le prix de vente est supérieur à 15 euros

In [28]:
fifteen_plus = df_reference.loc[df_reference["Prix vente HT"] >= 10]

In [29]:
fifteen_plus.head()

Unnamed: 0.1,Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
1,,CZE,République Tchèque,Europe,Europe de l'Est,EUE,,P00249,Chemise,Haut,blanc,2018-06-01,11.34,14
2,,HUN,Hongrie,Europe,Europe de l'Est,EUE,,P00565,Robe,Haut-Et-Bas,orange,2017-05-01,13.05,15
4,,POL,Pologne,Europe,Europe de l'Est,EUE,,P00626,Robe,Haut-Et-Bas,blanc,2018-04-01,14.25,15
8,,UKR,Ukraine,Europe,Europe de l'Est,EUE,,P00924,Chaussette,Bas,bleu,2018-05-01,13.65,15
9,,ARM,Arménie,Europe,Europe de l'Est,EUE,,P01048,Culotte,Bas,orange,2018-09-01,12.88,14


* Les produits de couleur marron

In [32]:
brown = df_reference.loc[df_reference["Couleur"] == "marron"]

In [33]:
brown.head()

Unnamed: 0.1,Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
0,,BGR,Bulgarie,Europe,Europe de l'Est,EUE,,P00147,Robe,Haut-Et-Bas,marron,2018-01-01,7.2,9
12,,EST,Estonie,Europe,Europe du Nord,EUN,,P01596,Collant,Bas,marron,2018-08-01,6.37,7
17,,LTU,Lituanie,Europe,Europe du Nord,EUN,,P01933,Soutien gorge,Haut,marron,2017-08-01,6.48,9
27,,SVN,Slovénie,Europe,Europe du Sud,EUS,,P03438,Robe,Haut-Et-Bas,marron,2017-10-01,8.37,9
44,,,,,,,,P06356,Pull,Haut,marron,2018-03-01,10.78,14


### II.C Pour aller plus loin: Selection conditionnelle avancée

Imaginons que nous voulons créer des catégories de gamme en fonction des valeurs de prix des produits. Les produits qui se situe dans le tiers supérieur en termes de prix sont qualifiés de "haut de gamme", ceux du tiers intermédiaires comme "milieu de gamme", ceux du tiers inférieur comme "bas de gamme". 

#### Étape 1 : Création des trois catégories

Nous allons diviser nos produits en trois catégories de gamme : haut de gamme, milieu de gamme et bas de gamme. Pour cela, nous devons calculer les quantiles des prix d'achat pour déterminer les limites entre ces catégories.

```python
quantiles = donnees['Prix_achat'].quantile([0.33, 0.66])
```

#### Étape 2 : Attribution de gamme aux produits

Nous allons définir une fonction qui attribue une catégorie de gamme à chaque produit en fonction de son prix d'achat.

```python
def assigner_gamme(row):
    if row['Prix_achat'] >= quantiles.iloc[0.66]:
        return 'haut de gamme'
    elif row['Prix_achat'] >= quantiles.iloc[0.33]:
        return 'milieu de gamme'
    else:
        return 'bas de gamme'
```

#### Interlude : la méthode apply

La méthode apply est une fonction de Pandas qui permet d'appliquer une fonction personnalisée à tout élément d'un DataFrame. Pour l'utiliser : 

```python
nom_dataframe.apply(nom_de_la_fonction, axis=axis)
```

*   `nom_dataframe` : C'est le DataFrame sur lequel vous souhaitez appliquer la fonction.
*   `nom_de_la_fonction` : C'est le nom de la fonction que vous souhaitez appliquer à chaque élément, ligne ou colonne du DataFrame.
*   `axis` : C'est un paramètre optionnel qui spécifie l'axe sur lequel appliquer la fonction. Par défaut, `axis=0` applique la fonction sur chaque colonne, tandis que `axis=1` l'applique sur chaque ligne.

#### Étape 3 : Application de la fonction à chaque ligne du DataFrame

Appliquons maintenant notre fonction à chaque ligne du DataFrame pour créer une nouvelle colonne "gamme".

```python
donnees['gamme'] = donnees.apply(assigner_gamme, axis=1)
```

#### Résultat final

Voici le DataFrame final avec la nouvelle colonne "gamme" ajoutée :

```python
print(donnees)
```

## III. Agréger toutes les données
***

Dans le monde réel, les données vous seront toujours envoyées dans plusieurs fichiers, et vous aurez très certainement besoin d'agréger ces fichiers pour avoir une vision d'ensemble et faire des analyses. 

### III.A La méthode `concat`

Si vous voulez simplement coller plusieurs fichiers entre eux, la méthode `concat` est ici la plus utile. 

Voici comment utiliser la méthode `concat` avec des données provenant de deux fichiers Excel que voulez coller parce qu'ils contiennent les mêmes variables sur un phénomène, seulement à des dates diffférentes :

```python
import pandas as pd

# Charger les données à partir du fichier Excel
df1 = pd.read_excel('vente_2021.xlsx')
df2 = pd.read_excel('vente_2022.xlsx')

# Concaténer les DataFrames le long de l'axe des lignes (par défaut)
resultat = pd.concat([df1, df2])

print(resultat)
```
Essayons de visualiser le résultat:

In [64]:
df1 = pd.read_excel('vente_2021.xlsx')
df1.head()

Unnamed: 0,Piece,Quantite,Prix_unitaire
0,Pneu,100,50
1,Frein,150,30
2,Phare,80,20
3,Batterie,120,80


In [65]:
df2 = pd.read_excel('vente_2022.xlsx')
df2.head()

Unnamed: 0,Piece,Quantite,Prix_unitaire
0,Pneu,120,55
1,Frein,160,35
2,Phare,90,25
3,Batterie,130,85


In [66]:
resultat = pd.concat([df1, df2])
resultat

Unnamed: 0,Piece,Quantite,Prix_unitaire
0,Pneu,100,50
1,Frein,150,30
2,Phare,80,20
3,Batterie,120,80
0,Pneu,120,55
1,Frein,160,35
2,Phare,90,25
3,Batterie,130,85


Maintenant, voici comment utiliser la méthode `concat` avec des fichiers excel sur le même phénomène mais avec des variables différentes

```python
# Lecture des données des fichiers Excel pour les années 2021 et 2022
df_covid_2021_read = pd.read_excel('covid_2021.xlsx')
df_covid_2022_read = pd.read_excel('covid_2022.xlsx')

# Concaténation des données sur l'axe des colonnes
df_concat = pd.concat([df_covid_2021_read, df_covid_2022_read], axis=1)
```

Essayez de visualiser le résultat avant de faire tourner le code!

#### _Exercice 3_


Considérez les deux DataFrames suivants issus de tableurs excel :

DataFrame 1 :
```python
import pandas as pd

df1 = pd.DataFrame({'Pays': ['France', 'Allemagne', 'Italie'],
                    'Capitale': ['Paris', 'Berlin', 'Rome']})
```

DataFrame 2 :
```python
df2 = pd.DataFrame({'Population': [67000000, 83000000, 60000000],
                    'Superficie': [551695, 357022, 301338]})
```


In [50]:
import pandas as pd

df1 = pd.DataFrame({'Pays': ['France', 'Allemagne', 'Italie'],
                    'Capitale': ['Paris', 'Berlin', 'Rome']})
df2 = pd.DataFrame({'Population': [67000000, 83000000, 60000000],
                    'Superficie': [551695, 357022, 301338]})

* Concaténez les DataFrames `df1` et `df2` le long de l'axe des lignes.

In [51]:
# SOLUTION 
resultat_task1 = pd.concat([df1, df2])
print(resultat_task1)

        Pays Capitale  Population  Superficie
0     France    Paris         NaN         NaN
1  Allemagne   Berlin         NaN         NaN
2     Italie     Rome         NaN         NaN
0        NaN      NaN  67000000.0    551695.0
1        NaN      NaN  83000000.0    357022.0
2        NaN      NaN  60000000.0    301338.0


* Concaténez les DataFrames `df1` et `df2` le long de l'axe des colonnes.

In [52]:
# SOLUTION 
resultat_task2 = pd.concat([df1, df2], axis=1)
print(resultat_task2)

        Pays Capitale  Population  Superficie
0     France    Paris    67000000      551695
1  Allemagne   Berlin    83000000      357022
2     Italie     Rome    60000000      301338


* Concaténez les DataFrames `df1` et `df2` le long de l'axe des colonnes en réindexant les colonnes.

In [53]:
# SOLUTION 
resultat_task3 = pd.concat([df1, df2], axis=1, ignore_index=True)
resultat_task3.columns = ['Pays', 'Capitale', 'Population', 'Superficie']
print(resultat_task3)

        Pays Capitale  Population  Superficie
0     France    Paris    67000000      551695
1  Allemagne   Berlin    83000000      357022
2     Italie     Rome    60000000      301338


Créeons un nouveau DataFrame `df3` avec les données suivantes :

```python
df3 = pd.DataFrame({'Langue': ['Français', 'Allemand', 'Italien'],
                    'Monnaie': ['Euro', 'Euro', 'Euro']})
```
* Concaténez `df1` et `df3` le long de l'axe des colonnes, en conservant les index d'origine.

In [49]:
# SOLUTION 
df3 = pd.DataFrame({'Langue': ['Français', 'Allemand', 'Italien'],
                    'Monnaie': ['Euro', 'Euro', 'Euro']})

resultat_task4 = pd.concat([df1, df3], axis=1)
print(resultat_task4)

        Pays Capitale    Langue Monnaie
0     France    Paris  Français    Euro
1  Allemagne   Berlin  Allemand    Euro
2     Italie     Rome   Italien    Euro


### III.B Les méthodes `join`

La méthode `join` permet de joindre deux DataFrames sur leurs index. 

Voici comment utiliser la méthode `join` avec des données provenant de fichiers Excel :

```python
# Charger les données à partir du fichier Excel
df1 = pd.read_excel('fichier_excel.xlsx', sheet_name='Feuille1')
df2 = pd.read_excel('fichier_excel.xlsx', sheet_name='Feuille2')

# Joindre les DataFrames sur une colonne spécifiée
resultat = df1.join(df2, how='type_de_jointure')

print(resultat)
```

Il existe différents types de jointures, utiles dans des cas différents : 

- **Jointure interne :** Elle renvoie uniquement les lignes où il existe une correspondance dans les deux DataFrames. Utile pour combiner des données sur des clés communes.
- **Jointure externe (full outer join) :** Elle renvoie toutes les lignes des deux DataFrames, avec des valeurs NaN là où il n'y a pas de correspondance. Utile pour combiner toutes les données et ne pas perdre d'informations.
- **Jointure gauche (left join) :** Elle renvoie toutes les lignes du DataFrame de gauche (premier DataFrame spécifié dans la méthode `merge` ou `join`), avec des valeurs NaN là où il n'y a pas de correspondance dans le DataFrame de droite. Utile pour ajouter des informations à un DataFrame principal.
- **Jointure droite (right join) :** Elle renvoie toutes les lignes du DataFrame de droite, avec des valeurs NaN là où il n'y a pas de correspondance dans le DataFrame de gauche. Utile pour ajouter des informations à un DataFrame secondaire.
- **Combinaison de plusieurs jointures :** Parfois, il est nécessaire de combiner plusieurs jointures pour obtenir les données souhaitées, surtout lorsque les données sont distribuées sur plusieurs DataFrames.

In [72]:
data_employes = {
    'ID_employe': [1, 2, 3, 4],
    'Nom': ['Alice', 'Bob', 'Charlie', 'David']
}

data_departements = {
    'ID_employe': [2, 3, 4],
    'Departement': ['Comptabilité', 'Ressources humaines', 'IT']
}

In [73]:
employes.join(departements, how='inner')

Unnamed: 0,ID,Nom,Employee_ID,Département
0,1,Alice,1,RH
1,2,Bob,3,Finance
2,3,Charlie,4,Marketing


#### _Exercice 4_

Considérons les deux DataFrames suivants :

DataFrame 1 :
```python
import pandas as pd

df1 = pd.DataFrame({'ID': [1, 2, 3],
                    'Nom': ['Alice', 'Bob', 'Charlie']},
                   index=['A', 'B', 'C'])
```

DataFrame 2 :
```python
df2 = pd.DataFrame({'Employee_ID': [1, 3, 4],
                    'Département': ['RH', 'Finance', 'Marketing']},
                   index=['A', 'B', 'D'])
```


In [61]:
import pandas as pd

df1 = pd.DataFrame({'ID': [1, 2, 3],
                    'Nom': ['Alice', 'Bob', 'Charlie']},
                   index=['A', 'B', 'C'])
df2 = pd.DataFrame({'Employee_ID': [1, 3, 4],
                    'Département': ['RH', 'Finance', 'Marketing']},
                   index=['A', 'B', 'D'])

* Effectuez une jointure entre `df1` et `df2` sur leurs index.

In [62]:
resultat_exercice1 = df1.join(df2)
print(resultat_exercice1)

   ID      Nom  Employee_ID Département
A   1    Alice          1.0          RH
B   2      Bob          3.0     Finance
C   3  Charlie          NaN         NaN


* Utilisez la méthode `.join` pour joindre les DataFrames `df1` et `df2` sur leurs index en spécifiant une jointure externe.

In [63]:
resultat_exercice3 = df1.join(df2, how='outer')
print(resultat_exercice3)

    ID      Nom  Employee_ID Département
A  1.0    Alice          1.0          RH
B  2.0      Bob          3.0     Finance
C  3.0  Charlie          NaN         NaN
D  NaN      NaN          4.0   Marketing


### III.C La méthode `merge`

La méthode `merge` différe de `join` dans la mesure où elle permet de combiner des données provenant de différentes sources en utilisant une ou plusieurs colonnes comme clés de jointure. C'est une méthode quel'on utilise typiquement lorsque nous sommes face à des jeux de données avec des superpositions. `merge` nous permet alors de mélanger nos jeux de données en restant cohérent par rapport à la superposition.

Syntaxe de base :

```python
resultat_jointure = pd.merge(df1, df2, on='colonne_commun', how='type_de_jointure')
```

- `df1` et `df2` : Les DataFrames à fusionner.
- `on` : Le nom de la colonne commune sur laquelle effectuer la jointure.
- `how` : Le type de jointure à effectuer : 'inner' (par défaut), 'outer', 'left' ou 'right'.

Exemple d'utilisation :

Supposons que nous ayons deux DataFrames : `employes` et `departements`.

```python
import pandas as pd

employes = pd.DataFrame({'ID': [1, 2, 3],
                         'Nom': ['Alice', 'Bob', 'Charlie']})

departements = pd.DataFrame({'Employee_ID': [1, 3, 4],
                             'Département': ['RH', 'Finance', 'Marketing']})
```

Nous pouvons utiliser la méthode `merge` pour fusionner ces DataFrames sur la colonne 'ID' de `employes` et la colonne 'Employee_ID' de `departements`.

```python
resultat_jointure = pd.merge(employes, departements, left_on='ID', right_on='Employee_ID', how='inner')
print(resultat_jointure)
```


In [54]:
import pandas as pd

employes = pd.DataFrame({'ID': [1, 2, 3],
                         'Nom': ['Alice', 'Bob', 'Charlie']})

departements = pd.DataFrame({'Employee_ID': [1, 3, 4],
                             'Département': ['RH', 'Finance', 'Marketing']})

In [55]:
resultat_jointure = pd.merge(employes, departements, left_on='ID', right_on='Employee_ID', how='inner')
print(resultat_jointure)

   ID      Nom  Employee_ID Département
0   1    Alice            1          RH
1   3  Charlie            3     Finance


In [56]:
resultat_jointure = pd.merge(employes, departements, left_on='ID', right_on='Employee_ID', how='outer')
print(resultat_jointure)

    ID      Nom  Employee_ID Département
0  1.0    Alice          1.0          RH
1  2.0      Bob          NaN         NaN
2  3.0  Charlie          3.0     Finance
3  NaN      NaN          4.0   Marketing


## IV. Bye bye les tableaux croisés dynamiques, bonjour les pivot table
***

Les pivot trable sont un outil puissant pour l'analyse de données en Python avec pandas. Par exemple, Dans le contexte de l'audience des contenus sur les réseaux sociaux, les tables de pivotement peuvent être utilisées pour réorganiser et analyser les données d'engagement, de likes, de partages, etc.

La fonction `pivot_table` de pandas est utilisée pour créer une table de pivotement. Voici la syntaxe de base :

```python


# Syntaxe de base de la pivot table
pivot_table = pd.pivot_table(data, values='valeur', index='index', columns='colonnes', aggfunc='aggrégation')
```

- `data` : DataFrame d'origine.
- `values` : Colonne(s) dont les valeurs seront agrégées.
- `index` : Colonnes à utiliser comme index de la table pivot.
- `columns` : Colonnes à utiliser comme colonnes de la table pivot.
- `aggfunc` : Fonction d'agrégation à appliquer aux valeurs, par exemple 'sum', 'mean', 'count', 'min', 'max', etc.
```


In [64]:
# Création du DataFrame
data = {
    'Type de contenu': ['Article', 'Vidéo', 'Image', 'Article', 'Image', 'Vidéo', 'Image', 'Article'],
    'Plateforme': ['Facebook', 'Facebook', 'Instagram', 'Instagram', 'Twitter', 'Twitter', 'LinkedIn', 'LinkedIn'],
    'Likes': [100, 150, 80, 120, 90, 110, 70, 130],
    'Partages': [20, 30, 15, 25, 18, 22, 12, 28],
    'Engagement': [120, 180, 95, 145, 105, 130, 80, 150]
}

df = pd.DataFrame(data)


### Exemple 1 : Création d'une table de pivotement pour l'engagement total par type de contenu

In [66]:
pivot_table_engagement = pd.pivot_table(df, values='Engagement', index='Type de contenu', aggfunc='sum')
print(pivot_table_engagement)

                 Engagement
Type de contenu            
Article                 415
Image                   280
Vidéo                   310


### Exemple 2 : Création d'une table de pivotement pour les likes par type de contenu et par plateforme

In [27]:
pivot_table_likes = pd.pivot_table(df, values='Likes', index='Type de contenu', columns='Plateforme', aggfunc='sum')
print(pivot_table_likes)

NameError: name 'df' is not defined

### Exemple 3 : Création d'une table de pivotement avec plusieurs valeurs agrégées

In [68]:
pivot_table_multi = pd.pivot_table(df, values=['Engagement', 'Likes', 'Partages'], index='Type de contenu', aggfunc={'Engagement': 'sum', 'Likes': 'mean', 'Partages': 'max'})
print(pivot_table_multi)

                 Engagement       Likes  Partages
Type de contenu                                  
Article                 415  116.666667        28
Image                   280   80.000000        18
Vidéo                   310  130.000000        30


## Mise en pratique : interroger les données dans tous les sens
***

### Commencer en douceur


In [1]:
import pandas as pd

Commençons par importer les fichiers excel

In [18]:
ventes = pd.read_excel('ventes.xlsx')
referentiel = pd.read_excel('referentiel.xlsx')
referentiel.head()

Unnamed: 0.1,Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région,Unnamed: 6,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
0,,BGR,Bulgarie,Europe,Europe de l'Est,EUE,,P00147,Robe,Haut-Et-Bas,marron,2018-01-01,7.2,9
1,,CZE,République Tchèque,Europe,Europe de l'Est,EUE,,P00249,Chemise,Haut,blanc,2018-06-01,11.34,14
2,,HUN,Hongrie,Europe,Europe de l'Est,EUE,,P00565,Robe,Haut-Et-Bas,orange,2017-05-01,13.05,15
3,,MDA,République de Moldavie,Europe,Europe de l'Est,EUE,,P00575,Pyjama,Haut-Et-Bas,blanc,2018-12-01,5.32,7
4,,POL,Pologne,Europe,Europe de l'Est,EUE,,P00626,Robe,Haut-Et-Bas,blanc,2018-04-01,14.25,15


In [19]:
ventes.head()

Unnamed: 0,Sub_Region_Cod,Country_Cod,Categ,Period,Product_Ref,Sales
0,EUE,RUS,Haut-Et-Bas,2021-02-01,P42590,2095.59
1,EUE,BLR,Haut,2020-04-01,P16713,8600.6
2,EUE,ROU,Haut,2019-10-01,P28875,8326.9
3,EUE,MDA,Bas,2019-12-01,P48563,3295.69
4,EUE,BLR,Bas,2020-06-01,P34541,6351.77


Séparons le DataFrame référentiel de manière à avoir un référentiel produit et un référentiel pays

In [21]:
referentiel_pays = referentiel.iloc[:,1:6]
referentiel_pays.head()

Unnamed: 0,Pays_Cod,Pays,Région,Sous-Région,Code Sous-Région
0,BGR,Bulgarie,Europe,Europe de l'Est,EUE
1,CZE,République Tchèque,Europe,Europe de l'Est,EUE
2,HUN,Hongrie,Europe,Europe de l'Est,EUE
3,MDA,République de Moldavie,Europe,Europe de l'Est,EUE
4,POL,Pologne,Europe,Europe de l'Est,EUE


In [22]:
referentiel_produits = referentiel.iloc[:,7:14]
referentiel_produits.head()

Unnamed: 0,Product_Ref,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT
0,P00147,Robe,Haut-Et-Bas,marron,2018-01-01,7.2,9
1,P00249,Chemise,Haut,blanc,2018-06-01,11.34,14
2,P00565,Robe,Haut-Et-Bas,orange,2017-05-01,13.05,15
3,P00575,Pyjama,Haut-Et-Bas,blanc,2018-12-01,5.32,7
4,P00626,Robe,Haut-Et-Bas,blanc,2018-04-01,14.25,15


Maintenant, créons une seule et unique base de données grâce à la méthode `merge`. 
Pour s'assurer que le merge fonctionne, assurons-nous qu'il existe des colonnes communes qui nous permettent de fusionner les trois DataFrames. 

In [36]:
ventes.rename(columns={'  Country_Cod':'Pays_Cod'}, inplace = True)
ventes.columns

Index(['Sub_Region_Cod', 'Pays_Cod', 'Categ', 'Period', 'Product_Ref',
       'Sales'],
      dtype='object')

In [38]:
database = pd.merge(pd.merge(ventes, referentiel_produits, on='Product_Ref'), referentiel_pays, on='Pays_Cod')
database.head()

Unnamed: 0,Sub_Region_Cod,Pays_Cod,Categ,Period,Product_Ref,Sales,Produit,Catégorie de produit,Couleur,Créé le,Prix d'achat,Prix vente HT,Pays,Région,Sous-Région,Code Sous-Région
0,EUE,RUS,Haut-Et-Bas,2021-02-01,P42590,2095.59,Robe,Haut-Et-Bas,marron,2018-11-01,13.05,15,Fédération de Russie,Europe,Europe de l'Est,EUE
1,EUE,RUS,Haut,2019-10-01,P28875,321.85,Chemise,Haut,marron,2017-05-01,12.04,14,Fédération de Russie,Europe,Europe de l'Est,EUE
2,EUE,RUS,Haut,2020-09-01,P28875,9172.4,Chemise,Haut,marron,2017-05-01,12.04,14,Fédération de Russie,Europe,Europe de l'Est,EUE
3,EUE,RUS,Bas,2020-08-01,P48563,2938.5,Culotte,Bas,taupe,2017-07-01,10.01,11,Fédération de Russie,Europe,Europe de l'Est,EUE
4,EUE,RUS,Haut,2020-09-01,P42148,46.42,Soutien gorge,Haut,bleu,2017-09-01,10.44,12,Fédération de Russie,Europe,Europe de l'Est,EUE


### A votre tour de trouver les réponses!

Maintenant, nous pouvons poser toutes les questions du monde à ce jeu de données : 
* Quelles ont été les ventes totales ?

In [44]:
ventes_totales = database['Sales'].sum()
print(ventes_totales)

5695043.23


* Quelles ont été les ventes en Russie ?

In [50]:
ventes_russes =database[database['Pays'] == 'Fédération de Russie']['Sales'].sum()
print(ventes_russes)

580866.5


* Quels sont les produits dont les ventes ont dépassé les 9500 euros ?

In [63]:
top_ventes = database[database['Sales'] > 9500][['Produit', 'Couleur']].count()
print(top_ventes)

Produit    59
Couleur    59
dtype: int64


* Quelles ont été les ventes totales par catégorie de produits ?

In [69]:
pivot_table = pd.pivot_table(database, values='Sales', index='Catégorie de produit', aggfunc='sum')
print(pivot_table)

                           Sales
Catégorie de produit            
Bas                   2399671.75
Haut                  2468643.40
Haut-Et-Bas            826728.08


* Quelles ont été les ventes par pays ? 

In [70]:
pivot_table_ventes_par_pays = pd.pivot_table(database, values='Sales', index='Pays', aggfunc='sum')
print(pivot_table_ventes_par_pays)

                            Sales
Pays                             
Arménie                 566823.51
Bulgarie                523698.74
Bélarus                 534110.29
Fédération de Russie    580866.50
Hongrie                 497901.17
Pologne                 481774.77
Roumanie                439821.85
République Tchèque      614292.30
République de Moldavie  467384.30
Slovaquie               552386.27
Ukraine                 435983.53


* Quelles ont été les ventes totales par mois ?

In [72]:
# Créons une colonne avec le mois de vente
database['Month'] = pd.to_datetime(database['Period']).dt.month

# Puis la pivot table
pivot_table_ventes_par_mois = pd.pivot_table(database, values='Sales', index='Month', aggfunc='sum')
print(pivot_table_ventes_par_mois)

           Sales
Month           
1      330433.21
2      460571.98
3      420710.72
4      516911.24
5      457395.02
6      496822.87
7      429227.00
8      419285.84
9      478076.62
10     570980.61
11     534369.94
12     580258.18


Quelles ont été les ventes par catégorie de produit et par sous-région ? 

In [74]:
pivot_table_ventes_par_categorie_et_region = pd.pivot_table(database, values='Sales', index='Catégorie de produit', columns='Sous-Région', aggfunc='sum')
print(pivot_table_ventes_par_categorie_et_region)

Sous-Région           Europe de l'Est
Catégorie de produit                 
Bas                        2399671.75
Haut                       2468643.40
Haut-Et-Bas                 826728.08


* Quelles ont été les ventes par produit et par couleur ? 

In [78]:
pivot_table_ventes_par_produit_et_couleur = pd.pivot_table(database, values='Sales', index='Produit', columns='Couleur', aggfunc='sum')
print(pivot_table_ventes_par_produit_et_couleur)

Couleur           blanc       bleu     marron      noir    orange       rose  \
Produit                                                                        
Chaussette     46671.43   53904.84        NaN  67231.94  30230.78   61150.30   
Chemise        32925.08   20407.32   35055.04  10218.42  40830.25   14666.70   
Chemisier       7700.35        NaN   12695.09       NaN  22717.94   60453.74   
Collant        51907.03    5000.59   19942.62  28884.74  43301.90   66878.30   
Culotte             NaN   33591.61   66121.53  61956.01  38720.85   77764.15   
Débardeur      37551.98   23537.02        NaN   6909.59  59006.93   11645.40   
Jupe           38221.82   30961.04   66166.43  55279.37  53543.41   25415.17   
Pantacourt     74177.06  121541.15   58383.24  36747.02       NaN   59150.71   
Pantalon       35398.40  110251.46        NaN  28139.04  63003.87   64691.19   
Pull           33575.55   10753.08   47460.52  42856.30  41280.97        NaN   
Pyjama         28176.48   33340.54   203