Dans n'importe quelle situation réelle de la science des données avec Python, vous aurez besoin de fusionner ou joindre des Dataframes ensemble pour former votre ensemble de données d'analyse. 

Fusionner et joindre des dataframes est un processus de base que tout analyste de données en herbe devra maîtriser. Ce billet de blog traite du processus de fusion des ensembles de données, c'est-à-dire, joindre deux ensembles de données ensemble sur la base de colonnes communes entre eux. Principaux sujets abordés ici :

    Qu'est-ce qu'une fusion ou une jonction de deux dataframes ?
    Qu'est-ce qu'une fusion intérieure, extérieure, gauche et droite ?
    Comment fusionner deux dataframes avec des noms de colonnes différents ? (syntaxe left_on et right_on)



[https://openclassrooms.com/fr/courses/1208071-introduction-aux-jointures-sql](https://openclassrooms.com/fr/courses/1208071-introduction-aux-jointures-sql)

![Jointure](https://www.codeproject.com/KB/database/Visual_SQL_Joins/Visual_SQL_JOINS_orig.jpg)

In [11]:
import pandas as pd
import numpy as np

pd.set_option('display.max_rows', 20)

clients = pd.read_csv("clients.csv", sep=';',  encoding='windows-1252')
produits = pd.read_csv("produits.csv", sep=';',  encoding='windows-1252')
semaine1 = pd.read_csv("semaine 1.csv", sep=';',  encoding='windows-1252')
semaine2 = pd.read_csv("semaine 2.csv", sep=';',  encoding='windows-1252')



In [12]:
semaine1.head()

Unnamed: 0,idclient,idproduit
0,512,3
1,499,3
2,499,13
3,11,9
4,24,19


In [13]:
semaine2.head()

Unnamed: 0,idclient,idproduit
0,536,7
1,499,7
2,499,5
3,499,1
4,38,14


In [16]:
semaine1.merge(semaine2, how='inner', on = "client")

Unnamed: 0,client,produit_x,produit_y
0,499,3,7
1,499,3,5
2,499,3,1
3,499,13,7
4,499,13,5
5,499,13,1
6,11,9,10
7,11,9,9
8,11,4,10
9,11,4,9


Pourquoi le résultat est-il d'une taille différente des deux images de données d'origine ?

Par défaut, l'opération de fusion de Pandas agit avec une fusion "intérieure" 'inner'. Une fusion interne (ou jointure interne) ne conserve que les valeurs communes dans les dataframes de gauche et de droite pour le résultat. Dans notre exemple ci-dessus, seules les lignes qui contiennent des valeurs client communes entre semaine1 et semaine2 restent dans le jeu de données de résultat. 




In [14]:
semaine1["idclient"].isin(semaine2["idclient"]).value_counts()

True     249
False      1
Name: idclient, dtype: int64

In [19]:
semaine1[semaine1["client"]==499]

Unnamed: 0,client,produit
0,499,3
1,499,13


In [20]:
semaine2[semaine2["client"]==499]

Unnamed: 0,client,produit
0,499,7
1,499,5
2,499,1


In [21]:
semaine1.merge(semaine2, how='inner', on = "client", suffixes = [" S1"," S2"])

Unnamed: 0,client,produit S1,produit S2
0,499,3,7
1,499,3,5
2,499,3,1
3,499,13,7
4,499,13,5
5,499,13,1
6,11,9,10
7,11,9,9
8,11,4,10
9,11,4,9


In [23]:
semaine1.merge(semaine2, how='inner', on = ["client","produit"] )

Unnamed: 0,client,produit
0,11,9
1,23,15
2,46,14
3,38,14
4,9,4
5,9,4
6,24,18
7,24,18
8,24,18
9,28,13


In [24]:
semaine1[semaine1["client"]==1]

Unnamed: 0,client,produit
60,1,5
101,1,7
109,1,11
134,1,18
180,1,14
220,1,6


In [25]:
semaine2[semaine2["client"]==1]

Unnamed: 0,client,produit
15,1,21
26,1,3
32,1,14
79,1,2
90,1,14
188,1,18
