# 06-Was ist Merging?
Unter Merging versteht man das Zusammenführen von zwei Datensätzen. Als Referenz dienen hierbei entweder die Indices der zu vereinenden DataFrames oder aber eine Kombination von ein oder mehrerer Spalten. Diese Technik wird häufig gebraucht, da Daten aus unterschiedlichen Datenquellen oder zum Beispiel aus einer tabellarischen Datenbank kommen.

# Erzeugen der beiden zu vereinenden Dataframes
Im folgenden Kapitel wollen wir uns anschauen, wie wir Daten aus zwei verschiedenen Datensätzen zusammenführen können. Dies gehört zu einer der wichtigsten Tasks, wenn man mit tabellarischen Daten arbeitet.

In [92]:
import pandas as pd
import numpy as np

In [93]:
# Erzeugen eines ersten Dataframes 
df_A = pd.DataFrame(list(range(0,5)), columns=['A'])
df_A = df_A.set_index('A')
df_A['Data'] = ['Apfel', 'Birne', 'Blaubeere', 'Orange', 'Banane']
df_A

Unnamed: 0_level_0,Data
A,Unnamed: 1_level_1
0,Apfel
1,Birne
2,Blaubeere
3,Orange
4,Banane


In [94]:
# Erzeugen eines zweiten Dataframes 
df_B = pd.DataFrame(list(range(3,8)), columns=['B'])
df_B = df_B.set_index('B')
df_B['Data'] = ['Orange', 'Gelb', 'Schwarz', 'Weiß', 'Lila']
df_B

Unnamed: 0_level_0,Data
B,Unnamed: 1_level_1
3,Orange
4,Gelb
5,Schwarz
6,Weiß
7,Lila


# Verweisen auf Grundlage der Indize
Wir wollen uns dazu die 4 verschiedenen Verknüpfungsarten anschauen:
* inner
* outer
* left
* right

## Der Inner-Join
Inner Join bedeutet das Ergebnis beinhaltet nur Daten, die verknüpft werden können und deren Bezug in beiden Dataframes vorkommt.

In [95]:
# Joinen/Mergen die Dataframes aufgrund ihrer Indize, das Ergebnis enthält nur die Schnittmenge der beiden Dataframes
pd.merge(df_A, df_B, how='inner', left_index=True, right_index=True)

Unnamed: 0,Data_x,Data_y
3,Orange,Orange
4,Banane,Gelb


## Der Outer-Join
Outer Join bedeutet das Ergebnis beinhaltet alle Daten unabhängig davon ob diese verknüpft werden können oder nicht. Fehlende Daten werden mit NaN aufgefüllt.

In [96]:
pd.merge(df_A, df_B, how='outer', left_index=True, right_index=True)

Unnamed: 0,Data_x,Data_y
0,Apfel,
1,Birne,
2,Blaubeere,
3,Orange,Orange
4,Banane,Gelb
5,,Schwarz
6,,Weiß
7,,Lila


WIr können uns außerdem anzeigen lassen, auf welche Art die Datensätze verknüpft wurden. Dafür setzen wir den Parameter <font color='green'>indicator=True</font>

In [97]:
pd.merge(df_A, df_B, how='outer', left_index=True, right_index=True, indicator=True)

Unnamed: 0,Data_x,Data_y,_merge
0,Apfel,,left_only
1,Birne,,left_only
2,Blaubeere,,left_only
3,Orange,Orange,both
4,Banane,Gelb,both
5,,Schwarz,right_only
6,,Weiß,right_only
7,,Lila,right_only


## Left und Right Join
Enthält alle Elemente des linken(left-join) oder rechten (right-join) Dataframe, unabhänig ob Daten verknüpft worden sind oder nicht.

In [98]:
pd.merge(df_A, df_B, how='left', left_index=True, right_index=True)

Unnamed: 0_level_0,Data_x,Data_y
A,Unnamed: 1_level_1,Unnamed: 2_level_1
0,Apfel,
1,Birne,
2,Blaubeere,
3,Orange,Orange
4,Banane,Gelb


In [99]:
pd.merge(df_A, df_B, how='right', left_index=True, right_index=True)

Unnamed: 0_level_0,Data_x,Data_y
B,Unnamed: 1_level_1,Unnamed: 2_level_1
3,Orange,Orange
4,Banane,Gelb
5,,Schwarz
6,,Weiß
7,,Lila


## Anpassungsmöglichkeiten
Enthalten beide Dataframes Spalten mit dem gleichen Namen, so kennzeichnet diese Pandas mit den Suffixen '_x' und '_y'. Da da meisten wenig aussagekräftig ist, können wir auch dieses Verhalten ändern. 

In [100]:
pd.merge(df_A, df_B, how='outer', left_index=True, 
         right_index=True, suffixes=('_Fruit', '_Color'))

Unnamed: 0,Data_Fruit,Data_Color
0,Apfel,
1,Birne,
2,Blaubeere,
3,Orange,Orange
4,Banane,Gelb
5,,Schwarz
6,,Weiß
7,,Lila


# Verweisen auf Grundlage von einer oder mehrerer Spalte(n)
Wir können Daten nicht nur auf der Grundlage der Indizes verknüpfen sondern auch über die eine oder mehrere Spalten.

In [101]:
# DataFrame Generierung
df_A = df_A.reset_index().rename(columns={'A':'Link'})
df_A

Unnamed: 0,Link,Data
0,0,Apfel
1,1,Birne
2,2,Blaubeere
3,3,Orange
4,4,Banane


In [102]:
# DataFrame Generierung
df_B = df_B.reset_index().rename(columns={'B':'Link'})
df_B

Unnamed: 0,Link,Data
0,3,Orange
1,4,Gelb
2,5,Schwarz
3,6,Weiß
4,7,Lila


In [103]:
# Eine Spalte als Referenz, die in beiden DataFrames existiert
pd.merge(df_A, df_B, how='left', on=['Link'])

Unnamed: 0,Link,Data_x,Data_y
0,0,Apfel,
1,1,Birne,
2,2,Blaubeere,
3,3,Orange,Orange
4,4,Banane,Gelb


In [109]:
# Erzeugen eines ersten Dataframes 
df_A = pd.DataFrame()
df_A['City1'] = ['Nürnberg', 'Fürth', 'Erlangen']*2
df_A['Year1'] = (['2017']*3+['2018']*3)
df_A['Data'] = pd.Series(list(range(0,6))).astype('str') + 'A'
df_A

Unnamed: 0,City1,Year1,Data
0,Nürnberg,2017,0A
1,Fürth,2017,1A
2,Erlangen,2017,2A
3,Nürnberg,2018,3A
4,Fürth,2018,4A
5,Erlangen,2018,5A


In [107]:
# Erzeugen eines zweiten Dataframes 
df_B = pd.DataFrame()
df_B['City2'] = ['Nürnberg', 'Fürth', 'Erlangen']*2
df_B['Year2'] = (['2018']*3+['2017']*3)
df_B['Data'] = pd.Series(list(range(0,6))).astype('str') + 'B'
df_B

Unnamed: 0,City2,Year2,Data
0,Nürnberg,2018,0B
1,Fürth,2018,1B
2,Erlangen,2018,2B
3,Nürnberg,2017,3B
4,Fürth,2017,4B
5,Erlangen,2017,5B


In [110]:
''' ir möchten die Daten in DataFrame A ergänzen mit den Daten aus DataFrame B 
soweit dort Daten zugeordnet werden können.'''

pd.merge(df_A, df_B, how='left', 
         left_on=['City1', 'Year1'], 
         right_on=['City2', 'Year2'])

Unnamed: 0,City1,Year1,Data_x,City2,Year2,Data_y
0,Nürnberg,2017,0A,Nürnberg,2017,3B
1,Fürth,2017,1A,Fürth,2017,4B
2,Erlangen,2017,2A,Erlangen,2017,5B
3,Nürnberg,2018,3A,Nürnberg,2018,0B
4,Fürth,2018,4A,Fürth,2018,1B
5,Erlangen,2018,5A,Erlangen,2018,2B


# Achtung: Doppelte Keys beim Verknüpfen!
Werte Paare/oder einzelne Werte über die wir verknüpfen sollten immer einzigartig sein, es seiden es ist explizit gewollt. Hierzu zwei Beispiele:

In [114]:
# Erzeugen eines ersten Dataframes 
df_A = pd.DataFrame()
df_A['Color'] = ['Gelb', 'Orange', 'Grün']
df_A

Unnamed: 0,Color
0,Gelb
1,Orange
2,Grün


In [111]:
# Erzeugen eines zweiten Dataframes 
df_B = pd.DataFrame()
df_B['Color'] = list(range(0,3))*2
df_B['Data'] = ['Bananne', 'Orange', 'Apfel', 'Zitrone', 'Nektarine', 'Kiwi']
df_B

Unnamed: 0,Color,Data
0,0,Bananne
1,1,Orange
2,2,Apfel
3,0,Zitrone
4,1,Nektarine
5,2,Kiwi


In [116]:
# Das Ergebnis ist doppelt so lange wie der DataFrame A vor dem merge
df_merged = pd.merge(df_A, df_B, how='left', left_index=True, right_on=['Color'])
df_merged

Unnamed: 0,Color,Color_x,Color_y,Data
0,0,Gelb,0,Bananne
3,0,Gelb,0,Zitrone
1,1,Orange,1,Orange
4,1,Orange,1,Nektarine
2,2,Grün,2,Apfel
5,2,Grün,2,Kiwi


In [None]:
len(df_merged)

## In-Deep Tutorial
Weitere Möglichkeiten der Verknüpfung von Daten mit merge und wie du das Verhalten anpassen finden sich gut erklärt in diesem Tutorial aus der offiziellen Dokumentation:

https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#database-style-dataframe-or-named-series-joining-merging

## Daten Zusammenführen in Excel
Um Daten ähnlich wie mit **pd.merge()** zusammenzuführen, schau dir doch mal PowerQuery an. Mit diesem Tool sind ähnliche Prozesse möglich.