# pd.merge()

**Merging** kombiniert DataFrames basierend auf gemeinsamen Spalten und ist vergleichbar mit einem [SQL-Join](../../../SQL/join.ipynb).<br>

## einfaches Mergen

### **inner**

**Inner Join**: Gibt nur die Zeilen zurück, die in beiden DataFrames übereinstimmende Werte in der gemeinsamen Spalte `ID` haben.

In [9]:
import pandas as pd

# Erstellen zweier DataFrames
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Name': ['Anna', 'Ben', 'Clara', 'David']
})

df2 = pd.DataFrame({
    'ID': [3, 4, 5, 6],
    'Score': [85, 90, 95, 80]
})

# Merging (inner join)
merged_df = pd.merge(df1, df2, on='ID', how='inner')
merged_df

Unnamed: 0,ID,Name,Score
0,3,Clara,85
1,4,David,90


### **outer**

**Outer Join**: Behält alle Zeilen aus beiden DataFrames, selbst wenn es keine Übereinstimmung gibt; fehlende Werte werden mit `NaN` aufgefüllt.

In [10]:
import pandas as pd

# Erstellen zweier DataFrames
df3 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Name': ['Anna', 'Ben', 'Clara', 'David']
})

df4 = pd.DataFrame({
    'ID': [3, 4, 5, 6],
    'Score': [85, 90, 95, 80]
})

# Merging (inner join)
merged_df = pd.merge(df3, df4, on='ID', how='outer')
merged_df

Unnamed: 0,ID,Name,Score
0,1,Anna,
1,2,Ben,
2,3,Clara,85.0
3,4,David,90.0
4,5,,95.0
5,6,,80.0


### **left**

**Left Join**: Behält alle Zeilen aus dem linken DataFrame, auch wenn keine Übereinstimmung im rechten DataFrame vorhanden ist; fehlende Werte auf der rechten Seite werden mit `NaN` gefüllt.

In [11]:
import pandas as pd

# Erstellen zweier DataFrames
df3 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Name': ['Anna', 'Ben', 'Clara', 'David']
})

df4 = pd.DataFrame({
    'ID': [3, 4, 5, 6],
    'Score': [85, 90, 95, 80]
})

# Merging (inner join)
merged_df = pd.merge(df3, df4, on='ID', how='left')
merged_df

Unnamed: 0,ID,Name,Score
0,1,Anna,
1,2,Ben,
2,3,Clara,85.0
3,4,David,90.0


### **right**

**Right Join**: Behält alle Zeilen aus dem rechten DataFrame, auch wenn keine Übereinstimmung im linken DataFrame vorhanden ist; fehlende Werte auf der linken Seite werden mit `NaN` gefüllt.

In [12]:
import pandas as pd

# Erstellen zweier DataFrames
df3 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Name': ['Anna', 'Ben', 'Clara', 'David']
})

df4 = pd.DataFrame({
    'ID': [3, 4, 5, 6],
    'Score': [85, 90, 95, 80]
})

# Merging (inner join)
merged_df = pd.merge(df3, df4, on='ID', how='right')
merged_df

Unnamed: 0,ID,Name,Score
0,3,Clara,85
1,4,David,90
2,5,,95
3,6,,80


## Merging mit mehreren Schlüsselspalten

In diesem Beispiel führen wir das **Merging** über zwei Schlüsselspalten durch: Vorname und Nachname.

### **inner**

In [17]:
import pandas as pd

# DataFrame 1
df1 = pd.DataFrame({
    'Vorname': ['Anna', 'Ben', 'Clara', 'David'],
    'Nachname': ['Müller', 'Schmidt', 'Fischer', 'Weber'],
    'Alter': [28, 34, 29, 40]
})

# DataFrame 2
df2 = pd.DataFrame({
    'Vorname': ['Anna', 'Ben', 'Clara', 'Elias'],
    'Nachname': ['Müller', 'Schmidt', 'Fischer', 'Klein'],
    'Einkommen': [45000, 55000, 47000, 60000]
})

# Merge anhand von Vor- und Nachname
merged_df = pd.merge(df1, df2, on=['Vorname', 'Nachname'], how='inner')
merged_df

Unnamed: 0,Vorname,Nachname,Alter,Einkommen
0,Anna,Müller,28,45000
1,Ben,Schmidt,34,55000
2,Clara,Fischer,29,47000


### **outer**

In [14]:
import pandas as pd

# DataFrame 1
df1 = pd.DataFrame({
    'Vorname': ['Anna', 'Ben', 'Clara', 'David'],
    'Nachname': ['Müller', 'Schmidt', 'Fischer', 'Weber'],
    'Alter': [28, 34, 29, 40]
})

# DataFrame 2
df2 = pd.DataFrame({
    'Vorname': ['Anna', 'Ben', 'Clara', 'Elias'],
    'Nachname': ['Müller', 'Schmidt', 'Fischer', 'Klein'],
    'Einkommen': [45000, 55000, 47000, 60000]
})

# Merge anhand von Vor- und Nachname
merged_df = pd.merge(df1, df2, on=['Vorname', 'Nachname'], how='outer')
merged_df

Unnamed: 0,Vorname,Nachname,Alter,Einkommen
0,Anna,Müller,28.0,45000.0
1,Ben,Schmidt,34.0,55000.0
2,Clara,Fischer,29.0,47000.0
3,David,Weber,40.0,
4,Elias,Klein,,60000.0


### **left**

In [15]:
import pandas as pd

# DataFrame 1
df1 = pd.DataFrame({
    'Vorname': ['Anna', 'Ben', 'Clara', 'David'],
    'Nachname': ['Müller', 'Schmidt', 'Fischer', 'Weber'],
    'Alter': [28, 34, 29, 40]
})

# DataFrame 2
df2 = pd.DataFrame({
    'Vorname': ['Anna', 'Ben', 'Clara', 'Elias'],
    'Nachname': ['Müller', 'Schmidt', 'Fischer', 'Klein'],
    'Einkommen': [45000, 55000, 47000, 60000]
})

# Merge anhand von Vor- und Nachname
merged_df = pd.merge(df1, df2, on=['Vorname', 'Nachname'], how='left')
merged_df

Unnamed: 0,Vorname,Nachname,Alter,Einkommen
0,Anna,Müller,28,45000.0
1,Ben,Schmidt,34,55000.0
2,Clara,Fischer,29,47000.0
3,David,Weber,40,


### **right**

In [16]:
import pandas as pd

# DataFrame 1
df1 = pd.DataFrame({
    'Vorname': ['Anna', 'Ben', 'Clara', 'David'],
    'Nachname': ['Müller', 'Schmidt', 'Fischer', 'Weber'],
    'Alter': [28, 34, 29, 40]
})

# DataFrame 2
df2 = pd.DataFrame({
    'Vorname': ['Anna', 'Ben', 'Clara', 'Elias'],
    'Nachname': ['Müller', 'Schmidt', 'Fischer', 'Klein'],
    'Einkommen': [45000, 55000, 47000, 60000]
})

# Merge anhand von Vor- und Nachname
merged_df = pd.merge(df1, df2, on=['Vorname', 'Nachname'], how='right')
merged_df

Unnamed: 0,Vorname,Nachname,Alter,Einkommen
0,Anna,Müller,28.0,45000
1,Ben,Schmidt,34.0,55000
2,Clara,Fischer,29.0,47000
3,Elias,Klein,,60000


## Many-to-Many-Merge

Es gibt Fälle, in denen ein DataFrame mehrere gleiche Schlüsselwerte hat, was zu einem **Many-to-Many-Merge** führt.

Hier führen wir ein **Many-to-Many-Merge** durch, bei dem jede Kombination von ID-Werten aus beiden DataFrames beibehalten wird.

In [6]:
# DataFrame 1
df1 = pd.DataFrame({
    'Student_ID': [1, 2, 2, 3],
    'Kurs': ['Mathe', 'Englisch', 'Biologie', 'Physik']
})

# DataFrame 2
df2 = pd.DataFrame({
    'Student_ID': [1, 2, 2, 4],
    'Note': ['A', 'B', 'C', 'A']
})

# Merge (inner join)
merged_df = pd.merge(df1, df2, on='Student_ID', how='inner')
merged_df

Unnamed: 0,Student_ID,Kurs,Note
0,1,Mathe,A
1,2,Englisch,B
2,2,Englisch,C
3,2,Biologie,B
4,2,Biologie,C
