# Dataframes mit Merge über gemeinse Spaltennamen zufammenführen

die `Merge`-Methode bietet alle nötigen Join-Methoden an, um Dataframes zusammenzuführen. Sie ist mächtiger als die einfachere `Concat`-Methode aus dem Kapitel davor.

die Merge-Methode erwartet einen linken Dataframe `left`, einen rechten DataFrame `right`, die Angabe der gewüschnter `Join`-Operation und mit `on` die Angabe, auf welcher Spalte bzw. ob auf den Indizies zusammengeführt werden soll.

Grundsätzlich ist es eine gute Idee, Merge zu nutzen, wenn man auf Spaltenbasis zusammenführen will. Für das Zusammenführen auf der Indexmenge gibt es noch die Methode `join`.


## Beispiel
Wir haben zwei DataFrames. `df_left` ist das  linke Dataframe, `df_right` ist das rechte DataFrame. Beide Dataframes teilen eine Spalte gleichen Namens, nämlich `motor`. Wir wollen dieses Dataframe jetzt zu einem Dataframe verbinden und nutzen dazu als gemeinsame Spalte `motor`. 

In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df_left = pd.DataFrame({
    "motor": ["A1", "A2", "A3", "A4"],
    "acc": [133, 132, 145, 111],
})


df_right = pd.DataFrame({
    "motor": ["A1", "A2", "A3", "A4"],
    "max": [233, 98, 241, 198],
})

display(df_left)
display(df_right)

Unnamed: 0,motor,acc
0,A1,133
1,A2,132
2,A3,145
3,A4,111


Unnamed: 0,motor,max
0,A1,233
1,A2,98
2,A3,241
3,A4,198


In [1]:
# mit dem on-Keyword wird der Spaltenname angegeben, der in beiden DF gleich ist

## Beispiel mit unterschiedlichen Keys
Bei unterschiedlichen Spaltenwerten gehen Daten verloren

In [5]:
df_left2 = pd.DataFrame({
    "motor": ["A1", "A2", "A3", "A5"],
    "acc": [133, 132, 145, 111],
})


df_right2 = pd.DataFrame({
    "motor": ["A1", "A2", "A3", "A4"],
    "max": [233, 98, 241, 198],
})


### Left Join, linke Spalte bleibt ganz erhalten
resultiert natürlich in NaN-Werten für die fehlende Zeile

In [6]:
# Left join on motor

### Outer Join, beide Spalten bleiben erhalten
resultiert natürlich in NaN-Werten für die fehlende Zeile

In [7]:
# right join on motor

# Aufgabe: Bevölkerungszahlen für verschiedene Länder

Führe die beiden Dataframes zusammen und berechne die Bevölkerungsdichte pro Land

In [8]:
import pandas as pd

# Bevölkerungszahlen für verschiedene Länder
data_population = {
    "Land": ["Deutschland", "Frankreich", "Italien", "Spanien"],
    "Bevölkerung": [83000000, 67000000, 60000000, 47000000]
}
df_population = pd.DataFrame(data_population)

# Flächenangaben für verschiedene Länder (in km²)
data_area = {
    "Land": ["Deutschland", "Frankreich", "Italien", "Spanien"],
    "Fläche_km2": [357386, 551695, 301340, 505992]
}
df_area = pd.DataFrame(data_area)

# TODO: Führe die Tabellen zusammen


# TODO: Berechne die Bevölkerungsdichte (Einwohner pro km²)

# Ausgabe des Ergebnisses
print("Zusammengeführte Tabelle mit Bevölkerungsdichte:")




Zusammengeführte Tabelle mit Bevölkerungsdichte:


### **Erwartete Ausgabe**

| Land        | Bevölkerung | Fläche (km²) | Bevölkerungsdichte (Einwohner/km²) |
|-------------|-------------|--------------|----------------------------------|
| Deutschland | 83,000,000  | 357,386      | 232.25                           |
| Frankreich  | 67,000,000  | 551,695      | 121.46                           |
| Italien     | 60,000,000  | 301,340      | 199.12                           |
| Spanien     | 47,000,000  | 505,992      | 92.91                            |

---