![title](./pic/merging/intro/1_title.png)

> https://www.shanelynn.ie/merge-join-dataframes-python-pandas-index-1/

In [152]:
import pandas as pd
import time
from IPython.display import Image

In [153]:
df = pd.read_csv('./csv/titanic.csv')
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q


<br>

---

Nun geht's an eine der wichtigsten `Pandas`-Funktion: `pd.merge()`. Du kannst `pd.merge()` immer dann verwenden, wenn du datenbankähnliche Verknüpfungsoperationen durchführen willst. Es ist die flexibelste der drei Operationen, die du lernen wirst.

Wenn du Datenobjekte auf der Grundlage eines oder mehrerer Schlüssel ähnlich wie in einer relationalen Datenbank kombinieren willst, ist `pd.merge()` das Werkzeug, das du brauchst. Genauer gesagt ist `pd.merge()` am nützlichsten, wenn du Zeilen kombinieren willst, die Daten gemeinsam haben.

Du kannst mit `pd.merge()` sowohl **Many-to-One-** als auch **Many-to-Many-Joins** durchführen. Bei einer **Many-to-One-Verknüpfung** enthält einer deiner Datensätze *viele Zeilen in der Zusammenführungsspalte*, die dieselben Werte wiederholen (z. B. 1, 1, 3, 5, 5), während die Zusammenführungsspalte im anderen Datensatz *keine Wiederholungswerte* enthält (z. B. 1, 3, 5).

Wie du vielleicht schon vermutet hast, haben bei einer **Many-to-Many-Verknüpfung** beide Zusammenführungsspalten Wiederholungswerte. Diese Zusammenführungen sind komplexer und ergeben das ***kartesische Produkt*** der verbundenen Zeilen.

Das bedeutet, dass du nach der Zusammenführung jede Kombination von Zeilen hast, die denselben Wert in der **Schlüsselspalte haben**. In den folgenden Beispielen wirst du dies in Aktion sehen.

Was `pd.merge()` so flexibel macht, ist die schiere Anzahl der Optionen, mit denen du das Verhalten deines Zusammenführens definieren kannst. Auch wenn die Liste entmutigend erscheinen mag, wirst du mit etwas Übung in der Lage sein, Datensätze aller Art fachmännisch zusammenzuführen.

Wenn du `pd.merge()` verwendest, musst du zwei Argumente angeben:

- Der linke DataFrame
- Der rechte DataFrame

<br>

Danach kannst du eine Reihe von optionalen Argumenten angeben, um zu definieren, wie deine Datensätze zusammengeführt werden:

**`how`**: Hier wird festgelegt, welche **Art von Zusammenführung** vorgenommen werden soll. Der Standardwert ist `inner`, aber andere mögliche Optionen sind `outer`, `left` und `right`.

**`on`**: Hiermit teilst du `pd.merge()` mit, welche Spalten oder Indizes (auch Schlüsselspalten oder Schlüsselindizes genannt) du zusammenführen möchtest. Diese Angabe ist *optional*. Wenn er nicht angegeben wird und `left_index` und `right_index` (siehe unten) falsch sind, werden Spalten aus den beiden `DataFrames`, die denselben Namen haben, als Verknüpfungsschlüssel verwendet. Wenn du `on` verwendest, muss die angegebene Spalte oder der Index *in beiden Objekten vorhanden sein*.

**`left_on`** und **`right_on`**: Verwendest du eine dieser beiden Optionen, um eine Spalte oder einen Index anzugeben, die bzw. der nur im linken oder rechten Objekt vorhanden ist, das du zusammenführen willst. Beide haben den Standardwert `None`.

**`left_index`** und **`right_index`**: Setzte diesen auf `True`, um den Index des linken oder rechten Objekts zu verwenden, das zusammengeführt werden soll. Der Standardwert für beide ist `False`.

**`suffixes`**: Dies ist ein `Tupel` von Zeichenfolgen, die an identische Spaltennamen angehängt werden, die keine Zusammenführungsschlüssel sind. Damit kannst du die Herkunft von Spalten mit demselben Namen verfolgen.


<br>

---

![title](./pic/merging/intro/2_join_overview.png)

**source:** https://medium.com/swlh/merging-dataframes-with-pandas-pd-merge-7764c7e2d46d

<br>

# Datensatz vorbereiten

In [155]:
df_passenger = df[['PassengerId', 'Name', 'Sex']]
df_ids = df[['PassengerId', 'Survived']]

In [156]:
# df_passenger.head()

In [157]:
# df_ids.head()

In [158]:
import random

for i in range(0, 15):
    random_pass_id = random.randint(10000, 20000)
    random_bool = random.randint(0, 1)
    
    add_row = {
        'PassengerId': random_pass_id,
        'Survived': random_bool
    }

    df_ids = df_ids.append(add_row, ignore_index=True)
    
df_ids = df_ids.sample(frac=1).reset_index(drop=True)
df_ids

Unnamed: 0,PassengerId,Survived
0,1297,0
1,1260,1
2,1153,0
3,1139,0
4,998,0
...,...,...
428,1149,0
429,958,1
430,1272,0
431,18955,1


In [159]:
df_ids.to_csv('csv/merge_function/df_ids.csv')

In [160]:
import random

for i in range(0, 25):
    random_pass_id = random.randint(20001, 30000)
    random_bool = random.randint(0, 1)
    
    add_row = {
        'PassengerId': random_pass_id,
        'Name': 'Test name',
        'Sex': 'male'
    }

    df_passenger = df_passenger.append(add_row, ignore_index=True)
    
df_passenger = df_passenger.sample(frac=1).reset_index(drop=True)
df_passenger

Unnamed: 0,PassengerId,Name,Sex
0,935,"Corbett, Mrs. Walter H (Irene Colvin)",female
1,1023,"Gracie, Col. Archibald IV",male
2,1136,"Johnston, Master. William Arthur Willie""""",male
3,1044,"Storey, Mr. Thomas",male
4,954,"Bjorklund, Mr. Ernst Herbert",male
...,...,...,...
438,974,"Case, Mr. Howard Brown",male
439,1148,"Mahon, Mr. John",male
440,1238,"Botsford, Mr. William Hull",male
441,977,"Khalil, Mr. Betros",male


In [161]:
df_passenger.to_csv('csv/merge_function/df_passenger.csv')