In [1]:
# import of package
import pandas as pd
import numpy as np
import seaborn as sns

# Verbinden von Datensätze

Bisher haben wir immer nur einen Datensatz gehabt. Sehr häufig werden jedoch mehrere Datensätze vorhanden sein. Ebenso kann während der Inspektion eines Datensatzes notwendig sein, diesen zu zerlegen und die Teildatensätzen wieder zu vereinen. In diesem Abschnitt werden wir lernen, wie man mehrere Datensätze verbinden kann.

In Pandas (wie auch in vielen anderen Programmiersprachen) stehen uns die Methoden **merge(), concat()** und **append()** zur Verfügung.

<span style = "color: red"> **Wichtig:** <br>
    Prüft jeweils die Anzahl Zeilen (bzw. Spalten)vor dem Verbinden und kontrolliert den verbundenen Datensatz auf die Richtigkeit! </span>
    

## append()

Durch die Methode **append()** werden die Datensätze einfach untereinander geschrieben und somit verbunden. Wenn wir diese Methode anwenden müssen wir daher sicher stellen, dass die gleichen Merkmale in der gleichen Reihenfolge existieren.

Wir bilden uns ersteinmal 2 Datensätze df_1 und df_2.

In [2]:
#df_1 has only single animals
df_1 = pd.DataFrame({'animals': ['elephant', 'monkey', 'cat', 'dog'],
                    'value': [1, 2, 3, 5]})

#df_2 has doubling of monkey and cat
df_2 = pd.DataFrame({'animals': ['monkey', 'monkey', 'cat', 'cat', 'bird'],
                    'value': [6, 7, 8, 9, 10]})

In [3]:
df_1

Unnamed: 0,animals,value
0,elephant,1
1,monkey,2
2,cat,3
3,dog,5


In [4]:
df_2

Unnamed: 0,animals,value
0,monkey,6
1,monkey,7
2,cat,8
3,cat,9
4,bird,10


In [5]:
# as we have the same column we can append both table
df_3 = df_1.append(df_2)
df_3

  df_3 = df_1.append(df_2)


Unnamed: 0,animals,value
0,elephant,1
1,monkey,2
2,cat,3
3,dog,5
0,monkey,6
1,monkey,7
2,cat,8
3,cat,9
4,bird,10


## concat()

Mit der Methode **concat()** können wir ebenfalls die Datensätze untereinander schreiben und verbinden. Jedoch können wir hier zusätzlich die Achsen bestimmen.

Der Defaultwert ist **axis = 0**. Hier werden die Zeilen den 2. Datensatzes wie bei **append()** unten an den 1. Datensatz angefügt. 

Ist unser Gesamt-Datensatz jedoch in z.B. Spalte 1-5 in einen Datensatz und die Spalte 6-8 in einem anderen Datensatz gespalten, können wir **concat()** mit **axis = 1** diese beiden zusammen fügen. Hierbei müssen wir jedoch sicher sein, dass die Zeilen der Teildatensätze übereinstimmen.

In [6]:
# concat can do the same like append
df_concat_1 = pd.concat([df_1, df_2])
df_concat_1

Unnamed: 0,animals,value
0,elephant,1
1,monkey,2
2,cat,3
3,dog,5
0,monkey,6
1,monkey,7
2,cat,8
3,cat,9
4,bird,10


In [7]:
df_concat_2 = pd.concat([df_1, df_2], axis = 1)
df_concat_2

Unnamed: 0,animals,value,animals.1,value.1
0,elephant,1.0,monkey,6
1,monkey,2.0,monkey,7
2,cat,3.0,cat,8
3,dog,5.0,cat,9
4,,,bird,10


In [8]:
df_concat_4 = pd.concat([df_1, df_2], axis = 1, keys = ['df_1', 'df_2'])
df_concat_4

Unnamed: 0_level_0,df_1,df_1,df_2,df_2
Unnamed: 0_level_1,animals,value,animals,value
0,elephant,1.0,monkey,6
1,monkey,2.0,monkey,7
2,cat,3.0,cat,8
3,dog,5.0,cat,9
4,,,bird,10


In [9]:
df_concat_4.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   (df_1, animals)  4 non-null      object 
 1   (df_1, value)    4 non-null      float64
 2   (df_2, animals)  5 non-null      object 
 3   (df_2, value)    5 non-null      int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 200.0+ bytes


In [10]:
pd.concat([df_1, df_2], keys= ['df_1', 'df_2'])

Unnamed: 0,Unnamed: 1,animals,value
df_1,0,elephant,1
df_1,1,monkey,2
df_1,2,cat,3
df_1,3,dog,5
df_2,0,monkey,6
df_2,1,monkey,7
df_2,2,cat,8
df_2,3,cat,9
df_2,4,bird,10


## merge()

Bei den Methoden **append()** und **concat()** musst wir unbedingt auf die **gleichen Spalten** (bzw. Zeilen) achten. Dies ist jedoch nicht immer der Fall. Jedoch wollen wir trotzdem die mehrere Datensätze zu einem Gesamt-Datensatz verbinden. Hierbei verwenden wir die Methode **merge()**

Bei der Methode **merge()** können wir mehrere Parameter wählen. Häufig sieht das Muster folgend aus:

Um sicher zu gehen, dass die Information sauber zueinander finden wird **validate** hinzugefügt. Hierbei kann man z.B. **1:m** validieren, was bedeutet, dass jeder Wert vom DF1 1x Verwendung findet, jedoch die Informationen vom DF2 öfters (many) verwendet werden können.

<span style = "color: red">**Wichtig:** <br>
    kontrolliert Eure Datensätz auf Doppelungen. Sollen diese sein oder ist es sinnvoll Dubletten zu entfernen. Hilfreich ist hier die Methode **drop_duplicates()**. </span>

### Left Join

Hier wollen wir, dass alle Zeilen von DF_A genommen werden. Vom DF_B werden nur die Zeilen genommen, die mit dem Key übereinstimmen. Bildlich können wir uns dies folgend vorstellen:

<img src = https://www.w3schools.com/sql/img_leftjoin.gif width = 300>

In [11]:
df_1

Unnamed: 0,animals,value
0,elephant,1
1,monkey,2
2,cat,3
3,dog,5


In [12]:
df_2

Unnamed: 0,animals,value
0,monkey,6
1,monkey,7
2,cat,8
3,cat,9
4,bird,10


Wir haben im df_2 zwar mehrere Tiere doppelt, jedoch sind verschiedene Informationen vorhanden. Daher handelt es sich nicht um Dubletten.

In [13]:
# left join merge
df_2 = df_2.drop_duplicates()      # Ändert gerade nichts
df_left_join = pd.merge(df_1, df_2, how = 'left', on = 'animals', 
                        validate = '1:m')
df_left_join

Unnamed: 0,animals,value_x,value_y
0,elephant,1,
1,monkey,2,6.0
2,monkey,2,7.0
3,cat,3,8.0
4,cat,3,9.0
5,dog,5,


**monkey** und **cat** sind in beiden Datensätze vorhanden. Jedoch haben bei 2 Informationen im df_2 und tauchen somit auch mit 2 value_y Werte auf.

**elephant** und **dog** sind nur im df_1 vorhanden. Sie tauchen im gemeinsamen df_left_joint auf, jedoch ist NaN dem value_y zu entnehmen.

**bird** existiert im df_2, jedoch nicht im df_1. Folglich ist dieser Datensatz nicht mehr im gemeinsamen df_left_joint vorhanden.

Sie sehen, wir müssen uns vorab Gedanken machen, welche Informationen wollen wir im zukünftigen Datensatz sehen und welche nicht. Es ist hilfreich eine Skizze anzufertigen!

Kommen wir nochmals zurück zu unserem **drop_duplicates()**. Wir haben bisher gesagt, dass wir keine Dubletten haben, da der Wert sich unterscheidet.

Wir können jedoch erzwingen, dass nur ein **Key**, z.B. cat, auftaucht mit einem **Value**. Dies erreichen wir indem wir ein **subset** betrachten: 

Ich habe gleich noch den Parameter **keep** hinzugefügt. Dieser Parameter gibt an, welche Dublette erhalten bleibt. Der Default-Wert ist **first**.

* **first**: Löscht alle Dubletten außer das Erste.
* **last**: Löscht alle Dubletten außer das Letzte.
* **False**: Löscht alle Dubletten.

Auch hier wieder überlegen, welche Information sinnig ist zu behalten und auf welche Informationen man verzichten kann.

In [14]:
df_2_neu = df_2.drop_duplicates(subset = ['animals'], keep = 'first')
df_2_neu

Unnamed: 0,animals,value
0,monkey,6
2,cat,8
4,bird,10


### Right Join

In [15]:
# mit df_2_neu nach drop_dublicates(subset = ['animals'])
df_right_join = pd.merge(df_2_neu, df_1,  how = 'right', on = 'animals', 
                         validate = '1:m')
df_right_join

Unnamed: 0,animals,value_x,value_y
0,elephant,,1
1,monkey,6.0,2
2,cat,8.0,3
3,dog,,5


In [16]:
df_2

Unnamed: 0,animals,value
0,monkey,6
1,monkey,7
2,cat,8
3,cat,9
4,bird,10


In [17]:
df_1

Unnamed: 0,animals,value
0,elephant,1
1,monkey,2
2,cat,3
3,dog,5


In [18]:
# Ursprünglichen df_2 ohne drop_dubplicates
df_right_join = pd.merge(df_2, df_1,  how = 'right', on = 'animals', 
                         validate = 'm:1')
df_right_join

Unnamed: 0,animals,value_x,value_y
0,elephant,,1
1,monkey,6.0,2
2,monkey,7.0,2
3,cat,8.0,3
4,cat,9.0,3
5,dog,,5


### Inner Join

Beim Inner Join wird nur die Schnittmenge von beiden Datensätze verwenden.


<img src = http://www.w3big.com/sql/img_innerjoin.gif width = 300>

In [19]:
# inner join merge
df_inner_join = pd.merge(df_1, df_2, how = 'inner', on = 'animals')
df_inner_join

Unnamed: 0,animals,value_x,value_y
0,monkey,2,6
1,monkey,2,7
2,cat,3,8
3,cat,3,9


Wir können hier erkennen, dass nur **monkey** und **cat** in dem neuen Datensatz vorhanden sind. Jedoch tauchen diese beide 2-fach auf, da sie zwei Werte im ursprünglichen df_2 haben.

### Outer Join

Beim **Outer Join** wird die Gesamte Menge von A und B genommen und miteinander verheiratet:

<img src = http://www.w3big.com/sql/img_fulljoin.gif width=300>

In [20]:
# outer join merge
df_outer_join = pd.merge(df_1, df_2, how = 'outer', on = 'animals')
df_outer_join

Unnamed: 0,animals,value_x,value_y
0,elephant,1.0,
1,monkey,2.0,6.0
2,monkey,2.0,7.0
3,cat,3.0,8.0
4,cat,3.0,9.0
5,dog,5.0,
6,bird,,10.0


### ...es geht jedoch auch einfacher ...

Und zwar gibt es den Parameter **indicator**. Wenn wir diesen **True** setzen, wird noch zusätzlich eine Spalte generiert. Dort findet man die Information über "left_only", "both" und "right_only". Somit können wir erst die Datensätze verbinden und entscheiden erst anschließend, welche Verbindung wir verwenden wollen:

In [21]:
# by using indicator = True
df_ind_join = pd.merge(df_1, df_2, how = 'outer', on = 'animals', 
                       indicator = True)
df_ind_join

Unnamed: 0,animals,value_x,value_y,_merge
0,elephant,1.0,,left_only
1,monkey,2.0,6.0,both
2,monkey,2.0,7.0,both
3,cat,3.0,8.0,both
4,cat,3.0,9.0,both
5,dog,5.0,,left_only
6,bird,,10.0,right_only


**Hinweis:** 
   * mit indicator = True kann dann anschließend nach '_merge' - Wunsch gefiltert werden!
   * ab und an ist es notwendig ein validate zu setzten (1:1 oder 1:m)!
   * Vorsichtig sein mit Duplicates!
   * Hilfreich ist mit df.shape die Struktur zur überprüfen!