# Dataframes samenvoegen
## pd.concat()
Met pd.concat() kunnen we kolommen samenvoegen

In [None]:
import pandas as pd
voornamen = ['Karen', 'Kristel', 'Kathleen']
df_achternaam = pd.DataFrame({'achternaam':['Damen', 'Verbeke', 'Aerts']}, index=voornamen)
df_geboortedatum =pd.DataFrame({'geboortedatum':[pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1978-06-18')]},
                               index=voornamen)
pd.concat([df_achternaam, df_geboortedatum], axis='columns')

## Rijen samenvoegen
Nu we dit weten is het samenvoegen van rijen niet moeilijk.

In [None]:
import pandas as pd
df_oud = pd.DataFrame({'achternaam':['Damen', 'Verbeke',' Aerts']}, index=['Karen', 'Kristel', 'Kathleen'])
df_nieuw = pd.DataFrame({'achternaam':['Verbruggen', 'De Pillecyn', 'Boschman']}, index=['Hanne', 'Marthe', 'Julia'])
pd.concat([df_oud, df_nieuw], axis='index')

## Het 'join'-argument: outer
In het volgende voorbeeld bevat df_geboortedatum geen gegevens voor Kathleen. Wanneer we die samenvoegen, krijgt 'geboortedatum' de waarde NaT voor Kathleen. Dat komt omdat het argument 'join' de standaardwaarde 'outer' heeft (vergelijk met SQL)

In [None]:
voornamen = ['Karen', 'Kristel', 'Kathleen']
df_achternaam = pd.DataFrame({'achternaam':['Damen', 'Verbeke', 'Aerts']}, index=voornamen)
df_geboortedatum =pd.DataFrame({'geboortedatum':[pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10')]},
                               index=voornamen[:2])
pd.concat([df_achternaam, df_geboortedatum], axis='columns')

## de inner join
Bij een inner-join houden we alleen de rijen over die 'overeenkomen' (=dezelfde index hebben)

In [None]:
voornamen = ['Karen', 'Kristel', 'Kathleen']
df_achternaam = pd.DataFrame({'achternaam':['Damen', 'Verbeke', 'Aerts']}, index=voornamen)
df_geboortedatum =pd.DataFrame({'geboortedatum':[pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10')]},
                               index=voornamen[:2])
pd.concat([df_achternaam, df_geboortedatum], axis='columns', join='inner')

## Samenvoegen met merge
In de volgende datasets hebben we geen specifieke index meer gedefinieerd. Maar beide datasets delen dezelfde kolomnaam (voornaam). De volgorde van de namen in 'voornaam' is echter verschillend. 

Met pd.merge() kunnen we twee dataframes samenvoegen op basis van waarden in de gemeenschappelijke kolomnaam

In [None]:
import pandas as pd
voornamen_1 = ['Karen', 'Kristel', 'Kathleen']
voornamen_2 = ['Karen', 'Kathleen', 'Kristel']
df_achternaam = pd.DataFrame({'achternaam':['Damen', 'Verbeke', 'Aerts'], 'voornaam':voornamen_1})
df_geboortedatum =pd.DataFrame({'geboortedatum':[pd.to_datetime('1974-10-28'), pd.to_datetime('1978-06-18'), pd.to_datetime('1975-12-10')],
                                'voornaam':voornamen_2})
pd.merge(df_achternaam, df_geboortedatum)

## Merge en 1-op-veel-relatie
Het dataframe df_history bevat maar 2 rijen. De waarde van de key-kolom komt meerdere keren voor in df_k3. We zien dat de startdatum nu ook meerdere keren herhaald wordt.

In [None]:
df_history = pd.DataFrame({'key':['oude_k3', 'nieuwe_k3'], 'startdatum':[pd.to_datetime('1998-11-13'), pd.to_datetime('2015-11-06')]})
df_k3 = pd.DataFrame({'voornaam':['Karen', 'Kristel', 'Kathleen', 'Hanne','Marthe', 'Julia'],
                      'key':['oude_k3', 'oude_k3', 'oude_k3', 'nieuwe_k3', 'nieuwe_k3', 'nieuwe_k3']})
pd.merge(df_k3, df_history)

## En wanneer de kolomnaam niet overeenkomt?
In het volgende voorbeeld is er geen gemeenschappelijke kolom. Dat is geen probleem dank zij left_on en right_on. Beide kolomnamen komen nu voor in het resultaat. Dat heeft natuurlijk niet veel zin. We kunnen die verwijderen.

In [None]:
df_history = pd.DataFrame({'key':['oude_k3', 'nieuwe_k3'], 'startdatum':[pd.to_datetime('1998-11-13'), pd.to_datetime('2015-11-06')]})
df_k3 = pd.DataFrame({'voornaam':['Karen', 'Kristel', 'Kathleen', 'Hanne','Marthe', 'Julia'],
                      'groep':['oude_k3', 'oude_k3', 'oude_k3', 'nieuwe_k3', 'nieuwe_k3', 'nieuwe_k3']})
#pd.merge(df_k3, df_history, left_on='groep', right_on='key')
pd.merge(df_k3, df_history, left_on='groep', right_on='key').drop('key', axis=1)