# Merging and joining data from different DataFrames.

Bruges normalt ved store datamængder, hvor man kan have data, der er spredt over flere DataFrames eller tabeller. Hver DataFrame kan indeholde forskellige aspekter af den samme data, og ved at kombinere dem kan man få en mere komplet og sammenhængende forståelse af dataene

In [21]:
import pandas as pd

#Eksempel
# Et DataFrame med kundeoplysninger
df1 = pd.DataFrame({
    'KundeID': ['K01', 'K02', 'K03', 'K04'],
    'Navn': ['Alice', 'Bob', 'Charlie', 'Dave'],
    'Alder': [25, 32, 45, 27],
    'By': ['Aarhus', 'Viborg', 'Horsens', 'Esbjerg']
})

# Et andet DataFrame med købsoplysninger
df2 = pd.DataFrame({
    'KundeID': ['K01', 'K03', 'K03', 'K02', 'K01', 'K04','K02'],
    'Produkt': ['Bog', 'Film', 'CD', 'Bog', 'Film', 'CD','Bog'],
    'Pris': [100, 50, 20, 80, 120, 30,70]
})



Nu vil vi kombinere disse to DataFrames, så vi kan se oplysninger om hver kunde og deres køb i samme tabel. 
Dette kan gøres ved join-operation på KundeID-kolonnen i begge DataFrames:

In [22]:
# Merge af DataFrames på KundeID-kolonnen
merged_df = pd.merge(df1, df2, on='KundeID')

# Viser det samlede DataFrame med kunde- og købsoplysninger
print(merged_df)
print(type(merged_df))

  KundeID     Navn  Alder       By Produkt  Pris
0     K01    Alice     25   Aarhus     Bog   100
1     K01    Alice     25   Aarhus    Film   120
2     K02      Bob     32   Viborg     Bog    80
3     K02      Bob     32   Viborg     Bog    70
4     K03  Charlie     45  Horsens    Film    50
5     K03  Charlie     45  Horsens      CD    20
6     K04     Dave     27  Esbjerg      CD    30
<class 'pandas.core.frame.DataFrame'>


Hvis man samle forbruget kan man bruge groupby()

Efterfølgende total_inkob bliver til en pandas Series-objekt.

In [23]:
total_indkob = merged_df.groupby(['KundeID', 'Navn'])['Pris'].sum()
print(total_indkob)
print(type(total_indkob))

KundeID  Navn   
K01      Alice      220
K02      Bob        150
K03      Charlie     70
K04      Dave        30
Name: Pris, dtype: int64
<class 'pandas.core.series.Series'>


Hvis man vil bibeholde det som dataframe kan man bruge reset_index()-funktionen i pandas til at nulstille index på Series-objektet
<br>
Og derefter bruge to_frame()-funktionen til at konvertere det til en DataFrame

In [24]:
total_indkob_df = total_indkob.reset_index().rename(columns={'Pris': 'Samlet Indkøb'})

print(total_indkob_df)
print(type(total_indkob_df))

  KundeID     Navn  Samlet Indkøb
0     K01    Alice            220
1     K02      Bob            150
2     K03  Charlie             70
3     K04     Dave             30
<class 'pandas.core.frame.DataFrame'>


# Join

Join er en operation, der tillader kombinering af to forskellige DataFrames baseret på deres index. <br>
Hvis to DataFrames har samme index eller fælles index, kan man bruge en join-operation til at kombinere dem i en ny DataFrame.

In [59]:
# Opretter to forskellige DataFrames med forskellige kolonner og samme index
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['a', 'b', 'c'])
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]}, index=['a', 'b', 'c'])

# Udfører en join-operation baseret på index
joined_df = df1.join(df2)

# Viser de oprindelige dataframes
print('Den første dataframe:\n{}\n'.format(df1))
print('Den anden dataframe: \n{}\n'.format(df2))

# Viser den nye DataFrame med kombinerede kolonner fra begge DataFrames
print('Den joinede dataframe: \n{}\n'.format(joined_df))

Den første dataframe:
   A  B
a  1  4
b  2  5
c  3  6

Den anden dataframe: 
   C   D
a  7  10
b  8  11
c  9  12

Den joinede dataframe: 
   A  B  C   D
a  1  4  7  10
b  2  5  8  11
c  3  6  9  12



Hvis index ikke er identiske er der flere andre muligheder:

Brug join(how='inner') hvis man vil have fælles index <br>
Brug join(how='outer') hvis man vil have alle index, manglende værdier udfyldes med altid med NaN

Det er også muligt ar resette index så de bliver ens med df2 = df2.set_index([df1.index])

In [58]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['a', 'b', 'c'])
df2 = pd.DataFrame({'C': [7, 'foo', 9], 'D': ['bar', 11, 12]}, index=['b', 'c', 'd'])

join_innerDF = df1.join(df2, how='inner')
join_outerDF = df1.join(df2, how='outer')


print('Inner join på dataframes:\n{}\n'.format(join_innerDF))
print('Outer join på dataframes:\n{}\n'.format(join_outerDF))

df2 = df2.set_index([df1.index])

join_after_reset_df = df1.join(df2)
print('Med reset index bliver det joinede Dataframe:\n{}\n'.format(join_after_reset_df))

Inner join på dataframes:
   A  B    C    D
b  2  5    7  bar
c  3  6  foo   11

Outer join på dataframes:
     A    B    C    D
a  1.0  4.0  NaN  NaN
b  2.0  5.0    7  bar
c  3.0  6.0  foo   11
d  NaN  NaN    9   12

Med reset index bliver det joinede Dataframe:
   A  B    C    D
a  1  4    7  bar
b  2  5  foo   11
c  3  6    9   12

