# Penggabungan Series/Dataframe

Terdapat beberapa metode untuk menggabungkan Series/Dataframe di Pandas, yaitu:

1. append
2. concat
3. merge
4. join

# Import Library

Import beberapa library berikut untuk digunakan di sepanjang notebook ini:

In [None]:
import pandas as pd

## Append
Method **.append()** dapat digunakan pada dataframe/series yang ditujukan untuk menambah row-nya saja. 

In [None]:
# Membuat series of int (s1) dan series of string (s2)
s1 = pd.Series([1,2,3,4,5,6])
s2 = pd.Series(["a","b","c","d","e","f"])
# Menerapkan method append
s1_append_s2 = s1.append(s2)
print("Series - append:\n", s1_append_s2)

Untuk **Dataframe**

In [None]:
# Buat dataframe df1 dan df2
df1 = pd.DataFrame({'a':[1,2],
                    'b':[3,4]})
print("df1:\n", df1)
df2 = pd.DataFrame({'b':[1,2],
                    'a':[3,4]})
print("df2:\n", df2)
# Terapkan method append
df1_append_df2 = df1.append(df2)
print("Dataframe - append:\n", df1_append_df2)

##Concat

Method **.concat()** dapat digunakan pada dataframe yang ditujukan untuk penggabungan baik dalam row-wise (dalam arah ) atau column-wise.

In [None]:
# Membuat dataframe df1 dan df2
df1 = pd.DataFrame({'a':[1,2],
                    'b':[3,4]})
print("df1:\n", df1)
df2 = pd.DataFrame({'b':[1,2],
                    'a':[3,4]})
print("df2:\n", df2)
# Menerapkan method concat row-wise
row_wise_concat = pd.concat([df1,df2])
print("Row-wise - concat:\n", row_wise_concat)

Untuk penerapan concat pada **column-wise**

In [None]:
# Terapkan method concat column-wise
col_wise_concat = pd.concat([df1, df2], axis=1)
print("Column-wise - concat:\n", col_wise_concat)

Dapat juga menambahkan identifier dari dataframe untuk data yang ditambahkan

In [None]:
# Penambahan identifier --> membentuh hasil penggabungan multiindex
multiindex_concat = pd.concat([df1,df2],axis=0,keys=['df1','df2'])
print("Multiindex - concat:\n", multiindex_concat)

## Merge 
Method **.merge()** untuk menggabungkan Series/Dataframe yang bentuknya mirip dengan syntax join di SQL, specify left and right tables, join key dan how to join (left, right, inner, full outer).

In [None]:
# Membuat dataframe df1 dan df2
df1 = pd.DataFrame({
   'key':['k1','k2','k3','k4','k5'],
   'val1':[200, 500, 0, 500, 100],
   'val2':[30, 50, 100, 20, 10]
})
print("df1:\n", df1)
df2 = pd.DataFrame({
   'key':['k1','k3','k5','k7','k10'],
   'val3':[1,2,3,4,5],
   'val4':[6,7,8,8,10]
})
print("df2:\n", df2)

pd.merge yang ekivalen dengan SQL **left join**

In [None]:
# Merge yang ekivalen dengan SQL left join
merge_df_left = pd.merge(left=df1, right=df2, how='left', left_on='key',right_on='key')
print('Merge - Left:\n', merge_df_left)

pd.merge yang ekivalen dengan SQL **right join**

In [None]:
# Merge yang ekivalen dengan SQL right join
merge_df_right = pd.merge(left=df1, right=df2, how='right', left_on='key',right_on='key')
print('Merge - Right:\n', merge_df_right)

pd.merge yang ekivalen dengan SQL **inner join**

In [None]:
# Merge yang ekivalen dengan SQL inner join
merge_df_inner = pd.merge(left=df1, right=df2, how='inner', left_on='key',right_on='key')
print('Merge - Inner:\n', merge_df_inner)

pd.merge yang ekivalen dengan SQL **outer join**

In [None]:
# Merge yang ekivalen dengan SQL outer join
merge_df_outer = pd.merge(left=df1, right=df2, how='outer', left_on='key',right_on='key')
print('Merge - Outer:\n', merge_df_outer)

Bagaimana jika salah satu dataframe atau keseluruhan dataframe yang akan digabungkan tersebut memiliki multiindex?

In [None]:
# Membuat dataframe df1 dan df2
df1 = pd.DataFrame({
   'key':['k1','k2','k3','k4','k5'],
   'val1':[200, 500, 0, 500, 100],
   'val2':[30, 50, 100, 20, 10]
}).set_index(['key','val2'])
print('Dataframe 1:\n', df1)
df2 = pd.DataFrame({
   'key':['k1','k3','k5','k7','k10'],
   'val3':[1,2,3,4,5],
   'val4':[6,7,8,8,10]
}).set_index(['key','val3'])
print('Dataframe 2:\n', df2)

Jika digabungkan secara langsung seperti yang telah dilakukan pada bagian sebelumnya

In [None]:
# Merge dataframe yang memiliki multi index
# df_merge = pd.merge(df1,df2)
# print('Merging dataframe:\n', df_merge)

In [None]:
# Merge dataframe yang memiliki multi index
df_merge = pd.merge(df1.reset_index(),df2.reset_index())
print('Merging dataframe:\n', df_merge)

## Join
Metthod **.join()** digunakan pada dataframe untuk menggabungkan kedua data dengan set index pada kedua tabel tersebut sebagai join key, tanpa index, hal ini tidak akan berhasil.


In [None]:
# Buat dataframe df1 dan df2
df1 = pd.DataFrame({
   'key':['k1','k2','k3','k4','k5'],
   'val1':[200, 500, 0, 500, 100],
   'val2':[30, 50, 100, 20, 10]
})
df2 = pd.DataFrame({
   'key':['k1','k3','k5','k7','k10'],
   'val3':[1,2,3,4,5],
   'val4':[6,7,8,8,10]
})
# Penerapan join dengan menggunakan set_index dan keyword how
# df1.join(df2) #<-- akan error

In [None]:
print(df1.set_index('key').join(df2.set_index('key')))

Untuk tipe join yang lain (contoh=inner), harus menspecify keyword how='inner' seperti yang dicontohkan berikut ini

In [None]:
join_df = df1.set_index('key').join(df2.set_index('key'), how='inner')
print(join_df)