# Penggabungan Series/Dataframe

Terdapat beberapa metode untuk menggabungkan Series/Dataframe di Pandas, yaitu:

1. append
2. concat
3. merge
4. join

# Import Library

Import beberapa library berikut untuk digunakan di sepanjang notebook ini:

In [1]:
import pandas as pd

## Append
Method **.append()** dapat digunakan pada dataframe/series yang ditujukan untuk menambah row-nya saja. 

In [2]:
# Membuat series of int (s1) dan series of string (s2)
s1 = pd.Series([1,2,3,4,5,6])
s2 = pd.Series(["a","b","c","d","e","f"])
# Menerapkan method append
s1_append_s2 = s1.append(s2)
print("Series - append:\n", s1_append_s2)

Series - append:
 0    1
1    2
2    3
3    4
4    5
5    6
0    a
1    b
2    c
3    d
4    e
5    f
dtype: object


Untuk **Dataframe**

In [3]:
# Buat dataframe df1 dan df2
df1 = pd.DataFrame({'a':[1,2],
                    'b':[3,4]})
print("df1:\n", df1)
df2 = pd.DataFrame({'b':[1,2],
                    'a':[3,4]})
print("df2:\n", df2)
# Terapkan method append
df1_append_df2 = df1.append(df2)
print("Dataframe - append:\n", df1_append_df2)

df1:
    a  b
0  1  3
1  2  4
df2:
    b  a
0  1  3
1  2  4
Dataframe - append:
    a  b
0  1  3
1  2  4
0  3  1
1  4  2


##Concat

Method **.concat()** dapat digunakan pada dataframe yang ditujukan untuk penggabungan baik dalam row-wise (dalam arah ) atau column-wise.

In [4]:
# Membuat dataframe df1 dan df2
df1 = pd.DataFrame({'a':[1,2],
                    'b':[3,4]})
print("df1:\n", df1)
df2 = pd.DataFrame({'b':[1,2],
                    'a':[3,4]})
print("df2:\n", df2)
# Menerapkan method concat row-wise
row_wise_concat = pd.concat([df1,df2])
print("Row-wise - concat:\n", row_wise_concat)

df1:
    a  b
0  1  3
1  2  4
df2:
    b  a
0  1  3
1  2  4
Row-wise - concat:
    a  b
0  1  3
1  2  4
0  3  1
1  4  2


Untuk penerapan concat pada **column-wise**

In [5]:
# Terapkan method concat column-wise
col_wise_concat = pd.concat([df1, df2], axis=1)
print("Column-wise - concat:\n", col_wise_concat)

Column-wise - concat:
    a  b  b  a
0  1  3  1  3
1  2  4  2  4


Dapat juga menambahkan identifier dari dataframe untuk data yang ditambahkan

In [6]:
# Penambahan identifier --> membentuh hasil penggabungan multiindex
multiindex_concat = pd.concat([df1,df2],axis=0,keys=['df1','df2'])
print("Multiindex - concat:\n", multiindex_concat)

Multiindex - concat:
        a  b
df1 0  1  3
    1  2  4
df2 0  3  1
    1  4  2


## Merge 
Method **.merge()** untuk menggabungkan Series/Dataframe yang bentuknya mirip dengan syntax join di SQL, specify left and right tables, join key dan how to join (left, right, inner, full outer).

In [7]:
# Membuat dataframe df1 dan df2
df1 = pd.DataFrame({
   'key':['k1','k2','k3','k4','k5'],
   'val1':[200, 500, 0, 500, 100],
   'val2':[30, 50, 100, 20, 10]
})
print("df1:\n", df1)
df2 = pd.DataFrame({
   'key':['k1','k3','k5','k7','k10'],
   'val3':[1,2,3,4,5],
   'val4':[6,7,8,8,10]
})
print("df2:\n", df2)

df1:
   key  val1  val2
0  k1   200    30
1  k2   500    50
2  k3     0   100
3  k4   500    20
4  k5   100    10
df2:
    key  val3  val4
0   k1     1     6
1   k3     2     7
2   k5     3     8
3   k7     4     8
4  k10     5    10


pd.merge yang ekivalen dengan SQL **left join**

In [8]:
# Merge yang ekivalen dengan SQL left join
merge_df_left = pd.merge(left=df1, right=df2, how='left', left_on='key',right_on='key')
print('Merge - Left:\n', merge_df_left)

Merge - Left:
   key  val1  val2  val3  val4
0  k1   200    30   1.0   6.0
1  k2   500    50   NaN   NaN
2  k3     0   100   2.0   7.0
3  k4   500    20   NaN   NaN
4  k5   100    10   3.0   8.0


pd.merge yang ekivalen dengan SQL **right join**

In [9]:
# Merge yang ekivalen dengan SQL right join
merge_df_right = pd.merge(left=df1, right=df2, how='right', left_on='key',right_on='key')
print('Merge - Right:\n', merge_df_right)

Merge - Right:
    key   val1   val2  val3  val4
0   k1  200.0   30.0     1     6
1   k3    0.0  100.0     2     7
2   k5  100.0   10.0     3     8
3   k7    NaN    NaN     4     8
4  k10    NaN    NaN     5    10


pd.merge yang ekivalen dengan SQL **inner join**

In [10]:
# Merge yang ekivalen dengan SQL inner join
merge_df_inner = pd.merge(left=df1, right=df2, how='inner', left_on='key',right_on='key')
print('Merge - Inner:\n', merge_df_inner)

Merge - Inner:
   key  val1  val2  val3  val4
0  k1   200    30     1     6
1  k3     0   100     2     7
2  k5   100    10     3     8


pd.merge yang ekivalen dengan SQL **outer join**

In [11]:
# Merge yang ekivalen dengan SQL outer join
merge_df_outer = pd.merge(left=df1, right=df2, how='outer', left_on='key',right_on='key')
print('Merge - Outer:\n', merge_df_outer)

Merge - Outer:
    key   val1   val2  val3  val4
0   k1  200.0   30.0   1.0   6.0
1   k2  500.0   50.0   NaN   NaN
2   k3    0.0  100.0   2.0   7.0
3   k4  500.0   20.0   NaN   NaN
4   k5  100.0   10.0   3.0   8.0
5   k7    NaN    NaN   4.0   8.0
6  k10    NaN    NaN   5.0  10.0


Bagaimana jika salah satu dataframe atau keseluruhan dataframe yang akan digabungkan tersebut memiliki multiindex?

In [12]:
# Membuat dataframe df1 dan df2
df1 = pd.DataFrame({
   'key':['k1','k2','k3','k4','k5'],
   'val1':[200, 500, 0, 500, 100],
   'val2':[30, 50, 100, 20, 10]
}).set_index(['key','val2'])
print('Dataframe 1:\n', df1)
df2 = pd.DataFrame({
   'key':['k1','k3','k5','k7','k10'],
   'val3':[1,2,3,4,5],
   'val4':[6,7,8,8,10]
}).set_index(['key','val3'])
print('Dataframe 2:\n', df2)

Dataframe 1:
           val1
key val2      
k1  30     200
k2  50     500
k3  100      0
k4  20     500
k5  10     100
Dataframe 2:
           val4
key val3      
k1  1        6
k3  2        7
k5  3        8
k7  4        8
k10 5       10


Jika digabungkan secara langsung seperti yang telah dilakukan pada bagian sebelumnya

In [13]:
# Merge dataframe yang memiliki multi index
# df_merge = pd.merge(df1,df2)
# print('Merging dataframe:\n', df_merge)

In [14]:
# Merge dataframe yang memiliki multi index
df_merge = pd.merge(df1.reset_index(),df2.reset_index())
print('Merging dataframe:\n', df_merge)

Merging dataframe:
   key  val2  val1  val3  val4
0  k1    30   200     1     6
1  k3   100     0     2     7
2  k5    10   100     3     8


## Join
Metthod **.join()** digunakan pada dataframe untuk menggabungkan kedua data dengan set index pada kedua tabel tersebut sebagai join key, tanpa index, hal ini tidak akan berhasil.


In [15]:
# Buat dataframe df1 dan df2
df1 = pd.DataFrame({
   'key':['k1','k2','k3','k4','k5'],
   'val1':[200, 500, 0, 500, 100],
   'val2':[30, 50, 100, 20, 10]
})
df2 = pd.DataFrame({
   'key':['k1','k3','k5','k7','k10'],
   'val3':[1,2,3,4,5],
   'val4':[6,7,8,8,10]
})
# Penerapan join dengan menggunakan set_index dan keyword how
# df1.join(df2) #<-- akan error

In [16]:
print(df1.set_index('key').join(df2.set_index('key')))

     val1  val2  val3  val4
key                        
k1    200    30   1.0   6.0
k2    500    50   NaN   NaN
k3      0   100   2.0   7.0
k4    500    20   NaN   NaN
k5    100    10   3.0   8.0


Untuk tipe join yang lain (contoh=inner), harus menspecify keyword how='inner' seperti yang dicontohkan berikut ini

In [17]:
join_df = df1.set_index('key').join(df2.set_index('key'), how='inner')
print(join_df)

     val1  val2  val3  val4
key                        
k1    200    30     1     6
k3      0   100     2     7
k5    100    10     3     8
