# Menggabungkan Data

## Bagian 1

proses merging data ini sebagai upaya untuk menyelesaikan masalah terkait kumpulan data-data
yang banyak dari berbeda file kemudian ingin kita satukan, contohnya:
file1.csv, file2.csv, file3.xlsx -->

- Menggabungkan data pada row dan baris
- Menggabungkan data dengan berbagai logic penggabungan, seperti inner join, outer join, dsb

method-method penggabungan data pada python :
append, join, merging, concat (paling powerful merging)

In [1]:
import pandas as pd

In [2]:
# Dummy Data 1

dummy_data1 = {
    'id': [str(i+1) for i in range(5)],
    'Feature1': ['A', 'C', 'E', 'G', 'I'],
    'Feature2': ['B', 'D', 'F', 'H', 'J']
}

df1 = pd.DataFrame(dummy_data1, columns=['id', 'Feature1', 'Feature2'])
df1

Unnamed: 0,id,Feature1,Feature2
0,1,A,B
1,2,C,D
2,3,E,F
3,4,G,H
4,5,I,J


In [9]:
# Dummy Data 2

dummy_data2 = {
    'id': ['1', '2', '6', '7', '8'],
    'Feature1': ['K', 'M', 'O', 'Q', 'S'],
    'Feature2': ['L', 'N', 'P', 'R', 'T']
}

df2 = pd.DataFrame(dummy_data2, columns=['id', 'Feature1', 'Feature2'])
df2

Unnamed: 0,id,Feature1,Feature2
0,1,K,L
1,2,M,N
2,6,O,P
3,7,Q,R
4,8,S,T


In [10]:
# Dummy Data 3

dummy_data3 = {
    'id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
    'Feature3': [12, 13, 14, 15, 16, 17, 15, 12, 13, 23] 
}

df3 = pd.DataFrame(dummy_data3, columns=['id', 'Feature3'])
df3

Unnamed: 0,id,Feature3
0,1,12
1,2,13
2,3,14
3,4,15
4,5,16
5,7,17
6,8,15
7,9,12
8,10,13
9,11,23


In [14]:
# Menggabungkan data 1 dan data 2, pada row
df_list = [df1, df2]
pd.concat(df_list)

# -> mengisikan data apa yang akan kita gabungkan

Unnamed: 0,id,Feature1,Feature2
0,1,A,B
1,2,C,D
2,3,E,F
3,4,G,H
4,5,I,J
0,1,K,L
1,2,M,N
2,6,O,P
3,7,Q,R
4,8,S,T


In [12]:
pd.concat(df_list, ignore_index=True)

Unnamed: 0,id,Feature1,Feature2
0,1,A,B
1,2,C,D
2,3,E,F
3,4,G,H
4,5,I,J
5,1,K,L
6,2,M,N
7,6,O,P
8,7,Q,R
9,8,S,T


In [15]:
# menggabungkan data pada column
pd.concat(df_list, axis=1) # jika kita menggabungkan data berdasarkan column, maka kita hilangkan parameter ignore_index-nya. Supaya columnya akan sama seperti yang seharusnya.

Unnamed: 0,0,1,2,3,4,5
0,1,A,B,1,K,L
1,2,C,D,2,M,N
2,3,E,F,6,O,P
3,4,G,H,7,Q,R
4,5,I,J,8,S,T


## Bagian 2

In [None]:
# Menggabungkan data dengan berbagai logic penggabungan, seperti inner join, outer join, dsb
pd.merge()

In [16]:
# menggabungkan data3, dengan data1 dan data2 yang sudah digabungkan
df12 = pd.concat(df_list)

In [17]:
df12

Unnamed: 0,id,Feature1,Feature2
0,1,A,B
1,2,C,D
2,3,E,F
3,4,G,H
4,5,I,J
0,1,K,L
1,2,M,N
2,6,O,P
3,7,Q,R
4,8,S,T


In [18]:
df3

Unnamed: 0,id,Feature3
0,1,12
1,2,13
2,3,14
3,4,15
4,5,16
5,7,17
6,8,15
7,9,12
8,10,13
9,11,23


In [19]:
# atribut/parameter on diisi oleh label/column mana yang terdapat kesamaan antara 2 data
pd.merge(df12, df3, on='id')

Unnamed: 0,id,Feature1,Feature2,Feature3
0,1,A,B,12
1,1,K,L,12
2,2,C,D,13
3,2,M,N,13
4,3,E,F,14
5,4,G,H,15
6,5,I,J,16
7,7,Q,R,17
8,8,S,T,15


In [24]:
# misalkan data3 memiliki label column id yang berbeda dengan data12
df3.columns = ['idkey', 'Feature3']

In [25]:
df3

Unnamed: 0,idkey,Feature3
0,1,12
1,2,13
2,3,14
3,4,15
4,5,16
5,7,17
6,8,15
7,9,12
8,10,13
9,11,23


In [26]:
# apabila dipaksa seperti ini, maka akan error.
# Namun ada solusinya dengan cara lain, yaitu dengan argumen lain left_on dan right_on
# pd.merge(df12, df3, on='id')

pd.merge(df12, df3, left_on='id', right_on='idkey')
# sehingga mesikupun dua data kita memiliki key column yang berbeda, kita masih dapat menggabungkannya 

Unnamed: 0,id,Feature1,Feature2,idkey,Feature3
0,1,A,B,1,12
1,1,K,L,1,12
2,2,C,D,2,13
3,2,M,N,2,13
4,3,E,F,3,14
5,4,G,H,4,15
6,5,I,J,5,16
7,7,Q,R,7,17
8,8,S,T,8,15


In [None]:
# menggabungkan data berdasarkan logic penggabungan
- Outer Join
- Inner Join
- Left Join
- Right Join

In [27]:
# Outer Join
pd.merge(df1, df2, on='id', how='outer')

# on : relasinya berdasarkan column id
# how : suatu argumen untuk mendefinisikan logic penggabungan apa yang akan kita buat

## Feature1_x dan Feature2_x --> dari df1
## Feature1_y dan Feature2_y --> dari df2
## x dan y ini menunjukkan, asal dari data tersebut

Unnamed: 0,id,Feature1_x,Feature2_x,Feature1_y,Feature2_y
0,1,A,B,K,L
1,2,C,D,M,N
2,3,E,F,,
3,4,G,H,,
4,5,I,J,,
5,6,,,O,P
6,7,,,Q,R
7,8,,,S,T


In [28]:
df1

Unnamed: 0,id,Feature1,Feature2
0,1,A,B
1,2,C,D
2,3,E,F
3,4,G,H
4,5,I,J


In [29]:
df2

Unnamed: 0,id,Feature1,Feature2
0,1,K,L
1,2,M,N
2,6,O,P
3,7,Q,R
4,8,S,T


In [30]:
# Inner Join
pd.merge(df1, df2, on='id', how='inner')

## inner join --> menggabungkan data yang ber-irisan saja, oleh sebab itu hanya id 1 dan id 2 saja.

Unnamed: 0,id,Feature1_x,Feature2_x,Feature1_y,Feature2_y
0,1,A,B,K,L
1,2,C,D,M,N


In [31]:
# Left Join
pd.merge(df1, df2, on='id', how='left')

## left join --> akan menghasilkan semua data dengan id yang berasal dari data pertama yaitu df1

Unnamed: 0,id,Feature1_x,Feature2_x,Feature1_y,Feature2_y
0,1,A,B,K,L
1,2,C,D,M,N
2,3,E,F,,
3,4,G,H,,
4,5,I,J,,


In [32]:
# Right Join
pd.merge(df1, df2, on='id', how='right')

## right join --> kebalikan dari left join, 
### akan menghasilkan semua data dengan id yang berasal dari data kedua yaitu df2

Unnamed: 0,id,Feature1_x,Feature2_x,Feature1_y,Feature2_y
0,1,A,B,K,L
1,2,C,D,M,N
2,6,,,O,P
3,7,,,Q,R
4,8,,,S,T
