## Mengombinasikan Data

Sering kali data yang sudah tersedia dalam bentuk file yang terpisah. Kita sudah belajar tentang cara membaca data dari file menjadi dataframe. Tapi, ketika ingin mengolah data yang terpisah secara bersamaan, datanya harus digabung terlebih dahulu. maka dari itu, kita akan belajar cara mengombinasikan data. 

Ketika kita memiliki 2 data yang berbeda sumbernya tetapi ingin diolah bersama, kita bisa menggabungnya menggunakan fungsi pada pandas. Misalnya data1 dari file *data1.csv* dan data2 dari *data2.csv*. Untuk menggabungkan data dapat dilakukan dengan cara:

**Concat**

Jika memiliki lebih dari 1 data dan ingin digabung, kita bisa menggunakan fungsi `concat()`. Fungsi ini dapat digunakan untuk data series dan dataframe. 

Penggabungan data series sama dengan dataframe. Data dapat digabung dalam kolom yang sama.

<img src="https://drive.google.com/uc?export=view&id=1LnAQkz-WQT5FACWVTdrfrDpy9wiVwTx8" alt="Drawing" width= 500px;/>

In [1]:
import pandas as pd

In [2]:
# 2 dataframe dengan nama kolom yang BEDA
# buat dataframe1
transaksi_januari = pd.DataFrame({
    "nama_barang": ["Indomie", "Taro"],
    "jumlah": [5, 2]
    })

# buat dataframe2
transaksi_februari = pd.DataFrame({
    "nama_barang": ["Good Day", "Deterjen", "Pasta gigi"],
    "jumlah": [1,1,1]
    })

# gabungkan dataframe menggunakan fungsi concat
df_concat = pd.concat([transaksi_januari,transaksi_februari])

# tampilkan data
df_concat

Unnamed: 0,nama_barang,jumlah
0,Indomie,5
1,Taro,2
0,Good Day,1
1,Deterjen,1
2,Pasta gigi,1


In [3]:
# 2 dataframe dengan nama kolom yang SAMA
# buat dataframe1
transaksi_januari = pd.DataFrame({
    "nama_barang": ["Indomie", "Taro"],
    "jumlah": [5, 2]
    })

# buat dataframe2
stock_januari = pd.DataFrame({
    "nama_barang": ["Indomie", "Taro", "Pasta gigi"],
    "stock": [17,11,5]
    })

# gabungkan dataframe menggunakan fungsi concat
df_concat = pd.concat([transaksi_januari,stock_januari], axis=1)

# tampilkan data
df_concat

Unnamed: 0,nama_barang,jumlah,nama_barang.1,stock
0,Indomie,5.0,Indomie,17
1,Taro,2.0,Taro,11
2,,,Pasta gigi,5


**Merge**

Cara lain untuk menggabung data yaitu dengan menggunakan fungsi `merge()`. Penggabungan dengan fungsi `.merge()` mirip seperti Klausa Join pada SQL.

Merge merupakan operasi penggabungan dataset dengan menghubungkan antarbaris menggunakan satu atau lebih *keys*. Data akan otomatis digabung dan disesuaikan pada kolom yang memiliki nilai yang sama. 

<img src="https://drive.google.com/uc?export=view&id=1_r24EvYE1HkmObzAP1iTq1-1VVyRZnYO" alt="Drawing" width= 500px;/>

In [4]:
# buat dataframe1
transaksi_januari = pd.DataFrame({
    "nama_barang": ["Indomie", "Taro"],
    "jumlah": [5, 2]
    })

# buat dataframe2
stock_januari = pd.DataFrame({
    "nama_barang": ["Indomie", "Taro", "Pasta gigi"],
    "stock": [17,11,5]
    })

# gabungkan data menggunakan fungsi merge
pd.merge(transaksi_januari, stock_januari, on="nama_barang")

Unnamed: 0,nama_barang,jumlah,stock
0,Indomie,5,17
1,Taro,2,11


Tapi, pada hasil penggabungan data di atas, data key pasta gigi hilang. Hasil penggabungan dataframe diatas merupakan inner join. Secara default, fungsi merge akan melakukan inner join terhadap data yang akan digabung. Selain inner join, ada left, right dan outer join. Untuk menerapkan jenis join data tersebut, kita bisa menggunakan parameter `how` pada fungsi `merge()`. Nilai dari parameter `how` dapat berupa `inner`, `left`, `right` atau `outer`.

In [5]:
# gabungkan data menggunakan parameter how="outer"
pd.merge(transaksi_januari, stock_januari, on="nama_barang", how="outer")

Unnamed: 0,nama_barang,jumlah,stock
0,Indomie,5.0,17
1,Taro,2.0,11
2,Pasta gigi,,5


Selain menggunakan fungsi `merge()`, kita juga dapat menggunakan fungsi `join()` untuk menggabung data. Namun, perlu diperhatikan bahwa data key pada dataframe harus menjadi index dari dataframe agar bisa tergabung. Secara default, fungsi `join()` akan menggabungkan dataframe dengan metode left join. Jika ingin melakukan metode join yang lain, bisa menggunakan parameter `how` seperti pada fungsi `merge()`.

In [6]:
# buat dataframe1
transaksi_januari = pd.DataFrame({
    "nama_barang": ["Indomie", "Taro"],
    "jumlah": [5, 2]
    })
transaksi_januari.set_index('nama_barang', inplace=True)
# buat dataframe2
stock_januari = pd.DataFrame({
    "nama_barang": ["Indomie", "Taro", "Pasta gigi"],
    "stock": [17,11,5]
    })
stock_januari.set_index('nama_barang', inplace=True)
# gabungkan data menggunakan fungsi join
transaksi_januari.join(stock_januari)

Unnamed: 0_level_0,jumlah,stock
nama_barang,Unnamed: 1_level_1,Unnamed: 2_level_1
Indomie,5,17
Taro,2,11


In [7]:
# gabungkan data menggunakan fungsi join dan parameter how="right"
transaksi_januari.join(stock_januari, how="right")

Unnamed: 0_level_0,jumlah,stock
nama_barang,Unnamed: 1_level_1,Unnamed: 2_level_1
Indomie,5.0,17
Taro,2.0,11
Pasta gigi,,5
