## Apa itu Joining ?

__Joining__ atau menggabungkan data adalah proses menggabungkan dataframe berdasarkan kolom tertentu yang menjadi acuan, misalnya ID. <i>Joining</i> data merupakan salah satu hal penting yang harus dikuasai oleh seseorang yang bergelut dengan data karena data yang digunakan bisa jadi berasal dari beberapa sumber dan harus digabungkan untuk menganalisisnya.

Ada beberapa logika penggabungan data, di antaranya:
1. Full Outer Join
2. Inner Join
3. Left Join
4. Right Join
    
Di Python, ada beberapa <i>function</i> yang dapat digunakan untuk <i>joining</i> data, di antaranya <code>concat()</code>, <code>merge()</code>, dan <code>join()</code>.

## Load dataset

Dataset <a href="https://www.kaggle.com/new-york-city/nyc-baby-names">NYC Baby Names</a> dan <a href="https://www.kaggle.com/new-york-city/nyc-most-popular-baby-names?select=most-popular-baby-names-by-sex-and-mothers-ethnic-group-new-york-city.csv">NYC Most Popular Baby Names</a>.

Kedua dataset tersebut sama-sama memiliki 6 fitur/kolom yang sama karena memang dataset NYC Most Popular Baby Names adalah data versi terbaru dari dataset NYC Baby Names.

__Feature Information__

* __Year of Birth :__ Year the baby was born
* __Gender :__ Gender of the baby
* __Ethnicity :__ Mother's Ethnicity
* __Child's First Name :__ Baby's first names
* __Count :__ Number of babies with this name
* __Rank :__ Frequency of baby names in descending order

impor Pandas, kemudian <i>load</i> data ke dataframe menggunakan <code>read_csv()</code>.

In [1]:
import pandas as pd

In [2]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [3]:
%cd /content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py/

/content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py


In [4]:
df_names1 = pd.read_csv('NYC-Baby-Names.csv')
df_names2 = pd.read_csv('NYC-Most-Popular-Baby-Names.csv')

In [5]:
df_names1.head()

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank
0,2011,FEMALE,HISPANIC,GERALDINE,13,75
1,2011,FEMALE,HISPANIC,GIA,21,67
2,2011,FEMALE,HISPANIC,GIANNA,49,42
3,2011,FEMALE,HISPANIC,GISELLE,38,51
4,2011,FEMALE,HISPANIC,GRACE,36,53


In [6]:
df_names2.tail()

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank
29459,2011,MALE,WHITE NON HISPANIC,ASHTON,10,97
29460,2011,MALE,WHITE NON HISPANIC,AUGUSTUS,10,97
29461,2011,MALE,WHITE NON HISPANIC,BENNETT,10,97
29462,2011,MALE,WHITE NON HISPANIC,SILAS,10,97
29463,2011,MALE,WHITE NON HISPANIC,BERISH,10,97


cek dimensi dari kedua dataset tersebut menggunakan <code>shape</code>.

In [7]:
# Memeriksa dimensi dari kedua dataset
print('Dimensi data "NYC-Baby-Names.csv" :')
print(df_names1.shape)

print('Dimensi data "NYC-Most-Popular-Baby-Names.csv" :')
print(df_names2.shape)

Dimensi data "NYC-Baby-Names.csv" :
(22035, 6)
Dimensi data "NYC-Most-Popular-Baby-Names.csv" :
(29464, 6)


Dari output di atas, <code>df_names1</code> memiliki jumlah baris data sebanyak 22035, sedangkan <code>df_names2</code> memiliki jumlah baris data sebanyak 29464. Terlihat bahwa dataframe <code>df_names2</code> memiliki jumlah yang lebih banyak dibandingkan <code>df_names1</code>.

Penggabungan kedua dataframe tersebut bisa dilakukan dengan <i>function</i> <code>concat()</code>, <code>merge()</code>, dan <code>join()</code>.

## Fungsi concat()

Yang pertama yaitu penggabungan data menggunakan <code>concat()</code>.

Fungsi ini dapat digunakan untuk menggabungkan data berdasarkan sumbu tertentu, yaitu indeks (baris) atau kolom, dari dua dataframe atau lebih, hanya perlu memberikan parameter __axis__ yang nilainya antara 0 dan 1. <code>axis = 0</code> untuk menggabungkan indeks/baris dan <code>axis = 1</code> untuk menggabungkan kolom. <i>Default</i>-nya adalah __0__.

### Menggabungkan baris

Menggabungkan baris dari dataframe <code>df_names1</code> dan <code>df_names2</code>. Pada contoh ini, tidak diberikan nilai untuk parameter <code>axis</code> karena akan menggabungkan baris sehingga tanpa memberikan parameter tersebut, Python akan otomatis menggabungkan data secara vertikal karena <i>default</i>-nya adalah penggabungan baris.

Perhatikan kode berikut.

In [8]:
# Menggabungkan df_names1 dan df_names2

df_names = pd.concat([df_names1, df_names2])
df_names.head()

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank
0,2011,FEMALE,HISPANIC,GERALDINE,13,75
1,2011,FEMALE,HISPANIC,GIA,21,67
2,2011,FEMALE,HISPANIC,GIANNA,49,42
3,2011,FEMALE,HISPANIC,GISELLE,38,51
4,2011,FEMALE,HISPANIC,GRACE,36,53


Kode penggabungan dataframe dengan <code>concat()</code> dengan langsung memasukkan nama dataframe yang akan digabungkan di dalam tanda kurung <code>()</code> dengan format list atau didalam kurung siku <code>[]</code>.

periksa dimensi setelah penggabungan baris tersebut.

In [9]:
# Memeriksa dimensi setelah penggabungan

print('Dimensi data setelah penggabungan :')
print(df_names.shape)

Dimensi data setelah penggabungan :
(51499, 6)


Terlihat bahwa saat ini dimensi dari dataframe baru <code>df_names</code> yang merupakan gabungan dari <code>df_names1</code> dan <code>df_names2</code> adalah __(51499, 6)__ yang berarti memiliki __51499__ baris dan __6__ kolom.

cek data terakhir dari dataframe <code>df_names</code>.

In [10]:
df_names.tail()

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank
29459,2011,MALE,WHITE NON HISPANIC,ASHTON,10,97
29460,2011,MALE,WHITE NON HISPANIC,AUGUSTUS,10,97
29461,2011,MALE,WHITE NON HISPANIC,BENNETT,10,97
29462,2011,MALE,WHITE NON HISPANIC,SILAS,10,97
29463,2011,MALE,WHITE NON HISPANIC,BERISH,10,97


Jika dilihat dari output di atas, data terakhir dari dataframe <code>df_names</code> masih memiliki indeks __29463__ yang merupakan indeks terakhir dari dataframe <code>df_names2</code>. Penggabungan data dengan <code>concat()</code> akan menumpuk dataframe berdasarkan urutan ditulis. Kode penggabungan yang dibuat, <code>pd.concat([df_names1, df_names2])</code> akan menghasilkan dataframe baru dengan <code>df_names1</code> berada di atas, kemudian <code>df_names2</code> berada di bawahnya.

Agar indeks dari gabungan dataframe tersebut terurut, tambahkan parameter <code>ignore_index</code> yang diberikan nilai __True__ untuk mengabaikan indeks dari dua dataframe tersebut dan otomatis membuat indeks baru yang terurut dari awal sampai akhir.

In [11]:
# Menggabungkan df_names1 dan df_names2 dengan ignore_index

df_reindex = pd.concat([df_names1, df_names2], ignore_index=True)

df_reindex.tail()

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank
51494,2011,MALE,WHITE NON HISPANIC,ASHTON,10,97
51495,2011,MALE,WHITE NON HISPANIC,AUGUSTUS,10,97
51496,2011,MALE,WHITE NON HISPANIC,BENNETT,10,97
51497,2011,MALE,WHITE NON HISPANIC,SILAS,10,97
51498,2011,MALE,WHITE NON HISPANIC,BERISH,10,97


parameter <code>keys</code> untuk menandakan dataframe. Misalnya pada contoh berikut, akan menggabungkan dataframe dengan memberikan tanda <code>x</code> untuk <code>df_names1</code> dan <code>y</code> untuk <code>df_names2</code>.

In [12]:
# Menggabungkan df_names1 dan df_names2 dengan keys

df_keys = pd.concat([df_names1, df_names2], keys=['x', 'y'])
df_keys

Unnamed: 0,Unnamed: 1,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank
x,0,2011,FEMALE,HISPANIC,GERALDINE,13,75
x,1,2011,FEMALE,HISPANIC,GIA,21,67
x,2,2011,FEMALE,HISPANIC,GIANNA,49,42
x,3,2011,FEMALE,HISPANIC,GISELLE,38,51
x,4,2011,FEMALE,HISPANIC,GRACE,36,53
...,...,...,...,...,...,...,...
y,29459,2011,MALE,WHITE NON HISPANIC,ASHTON,10,97
y,29460,2011,MALE,WHITE NON HISPANIC,AUGUSTUS,10,97
y,29461,2011,MALE,WHITE NON HISPANIC,BENNETT,10,97
y,29462,2011,MALE,WHITE NON HISPANIC,SILAS,10,97


dataframe yang telah digabung berdasarkan <code>keys</code>-nya menggunakan <code>loc</code> seperti di bawah ini.

In [13]:
# Melihat data dengan keys=y

df_keys.loc['y'].head(10)

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank
0,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Olivia,136,1
1,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Emma,109,2
2,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Chloe,103,3
3,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Sophia,86,4
4,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Mia,79,5
5,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Emily,78,6
6,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Hannah,73,7
7,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Charlotte,57,8
8,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Ella,49,9
9,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Isabella,46,10


### Menggabungkan kolom

Gabungan kolom menggunakan <code>concat()</code>. Untuk menggabungkan kolom, kita harus mendefinisikan parameter <code>axis = 1</code>. Perhatikan kode berikut.

In [14]:
# Menggabungkan kolom df_names1 dan df_names2

df_names_col = pd.concat([df_names1, df_names2], axis=1)
df_names_col.head()

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank,Year of Birth.1,Gender.1,Ethnicity.1,Child's First Name.1,Count.1,Rank.1
0,2011.0,FEMALE,HISPANIC,GERALDINE,13.0,75.0,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Olivia,136,1
1,2011.0,FEMALE,HISPANIC,GIA,21.0,67.0,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Emma,109,2
2,2011.0,FEMALE,HISPANIC,GIANNA,49.0,42.0,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Chloe,103,3
3,2011.0,FEMALE,HISPANIC,GISELLE,38.0,51.0,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Sophia,86,4
4,2011.0,FEMALE,HISPANIC,GRACE,36.0,53.0,2017,FEMALE,ASIAN AND PACIFIC ISLANDER,Mia,79,5


penggunaan parameter <code>axis = 1</code> menggabungkan dataframe secara horizontal atau ke samping.

Sekarang mari kita cek dimensinya.

In [15]:
# Memeriksa dimensi setelah penggabungan

print('Dimensi data setelah penggabungan :')
print(df_names_col.shape)

Dimensi data setelah penggabungan :
(29464, 12)


Karena dataframe memiliki jumlah baris yang berbeda, maka otomatis dimensi setelah penggabungan kolom akan mengikuti dataframe dengan jumlah baris terbanyak, dalam hal ini yaitu 29464 baris data dari <code>df_names2</code>.

Sekarang cek data terakhir dari <code>df_names_col</code>.

In [16]:
df_names_col.tail()

Unnamed: 0,Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank,Year of Birth.1,Gender.1,Ethnicity.1,Child's First Name.1,Count.1,Rank.1
29459,,,,,,,2011,MALE,WHITE NON HISPANIC,ASHTON,10,97
29460,,,,,,,2011,MALE,WHITE NON HISPANIC,AUGUSTUS,10,97
29461,,,,,,,2011,MALE,WHITE NON HISPANIC,BENNETT,10,97
29462,,,,,,,2011,MALE,WHITE NON HISPANIC,SILAS,10,97
29463,,,,,,,2011,MALE,WHITE NON HISPANIC,BERISH,10,97


Dapat dilihat bahwa pada 6 kolom pertama dari dataframe <code>df_names_col</code> berisi __NaN__ atau <i>missing values</i> karena 6 kolom tersebut merupakan <code>df_names1</code> yang hanya memiliki 22035 baris data, sehingga sisanya diisi oleh NaN.

<hr>

## Fungsi merge()

<i>Function</i> selanjutnya yang dapat digunakan untuk menggabungkan dataframe adalah <code>merge()</code>. Seperti yang telah disebutkan sebelumnya, ada beberapa logika penggabungan data, di antaranya __Full Outer Join__, __Inner Join__, __Left Join__, dan __Right Join__.

In [17]:
# Membuat 2 dataframe

data1 = {'id': [1, 2, 3, 4, 5],
        'IPA': ['Matematika', 'Statistika', 'Fisika', 'Kimia', 'Biologi']}

data2 = {'id': [1, 3, 4, 6, 7], 
         'IPS': ['Ekonomi', 'Sejarah', 'Sosiologi', 'Bahasa Indonesia', 'Geografi']}

df_1 = pd.DataFrame(data1)
df_2 = pd.DataFrame(data2)

Melihat dataframe <code>df_1</code> dan <code>df_2</code>.

In [18]:
df_1

Unnamed: 0,id,IPA
0,1,Matematika
1,2,Statistika
2,3,Fisika
3,4,Kimia
4,5,Biologi


In [19]:
df_2

Unnamed: 0,id,IPS
0,1,Ekonomi
1,3,Sejarah
2,4,Sosiologi
3,6,Bahasa Indonesia
4,7,Geografi


Praktekkan logika penggabungan data satu per satu.

### Full Outer Join

Yang pertama adalah <i>full outer join</i>. Metode ini akan menggabungkan indeks baris dari setiap data berdasarkan kolom tertentu. Misalnya akan melakukan <i>full outer join</i> pada kolom <code>id</code> menggunakan <code>merge()</code>. 

parameter <code>on = 'id'</code> untuk mendefinisikan bahwa ingin menggabungkan data berdasarkan kolom <code>id</code> sebagai variabel <i>identifier</i>. Kemudian parameter <code>how = 'outer'</code> akan mendefinisikan bahwa gabungan akan dilakukan dengan metode <i>full outer join</i>. Perhatikan kode berikut.

In [20]:
# Menggabungkan data dengan metode full outer join

df_outer_join = pd.merge(df_1, df_2, on='id', how='outer')
df_outer_join

Unnamed: 0,id,IPA,IPS
0,1,Matematika,Ekonomi
1,2,Statistika,
2,3,Fisika,Sejarah
3,4,Kimia,Sosiologi
4,5,Biologi,
5,6,,Bahasa Indonesia
6,7,,Geografi


<i>Full outer join</i> akan mengeluarkan seluruh baris data dengan indeks unik dan memberikan nilai NaN pada kolom yang di dataframe asalnya tidak memiliki <code>id</code> tersebut.

### Inner Join

Metode <i>inner join</i> akan menggabungkan data berdasarkan kolom tertentu yang memiliki nilai beririsan. Untuk menerapkan penggabungan dengan <i>inner join</i>, dapat diberikan parameter <code>how = 'inner'</code>.

In [21]:
# Menggabungkan data dengan metode inner join

df_inner_join = pd.merge(df_1, df_2, on='id', how='inner')
df_inner_join

Unnamed: 0,id,IPA,IPS
0,1,Matematika,Ekonomi
1,3,Fisika,Sejarah
2,4,Kimia,Sosiologi


Dataframe <code>df_1</code> dan <code>df_2</code> sama-sama memiliki data dengan <code>id</code> 1, 3, dan 4, sehingga hanya data dengan id tersebut sajalah yang terambil.

### Left Join

<i>Left join</i> akan menghasilkan gabungan data berupa seluruh dari kiri atau dataframe yang pertama didefinisikan dan data kanan yang memiliki nilai <code>id</code> yang sama dengan data kiri.

In [22]:
# Menggabungkan data dengan metode left join

df_left_join = pd.merge(df_1, df_2, on='id', how='left')
df_left_join

Unnamed: 0,id,IPA,IPS
0,1,Matematika,Ekonomi
1,2,Statistika,
2,3,Fisika,Sejarah
3,4,Kimia,Sosiologi
4,5,Biologi,


Perhatikan bahwa seluruh nilai <code>id</code> dari dataframe <code>df_1</code> ditampilkan, sedangkan tidak ada data dari <code>df_2</code> dengan nilai <code>id</code> yang tidak sama dengan nilai <code>id</code> pada <code>df_1</code>.

### Right Join

Metode <i>right join</i> adalah kebalikan dari <i>left join</i>. <i>Right join</i> akan menghasilkan gabungan data berupa seluruh dari kanan atau dataframe yang terakhir didefinisikan dan data kiri yang memiliki nilai <code>id</code> yang sama dengan data kanan.

In [23]:
# Menggabungkan data dengan metode right join

df_right_join = pd.merge(df_1, df_2, on='id', how='right')
df_right_join

Unnamed: 0,id,IPA,IPS
0,1,Matematika,Ekonomi
1,3,Fisika,Sejarah
2,4,Kimia,Sosiologi
3,6,,Bahasa Indonesia
4,7,,Geografi


Perhatikan bahwa seluruh nilai <code>id</code> dari dataframe <code>df_2</code> ditampilkan, sedangkan tidak ada data dari <code>df_1</code> dengan nilai <code>id</code> yang tidak sama dengan nilai <code>id</code> pada <code>df_2</code>.

### Menggabungkan data dengan nama kolom 'key' yang berbeda

Bagaimana jika nama kolom yang dijadikan referensi memiliki nama yang berbeda?

Buat dahulu 2 dataframe dengan nama kolom 'key' yang berbeda. Disini kolom <code>id</code> yang akan digunakan sebagai 'key'  ganti menjadi <code>id_IPA</code> dan <code>id_IPS</code>.

In [24]:
# Membuat 2 dataframe dengan nama kolom id yang berbeda

data1 = {'id_IPA': [1, 2, 3, 4, 5],
        'IPA': ['Matematika', 'Statistika', 'Fisika', 'Kimia', 'Biologi']}

data2 = {'id_IPS': [1, 3, 4, 6, 7], 
         'IPS': ['Ekonomi', 'Sejarah', 'Sosiologi', 'Bahasa Indonesia', 'Geografi']}

df_1 = pd.DataFrame(data1)
df_2 = pd.DataFrame(data2)

Untuk menggabungkan data dengan nama kolom 'key' yang berbeda, dapat  didefinisikan dengan parameter <code>left_on</code> dan <code>right_on</code>. Perhatikan kode berikut untuk cara penggunaannya.

In [25]:
# Menggabungkan data yang memiliki kolom 'key' yang berbeda

df_different_label = pd.merge(df_1, df_2, how='inner', left_on=['id_IPA'], right_on=['id_IPS'])
df_different_label

Unnamed: 0,id_IPA,IPA,id_IPS,IPS
0,1,Matematika,1,Ekonomi
1,3,Fisika,3,Sejarah
2,4,Kimia,4,Sosiologi


<hr>

## Fungsi join()

Fungsi <code>join()</code> memiliki cara penulisan yang berbeda dengan <code>concat()</code> dan <code>merge()</code>. 

### Penggabungan dataframe dengan join()

Membuat dataframe dengan nama kolom 'key' yang sama, yaitu <code>id</code>. Selanjutnya gabungkan dengan <code>join()</code>.

In [26]:
# Membuat dataframe

data1 = {'id': [1, 2, 3, 4, 5],
        'IPA': ['Matematika', 'Statistika', 'Fisika', 'Kimia', 'Biologi']}

data2 = {'id': [1, 3, 4, 6, 7], 
         'IPS': ['Ekonomi', 'Sejarah', 'Sosiologi', 'Bahasa Indonesia', 'Geografi']}

df_1 = pd.DataFrame(data1)
df_2 = pd.DataFrame(data2)


# Menggabungkan data dengan join()

df_join = df_1.join(df_2, lsuffix='_1', rsuffix='_2')
df_join

Unnamed: 0,id_1,IPA,id_2,IPS
0,1,Matematika,1,Ekonomi
1,2,Statistika,3,Sejarah
2,3,Fisika,4,Sosiologi
3,4,Kimia,6,Bahasa Indonesia
4,5,Biologi,7,Geografi


Untuk nama kolom 'key' yang sama, diharuskan memberikan parameter <code>lsuffix</code> dan <code>rsuffix</code>. Jika tidak, maka akan terjadi <i>error</i>.

Namun, jika nama kolom 'key'-nya memang sudah berbeda, tidak perlu menambahkannya seperti pada contoh berikut.

In [27]:
# Membuat dataframe

data1 = {'id_A': [1, 2, 3, 4, 5],
        'IPA': ['Matematika', 'Statistika', 'Fisika', 'Kimia', 'Biologi']}

data2 = {'id_S': [1, 3, 4, 6, 7], 
         'IPS': ['Ekonomi', 'Sejarah', 'Sosiologi', 'Bahasa Indonesia', 'Geografi']}

df_1 = pd.DataFrame(data1)
df_2 = pd.DataFrame(data2)


# Menggabungkan data dengan join()

df_join = df_1.join(df_2)
df_join

Unnamed: 0,id_A,IPA,id_S,IPS
0,1,Matematika,1,Ekonomi
1,2,Statistika,3,Sejarah
2,3,Fisika,4,Sosiologi
3,4,Kimia,6,Bahasa Indonesia
4,5,Biologi,7,Geografi


### Menggabungkan banyak dataframe

Menggabungkan banyak dataframe dengan nama kolom 'key' yang sama dengan menjadikan kolom 'key' tersebut sebagai indeks. Misalnya memiliki 4 dataframe sebagai berikut.

In [28]:
# Membuat dataframe

data1 = {'id': [1, 2, 3, 4, 5],
        'fitur_1': ['Matematika', 'Statistika', 'Fisika', 'Kimia', 'Biologi']}

data2 = {'id': [1, 3, 4, 6, 7], 
         'fitur_2': ['Ekonomi', 'Sejarah', 'Sosiologi', 'Bahasa Indonesia', 'Geografi']}

data3 = {'id': [1, 2, 3, 4, 5],
        'fitur_3': [20, 26, 31, 29, 30]}

data4 = {'id': [1, 3, 4, 6, 7], 
         'fitur_4': [32, 29, 23, 27, 22]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df3 = pd.DataFrame(data3)
df4 = pd.DataFrame(data4)

Selanjutnya jadikan kolom <code>id</code> pada 4 dataframe tersebut sebagai indeks.

In [29]:
# Menjadikan kolom id sebagai indeks

df1 = df1.set_index('id')
df2 = df2.set_index('id')
df3 = df3.set_index('id')
df4 = df4.set_index('id')

Untuk menggabungkannya, lakukan seperti kode berikut.

In [30]:
# Menggabungkan banyak dataframe

df_join = df1.join([df2, df3, df4])
df_join

Unnamed: 0_level_0,fitur_1,fitur_2,fitur_3,fitur_4
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Matematika,Ekonomi,20.0,32.0
2,Statistika,,26.0,
3,Fisika,Sejarah,31.0,29.0
4,Kimia,Sosiologi,29.0,23.0
5,Biologi,,30.0,


Dataframe <code>df1</code> digunakan sebagai acuan, sehingga yang tertampil hanya data dengan <code>id</code> yang ada pada <code>df1</code>.

Jika ingin menampilkan seluruh data <code>id</code> yang ada, tambahkan parameter <code>how = 'outer'</code> yang menandakan bahwa kita ingin penggabungan data tersebut menggunakan metode <i>full outer join</i>.

In [31]:
# Menggabungkan banyak dataframe dengan metode full outer join

df_join = df2.join([df1, df3, df4], how='outer')
df_join

Unnamed: 0_level_0,fitur_2,fitur_1,fitur_3,fitur_4
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Ekonomi,Matematika,20.0,32.0
2,,Statistika,26.0,
3,Sejarah,Fisika,31.0,29.0
4,Sosiologi,Kimia,29.0,23.0
5,,Biologi,30.0,
6,Bahasa Indonesia,,,27.0
7,Geografi,,,22.0


Begitu juga jika ingin menggunakan metode <i>inner join</i>.

In [32]:
# Menggabungkan banyak dataframe dengan metode inner join

df_join = df2.join([df1, df3, df4], how='inner')
df_join

Unnamed: 0_level_0,fitur_2,fitur_1,fitur_3,fitur_4
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Ekonomi,Matematika,20,32
3,Sejarah,Fisika,31,29
4,Sosiologi,Kimia,29,23




---


Semoga Bermanfaat dan jangan lupa main-main kesini: <a href="https://nurpurwanto.github.io/">**nurpurwanto**</a> Terimakasih.

---


