# Binnning

Binning adalah pengelompokan nilai sesuai dengan batas besaran yang ditentukan. Pada binning, data dikelompokkan dalam tiap ‘bin’ sesuai dengan nilai yang cocok dengan bin tersebut. Bin sederhananya adalah sebuah kategori yang menampung nilai-nilai tertentu.

Binning bisa membantu untuk menghindari overfitting. Namun binning juga mengorbankan informasi yang terkandung dari sebuah atribut sehingga, penggunaanya perlu dilakukan dengan teliti. Di bawah adalah contoh untuk melakukan binning pada dataframe Pandas.

In [3]:
import pandas as pd
data = pd.DataFrame({
    'value': [13, 25, 32, 94, 49],
    'bin': ['null', 'null','null', 'null', 'null']
})

data['bin'] = pd.cut(data['value'], bins=[0, 30,  70, 100], labels=["Low", "Mid", "High"])

data


Unnamed: 0,value,bin
0,13,Low
1,25,Low
2,32,Mid
3,94,High
4,49,Mid


# Splitting

Memisahkan sebuah atribut menjadi atribut-atribut baru juga merupakan salah satu cara yang berguna. Dengan splitting kita membuat atribut lebih mudah dipahami oleh model machine learning. Di lapangan sering kita temui data dengan kolom string melanggar prinsip tidy data (Hadley Wickham). Memisahkan sebagian data dalam kolom menjadi fitur baru memberikan keuntungan antara lain: 1) meningkatkan performa model dengan menemukan informasi berharga; dan 2) membuat kita lebih mudah untuk melakukan proses binning dan grouping.



Contoh adalah kolom ‘full_name’. Misal kita hanya membutuhkan informasi nama hanya terdiri dari satu kata. Maka, kita dapat membagi atribut pada kolom nama dengan memisahkan data ‘first_name’ dan ‘last_name’ kemudian menggunakan salah satu atribut baru tersebut sesuai kebutuhan.



In [5]:
import pandas as pd

Developer = pd.DataFrame({
    'Name':  ['Isyana Saraswati', 'Nicholas Saputra', 'Raisa Andriana'],
    'Age': [30, 36, 32]
})

print("Artis di Indonesia :\n", Developer) 

Developer[['First', 'Last']] = Developer.Name.str.split(expand=True)

print("\n Split kolom 'Name', lalu tambahkan kedua kolom : \n", Developer)



Artis di Indonesia :
                Naam  Age
0  Isyana Saraswati   30
1  Nicholas Saputra   36
2    Raisa Andriana   32

 Split kolom 'Name', lalu tambahkan kedua kolom : 
                Naam  Age     First       Last
0  Isyana Saraswati   30    Isyana  Saraswati
1  Nicholas Saputra   36  Nicholas    Saputra
2    Raisa Andriana   32     Raisa   Andriana
