## Binning

Binning adalah pengelompokan nilai sesuai dengan batas besaran yang ditentukan. Pada binning, data dikelompokkan dalam tiap ‘bin’ sesuai dengan nilai yang cocok dengan bin tersebut. Bin sederhananya adalah sebuah kategori yang menampung nilai-nilai tertentu.

In [2]:
import pandas as pd

In [5]:
data = {
    'value' : [13, 15, 32, 94, 49]
}

df = pd.DataFrame(data)
df.head()

Unnamed: 0,value
0,13
1,15
2,32
3,94
4,49


In [7]:
df['bin'] = pd.cut(df['value'], bins = [0, 30, 70, 100], labels = ["Low", "Mid", "High"])
df

Unnamed: 0,value,bin
0,13,Low
1,15,Low
2,32,Mid
3,94,High
4,49,Mid


## Splitting

Memisahkan sebuah atribut menjadi atribut-atribut baru juga merupakan salah satu cara yang berguna. Dengan splitting kita membuat atribut lebih mudah dipahami oleh model machine learning. Di lapangan sering kita temui data dengan kolom string melanggar prinsip tidy data (Hadley Wickham). Memisahkan sebagian data dalam kolom menjadi fitur baru memberikan keuntungan antara lain: 1) meningkatkan performa model dengan menemukan informasi berharga; dan 2) membuat kita lebih mudah untuk melakukan proses binning dan grouping.

Ada beberapa cara untuk melakukan fungsi split, tergantung pada karakteristik kolom. Mari kita ambil salah satu contoh kasus. Sebuah atribut dengan judul “ram_hardisk” yang berisi informasi mengenai besar ram dan penyimpanan dari harddisk. Kita dapat memisahkan atribut tersebut menjadi “ram” dan “storage” untuk memudahkan model mendapatkan informasi lebih banyak dari atribut baru.

Contoh lain adalah kolom ‘full_name’. Misal kita hanya membutuhkan informasi nama hanya terdiri dari satu kata. Maka, kita dapat membagi atribut pada kolom nama dengan memisahkan data ‘first_name’ dan ‘last_name’ kemudian menggunakan salah satu atribut baru tersebut sesuai kebutuhan.

In [9]:
Developer = pd.DataFrame({'Name': ['Isyana Saraswati', 'Nicholas Saputra', 'Raisa Andriana'], 
        'Age':[30, 36, 32]}) 
print("Machine Learning Developer di Indonesia :\n", Developer) 
 
Developer[['First','Last']] = Developer.Name.str.split(expand=True) 
print("\n Split kolom 'Name', lalu tambahkan kedua kolom : \n", Developer)

Machine Learning Developer di Indonesia :
                Name  Age
0  Isyana Saraswati   30
1  Nicholas Saputra   36
2    Raisa Andriana   32

 Split kolom 'Name', lalu tambahkan kedua kolom : 
                Name  Age     First       Last
0  Isyana Saraswati   30    Isyana  Saraswati
1  Nicholas Saputra   36  Nicholas    Saputra
2    Raisa Andriana   32     Raisa   Andriana
