# Binning dengan ketentuan sendiri

In [1]:
from sklearn.pipeline import Pipeline
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('datasetgaji.csv', sep=',')
data.head(6)

Unnamed: 0,Nama,Status Rumah,Gaji Orang Tua,Keterangan
0,aldi taher,Kontrak,2100000,
1,kekeyi,Milik,4000000,
2,rangga sasana,Kontrak,1400000,
3,vicky prasetyo,Kontrak,700000,
4,Zuko,Milik,650000,
5,dyrga,Kontrak,450000,


In [3]:
batas_bin = [0, 1400000, 4000000]

In [4]:
kategori = ['Kecil','Besar']

In [5]:
data['gaji_binned_1'] = pd.cut(data['Gaji Orang Tua'], bins=batas_bin, labels=kategori)

In [6]:
print(data)

             Nama Status Rumah  Gaji Orang Tua  Keterangan gaji_binned_1
0      aldi taher      Kontrak         2100000         NaN         Besar
1          kekeyi        Milik         4000000         NaN         Besar
2   rangga sasana      Kontrak         1400000         NaN         Kecil
3  vicky prasetyo      Kontrak          700000         NaN         Kecil
4            Zuko        Milik          650000         NaN         Kecil
5           dyrga      Kontrak          450000         NaN         Kecil


# Binning dengan linspace

In [7]:
bins = np.linspace(min(data['Gaji Orang Tua']), max(data['Gaji Orang Tua']), 3)

In [8]:
print(bins)


[ 450000. 2225000. 4000000.]


In [9]:
kategori = ['Kecil','Besar']

In [10]:
data['gaji_binned2'] = pd.cut(data['Gaji Orang Tua'], bins=bins, labels=kategori, include_lowest=True)

In [11]:
print (data)


             Nama Status Rumah  Gaji Orang Tua  Keterangan gaji_binned_1  \
0      aldi taher      Kontrak         2100000         NaN         Besar   
1          kekeyi        Milik         4000000         NaN         Besar   
2   rangga sasana      Kontrak         1400000         NaN         Kecil   
3  vicky prasetyo      Kontrak          700000         NaN         Kecil   
4            Zuko        Milik          650000         NaN         Kecil   
5           dyrga      Kontrak          450000         NaN         Kecil   

  gaji_binned2  
0        Kecil  
1        Besar  
2        Kecil  
3        Kecil  
4        Kecil  
5        Kecil  


# Binning dengan Quantile

In [12]:
data['Gaji_binned3'] = pd.qcut(data['Gaji Orang Tua'], 2)
print (data)

             Nama Status Rumah  Gaji Orang Tua  Keterangan gaji_binned_1  \
0      aldi taher      Kontrak         2100000         NaN         Besar   
1          kekeyi        Milik         4000000         NaN         Besar   
2   rangga sasana      Kontrak         1400000         NaN         Kecil   
3  vicky prasetyo      Kontrak          700000         NaN         Kecil   
4            Zuko        Milik          650000         NaN         Kecil   
5           dyrga      Kontrak          450000         NaN         Kecil   

  gaji_binned2             Gaji_binned3  
0        Kecil   (1050000.0, 4000000.0]  
1        Besar   (1050000.0, 4000000.0]  
2        Kecil   (1050000.0, 4000000.0]  
3        Kecil  (449999.999, 1050000.0]  
4        Kecil  (449999.999, 1050000.0]  
5        Kecil  (449999.999, 1050000.0]  


In [13]:
kategori = ['Kecil','Besar']
data['Gaji_binned3'] = pd.qcut(data['Gaji Orang Tua'], q=2, labels=kategori)
print (data)

             Nama Status Rumah  Gaji Orang Tua  Keterangan gaji_binned_1  \
0      aldi taher      Kontrak         2100000         NaN         Besar   
1          kekeyi        Milik         4000000         NaN         Besar   
2   rangga sasana      Kontrak         1400000         NaN         Kecil   
3  vicky prasetyo      Kontrak          700000         NaN         Kecil   
4            Zuko        Milik          650000         NaN         Kecil   
5           dyrga      Kontrak          450000         NaN         Kecil   

  gaji_binned2 Gaji_binned3  
0        Kecil        Besar  
1        Besar        Besar  
2        Kecil        Besar  
3        Kecil        Kecil  
4        Kecil        Kecil  
5        Kecil        Kecil  
