# Attribute Information
-----------------------------
>### Features
1. `X` : ID pelanggan.
2. `jumlah_kartu` : Jumlah kartu aktif yang dimiliki pelanggan.
3. `outstanding` : Total saldo pemakaian kartu kredit.
4. `limit_kredit` : Jumlah maksimum limit kartu kredit yang dapat digunakan.
5. `tagihan` : Jumlah tagihan pada bulan terakhir.
6. `total_pemakaian_tunai` : Total pemakaian transaksi tunai pada bulan terakhir (cash advance).
7. `total_pemakaian_retail` : Total pemakaian transaksi retail pada bulan terakhir.
8. `sisa_tagihan_tidak_terbayar` : Jumlah tagihan yang tidak terbayar pada bulan terakhir.
9. `kode_cabang` : Kode Cabang.
10. `rasio_pembayaran` : Rasio perbandingan jumlah yang dibayar dengan tagihan pada bulan terakhir.
11. `persentasi_overlimit` : Persentasi overlimit.
12. `rasio_pembayaran_3bulan` : Rata-rata rasio pembayaran 3 bulan terakhir.
13. `rasio_pembayaran_6bulan` : Rata-rata rasio pembayaran 3 bulan sebelum 3 bulan terakhir
14. `skor_delikuensi` : Nilai yang dihitung berdasarkan jumlah minimum pembayaran yang dilakukan pelanggan dalam 6 bulan terakhir.
15. `flag_kredit_macet` : Flag yang menandakan apakah kredit macet atau tidak.
16. `jumlah_tahun_sejak_pembukaan_kredit` : Jumlah tahun sejak pembukaan kartu kredit pertama kali.
17. **`total_pemakaian` : Total pemakaian kartu kredit (tunai dan retail) pada bulan terakhir.**
18. **`sisa_tagihan_per_jumlah_kartu` : Jumlah tagihan yang tidak terbayar pada bulan terakhir dibagi jumlah kartu aktif.**
19. **`sisa_tagihan_per_limit` : Jumlah tagihan yang tidak terbayar pada bulan terakhir dibagi total limit.**
20. **`total_pemakaian_per_limit` : Total pemakaian kartu kredit (tunai dan retail) pada bulan terakhir dibagi total limit.**
21. `pemakaian_3bln_per_limit` : Rata-rata pemakaian selama 3 bulan terakhir dibagi total limit.
22. `pemakaian_6bln_per_limit` : Rata-rata pemakaian selama 3 bulan sebelum 3 bulan terakhir dibagi total limit.
23. `utilisasi_3bulan` : Utilisasi kartu kredit selama 3 bulan terakhir.
24. `utilisasi_6bulan` : Utilisasi kartu kredit selama 3 bulan sebelum 3 bulan terakhir.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.font_manager as mtfm
import matplotlib.gridspec as grids
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, PowerTransformer
from sklearn.decomposition import PCA
import warnings; warnings.filterwarnings('ignore') # Just ignore user warning
pd.options.display.max_columns = None

def boxplot(dataset, feature_to_plot, title='Boxplot', colorb='b'):
    plt.figure(figsize=(20,15))
    gs = grids.GridSpec(4,3)
    for i, feature in enumerate(feature_to_plot):
        ax = plt.subplot(gs[i])
        sns.boxplot(y=feature, data=dataset, color=colorb)
        plt.title(feature,size=15)
        ax.set_ylabel(' ')
        plt.grid(linestyle='--')
        plt.tick_params(axis='both', which='major', labelsize=10)
        plt.suptitle(title,size=20)

def distplot(dataset,feature_to_plot,title="Dataset Distribution",
                logx=False,featlog=[],colorhist="y",colorline="k"):
    if len(feature_to_plot)==2:
        gs = grids.GridSpec(1,2)
        plt.figure(figsize=(25,10))
    else:
        plt.figure(figsize=(25,20))
        gs = grids.GridSpec(3,3)   
    for i, feature in enumerate(feature_to_plot):
        ax = plt.subplot(gs[i])
        sns.distplot(dataset[feature], color=colorhist,
              kde_kws={"color": colorline,
                       "lw": 3,
                       "label": "KDE"})
        if logx==True:
            if feature in featlog:
                ax.set_xlabel('log('+str(feature)+')', size=20)
            else:
                ax.set_xlabel(xlabel=feature, size=20)
        else:
            ax.set_xlabel(xlabel=feature, size=20)
        plt.grid(linestyle='--')
        plt.tick_params(axis='both', which='major', labelsize=15)
        plt.legend(prop = mtfm.FontProperties(size=15))
        plt.suptitle(title,size=25)

def transform_data(dataset, features_to_transform, scaler_type = 'log'):
    data_to_scale = dataset.copy()
    if scaler_type=='log':
        for feature in features_to_transform:
            data_to_scale[feature] = np.log(data_to_scale[feature]+1)
    elif scaler_type=='sqrt':
        for feature in features_to_transform:
            data_to_scale[feature] = np.sqrt(data_to_scale[feature])
    elif scaler_type=='sigmoid':
        for feature in features_to_transform:
            data_to_scale[feature] = 1/(1+np.exp(-1*data_to_scale[feature]))        
    return data_to_scale

def scale_data(dataset, features_to_scale, scaler_type='minmax'):
    data = dataset.copy()
    if scaler_type=='minmax':
        Scaler = MinMaxScaler()
        for feature in features_to_scale:
            series_to_scale = data[feature].astype('float64').values.reshape(-1,1)
            data[feature] = Scaler.fit_transform(series_to_scale)
    elif scaler_type=='standard':
        Scaler = StandardScaler()
        for feature in features_to_scale:
            series_to_scale = data[feature].astype('float64').values.reshape(-1,1)
            data[feature] = Scaler.fit_transform(series_to_scale)        
    elif scaler_type=='robust':
        Scaler = RobustScaler()
        for feature in features_to_scale:
            series_to_scale = data[feature].astype('float64').values.reshape(-1,1)
            data[feature] = Scaler.fit_transform(series_to_scale)
    elif scaler_type=='power':
        Scaler = PowerTransformer()
        for feature in features_to_scale:
            series_to_scale = data[feature].astype('float64').values.reshape(-1,1)
            data[feature] = Scaler.fit_transform(series_to_scale)
    return data

def whiten_data(dataset, features_to_whiten):
    data = dataset.copy().dropna()
    data[features_to_whiten] = PCA().fit_transform(data[features_to_whiten])
    return data