In [None]:
import pandas as pd
import numpy as np
import  matplotlib.pyplot as plt
import seaborn as sns

from numpy.polynomial.polynomial import Polynomial
from sklearn.ensemble import RandomForestRegressor

# import sklearn.neighbors._base
# import sys
# sys.modules['sklearn.neighbors.base'] = sklearn.neighbors._base
# from missingpy import MissForest

In [None]:
trainFeatures = pd.read_csv('data/train_features.csv')
testFeatures = pd.read_csv('data/test_features.csv')
trainLabels = pd.read_csv('data/train_labels.csv')
example = pd.read_csv('data/submission_format.csv')

In [None]:
trainFeatures.iloc[80:90]

In [None]:
trainFeatures.shape

In [None]:
testFeatures.head()

In [None]:
example.head()

# Data Assessing

## Informasi Umum Dataset Train Features

In [None]:
trainFeatures.info()

In [None]:
trainFeatures.describe()

## Cek Nilai Null Dataset Train Features

In [None]:
trainFeatures.isnull().sum()

## Cek Nilai Duplikat Dataset Train Features

In [None]:
trainFeatures.duplicated().sum()

# Data Cleaning

## Kolom Pendidikan

In [None]:
# Cek Nilai Unique
trainFeatures['pendidikan'].unique()

Terdapat dua nilai salah yaitu nan dan '5'. Maka perlu dibersihkan pada dua nilai tersebut.

### Olah Data dengan Nilai Unique '5'

In [None]:
# Ambil contoh nilai pada kolom pendidikan dengan nilai '5'
trainFeatures[trainFeatures['pendidikan'] == '5'].head()

In [None]:
# Mengambil indeks data dengan nilai unique '5'
dropPendidikan = trainFeatures[trainFeatures['pendidikan'] == '5'].index
# Menghapus nilai dengan indeks tersebut
trainFeatures.drop(dropPendidikan, inplace=True)

Saat ini nilai dengan inputan '5' sudah terhapus, karena hanya terdapat 2 data saja maka dapat dikatakan aman untuk dihapus.

Selanjutnya yaitu menangani data dengan inputan nan. Untuk langkah yang diambil yaitu mengecek seberapa banyak nilai nan yang ada. Jika jumlah terbilang sedikit, langkah yang diambil adalah menghapus nilai tersebut (seperti pada inputan '5' sebelumnya). Namun, jika jumlahnya terbilang cukup banyak, maka langkah yang diambil yaitu mengubah setiap nilai nan menjadi nilai modus pada kolom **pendidikan**.

### Olah Data dengan Nilai Unique NaN

In [None]:
# Mengambil sample data dengan inputan nan
dataNanPendidikan = trainFeatures[trainFeatures['pendidikan'].isnull()]

# Mengecek Banyak Baris Data
print('Banyak Data dengan inputan nan:', dataNanPendidikan.shape[0], '\n')
print('Dengan sample data sebagai berikut: ')
dataNanPendidikan.sample(10)

Dikarenakan jumlah dari data nan cukup banyak, maka akan dilakukan pengubahan isi dengan data modus pada kolom **pendidikan**.

In [None]:
# Mengambil jumlah isi terbanyak pada kolom pendidikan
modePendidikan = trainFeatures['pendidikan'].mode()[0]
print('Nilai dengan modus terbanyak adalah', modePendidikan)

In [None]:
# Mengubah nilai nan menjadi nilai modus
trainFeatures['pendidikan'] = trainFeatures['pendidikan'].fillna(modePendidikan)

In [None]:
# Cek ulang nilai unique
trainFeatures['pendidikan'].unique()

Pada saat ini, kondisi kolom **pendidikan** sudah normal.

## Kolom Status Pernikahan

In [None]:
# Cek Nilai Unique
trainFeatures['status_pernikahan'].unique()

Mirip dengan kolom Pendidikan, terdapat dua nilai tidak sesuai pada kolom **Status Pernikahan** yaitu '5' dan nan. Maka perlu dilakukan proses yang sama dengan kolom Pendidikan yaitu meninjau setiap invalid value yang ada untuk dilakukan langkah lebih lanjut.

### Olah Data dengan Nilai Unique '5'

In [None]:
# Mengambil sample data dengan nilai unique '5'
trainFeatures[trainFeatures['status_pernikahan'] == '5']

Dikarenakan hanya terdapat satu nilai saja dengan value '5', maka dapat dihapus saja karena tidak terlalu berpengaruh terhadap keseluruhan data.

In [None]:
# Mengambil data dengan nilai unique '5'
dropStatusNikah = trainFeatures[trainFeatures['status_pernikahan'] == '5'].index
# Menghapus data
trainFeatures.drop(dropStatusNikah, inplace=True)


### Olah Data dengan Nilai Unique NaN

In [None]:
# Mengambil sample data dengan inputan nan
dataNanPernikahan = trainFeatures[trainFeatures['status_pernikahan'].isnull()]

# Mengecek Banyak Baris Data
print('Banyak Data dengan inputan nan:', dataNanPernikahan.shape[0], '\n')
print('Dengan sample data sebagai berikut: ')
dataNanPernikahan.sample(10)

Dikarenakan jumlah dari data nan cukup banyak, maka akan dilakukan pengubahan isi data nan dengan analisis lebih lanjut pada kolom-kolom yang berpotensi memiliki korelasi dengan kolom **status pernikahan**. 

Yaitu dengan melihat kolom **jumlah anak balita** dan **jumlah anak remaja** dengan asumsi jika memiliki nilai lebih dari 0 dari kedua kolom tersebut, maka akan diubah menjadi "Menikah".

In [None]:
# Ubah NaN menjadi String Terlebih Dahulu
trainFeatures['status_pernikahan'].fillna('kosong', inplace=True)

# Buat Fungsi
def ubahPernikahan(row):
    if row['status_pernikahan'] == 'kosong':
        if row['jumlah_anak_balita'] > 0 or row['jumlah_anak_remaja'] > 0:
            return 'Menikah'
        else:
            return 'Sendiri'
    else:
        return row['status_pernikahan']

trainFeatures['status_pernikahan'] = trainFeatures.apply(ubahPernikahan, axis=1)

In [None]:
trainFeatures['status_pernikahan'].unique()

Saat ini nilai unique pada kolom **status pernikahan** sudah normal dan tidak ada nilai nan.

## Kolom Pendapatan

In [None]:
trainFeatures.pendapatan.sample(5)

### Cek Nilai Statistik 

In [None]:
trainFeatures.describe()

### Pengecekan Nilai Null

Dari hasil analisis sebelumnya, terlihat bahwa terdapat nilai null pada kolom ini.

In [None]:
nullPendapatan = trainFeatures[trainFeatures['pendapatan'].isnull()]
nullPendapatan.head(10)

In [None]:
trainFeatures.sample(10)

Yang dilakukan adalah menggunakan interpolasi polinomial untuk menutup setiap nilai NaN yang ada dengan titik terdekat data ke data lainnya secara linear.

In [None]:
# Data x dan y yang tidak null
x_known = trainFeatures.index[~trainFeatures['pendapatan'].isnull()]
y_known = trainFeatures.loc[x_known, 'pendapatan']

# Buat objek interpolasi polinomial orde rendah (misalnya, orde 2)
poly_interp = Polynomial.fit(x_known, y_known, deg=3)

# Memasang indeks titik data yang akan diisi (NaN)
fill_indices = trainFeatures.index[trainFeatures['pendapatan'].isnull()]

# Isi nilai-nilai NaN dengan hasil interpolasi polinomial
trainFeatures.loc[fill_indices, 'pendapatan'] = poly_interp(fill_indices)


Pada saat ini sudah tidak terdapat nilai NaN lagi pada kolom **pendapatan**, sehingga dapat dilanjutkan pada proses analisis selanjutnya.

In [None]:
trainFeatures.pendapatan.describe()

## Kolom Jumlah Anak Balita

### Cek Nilai Unique

In [None]:
trainFeatures['jumlah_anak_balita'].unique()

Pada pengecekan nilai unique di atas, ditemukan nilai NaN yang perlu diganti dengan nilai lain.

### Hapus Nilai Null

In [None]:
trainFeatures['jumlah_anak_balita'].fillna(0, inplace=True)
trainFeatures['jumlah_anak_balita'] = trainFeatures['jumlah_anak_balita'].astype(int)
print(trainFeatures['jumlah_anak_balita'].dtype)

In [None]:
# Cek Nilai Unique Ulang
trainFeatures['jumlah_anak_balita'].unique()

Pada proses ini, langkah yang diambil adalah mengubah nilai NaN menjadi **0** dengan asumsi setiap nilai NaN diartikan baris data penduduk tersebut memiliki jumlah anak balita sebanyak **0**.

## Kolom Jumlah Anak Remaja

### Cek Nilai Unique

In [None]:
trainFeatures['jumlah_anak_remaja'].unique()

Sama seperti pada kasus kolom *jumlah anak balita*, terdapat nilai NaN pada kolom *jumlah anak remaja* yang perlu diubah dengan nilai lainnya.

### Hapus Nilai Null

In [None]:
trainFeatures['jumlah_anak_remaja'].fillna(0, inplace=True)
trainFeatures['jumlah_anak_remaja'] = trainFeatures['jumlah_anak_remaja'].astype(int)
print(trainFeatures['jumlah_anak_remaja'].dtype)

In [None]:
# Cek Nilai Unique Ulang
trainFeatures['jumlah_anak_remaja'].unique()

Hasil pada kolom *jumlah anak remaja* juga mirip dengan hasil kolom *jumlah anak balita*, yaitu dengan mengubah nilai NaN dengan nilai **0**. Sebagai asumsi bahwa nilai NaN berarti baris data penduduk tersebut tidak memiliki anak remaja.

## Kolom Terakhir Belanja

### Cek Nilai Unique

In [None]:
trainFeatures['terakhir_belanja'].unique()

Pada pengecekan nilai unique, hasilnya terdapat nilai NaN yang terkandung didalam kolom *terakhir belanja*. Maka perlu dilakukan pengecekan batas minimum dan maksimum data serta nilai statistik lainnya seperti rata-rata untuk mengubah nilai NaN ini dengan sajian nilai Unique yang lebih rapi.

### Cek Nilai Min dan Max

In [None]:
nilaiMax = trainFeatures.terakhir_belanja.max()
nilaiMin = trainFeatures.terakhir_belanja.min()

print('Nilai maksimal dari kolom terakhir belanja adalah', nilaiMax)
print('Nilai minimal dari kolom terakhir belanja adalah', nilaiMin)

Dikarenakan tidak adanya acuan data tambahan dari kolom *terakhir belanja*, maka langkah yang diambil adalah mengubah setiap nilai NaN menjadi nilai rata-rata.

### Ubah Nilai Null dengan Rata-Rata

In [None]:
rata2 = trainFeatures['terakhir_belanja'].mean()
rata2

Didapatkan nilai **47.23338824821526** yang perlu dibulatkan, untuk mengubah nilai NaN dengan nilai ini.

In [None]:
trainFeatures['terakhir_belanja'] = trainFeatures['terakhir_belanja'].fillna(rata2)
trainFeatures['terakhir_belanja'] = trainFeatures['terakhir_belanja'].astype(int)
print(trainFeatures['terakhir_belanja'].dtype)

Pembulatan nilai pada kolom *terakhir belanja* dilakukan dengan cara pengubahan tipe data dari float menjadi integer.

In [None]:
# Cek Ulang Nilai Unique
nilaiTerurut = np.sort(trainFeatures['terakhir_belanja'].unique())
nilaiTerurut

## Kolom Belanja Buah

Pada kolom **belanja buah**, juga masih terdapat nilai NaN yang harus dipenuhi. Untuk langkah yang diambil yaitu mengisi dengan mempertimbangkan kolom lain yang secara logis masih memiliki hubungan dengan kolom **belanja_buah**. Hal ini bertujuan agar pengisian data bervariasi tetapi masih memiliki alasan yang masuk jelas. Kolom yang dipilih adalah **pendapatan**.

In [None]:
trainFeatures.head()

In [None]:
trainFeatures.belanja_buah.isna().sum()

### Pengisian Nilai NaN

Pengisian nilai NaN dilakukan dengan cara mengambil sampel nilai pendapatan pada kolom **pendapatan** berdasarkan segmentasi pendapatan pada kolom **segmen_pendapatan**. Setelah itu, dilakukan prediksi yang hasilnya akan dimasukkan sebagai pengganti nilai NaN. 

Untuk fitur x diambil dari kolom **pendapatan** (non null) dan fitur y diambil dari kolom **belanja buah** hanya nilai yang non null saja. Prediksi dilakukan menggunakan *Random Forest*.

In [None]:
# Filter data yang memiliki nilai non-null dalam kolom 'belanja_buah' di dalam segmen ini
valid_data = trainFeatures.dropna(subset=['belanja_buah'])
        
# Pisahkan fitur (X) dan target (y) dari data yang valid
X_train = np.array(valid_data['pendapatan']).reshape(-1, 1)
y_train = np.array(valid_data['belanja_buah'])
        
# Train model Random Forest
rf_model = RandomForestRegressor(n_estimators=10, max_depth=4, random_state=25, n_jobs=-1)
rf_model.fit(X_train, y_train)
        
for i, row in trainFeatures.iterrows():
    # Seleksi nilai hanya yang null
    if np.isnan(row['belanja_buah']):
        # Prediksi nilai 'belanja_buah'
        predicted_value = rf_model.predict(np.array(row['pendapatan']).reshape(1, -1))
        trainFeatures.at[i, 'belanja_buah'] = predicted_value

In [None]:
trainFeatures.belanja_buah.isna().sum()

## Kolom Belanja Daging

In [None]:
# Filter data yang memiliki nilai non-null dalam kolom 'belanja_buah' di dalam segmen ini
valid_data = trainFeatures.dropna(subset=['belanja_daging'])
        
# Pisahkan fitur (X) dan target (y) dari data yang valid
X_train = np.array(valid_data['pendapatan']).reshape(-1, 1)
y_train = np.array(valid_data['belanja_daging'])
        
# Train model Random Forest
rf_model = RandomForestRegressor(n_estimators=10, max_depth=4, random_state=25, n_jobs=-1)
rf_model.fit(X_train, y_train)
        
for i, row in trainFeatures.iterrows():
    # Seleksi nilai hanya yang null
    if np.isnan(row['belanja_daging']):
        # Prediksi nilai 'belanja_buah'
        predicted_value = rf_model.predict(np.array(row['pendapatan']).reshape(1, -1))
        trainFeatures.at[i, 'belanja_daging'] = predicted_value

In [None]:
trainFeatures.belanja_daging.isna().sum()

## Kolom Belanja Ikan

In [None]:
# Filter data yang memiliki nilai non-null dalam kolom 'belanja_buah' di dalam segmen ini
valid_data = trainFeatures.dropna(subset=['belanja_ikan'])
        
# Pisahkan fitur (X) dan target (y) dari data yang valid
X_train = np.array(valid_data['pendapatan']).reshape(-1, 1)
y_train = np.array(valid_data['belanja_ikan'])
        
# Train model Random Forest
rf_model = RandomForestRegressor(n_estimators=10, max_depth=4, random_state=25, n_jobs=-1)
rf_model.fit(X_train, y_train)
        
for i, row in trainFeatures.iterrows():
    # Seleksi nilai hanya yang null
    if np.isnan(row['belanja_ikan']):
        # Prediksi nilai 'belanja_buah'
        predicted_value = rf_model.predict(np.array(row['pendapatan']).reshape(1, -1))
        trainFeatures.at[i, 'belanja_ikan'] = predicted_value

In [None]:
trainFeatures.belanja_ikan.isna().sum()

## Kolom Belanja Kue

In [None]:
# Filter data yang memiliki nilai non-null dalam kolom 'belanja_buah' di dalam segmen ini
valid_data = trainFeatures.dropna(subset=['belanja_kue'])
        
# Pisahkan fitur (X) dan target (y) dari data yang valid
X_train = np.array(valid_data['pendapatan']).reshape(-1, 1)
y_train = np.array(valid_data['belanja_kue'])
        
# Train model Random Forest
rf_model = RandomForestRegressor(n_estimators=10, max_depth=4, random_state=25, n_jobs=-1)
rf_model.fit(X_train, y_train)
        
for i, row in trainFeatures.iterrows():
    # Seleksi nilai hanya yang null
    if np.isnan(row['belanja_kue']):
        # Prediksi nilai 'belanja_buah'
        predicted_value = rf_model.predict(np.array(row['pendapatan']).reshape(1, -1))
        trainFeatures.at[i, 'belanja_kue'] = predicted_value

In [None]:
trainFeatures.belanja_ikan.isna().sum()

In [None]:
plt.boxplot(trainFeatures['belanja_kue'], vert=False)
plt.xlabel('Belanja Buah')
plt.ylabel('Jumlah')
plt.title('Diagram Boxplot Pengeluaran untuk Buah')
plt.show()

In [None]:
# Plot histogram
plt.hist(trainFeatures['belanja_daging'], bins=10, color='skyblue', edgecolor='black')

# Label sumbu dan judul
plt.xlabel('Belanja Buah')
plt.ylabel('Frekuensi')
plt.title('Histogram Belanja Buah')

Saat ini kolom **belanja buah** sudah tidak ada nilai null lagi

### Cek kolom Pembelian

In [None]:
trainFeatures[trainFeatures['pembelian_diskon'].isna()].sample(11)

In [None]:
trainFeatures['pembelian_diskon'] = trainFeatures['pembelian_diskon'].fillna(0)
trainFeatures['pembelian_diskon'] = trainFeatures['pembelian_diskon'].astype(int)

In [None]:
trainFeatures['pembelian_web'].mean()

In [None]:
trainFeatures[trainFeatures['pembelian_web'].isnull()].head(11)

In [None]:
trainFeatures['pembelian_web'] = trainFeatures['pembelian_web'].interpolate()

In [None]:
trainFeatures['pembelian_web'].isnull().sum()

In [None]:
trainFeatures['pembelian_web'] = trainFeatures['pembelian_web'].astype(int)

In [None]:
trainFeatures['pembelian_toko'] = trainFeatures['pembelian_toko'].fillna(0)
trainFeatures['pembelian_toko'] = trainFeatures['pembelian_toko'].astype(int)


In [None]:
trainFeatures[trainFeatures['keluhan'].isnull()].sample(6)

In [None]:
trainFeatures['keluhan'] = trainFeatures['keluhan'].fillna(0)
trainFeatures['keluhan'] = trainFeatures['keluhan'].astype(int)


In [None]:
# # Plot KDE (Kernel Density Estimate) plot
# sns.kdeplot(trainFeatures['belanja_buah'], shade=True, color='skyblue')

# # Label sumbu dan judul
# plt.xlabel('Belanja Buah')
# plt.ylabel('Kepadatan')
# plt.title('KDE Plot Belanja Buah')

# # Tampilkan plot
# plt.show()

In [None]:
# # Cek jumlah data dengan nilai null
# trainFeatures.belanja_buah.isna().sum()

In [None]:
trainFeatures['pembelian_diskon'].mean()

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['pembelian_diskon'])
plt.ylabel('Nilai Pembelian Diskon')
plt.title('Boxplot Pembelian Diskon sebelum Penanganan Outlier')
plt.xticks([1], ['Pembelian Diskon'])
plt.show()

In [None]:
trainFeatures['tanggal_menjadi_anggota'] = trainFeatures['tanggal_menjadi_anggota'].fillna('unknown')

# Exploratory Data Analysis (EDA)

## Analisis Outliers

In [None]:
while True:
    Q1 = trainFeatures['pendapatan'].quantile(0.25)
    Q3 = trainFeatures['pendapatan'].quantile(0.75)
    IQR = Q3 - Q1

    Upper_Fence = Q3 + 1.5 * IQR
    Lower_Fence = Q1 - 1.5 * IQR

    outliers = trainFeatures[(trainFeatures['pendapatan'] < Lower_Fence) | (trainFeatures['pendapatan'] > Upper_Fence)]['pendapatan']

    if outliers.empty:
        print("Tidak ada outlier lagi.")
        break
    else:
        trainFeatures = trainFeatures[(trainFeatures['pendapatan'] >= Lower_Fence) & (trainFeatures['pendapatan'] <= Upper_Fence)]

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['pendapatan'])
plt.ylabel('Nilai Pendapatan')
plt.title('Boxplot Pendapatan setelah Penanganan Outlier')
plt.xticks([1], ['Pendapatan'])
plt.show()

In [None]:
while True:
    Q1 = trainFeatures['belanja_buah'].quantile(0.25)
    Q3 = trainFeatures['belanja_buah'].quantile(0.75)
    IQR = Q3 - Q1

    Upper_Fence = Q3 + 1.5 * IQR
    Lower_Fence = Q1 - 1.5 * IQR

    outliers = trainFeatures[(trainFeatures['belanja_buah'] < Lower_Fence) | (trainFeatures['belanja_buah'] > Upper_Fence)]['belanja_buah']

    if outliers.empty:
        print("Tidak ada outlier lagi.")
        break
    else:
        trainFeatures = trainFeatures[(trainFeatures['belanja_buah'] >= Lower_Fence) & (trainFeatures['belanja_buah'] <= Upper_Fence)]

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['belanja_buah'])
plt.ylabel('Nilai Belanja Buah')
plt.title('Boxplot Belanja Buah setelah Penanganan Outlier')
plt.xticks([1], ['Belanja Buah'])
plt.show()

In [None]:
while True:
    Q1 = trainFeatures['belanja_daging'].quantile(0.25)
    Q3 = trainFeatures['belanja_daging'].quantile(0.75)
    IQR = Q3 - Q1

    Upper_Fence = Q3 + 1.5 * IQR
    Lower_Fence = Q1 - 1.5 * IQR

    outliers = trainFeatures[(trainFeatures['belanja_daging'] < Lower_Fence) | (trainFeatures['belanja_daging'] > Upper_Fence)]['belanja_daging']

    if outliers.empty:
        print("Tidak ada outlier lagi.")
        break
    else:
        trainFeatures = trainFeatures[(trainFeatures['belanja_daging'] >= Lower_Fence) & (trainFeatures['belanja_daging'] <= Upper_Fence)]

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['belanja_daging'])
plt.ylabel('Nilai Belanja daging')
plt.title('Boxplot Belanja daging setelah Penanganan Outlier')
plt.xticks([1], ['Belanja daging'])
plt.show()

In [None]:
while True:
    Q1 = trainFeatures['belanja_ikan'].quantile(0.25)
    Q3 = trainFeatures['belanja_ikan'].quantile(0.75)
    IQR = Q3 - Q1

    Upper_Fence = Q3 + 1.5 * IQR
    Lower_Fence = Q1 - 1.5 * IQR

    outliers = trainFeatures[(trainFeatures['belanja_ikan'] < Lower_Fence) | (trainFeatures['belanja_ikan'] > Upper_Fence)]['belanja_ikan']

    if outliers.empty:
        print("Tidak ada outlier lagi.")
        break
    else:
        trainFeatures = trainFeatures[(trainFeatures['belanja_ikan'] >= Lower_Fence) & (trainFeatures['belanja_ikan'] <= Upper_Fence)]

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['belanja_ikan'])
plt.ylabel('Nilai Belanja ikan')
plt.title('Boxplot Belanja ikan setelah Penanganan Outlier')
plt.xticks([1], ['Belanja ikan'])
plt.show()

In [None]:
while True:
    Q1 = trainFeatures['belanja_kue'].quantile(0.25)
    Q3 = trainFeatures['belanja_kue'].quantile(0.75)
    IQR = Q3 - Q1

    Upper_Fence = Q3 + 1.5 * IQR
    Lower_Fence = Q1 - 1.5 * IQR

    outliers = trainFeatures[(trainFeatures['belanja_kue'] < Lower_Fence) | (trainFeatures['belanja_kue'] > Upper_Fence)]['belanja_kue']

    if outliers.empty:
        print("Tidak ada outlier lagi.")
        break
    else:
        trainFeatures = trainFeatures[(trainFeatures['belanja_kue'] >= Lower_Fence) & (trainFeatures['belanja_kue'] <= Upper_Fence)]

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['belanja_kue'])
plt.ylabel('Nilai Belanja kue')
plt.title('Boxplot Belanja kue setelah Penanganan Outlier')
plt.xticks([1], ['Belanja kue'])
plt.show()

In [None]:
while True:
    Q1 = trainFeatures['pembelian_diskon'].quantile(0.25)
    Q3 = trainFeatures['pembelian_diskon'].quantile(0.75)
    IQR = Q3 - Q1

    Upper_Fence = Q3 + 1.5 * IQR
    Lower_Fence = Q1 - 1.5 * IQR

    outliers = trainFeatures[(trainFeatures['pembelian_diskon'] < Lower_Fence) | (trainFeatures['pembelian_diskon'] > Upper_Fence)]['pembelian_diskon']

    if outliers.empty:
        print("Tidak ada outlier lagi.")
        break
    else:
        trainFeatures = trainFeatures[(trainFeatures['pembelian_diskon'] >= Lower_Fence) & (trainFeatures['pembelian_diskon'] <= Upper_Fence)]

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['pembelian_diskon'])
plt.ylabel('Nilai Pembelian Diskon')
plt.title('Boxplot Pembelian Diskon setelah Penanganan Outlier')
plt.xticks([1], ['Pembelian Diskon'])
plt.show()

In [None]:
while True:
    Q1 = trainFeatures['pembelian_web'].quantile(0.25)
    Q3 = trainFeatures['pembelian_web'].quantile(0.75)
    IQR = Q3 - Q1

    Upper_Fence = Q3 + 1.5 * IQR
    Lower_Fence = Q1 - 1.5 * IQR

    outliers = trainFeatures[(trainFeatures['pembelian_web'] < Lower_Fence) | (trainFeatures['pembelian_web'] > Upper_Fence)]['pembelian_web']

    if outliers.empty:
        print("Tidak ada outlier lagi.")
        break
    else:
        trainFeatures = trainFeatures[(trainFeatures['pembelian_web'] >= Lower_Fence) & (trainFeatures['pembelian_web'] <= Upper_Fence)]

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['pembelian_web'])
plt.ylabel('Nilai Pembelian Web')
plt.title('Boxplot Pembelian Web setelah Penanganan Outlier')
plt.xticks([1], ['Pembelian Web'])
plt.show()

In [None]:
while True:
    Q1 = trainFeatures['pembelian_toko'].quantile(0.25)
    Q3 = trainFeatures['pembelian_toko'].quantile(0.75)
    IQR = Q3 - Q1

    Upper_Fence = Q3 + 1.5 * IQR
    Lower_Fence = Q1 - 1.5 * IQR

    outliers = trainFeatures[(trainFeatures['pembelian_toko'] < Lower_Fence) | (trainFeatures['pembelian_toko'] > Upper_Fence)]['pembelian_toko']

    if outliers.empty:
        print("Tidak ada outlier lagi.")
        break
    else:
        trainFeatures = trainFeatures[(trainFeatures['pembelian_toko'] >= Lower_Fence) & (trainFeatures['pembelian_toko'] <= Upper_Fence)]

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['pembelian_toko'])
plt.ylabel('Nilai Pembelian Toko')
plt.title('Boxplot Pembelian Toko setelah Penanganan Outlier')
plt.xticks([1], ['Pembelian Toko'])
plt.show()

In [None]:
numeric_cols = trainFeatures.select_dtypes(include=[np.number])
correlation_matrix = numeric_cols.corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Heatmap Korelasi Kolom Numerik')
plt.show()

In [None]:
# Ambil kolom-kolom dengan korelasi di atas 0.7
high_corr_cols = correlation_matrix.columns[(correlation_matrix.abs() > 0.7).any()].tolist()

# Ambil kolom-kolom dengan korelasi di bawah 0.3
low_corr_cols = correlation_matrix.columns[(correlation_matrix.abs() < 0.3).all()].tolist()

In [None]:
high_corr_cols

In [None]:
low_corr_cols

In [None]:
trainFeatures.shape