In [None]:
import pandas as pd
import numpy as np
import  matplotlib.pyplot as plt
import seaborn as sns
from scipy import interpolate

from scipy.interpolate import CubicSpline

In [None]:
trainFeatures = pd.read_csv('data/train_features.csv')
testFeatures = pd.read_csv('data/test_features.csv')
trainLabels = pd.read_csv('data/train_labels.csv')
example = pd.read_csv('data/submission_format.csv')

In [None]:
trainFeatures.head()

In [None]:
trainFeatures.shape

In [None]:
testFeatures.head()

In [None]:
example.head()

# Data Assessing

## Informasi Umum Dataset Train Features

In [None]:
trainFeatures.info()

In [None]:
trainFeatures.describe()

## Cek Nilai Null Dataset Train Features

In [None]:
trainFeatures.isnull().sum()

## Cek Nilai Duplikat Dataset Train Features

In [None]:
trainFeatures.duplicated().sum()

# Data Cleaning

## Kolom Pendidikan

In [None]:
# Cek Nilai Unique
trainFeatures['pendidikan'].unique()

Terdapat dua nilai salah yaitu nan dan '5'. Maka perlu dibersihkan pada dua nilai tersebut.

### Olah Data dengan Nilai Unique '5'

In [None]:
# Ambil contoh nilai pada kolom pendidikan dengan nilai '5'
trainFeatures[trainFeatures['pendidikan'] == '5'].head()

In [None]:
# Mengambil indeks data dengan nilai unique '5'
dropPendidikan = trainFeatures[trainFeatures['pendidikan'] == '5'].index
# Menghapus nilai dengan indeks tersebut
trainFeatures.drop(dropPendidikan, inplace=True)

Saat ini nilai dengan inputan '5' sudah terhapus, karena hanya terdapat 2 data saja maka dapat dikatakan aman untuk dihapus.

Selanjutnya yaitu menangani data dengan inputan nan. Untuk langkah yang diambil yaitu mengecek seberapa banyak nilai nan yang ada. Jika jumlah terbilang sedikit, langkah yang diambil adalah menghapus nilai tersebut (seperti pada inputan '5' sebelumnya). Namun, jika jumlahnya terbilang cukup banyak, maka langkah yang diambil yaitu mengubah setiap nilai nan menjadi nilai modus pada kolom **pendidikan**.

### Olah Data dengan Nilai Unique NaN

In [None]:
# Mengambil sample data dengan inputan nan
dataNanPendidikan = trainFeatures[trainFeatures['pendidikan'].isnull()]

# Mengecek Banyak Baris Data
print('Banyak Data dengan inputan nan:', dataNanPendidikan.shape[0], '\n')
print('Dengan sample data sebagai berikut: ')
dataNanPendidikan.sample(10)

Dikarenakan jumlah dari data nan cukup banyak, maka akan dilakukan pengubahan isi dengan data modus pada kolom **pendidikan**.

In [None]:
# Mengambil jumlah isi terbanyak pada kolom pendidikan
modePendidikan = trainFeatures['pendidikan'].mode()[0]
print('Nilai dengan modus terbanyak adalah', modePendidikan)

In [None]:
# Mengubah nilai nan menjadi nilai modus
trainFeatures['pendidikan'] = trainFeatures['pendidikan'].fillna(modePendidikan)

In [None]:
# Cek ulang nilai unique
trainFeatures['pendidikan'].unique()

Pada saat ini, kondisi kolom **pendidikan** sudah normal.

## Kolom Status Pernikahan

In [None]:
# Cek Nilai Unique
trainFeatures['status_pernikahan'].unique()

Mirip dengan kolom Pendidikan, terdapat dua nilai tidak sesuai pada kolom **Status Pernikahan** yaitu '5' dan nan. Maka perlu dilakukan proses yang sama dengan kolom Pendidikan yaitu meninjau setiap invalid value yang ada untuk dilakukan langkah lebih lanjut.

### Olah Data dengan Nilai Unique '5'

In [None]:
# Mengambil sample data dengan nilai unique '5'
trainFeatures[trainFeatures['status_pernikahan'] == '5']

Dikarenakan hanya terdapat satu nilai saja dengan value '5', maka dapat dihapus saja karena tidak terlalu berpengaruh terhadap keseluruhan data.

In [None]:
# Mengambil data dengan nilai unique '5'
dropStatusNikah = trainFeatures[trainFeatures['status_pernikahan'] == '5'].index
# Menghapus data
trainFeatures.drop(dropStatusNikah, inplace=True)

### Olah Data dengan Nilai Unique NaN

In [None]:
# Mengambil sample data dengan inputan nan
dataNanPernikahan = trainFeatures[trainFeatures['status_pernikahan'].isnull()]

# Mengecek Banyak Baris Data
print('Banyak Data dengan inputan nan:', dataNanPernikahan.shape[0], '\n')
print('Dengan sample data sebagai berikut: ')
dataNanPernikahan.sample(10)

Dikarenakan jumlah dari data nan cukup banyak, maka akan dilakukan pengubahan isi data nan dengan analisis lebih lanjut pada kolom-kolom yang berpotensi memiliki korelasi dengan kolom **status pernikahan**. 

Yaitu dengan melihat kolom **jumlah anak balita** dan **jumlah anak remaja** dengan asumsi jika memiliki nilai lebih dari 0 dari kedua kolom tersebut, maka akan diubah menjadi "Menikah".

In [None]:
# Ubah NaN menjadi String Terlebih Dahulu
trainFeatures['status_pernikahan'].fillna('kosong', inplace=True)

# Buat Fungsi
def ubahPernikahan(row):
    if row['status_pernikahan'] == 'kosong':
        if row['jumlah_anak_balita'] > 0 or row['jumlah_anak_remaja'] > 0:
            return 'Menikah'
        else:
            return 'Sendiri'
    else:
        return row['status_pernikahan']

trainFeatures['status_pernikahan'] = trainFeatures.apply(ubahPernikahan, axis=1)

In [None]:
trainFeatures['status_pernikahan'].unique()

Saat ini nilai unique pada kolom **status pernikahan** sudah normal dan tidak ada nilai nan.

## Kolom Pendapatan

In [None]:
trainFeatures.pendapatan.sample(5)

### Cek Nilai Statistik 

In [None]:
trainFeatures.describe()

### Pengecekan Nilai Null

Dari hasil analisis sebelumnya, terlihat bahwa terdapat nilai null pada kolom ini.

In [None]:
nullPendapatan = trainFeatures[trainFeatures['pendapatan'].isnull()]
nullPendapatan

Yang dilakukan adalah menggunakan interpolasi untuk menutup setiap nilai NaN yang ada dengan titik terdekat data ke data lainnya secara linear.

In [None]:
# Data x pendapatan tidak null
xKnown = trainFeatures.index[~trainFeatures['pendapatan'].isnull()]
# Data y yang diketahui
yKnown = trainFeatures.loc[xKnown, 'pendapatan']
# Inisialisasi Cubic Spline
spline = CubicSpline(xKnown, yKnown)
# Memasang Indeks titik data yang akan diisi yaitu null
fillIndices = trainFeatures.index[trainFeatures['pendapatan'].isnull()] 
# Eksekusi spline
trainFeatures.loc[fillIndices, 'pendapatan'] = spline(fillIndices)

#trainFeatures['pendapatan'].interpolate(method='linear', inplace=True)

In [None]:
trainFeatures.head(20)

Pada saat ini sudah tidak terdapat nilai NaN lagi pada kolom **pendapatan**, sehingga dapat dilanjutkan pada proses analisis selanjutnya.

## Kolom Jumlah Anak Balita

### Cek Nilai Unique

In [None]:
trainFeatures['jumlah_anak_balita'].unique()

Pada pengecekan nilai unique di atas, ditemukan nilai NaN yang perlu diganti dengan nilai lain.

### Hapus Nilai Null

In [None]:
trainFeatures['jumlah_anak_balita'].fillna(0, inplace=True)
trainFeatures['jumlah_anak_balita'] = trainFeatures['jumlah_anak_balita'].astype(int)
print(trainFeatures['jumlah_anak_balita'].dtype)

In [None]:
# Cek Nilai Unique Ulang
trainFeatures['jumlah_anak_balita'].unique()

Pada proses ini, langkah yang diambil adalah mengubah nilai NaN menjadi **0** dengan asumsi setiap nilai NaN diartikan baris data penduduk tersebut memiliki jumlah anak balita sebanyak **0**.

## Kolom Jumlah Anak Remaja

### Cek Nilai Unique

In [None]:
trainFeatures['jumlah_anak_remaja'].unique()

Sama seperti pada kasus kolom *jumlah anak balita*, terdapat nilai NaN pada kolom *jumlah anak remaja* yang perlu diubah dengan nilai lainnya.

### Hapus Nilai Null

In [None]:
trainFeatures['jumlah_anak_remaja'].fillna(0, inplace=True)
trainFeatures['jumlah_anak_remaja'] = trainFeatures['jumlah_anak_remaja'].astype(int)
print(trainFeatures['jumlah_anak_remaja'].dtype)

In [None]:
# Cek Nilai Unique Ulang
trainFeatures['jumlah_anak_remaja'].unique()

Hasil pada kolom *jumlah anak remaja* juga mirip dengan hasil kolom *jumlah anak balita*, yaitu dengan mengubah nilai NaN dengan nilai **0**. Sebagai asumsi bahwa nilai NaN berarti baris data penduduk tersebut tidak memiliki anak remaja.

## Kolom Terakhir Belanja

### Cek Nilai Unique

In [None]:
trainFeatures['terakhir_belanja'].unique()

Pada pengecekan nilai unique, hasilnya terdapat nilai NaN yang terkandung didalam kolom *terakhir belanja*. Maka perlu dilakukan pengecekan batas minimum dan maksimum data serta nilai statistik lainnya seperti rata-rata untuk mengubah nilai NaN ini dengan sajian nilai Unique yang lebih rapi.

### Cek Nilai Min dan Max

In [None]:
nilaiMax = trainFeatures.terakhir_belanja.max()
nilaiMin = trainFeatures.terakhir_belanja.min()

print('Nilai maksimal dari kolom terakhir belanja adalah', nilaiMax)
print('Nilai minimal dari kolom terakhir belanja adalah', nilaiMin)

Dikarenakan tidak adanya acuan data tambahan dari kolom *terakhir belanja*, maka langkah yang diambil adalah mengubah setiap nilai NaN menjadi nilai rata-rata.

### Ubah Nilai Null dengan Rata-Rata

In [None]:
rata2 = trainFeatures['terakhir_belanja'].mean()
rata2

Didapatkan nilai **47.23338824821526** yang perlu dibulatkan, untuk mengubah nilai NaN dengan nilai ini.

In [None]:
trainFeatures['terakhir_belanja'] = trainFeatures['terakhir_belanja'].fillna(rata2)
trainFeatures['terakhir_belanja'] = trainFeatures['terakhir_belanja'].astype(int)
print(trainFeatures['terakhir_belanja'].dtype)

Pembulatan nilai pada kolom *terakhir belanja* dilakukan dengan cara pengubahan tipe data dari float menjadi integer.

In [None]:
# Cek Ulang Nilai Unique
nilaiTerurut = np.sort(trainFeatures['terakhir_belanja'].unique())
nilaiTerurut

## Kolom Belanja Buah

In [None]:
trainFeatures['belanja_buah'].sample(5)

In [None]:
null_buah_rows = trainFeatures[trainFeatures['belanja_buah'].isnull()]

# Menghitung nilai maksimum pendapatan dari baris dengan 'belanja_buah' null
nilai_maks_pendapatan = null_buah_rows['pendapatan'].max()

# Mengonversi nilai pendapatan menjadi persentase
null_buah_rows['pendapatan_persen'] = (null_buah_rows['pendapatan'] / nilai_maks_pendapatan) * 100

# Membuat line chart untuk kolom 'pendapatan_persen'
plt.figure(figsize=(10, 6))
plt.plot(null_buah_rows.index, null_buah_rows['pendapatan_persen'], label='Pendapatan (%)')
plt.xlabel('Index Baris')
plt.ylabel('Pendapatan (%)')
plt.title('Persentase Pendapatan dari Baris dengan Nilai Null di Kolom "belanja_buah"')
plt.legend()
plt.grid(True)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
null_buah_rows['pendapatan'].mean()

In [None]:
null_buah_rows['pendapatan_persen'].mean()

In [None]:
print(trainFeatures['belanja_buah'].max())
print(trainFeatures['belanja_buah'].mean())

In [None]:
top3 = trainFeatures['belanja_buah'].nlargest(3)  
top3_max = trainFeatures.loc[trainFeatures['belanja_buah'].isin(top3)]  
top3_max

In [None]:
quantile_25 = null_buah_rows['pendapatan'].quantile(0.25)
quantile_50 = null_buah_rows['pendapatan'].quantile(0.50)  
quantile_75 = null_buah_rows['pendapatan'].quantile(0.75)  

# Interpolasi untuk menangani nilai yang hilang
def interpolate_values(x, y, x_new):
    f = interpolate.interp1d(x, y, fill_value="extrapolate")
    return f(x_new)

# Isi nilai null pada 'belanja_buah' dengan interpolasi
for batu, row in null_buah_rows.iterrows():
    if pd.notnull(row['belanja_buah']):  
        continue  
    if row['pendapatan'] <= quantile_25:  
        interpolated_value = interpolate_values(trainFeatures['pendapatan'], trainFeatures['belanja_buah'], row['pendapatan'])
        trainFeatures.loc[batu, 'belanja_buah'] = interpolated_value
    elif row['pendapatan'] <= quantile_50:  
        trainFeatures.loc[batu, 'belanja_buah'] = trainFeatures['belanja_buah'].median()
    elif row['pendapatan'] <= quantile_75:  
        trainFeatures.loc[batu, 'belanja_buah'] = trainFeatures['belanja_buah'].mean()
    else:
        trainFeatures.loc[batu, 'belanja_buah'] = row['pendapatan'] * 0.01


In [None]:
trainFeatures['belanja_buah'].isnull().sum()

In [None]:
# Filter data dengan kondisi belanja_buah bernilai null
data_belanja_buah_null = trainFeatures[trainFeatures['belanja_buah'].isnull()]

# Cari nilai maksimum dari kolom pendapatan pada data yang sudah difilter
nilai_maks_pendapatan_belanja_buah_null = data_belanja_buah_null['pendapatan'].max()

print("Nilai maksimum pendapatan dengan belanja_buah null adalah:", nilai_maks_pendapatan_belanja_buah_null)


# Exploratory Data Analysis (EDA)

## Analisis Outliers

In [None]:
while True:
    Q1 = trainFeatures['pendapatan'].quantile(0.25)
    Q3 = trainFeatures['pendapatan'].quantile(0.75)
    IQR = Q3 - Q1

    Upper_Fence = Q3 + 1.5 * IQR
    Lower_Fence = Q1 - 1.5 * IQR

    outliers = trainFeatures[(trainFeatures['pendapatan'] < Lower_Fence) | (trainFeatures['pendapatan'] > Upper_Fence)]['pendapatan']

    if outliers.empty:
        print("Tidak ada outlier lagi.")
        break
    else:
        trainFeatures = trainFeatures[(trainFeatures['pendapatan'] >= Lower_Fence) & (trainFeatures['pendapatan'] <= Upper_Fence)]

In [None]:
plt.figure(figsize=(10, 6))
plt.boxplot(trainFeatures['pendapatan'])
plt.ylabel('Nilai Pendapatan')
plt.title('Boxplot Pendapatan setelah Penanganan Outlier')
plt.xticks([1], ['Pendapatan'])
plt.show()