# Preprocessing Data untuk Project Capstone

import library yang diperlukan : 

In [1]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

print("Library berhasil diimport")

Library berhasil diimport


Membaca Dataset yang akan dilakukan proses pre-processing : 

In [2]:
# Membaca dataset
df_donor = pd.read_csv('../data/raw/data_donor.csv')
df_penerima = pd.read_csv('../data/raw/data_penerima.csv')

print("Data berhasil diimport")

Data berhasil diimport


### Pre-Processing untuk `data_donor.csv`

##### 1. Memastikan `id_penyumbang` unik

In [3]:
if not df_donor['id_penyumbang'].is_unique:
    df_donor.drop_duplicates(subset='id_penyumbang', keep='first', inplace=True)
    print("Terdapat duplikat pada kolom 'id_penyumbang'. Data telah dibersihkan.")
else:
    print("Tidak ditemukan duplikat pada kolom 'id_penyumbang'.")

Tidak ditemukan duplikat pada kolom 'id_penyumbang'.


##### 2. One-Hot Encoding untuk `makanan_disumbangkan`

In [4]:
df_donor = pd.get_dummies(df_donor, columns=['makanan_disumbangkan'], prefix='disumbangkan', prefix_sep='_')

# Mengubah semua kolom hasil One-Hot Encoding ke format 0/1
one_hot_columns = [col for col in df_donor.columns if col.startswith('disumbangkan_')]
df_donor[one_hot_columns] = df_donor[one_hot_columns].astype(int)

print("kolom 'makanan_disumbangkan' telah diubah menjadi one-hot encoding")
print("terdapat kolom baru: ", df_donor.columns[df_donor.columns.str.contains('disumbangkan_')])

kolom 'makanan_disumbangkan' telah diubah menjadi one-hot encoding
terdapat kolom baru:  Index(['disumbangkan_makanan', 'disumbangkan_makanan_minuman',
       'disumbangkan_minuman'],
      dtype='object')


##### 3. Memastikan `jumlah_disumbangkan` berisi angka integer

In [5]:
df_donor['jumlah_disumbangkan'] = pd.to_numeric(df_donor['jumlah_disumbangkan'], errors='coerce').fillna(0).astype(int)

print("kolom 'jumlah_disumbangkan' telah diubah menjadi integer")

kolom 'jumlah_disumbangkan' telah diubah menjadi integer


##### 6. One-Hot Encoding untuk `kondisi_makanan`

In [6]:
df_donor = pd.get_dummies(df_donor, columns=['kondisi_makanan'], prefix='kondisi')

# Mengubah semua kolom hasil One-Hot Encoding ke format 0/1
one_hot_columns = [col for col in df_donor.columns if col.startswith('kondisi_')]
df_donor[one_hot_columns] = df_donor[one_hot_columns].astype(int)

print("kolom 'kondisi_makanan' telah diubah menjadi one-hot encoding")
print("terdapat kolom baru: ", df_donor.columns[df_donor.columns.str.contains('kondisi_')])

kolom 'kondisi_makanan' telah diubah menjadi one-hot encoding
terdapat kolom baru:  Index(['kondisi_hampir_kadaluarsa', 'kondisi_layak_konsumsi',
       'kondisi_tidak_layak_konsumsi'],
      dtype='object')


##### 7, 8, 9, 10. Ubah boolean menjadi 1/0

In [7]:
df_donor['is_halal'] = df_donor['is_halal'].astype(int)
df_donor['is_for_child'] = df_donor['is_for_child'].astype(int)
df_donor['is_for_elderly'] = df_donor['is_for_elderly'].astype(int)
df_donor['is_alergan'] = df_donor['is_alergan'].astype(int)

print("kolom 'is_halal', 'is_for_child', 'is_for_elderly', dan 'is_alergan' telah diubah menjadi integer")

kolom 'is_halal', 'is_for_child', 'is_for_elderly', dan 'is_alergan' telah diubah menjadi integer


##### Simpan hasil pra-pemrosesan

In [8]:
df_donor.to_csv('../data/processed/data_donor_processed.csv', index=False)

print("Data data_donor.csv berhasil diproses dan disimpan di 'data_donor_processed.csv'")

Data data_donor.csv berhasil diproses dan disimpan di 'data_donor_processed.csv'


### Pre-Processing untuk `data_penerima.csv`

##### 1. Memastikan `id_penerima` unik

In [9]:
if not df_penerima['id_penerima'].is_unique:
    df_penerima.drop_duplicates(subset='id_penerima', keep='first', inplace=True)
    print("Terdapat duplikat pada kolom 'id_penerima'. Data telah dibersihkan.")
else:
    print("Tidak ditemukan duplikat pada kolom 'id_penerima'.")

Tidak ditemukan duplikat pada kolom 'id_penerima'.


##### 2. One-Hot Encoding untuk `makanan_dibutuhkan`

In [10]:
df_penerima = pd.get_dummies(df_penerima, columns=['makanan_dibutuhkan'], prefix='dibutuhkan', prefix_sep='_')

# Mengubah semua kolom hasil One-Hot Encoding ke format 0/1
one_hot_columns = [col for col in df_penerima.columns if col.startswith('dibutuhkan_')]
df_penerima[one_hot_columns] = df_penerima[one_hot_columns].astype(int)

print("kolom 'makanan_dibutuhkan' telah diubah menjadi one-hot encoding")
print("terdapat kolom baru: ", df_penerima.columns[df_penerima.columns.str.contains('dibutuhkan_')])

kolom 'makanan_dibutuhkan' telah diubah menjadi one-hot encoding
terdapat kolom baru:  Index(['dibutuhkan_makanan', 'dibutuhkan_makanan_minuman',
       'dibutuhkan_minuman'],
      dtype='object')


##### 3. Pastikan `jumlah_dibutuhkan` berisi angka integer

In [11]:
df_penerima['jumlah_dibutuhkan'] = pd.to_numeric(df_penerima['jumlah_dibutuhkan'], errors='coerce').fillna(0).astype(int)

print("kolom 'jumlah_dibutuhkan' telah diubah menjadi integer")

kolom 'jumlah_dibutuhkan' telah diubah menjadi integer


##### 6. Pastikan `frekuensi_menerima` berisi angka integer

In [12]:
df_penerima['frekuensi_menerima'] = pd.to_numeric(df_penerima['frekuensi_menerima'], errors='coerce').fillna(0).astype(int)

print("kolom 'frekuensi_menerima' telah diubah menjadi integer")

kolom 'frekuensi_menerima' telah diubah menjadi integer


##### 7. One-Hot Encoding untuk `kondisi_makanan_diterima`


In [13]:
df_penerima = pd.get_dummies(df_penerima, columns=['kondisi_makanan_diterima'], prefix='kondisi_menerima')

# Mengubah semua kolom hasil One-Hot Encoding ke format 0/1
one_hot_columns = [col for col in df_penerima.columns if col.startswith('kondisi_')]
df_penerima[one_hot_columns] = df_penerima[one_hot_columns].astype(int)

print("kolom 'kondisi_makanan_diterima' telah diubah menjadi one-hot encoding")
print("terdapat kolom baru: ", df_penerima.columns[df_penerima.columns.str.contains('kondisi_')])

kolom 'kondisi_makanan_diterima' telah diubah menjadi one-hot encoding
terdapat kolom baru:  Index(['kondisi_menerima_hampir_kadaluarsa', 'kondisi_menerima_layak_konsumsi',
       'kondisi_menerima_layak_konsumsi_hampir_kadaluarsa',
       'kondisi_menerima_tidak_layak konsumsi'],
      dtype='object')


##### 8, 9, 10, 11. Ubah kolom boolean menjadi 0/1

In [14]:
df_penerima['is_halal'] = df_penerima['is_halal'].astype(int)
df_penerima['is_for_child'] = df_penerima['is_for_child'].astype(int)
df_penerima['is_for_elderly'] = df_penerima['is_for_elderly'].astype(int)
df_penerima['is_alergan_free'] = df_penerima['is_alergan_free'].astype(int)

print("kolom 'is_halal', 'is_for_child', 'is_for_elderly', dan 'is_alergan_free' telah diubah menjadi integer")

kolom 'is_halal', 'is_for_child', 'is_for_elderly', dan 'is_alergan_free' telah diubah menjadi integer


##### 12. One-Hot Encoding untuk `status_penerima`

In [15]:
df_penerima = pd.get_dummies(df_penerima, columns=['status_penerima'], prefix='status')

# Mengubah semua kolom hasil One-Hot Encoding ke format 0/1
one_hot_columns = [col for col in df_penerima.columns if col.startswith('status_')]
df_penerima[one_hot_columns] = df_penerima[one_hot_columns].astype(int)

print("kolom 'status_penerima' telah diubah menjadi one-hot encoding")
print("terdapat kolom baru: ", df_penerima.columns[df_penerima.columns.str.contains('status_')])

kolom 'status_penerima' telah diubah menjadi one-hot encoding
terdapat kolom baru:  Index(['status_mendesak', 'status_normal', 'status_tidak mendesak'], dtype='object')


##### Simpan hasil pra-pemrosesan

In [16]:
df_penerima.to_csv('../data/processed/data_penerima_processed.csv', index=False)

print("Data penerima telah diproses dan disimpan di '../data/processed/data_penerima_processed.csv'")

Data penerima telah diproses dan disimpan di '../data/processed/data_penerima_processed.csv'


In [17]:
print("Proses preprocessing selesai")

Proses preprocessing selesai
