# **EDA AND PRE-PROCESSING**

## **Load Data**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/Rakamin/FINAL PROJECT/Dataset/Copy of banking_train.csv', delimiter=';')
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


## **Data Information**

In [None]:
# Display information about the dataset
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        45211 non-null  int64 
 1   job        45211 non-null  object
 2   marital    45211 non-null  object
 3   education  45211 non-null  object
 4   default    45211 non-null  object
 5   balance    45211 non-null  int64 
 6   housing    45211 non-null  object
 7   loan       45211 non-null  object
 8   contact    45211 non-null  object
 9   day        45211 non-null  int64 
 10  month      45211 non-null  object
 11  duration   45211 non-null  int64 
 12  campaign   45211 non-null  int64 
 13  pdays      45211 non-null  int64 
 14  previous   45211 non-null  int64 
 15  poutcome   45211 non-null  object
 16  y          45211 non-null  object
dtypes: int64(7), object(10)
memory usage: 5.9+ MB


Transformasi Type Data

In [None]:
# Ubah kolom default, housing, dan loan ke tipe bool
df['default'] = df['default'].map({'yes': True, 'no': False})
df['housing'] = df['housing'].map({'yes': True, 'no': False})
df['loan'] = df['loan'].map({'yes': True, 'no': False})

# Ubah kolom y ke tipe bool jika berisi nilai biner
df['y'] = df['y'].map({'yes': True, 'no': False})

# Ubah kolom campaign ke tipe object
df['campaign'] = df['campaign'].astype('object')

# Tampilkan kembali informasi tentang dataset setelah perubahan tipe data
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        45211 non-null  int64 
 1   job        45211 non-null  object
 2   marital    45211 non-null  object
 3   education  45211 non-null  object
 4   default    45211 non-null  bool  
 5   balance    45211 non-null  int64 
 6   housing    45211 non-null  bool  
 7   loan       45211 non-null  bool  
 8   contact    45211 non-null  object
 9   day        45211 non-null  int64 
 10  month      45211 non-null  object
 11  duration   45211 non-null  int64 
 12  campaign   45211 non-null  object
 13  pdays      45211 non-null  int64 
 14  previous   45211 non-null  int64 
 15  poutcome   45211 non-null  object
 16  y          45211 non-null  bool  
dtypes: bool(4), int64(6), object(7)
memory usage: 4.7+ MB


Berikut adalah daftar perubahan tipe data beserta alasannya:

1. **`default`**: Diubah dari `object` menjadi `bool`
   - **Alasan**: Kolom ini hanya memiliki dua nilai: "yes" atau "no", yang lebih sesuai jika disimpan sebagai tipe boolean untuk mempermudah analisis dan pemrosesan.

2. **`housing`**: Diubah dari `object` menjadi `bool`
   - **Alasan**: Sama seperti kolom `default`, kolom ini hanya memiliki dua nilai: "yes" atau "no". Tipe boolean lebih efisien dalam representasi dan analisis data.

3. **`loan`**: Diubah dari `object` menjadi `bool`
   - **Alasan**: Kolom ini juga hanya memiliki dua nilai: "yes" atau "no". Dengan menggunakan tipe boolean, data lebih mudah diolah.

4. **`y`**: Diubah dari `object` menjadi `bool`
   - **Alasan**: Kolom ini merupakan label target dengan dua nilai: "yes" atau "no". Mengubahnya menjadi tipe boolean memudahkan dalam proses klasifikasi.

Ini merupakan langkah sementara. Pada proses selanjutnya, pengubahan data akan dilakukan dalam rangka mengoptimalkan model machine learning. Langkah-langkah ini membantu memastikan data lebih efisien dan siap untuk tahap analisis lanjutan.

## Handle Missing Values

Untuk menangani missing values, meskipun data terlihat terisi, ada anomali di mana data kosong ternyata berupa nilai "unknown". Hal ini dapat dipastikan dari sumber-sumber berikut:

1. Paper Ilmiah:
   - S. Moro, P. Cortez, dan P. Rita. *A Data-Driven Approach to Predict the Success of Bank Telemarketing*. Decision Support Systems, Elsevier, 62:22-31, Juni 2014.
   - S. Moro, R. Laureano, dan P. Cortez. *Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology*. Dalam P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, Oktober 2011. EUROSIS.

2. Real dataset: [Bank Marketing Dataset](https://archive.ics.uci.edu/ml/datasets/Bank+Marketing#)

Penanganan anomali ini penting untuk memastikan data yang digunakan dalam analisis dan model machine learning lebih akurat dan dapat diandalkan.

In [None]:
# Melihat nilai unik
columns_to_check = ['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'poutcome', 'y']

unique_values = {col: df[col].unique() for col in columns_to_check}

# Menampilkan hasil
for col, values in unique_values.items():
    print(f"Unique values in '{col}': {values}\n")

Unique values in 'job': ['management' 'technician' 'entrepreneur' 'blue-collar' 'unknown'
 'retired' 'admin.' 'services' 'self-employed' 'unemployed' 'housemaid'
 'student']

Unique values in 'marital': ['married' 'single' 'divorced']

Unique values in 'education': ['tertiary' 'secondary' 'unknown' 'primary']

Unique values in 'default': [False  True]

Unique values in 'housing': [ True False]

Unique values in 'loan': [False  True]

Unique values in 'contact': ['unknown' 'cellular' 'telephone']

Unique values in 'poutcome': ['unknown' 'failure' 'other' 'success']

Unique values in 'y': [False  True]



In [None]:
# Menghitung jumlah value 'unknown' di setiap kolom
unknown_counts = (df == 'unknown').sum()
print(unknown_counts)

age              0
job            288
marital          0
education     1857
default          0
balance          0
housing          0
loan             0
contact      13020
day              0
month            0
duration         0
campaign         0
pdays            0
previous         0
poutcome     36959
y                0
dtype: int64


Dari data yang ada, kolom-kolom yang memiliki nilai "unknown" adalah sebagai berikut:

1. **job**: 288 nilai "unknown"
2. **education**: 1857 nilai "unknown"
3. **contact**: 13020 nilai "unknown"
4. **poutcome**: 36959 nilai "unknown"

Ini menunjukkan bahwa meskipun data terlihat terisi, nilai "unknown" tersebut merupakan anomali yang perlu ditangani agar analisis dan model machine learning yang dihasilkan lebih akurat dan dapat diandalkan.

Penanganan yang akan dilakukan:

1. **Menghapus nilai "unknown" pada kolom `job` dan `education`**:
   - Menghapus baris dengan nilai "unknown" pada kolom ini dilakukan untuk menjaga integritas data dan mengurangi sintesis data yang berlebihan. Jumlah nilai "unknown" pada kolom-kolom ini tidak terlalu banyak jika dibandingkan dengan keseluruhan data. Namun, untuk memastikan keputusan yang terbaik, iterasi berulang akan dilakukan untuk menentukan mana langkah yang paling tepat dalam penanganan data ini.

2. **Mengganti nilai "unknown" pada kolom `contact` dengan nilai modus**:
   - Mengganti nilai "unknown" pada kolom ini dilakukan karena menurut penjelasan di Kaggle, kontak sebenarnya hanya dilakukan melalui cellular dan telepon saja. Oleh karena itu, kita akan mengubah nilai "unknown" menjadi modus dari kolom ini, yaitu salah satu dari "cellular" atau "telephone".

3. **Mengganti nilai "unknown" pada kolom `poutcome` dengan nilai "nonexistent"**:
   - Mengganti nilai "unknown" pada kolom ini dilakukan karena nilai "unknown" pada `poutcome` sesuai dengan nilai `pdays` -1, yang menandakan bahwa pelanggan belum pernah dihubungi sebelumnya. Hal ini sesuai dengan data real dan referensi dari paper ilmiah terkait.



In [None]:
# 1. Menghapus nilai "unknown" pada kolom job dan education
df = df[~df['job'].str.contains('unknown')]
df = df[~df['education'].str.contains('unknown')]

# 2. Mengganti nilai "unknown" pada kolom contact dengan modus
contact_mode = df['contact'].mode()
if len(contact_mode) > 1:
    # Jika ada beberapa modus, pilih yang kedua
    contact_mode = contact_mode[1]
else:
    contact_mode = contact_mode[0]

df['contact'] = df['contact'].replace('unknown', contact_mode)

# 3. Mengganti nilai "unknown" pada kolom poutcome dengan nilai "nonexistent"
df['poutcome'] = df['poutcome'].replace('unknown', 'nonexistent')

# Menampilkan hasil perubahan
df.sample(3)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
24752,36,housemaid,married,primary,False,4324,True,False,cellular,18,nov,139,4,127,4,failure,False
11653,36,unemployed,single,primary,False,2562,False,False,cellular,20,jun,489,2,-1,0,nonexistent,False
40777,31,management,married,tertiary,False,10884,False,False,cellular,10,aug,294,3,98,2,success,True


In [None]:
# Mari lihat kembali hasilnya
# Menghitung jumlah value 'unknown' di setiap kolom
unknown_counts = (df == 'unknown').sum()
print(unknown_counts)

age          0
job          0
marital      0
education    0
default      0
balance      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
y            0
dtype: int64


## Handle Duplicated Data

In [None]:
# Check for duplicated rows
duplicates = df.duplicated().sum()
print(f'Duplicated rows: {duplicates}')

Duplicated rows: 0


Tidak ada baris duplikat dalam dataset ini. Kami akan melanjutkan ke tahap berikutnya.

## **Check for Negative and Zero Values**

### Negative Values

In [None]:
# Memeriksa nilai negatif di setiap kolom numerik
negative_counts = (df.select_dtypes(include=['number']) < 0).sum()
print(f'Jumlah nilai negatif di setiap kolom numerik:\n{negative_counts}')


Jumlah nilai negatif di setiap kolom numerik:
age             0
balance      3634
day             0
duration        0
pdays       35281
previous        0
dtype: int64


In [None]:
# Menampilkan baris dengan nilai negatif pada kolom 'balance'
negative_balance_rows = df[df['balance'] < 0]

negative_balance_rows.sample(3)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
5666,34,blue-collar,married,secondary,False,-436,True,False,cellular,26,may,317,1,-1,0,nonexistent,False
35159,35,blue-collar,married,secondary,False,-701,True,True,cellular,7,may,531,3,-1,0,nonexistent,False
22662,33,technician,single,secondary,False,-32,False,False,cellular,25,aug,196,12,-1,0,nonexistent,False


**Penjelasan**:
1. **Kolom `balance`**:
   - **Penanganan**: Nilai negatif pada kolom `balance` diubah menjadi positif menggunakan fungsi `abs()`. Ini dilakukan karena nilai negatif mungkin merupakan kesalahan input, dan mengubahnya menjadi positif akan memudahkan analisis lebih lanjut. Pendekatan ini akan diiterasi lebih lanjut untuk memastikan keputusan yang tepat dalam penanganan data.

2. **Kolom `pdays`**:
   - **Penjelasan**: Nilai -1 pada kolom `pdays` menunjukkan bahwa pelanggan belum pernah dihubungi sebelumnya, sesuai dengan penjelasan di dataset real dan paper ilmiah.
   - **Penanganan**: Nilai -1 diganti dengan 999 untuk mencocokkan dengan data real pada sumber yang telah ditemukan.

In [None]:
# Menangani nilai negatif pada kolom 'balance' dengan mengubahnya menjadi positif
df['balance'] = df['balance'].abs()  # Mengganti nilai negatif dengan nilai positif

# Menangani nilai -1 pada kolom 'pdays'
df['pdays'] = df['pdays'].replace(-1, 999)  # Mengganti -1 dengan 999


In [None]:
# Memeriksa nilai negatif kembali
negative_counts = (df.select_dtypes(include=['number']) < 0).sum()
print(f'Jumlah nilai negatif di setiap kolom numerik:\n{negative_counts}')

Jumlah nilai negatif di setiap kolom numerik:
age         0
balance     0
day         0
duration    0
pdays       0
previous    0
dtype: int64


Zero Values

In [None]:
# Menghitung jumlah nilai 0 pada kolom numerik
zero_counts = (df.select_dtypes(include=['number']) == 0).sum()

# Menampilkan hasil
print(f'Jumlah nilai 0 di setiap kolom numerik:\n{zero_counts}')

Jumlah nilai 0 di setiap kolom numerik:
age             0
balance      3366
day             0
duration        3
pdays           0
previous    35281
dtype: int64


In [None]:
# Menambahkan 1 pada semua nilai di kolom 'balance'
df['balance'] = df['balance'] + 1

In [None]:
# Cek kembali
zero_counts = (df.select_dtypes(include=['number']) == 0).sum()

# Menampilkan hasil
print(f'Jumlah nilai 0 di setiap kolom numerik:\n{zero_counts}')

Jumlah nilai 0 di setiap kolom numerik:
age             0
balance         0
day             0
duration        3
pdays           0
previous    35281
dtype: int64



**Penjelasan**:
- **Kolom `balance`**: Menambahkan 1 pada semua nilai untuk memastikan tidak ada nilai 0 dan untuk menjaga keadilan dalam distribusi nilai.
- **Kolom `previous & duration`**: Diberikan catatan bahwa kolom ini akan dianalisis lebih lanjut di tahapan berikutnya.


### Describe Data

In [None]:
# Memisahkan kolom numerik (nums) dan kategorikal (cats)
nums = df.select_dtypes(include=['float64', 'int64', 'int8'])
cats = df.select_dtypes(include=['object', 'bool'])

In [None]:
# Describe numerical data
nums.describe()

Unnamed: 0,age,balance,day,duration,pdays,previous
count,43193.0,43193.0,43193.0,43193.0,43193.0,43193.0
mean,40.764082,1408.555877,15.809414,258.323409,857.22624,0.584863
std,10.51264,3017.708989,8.30597,258.162006,303.431026,2.332672
min,18.0,1.0,1.0,0.0,1.0,0.0
25%,33.0,137.0,8.0,103.0,999.0,0.0
50%,39.0,482.0,16.0,180.0,999.0,0.0
75%,48.0,1424.0,21.0,318.0,999.0,0.0
max,95.0,102128.0,31.0,4918.0,999.0,275.0



### 1. **Kolom `age`**
- **Rata-rata umur** adalah sekitar 40.76 tahun.
- **Umur minimum** adalah 18 tahun dan **umur maksimum** adalah 95 tahun.
- **Penyebaran umur** cukup luas, dengan nilai umur 25% dari data berada di sekitar 33 tahun dan 75% berada di sekitar 48 tahun. Ini menunjukkan bahwa sebagian besar pelanggan berusia antara 33 hingga 48 tahun.

### 2. **Kolom `balance`**
- **Rata-rata saldo** adalah 1408.56, tetapi dengan **standar deviasi** yang sangat besar (3017.71), menunjukkan variasi yang signifikan dalam saldo.
- **Saldo minimum** adalah 1 (Ingat ini telah dimodifikasi, nilai 1 mengindikasikan nilai 0 sebelumnya) dan **maksimum** adalah 102,128, yang menunjukkan adanya beberapa nilai ekstrem.
- **Saldo pada kuartil ke-25** adalah 137, dan **kuartil ke-75** adalah 1424, menunjukkan bahwa sebagian besar saldo berada di rentang ini.
- **Penyebaran saldo** yang besar dapat menunjukkan adanya data dengan nilai ekstrem atau outliers.

### 3. **Kolom `day`**
- **Rata-rata hari** adalah sekitar 15.81 dengan variasi antara 1 hingga 31 hari.
- Distribusi hari tidak menunjukkan adanya pola yang sangat mencolok, tetapi angka rata-rata mendekati tengah bulan menunjukkan distribusi yang relatif merata.

### 4. **Kolom `duration`**
- **Durasi rata-rata kontak** adalah 258.32 detik, dengan variasi yang signifikan (standar deviasi 258.16 detik).
- **Durasi minimum** adalah 0 detik, sedangkan **maksimum** adalah 4918 detik, menunjukkan perbedaan besar dalam panjang percakapan.
- **Durasi pada kuartil ke-25** adalah 103 detik dan **kuartil ke-75** adalah 318 detik. Durasi rata-rata menunjukkan bahwa banyak kontak memiliki durasi yang lebih lama daripada median.

### 5. **Kolom `pdays`**
- **Rata-rata `pdays`** adalah sekitar 857.23 dengan nilai minimum 1 dan maksimum 999.
- **99% data** memiliki nilai `pdays` sebesar 999, menunjukkan bahwa banyak pelanggan belum pernah dihubungi sebelumnya. Nilai 999 tampaknya menjadi indikator khusus untuk "belum dihubungi".

### 6. **Kolom `previous`**
- **Rata-rata kontak sebelumnya** adalah 0.58, dengan nilai maksimum 275.
- Mayoritas nilai adalah 0, tetapi ada beberapa nilai yang sangat tinggi, menunjukkan beberapa pelanggan yang mungkin telah dihubungi beberapa kali sebelumnya.

### **Kesimpulan dan Rekomendasi**
- **Outliers di `balance`**: Perlu pemeriksaan lebih lanjut untuk nilai ekstrem di kolom saldo, mungkin memerlukan penanganan outliers.
- **Durasi kontak**: Durasi yang sangat bervariasi mungkin mengindikasikan perbedaan dalam kualitas atau intensitas kontak, yang bisa menjadi faktor penting dalam model prediksi.
- **Kolom `pdays`**: Tingginya frekuensi nilai 999 menunjukkan pentingnya interpretasi nilai tersebut dalam konteks "belum dihubungi".
- **Kolom `previous`**: Perlu diidentifikasi pelanggan yang memiliki nilai tinggi untuk menganalisis dampak pada hasil akhir.


In [None]:
# Describe categorical data
cats.describe()

Unnamed: 0,job,marital,education,default,housing,loan,contact,month,campaign,poutcome,y
count,43193,43193,43193,43193,43193,43193,43193,43193,43193,43193,43193
unique,11,3,3,2,2,2,2,12,47,4,2
top,blue-collar,married,secondary,False,True,False,cellular,may,1,nonexistent,False
freq,9278,25946,23131,42411,24292,36086,40499,13192,16742,35286,38172


Berikut adalah analisis dari statistik deskriptif kolom-kolom kategorikal yang Anda berikan:

### 1. **Kolom `job`**
- **Jumlah unik**: 11
- **Nilai terbanyak (`top`)**: `blue-collar` dengan frekuensi 9278.
- **Pola**: Sebagian besar pelanggan memiliki pekerjaan di sektor `blue-collar`, menunjukkan bahwa kategori ini adalah yang paling umum dalam dataset ini.

### 2. **Kolom `marital`**
- **Jumlah unik**: 3
- **Nilai terbanyak (`top`)**: `married` dengan frekuensi 25946.
- **Pola**: Pelanggan yang sudah menikah adalah yang paling umum. Ini menunjukkan bahwa status perkawinan `married` lebih dominan dibandingkan `single` atau `divorced`.

### 3. **Kolom `education`**
- **Jumlah unik**: 3
- **Nilai terbanyak (`top`)**: `secondary` dengan frekuensi 23131.
- **Pola**: Pendidikan tingkat `secondary` adalah yang paling umum, menunjukkan bahwa sebagian besar pelanggan memiliki pendidikan menengah.

### 4. **Kolom `default`**
- **Jumlah unik**: 2
- **Nilai terbanyak (`top`)**: `False` dengan frekuensi 42411.
- **Pola**: Mayoritas pelanggan tidak memiliki kredit macet (`False`), yang menunjukkan bahwa pelanggan cenderung memiliki catatan kredit yang baik.

### 5. **Kolom `housing`**
- **Jumlah unik**: 2
- **Nilai terbanyak (`top`)**: `True` dengan frekuensi 24292.
- **Pola**: Sebagian besar pelanggan memiliki pinjaman rumah (`True`), yang menunjukkan bahwa pinjaman rumah adalah fitur umum di antara pelanggan.

### 6. **Kolom `loan`**
- **Jumlah unik**: 2
- **Nilai terbanyak (`top`)**: `False` dengan frekuensi 36086.
- **Pola**: Banyak pelanggan tidak memiliki pinjaman pribadi (`False`), menunjukkan bahwa pinjaman pribadi kurang umum dibandingkan pinjaman rumah.

### 7. **Kolom `contact`**
- **Jumlah unik**: 2
- **Nilai terbanyak (`top`)**: `cellular` dengan frekuensi 40499.
- **Pola**: Kontak melalui `cellular` adalah yang paling umum, menunjukkan bahwa sebagian besar interaksi dilakukan melalui telepon seluler.

### 8. **Kolom `month`**
- **Jumlah unik**: 12
- **Nilai terbanyak (`top`)**: `may` dengan frekuensi 13192.
- **Pola**: Bulan `May` adalah yang paling umum untuk interaksi, menunjukkan bahwa kampanye telemarketing cenderung lebih sering terjadi pada bulan ini.

### 9. **Kolom `campaign`**
- **Jumlah unik**: 47
- **Nilai terbanyak (`top`)**: 1 dengan frekuensi 16742.
- **Pola**: Jumlah kontak per kampanye bervariasi, dengan nilai 1 sebagai yang paling sering terjadi. Ini mungkin menunjukkan bahwa banyak pelanggan dihubungi hanya sekali dalam kampanye.

### 10. **Kolom `poutcome`**
- **Jumlah unik**: 4
- **Nilai terbanyak (`top`)**: `nonexistent` dengan frekuensi 35286.
- **Pola**: Banyak pelanggan memiliki hasil kampanye yang tidak ada sebelumnya (`nonexistent`), menunjukkan bahwa sebagian besar interaksi tidak memiliki hasil kampanye yang terdokumentasi.

### 11. **Kolom `y`**
- **Jumlah unik**: 2
- **Nilai terbanyak (`top`)**: `False` dengan frekuensi 38172.
- **Pola**: Sebagian besar pelanggan tidak berlangganan produk (`False`), menunjukkan bahwa keputusan akhir untuk berlangganan adalah hasil yang kurang umum dibandingkan tidak berlangganan.
