# **Optimalisasi Campaign Marketing berdasarkan Data Bank Marketing Target menggunakan Pemodelan untuk meningkatkan keuntungan**

**Project Overview :**

**Dataset** = [Klik disini](https://www.kaggle.com/datasets/prakharrathi25/banking-dataset-marketing-targets)

**TimeFrame** = 2008 - 2010

**Background :**

🏦 **Bank Portugal** merupakan salah satu bank yang berada di Negara Portugal , pada tahun 2008 - 2010 , Bank portugal memiliki nasabah sebanyak **45.211 Nasabah** yang berada pada dataset yang tersedia. Namun pada tahun **2008 - 2012** beberapa negara di **Eropa mengalami Resesi Hebat** Menyebabkan Tantangan Di sektor Ekonomi. Karena hal ini Bank Portugal berusaha **menjaga CashFlow perusahaan** dengan fokus pada hal yang lebih **efisien** dalam hal waktu,biaya dan fokus pada Target **Nasabah Potensial.** 💡



## **Problem Statement**

🏦Bank memiliki berbagai rencana pemasaran untuk menjual deposito berjangka kepada nasabah mereka, seperti pemasaran melalui email, iklan, pemasaran telepon, dan pemasaran digital. **Pemasaran telepon** masih menjadi salah satu cara paling efektif untuk medapatkan orang-orang. Namun, itu membutuhkan **investasi besar untuk call centers**. Meskipun telah dilakukan upaya besar, tingkat konversi tetap rendah. Oleh karena itu, sangat penting untuk mengidentifikasi pelanggan yang paling mungkin akan mendaftar sebelumnya sehingga mereka dapat ditargetkan **secara khusus melalui panggilan telepon** 📞

**Goals : 💡**

* **Meningkatkan tingkat langganan deposito berjangka** dengan mengidentifikasi dan menargetkan pelanggan yang **paling mungkin berlangganan.**

**Objective : 🎯**
* **Mengidentifikasi karakteristik** demografi dan finansial yang berhubungan dengan tingkat langganan yang lebih tinggi.
* **Mengembangkan model prediktif** yang dapat memprediksi berdasarkan kemungkinan mereka berlangganan.
* **Memberikan wawasan** yang dapat ditindaklanjuti kepada tim pemasaran untuk meningkatkan penargetan kampanye.


## **Bussines Metrics**

* **Conversion Rate :** Persentase individu yang berlangganan deposito berjangka setelah kampanye.

* **Return on Investment (ROI):**  Pengembalian finansial yang dihasilkan dari kampanye relatif terhadap biayanya.



## **Data Overview**

In [None]:
# Import library yang digunakan
import pandas as pd

# Proses ekstraksi data
df = pd.read_csv('train.csv', sep = ';')

# Tampilkan hasilnya

display(df)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown,yes
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown,yes
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success,yes
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown,no


### **Data Dictionary**

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        45211 non-null  int64 
 1   job        45211 non-null  object
 2   marital    45211 non-null  object
 3   education  45211 non-null  object
 4   default    45211 non-null  object
 5   balance    45211 non-null  int64 
 6   housing    45211 non-null  object
 7   loan       45211 non-null  object
 8   contact    45211 non-null  object
 9   day        45211 non-null  int64 
 10  month      45211 non-null  object
 11  duration   45211 non-null  int64 
 12  campaign   45211 non-null  int64 
 13  pdays      45211 non-null  int64 
 14  previous   45211 non-null  int64 
 15  poutcome   45211 non-null  object
 16  y          45211 non-null  object
dtypes: int64(7), object(10)
memory usage: 5.9+ MB


Berikut adalah deskripsi yang lebih jelas dan detail untuk setiap kolom dalam dataset:

1. **age**: Umur nasabah (tipe numerik).
2. **job**: Jenis pekerjaan nasabah (kategori: "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar", "self-employed", "retired", "technician", "services").
3. **marital**: Status perkawinan nasabah (kategori: "married", "divorced", "single"; catatan: "divorced" mencakup cerai atau janda/duda).
4. **education**: Tingkat pendidikan nasabah (kategori: "unknown", "secondary", "primary", "tertiary").
5. **default**: Indikator apakah nasabah memiliki kredit macet (biner: "yes", "no").
6. **balance**: Saldo rata-rata tahunan dalam euro untuk rekening bank nasabah (tipe numerik).
7. **housing**: Indikator apakah nasabah memiliki pinjaman rumah (biner: "yes", "no").
8. **loan**: Indikator apakah nasabah memiliki pinjaman pribadi (biner: "yes", "no").
9. **contact**: Jenis komunikasi yang digunakan untuk menghubungi nasabah (kategori: "unknown", "telephone", "cellular").
10. **day**: Hari dalam bulan saat nasabah terakhir kali dihubungi (tipe numerik).
11. **month**: Bulan dalam setahun saat nasabah terakhir kali dihubungi (kategori: "jan", "feb", "mar", "apr", "may", "jun", "jul", "aug", "sep", "oct", "nov", "dec").
12. **duration**: Durasi kontak terakhir dalam detik (tipe numerik).
13. **campaign**: Jumlah kontak selama kampanye ini dan untuk nasabah ini (tipe numerik, termasuk kontak terakhir).
14. **pdays**: Jumlah hari yang berlalu setelah nasabah terakhir kali dihubungi dalam kampanye sebelumnya (tipe numerik, -1 berarti nasabah tidak dihubungi sebelumnya).
15. **previous**: Jumlah kontak yang dilakukan sebelum kampanye ini untuk nasabah ini (tipe numerik).
16. **poutcome**: Hasil kampanye pemasaran sebelumnya (kategori: "unknown", "other", "failure", "success").
17. **y**: Respons target, menunjukkan apakah nasabah telah berlangganan deposito berjangka (biner: "yes", "no").

Harapannya dapat lebih jelas terkait dari data.

In [None]:
# Melakukan pengkategorian kelompok untuk dapat menilai , nilai statistik
cats = ['job','marital','education','default','housing','loan','contact','month','poutcome','y']
num = ['age', 'balance','day','duration','campaign','pdays','previous']

In [None]:
df[num].describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,45211.0,40.93621,10.618762,18.0,33.0,39.0,48.0,95.0
balance,45211.0,1362.272058,3044.765829,-8019.0,72.0,448.0,1428.0,102127.0
day,45211.0,15.806419,8.322476,1.0,8.0,16.0,21.0,31.0
duration,45211.0,258.16308,257.527812,0.0,103.0,180.0,319.0,4918.0
campaign,45211.0,2.763841,3.098021,1.0,1.0,2.0,3.0,63.0
pdays,45211.0,40.197828,100.128746,-1.0,-1.0,-1.0,-1.0,871.0
previous,45211.0,0.580323,2.303441,0.0,0.0,0.0,0.0,275.0


Dari data statistik masih **terlihat normal dan tidak terlalu jauh perbedaan**, Mungkin yang perlu menjadi catatan adalah nilai std atau standar deviasi yang lumayan jauh dari mean melihat dari Kolom Balance. Pada nilai min memiliki Nilai minus yang berarti **ada yang memiliki hutang / Pinjaman yang disebut Loan.**

In [None]:
df[cats].describe().T

Unnamed: 0,count,unique,top,freq
job,45211,12,blue-collar,9732
marital,45211,3,married,27214
education,45211,4,secondary,23202
default,45211,2,no,44396
housing,45211,2,yes,25130
loan,45211,2,no,37967
contact,45211,3,cellular,29285
month,45211,12,may,13766
poutcome,45211,4,unknown,36959
y,45211,2,no,39922


### **Insight dari Data Categorical :**
1. Dari data Job dilihat bahwa **Blue Collar** menjadi top Job,
2. kemudian Marital **Married**, Education **secondary**,
3. dan untuk default ( Kemacetan pengunaan Card ) kebanyakan **tidak ada masalah**,
4. Kebanyakan **memiliki rumah** pada kolom housing,
5. Data hutang didominasi dengan jawaban **tidak** ,
6. yang mana dari data bank tersebut kebanyakan menghubungi lewat **celular**,
7. dengan bulan yang paling banyak dihubungi adalah bulan **mei**,
8. kemudian hasil campain didominasi dengan tidak diketahui,
dengan kebanyakan pelangan tidak melanjutkan deposito sekitar 39922 dari 45211 dimana hal ini berarti **88.29% belum berdeposito berjangka panjang.**

### **Mencari Missing Value**

In [None]:
# melihat jmlah missing value pada setiap kolom dari Dataset Bank Marketing Target
missing_values_count = df.isnull().sum()

# menampilkan hasil dari perhitungan missing Value
print("Jumlah missing values per kolom:")
print(missing_values_count)

Jumlah missing values per kolom:
age          0
job          0
marital      0
education    0
default      0
balance      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
y            0
dtype: int64


Bisa dilihat bahwa Dataset Dari Bank Marketing Target **tidak memiliki Missing Value** Sehingga tidak diperlukan dilakukan Hanling Missing Value.

### **Melakukan Checking Duplicate Data**

In [None]:
# Melakukan Cheking untuk mendeteksi data duplikat
df.isna().sum()

df.duplicated().sum()

0

## **Exploratory Data Analysis**

Melakukan Feature Extractions untuk menambah Insight dari EDA

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

### 1. Feature Extraction : **Conversion Rate by Age Group**


In [None]:
# Membuat kolom age_group
df['age_group'] = pd.cut(df['age'], bins=[0, 25, 35, 45, 55, 100], labels=['<25', '25-35', '36-45', '46-55', '>55'])
df

In [None]:
# Menghitung conversion rate berdasarkan age_group dengan observed=False untuk menghilangkan peringatan
df['conversion_rate_by_age']  = df.groupby('age_group', observed=False)['y'].mean() * 100
df

In [None]:
# Hitung jumlah nilai unik dalam kolom 'y'
df_bar = df['y'].value_counts().reset_index()
df_bar.columns = ['Status', 'Jumlah']

# Buat grafik batang dengan warna khusus dan format angka tidak disingkat
fig = px.bar(
    df_bar,
    x='Status',
    y='Jumlah',
    title='Distribusi Data Konsumen yang Berlangganan pada Deposito Jangka Panjang',
    labels={'Status': 'Status Langganan', 'Jumlah': 'Jumlah Konsumen'},
    text='Jumlah',
    color='Status',
    color_discrete_map={'0': 'darkblue', '1': 'green'}  # Warna khusus
)

# Tambahkan detail angka pada batang dengan format tidak disingkat
fig.update_traces(texttemplate='%{text:,}', textposition='outside')

# Sesuaikan layout untuk memastikan tidak ada teks yang terpotong dan mengubah latar belakang
fig.update_layout(
    uniformtext_minsize=8,
    uniformtext_mode='hide',
    yaxis={'tickformat': ',d'},  # Format angka tidak disingkat pada sumbu y
    plot_bgcolor='white',  # Mengubah latar belakang plot menjadi putih
    paper_bgcolor='white'  # Mengubah latar belakang keseluruhan menjadi putih
)

fig.show()

In [None]:
conversion_rate_by_age = df.groupby('age_group')['y'].mean() * 100

In [None]:
# Ubah hasil menjadi DataFrame untuk kemudahan plotting
conversion_rate_df = conversion_rate_by_age.reset_index()
conversion_rate_df.columns = ['age_group', 'conversion_rate']

# Membuat grafik batang conversion rate berdasarkan kelompok usia
fig, ax = plt.subplots(figsize=(14, 8))
sns.barplot(data=conversion_rate_df, x='age_group', y='conversion_rate', palette='Set2', ax=ax)
ax.set_title('Conversion Rate Berdasarkan Kelompok Usia')
ax.set_xlabel('Kelompok Usia')
ax.set_ylabel('Conversion Rate (%)')

# Menambahkan detail angka pada grafik
for p in ax.patches:
    height = p.get_height()
    ax.annotate(f'{height:.1f}%',  # Menambahkan persen di belakang angka
                (p.get_x() + p.get_width() / 2., height),
                ha='center', va='center',
                xytext=(0, 5),
                textcoords='offset points')

plt.show()

In [None]:
# Misalkan 'df' adalah DataFrame asli yang sudah berisi kolom 'age_group' dan 'y'

# Menghitung jumlah pelanggan dan non-pelanggan berdasarkan kelompok usia
conversion_rate_df1 = df.groupby(['age_group', 'y']).size().reset_index(name='count')

# Buat palet warna manual untuk hue 'y'
palette = {0: 'darkblue', 1: 'yellow'}

# Membuat grafik batang distribusi hasil kampanye berdasarkan kelompok usia
fig, ax = plt.subplots(figsize=(14, 8))
sns.barplot(data=conversion_rate_df1, x='age_group', y='count', hue='y', palette=palette, ax=ax)
ax.set_title('Distribusi Hasil Berlangganan Berdasarkan Kelompok Usia')
ax.set_xlabel('Kelompok Usia')
ax.set_ylabel('Jumlah')
ax.legend(title='Hasil Berlangganan')

# Menambahkan detail angka pada grafik
for p in ax.patches:
    height = p.get_height()
    ax.annotate(f'{int(height):,}',  # Tambahkan format angka tidak disingkat
                (p.get_x() + p.get_width() / 2., height),
                ha='center', va='center',
                xytext=(0, 5),
                textcoords='offset points')

plt.show()


### 2. Conversion **Rate by Campaign Efficiency**

Kita membuat Feature Extraction Conversion Rate by Campaign Efficieny

In [None]:
# Membuat kolom campaign_efficiency
df['campaign_efficiency'] = df['y'] / df['campaign']

# Menghitung rata-rata campaign efficiency
efficiency_by_campaign = df.groupby('campaign')['campaign_efficiency'].mean()

# Membuat line plot dengan warna biru dongker
plt.figure(figsize=(10, 6))
sns.lineplot(x=efficiency_by_campaign.index, y=efficiency_by_campaign.values, marker='o', color='#003366')
plt.title('Conversion Rate by Campaign Efficiency')
plt.xlabel('Number of Contacts')
plt.ylabel('Efficiency (Conversions per Contact)')
plt.grid(True)
plt.show()

In [None]:
# Menghitung rata-rata durasi berdasarkan jumlah kontak (campaign) dan hasil (y)
# Kita akan menghitung rata-rata durasi untuk setiap kombinasi jumlah kontak dan hasil
average_duration = df.groupby(['campaign', 'y'])['duration'].mean().reset_index()

# Membuat grafik line plot untuk durasi rata-rata
plt.figure(figsize=(12, 8))
sns.lineplot(data=average_duration, x='campaign', y='duration', hue='y', marker='o', palette={0: 'darkblue', 1: 'yellow'})
plt.title('Durasi Rata-Rata Berdasarkan Jumlah Kontak dan Hasil')
plt.xlabel('Jumlah Kontak')
plt.ylabel('Durasi Rata-Rata (detik)')
plt.legend(title='Hasil Langganan', labels=['Tidak Berlangganan (0)', 'Berlangganan (1)'])
plt.grid(True)
plt.show()

### 3. Return on Investment (ROI) **Estimation by Contact Type**

**1. Telemarketing Cost per Person** :  18,6 Euro ( Dimana Cost per Contact 6,88 Euro * 2,71 ( Average Number of Contact during campaign)

**2. Total Biaya Telemarketing Campaign**

45211 x 18,6 = 840.924

**3. Average Deposit per Person** :


### 4. Conversion Rate by **Previous Outcome**

In [None]:
# Menghitung conversion rate berdasarkan poutcome
conversion_rate_by_poutcome = df.groupby('poutcome')['y'].mean() * 100

# Membuat stacked bar plot dengan warna biru tua
plt.figure(figsize=(10, 6))
sns.barplot(x=conversion_rate_by_poutcome.index, y=conversion_rate_by_poutcome.values, palette=['#003366'])
plt.title('Conversion Rate by Previous Outcome')
plt.xlabel('Previous Outcome')
plt.ylabel('Conversion Rate (%)')

# Menambahkan detail angka pada batang
for i in range(len(conversion_rate_by_poutcome)):
    plt.text(i, conversion_rate_by_poutcome.values[i] + 0.5, f'{conversion_rate_by_poutcome.values[i]:.1f}%',
             ha='center', va='bottom', color='black', fontweight='bold')

plt.show()

### 5. Conversion Rate **by Loan and Housing Status**

In [None]:
# Membuat kolom loan_housing_status
df['loan_housing_status'] = df['loan'] + ', ' + df['housing']

# Menghitung conversion rate berdasarkan loan_housing_status
conversion_rate_by_loan_housing = df.groupby('loan_housing_status')['y'].mean() * 100

# Membuat grouped bar plot dengan warna biru tua
plt.figure(figsize=(10, 6))
sns.barplot(x=conversion_rate_by_loan_housing.index, y=conversion_rate_by_loan_housing.values, color='#003366')
plt.title('Conversion Rate by Loan and Housing Status')
plt.xlabel('Loan and Housing Status')
plt.ylabel('Conversion Rate (%)')
plt.xticks(rotation=45)
plt.show()

## **Data Prepocessing**

## **Modeling**

## **Recomendation**