# Predict Customer Clicked Ads Classification

Table of Content:

- Introduction
- Load Dataset
- Exploratory Data Analysis
- Data Preprocessing
- Modeling
- Save Model

## Introduction

**Latar Belakang**

 Seiring perkembangan zaman, perusahaan harus mampu mengoptimalkan metode iklan mereka di platform digital untuk menarik calon pelanggan potensial dengan biaya minimal. Hal ini dilakukan dengan tujuan meningkatkan konversi, yaitu jumlah pelanggan potensial yang melakukan pembelian setelah mengklik iklan. Namun, untuk mencapai tujuan ini, perusahaan harus dapat melakukan prediksi click-through yang akurat. Click-through rate yang akurat sangat penting dalam menentukan keberhasilan kampanye iklan digital. Tanpa prediksi yang akurat, perusahaan mungkin akan mengeluarkan biaya yang besar tanpa hasil yang signifikan.

**Tujuan**

 Membuat model machine learning yang dapat mendeteksi pengguna potensial untuk konversi atau tertarik pada sebuah iklan, sehingga perusahaan bisa mengoptimalkan biaya dalam beriklan.

**Sasaran**

Memprediksi pengguna yang memiliki potensi untuk klik iklan atau tidak dengan akurasi 90%.
Mendapatkan insight mengenai pola pengguna potensial yang klik iklan.
Memberikan rekomendasi bisnis berdasarkan hasil analisis dan model.

**Metrik Bisnis**

Click-through rate (CTR)

 **Langkah-langkah**

1. Pengumpulan Data: Mengumpulkan data historis tentang kampanye iklan digital, termasuk data tentang pengguna, iklan, dan klik.
2. Pembersihan Data: Membersihkan data dari nilai yang hilang atau tidak konsisten.
3. Analisis Data: Menganalisis data untuk mengidentifikasi pola dan faktor yang berkontribusi pada click-through.
4. Pemilihan Model: Memilih model machine learning yang sesuai untuk memprediksi click-through.
5. Pelatihan Model: Melatih model machine learning dengan data yang telah dibersihkan dan dianalisis.
6. Evaluasi Model: Mengevaluasi performa model machine learning dengan menggunakan data yang belum digunakan untuk pelatihan.
7. Penyebaran Model: Menyebarkan model machine learning ke platform produksi untuk digunakan dalam kampanye iklan digital.

 **Manfaat**

- Meningkatkan efisiensi kampanye iklan digital dengan menargetkan pengguna yang lebih berpotensi untuk konversi.
- Meningkatkan click-through rate dan ROI (Return on Investment) dari kampanye iklan digital.
- Mendapatkan insight yang lebih baik tentang perilaku pengguna dan faktor yang mempengaruhi click-through.
- Meningkatkan pengambilan keputusan dalam strategi iklan digital.

 **Kesimpulan**

 Membangun model machine learning untuk memprediksi click-through rate dapat membantu perusahaan mengoptimalkan kampanye iklan digital mereka, meningkatkan efisiensi dan ROI, serta mendapatkan insight yang lebih baik tentang perilaku pengguna.

 **Catatan:**

- Ini adalah gambaran umum dari proses membangun model machine learning untuk prediksi click-through rate. Detailnya dapat bervariasi tergantung pada situasi dan data yang tersedia.
- Penting untuk memilih model yang tepat dan melatihnya dengan data yang cukup untuk mencapai akurasi yang tinggi.
- Model machine learning harus dipantau dan diperbarui secara berkala untuk memastikan performanya tetap optimal.

## Load Dataset

In [1]:
import pandas as pd 
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv('Clicked Ads Dataset.csv')
df.sample(3)

Unnamed: 0.1,Unnamed: 0,Daily Time Spent on Site,Age,Area Income,Daily Internet Usage,Male,Timestamp,Clicked on Ad,city,province,category
312,312,75.55,22,292959660.0,169.4,Perempuan,2/19/2016 7:29,Yes,Jakarta Utara,Daerah Khusus Ibukota Jakarta,Finance
685,685,76.27,27,420578620.0,226.69,Laki-Laki,6/18/2016 1:42,No,Cimahi,Jawa Barat,Travel
530,530,65.1,49,416202640.0,118.1,Laki-Laki,6/1/2016 3:44,Yes,Jakarta Barat,Daerah Khusus Ibukota Jakarta,Furniture


## Exploratory Data Analysis

### Overview Data

Melakukan investigasi awal terhadap data untuk memahami karakteristik dan informasi yang terkandung didalamnya termasuk missing value dan duplikat.

In [3]:
df.shape

(1000, 11)

In [4]:
# overview
list_item = []
for col in df.columns:
    list_item.append([col, df[col].dtype, df[col].isna().sum(), round(100*df[col].isna().sum()/len(df[col]), 2), df[col].nunique(), df[col].unique()[:10]])
desc_df = pd.DataFrame(data=list_item, columns='feature, data_type, null_values, null_percentage, unique_values, unique_sample'.split(","))
desc_df

Unnamed: 0,feature,data_type,null_values,null_percentage,unique_values,unique_sample
0,Unnamed: 0,int64,0,0.0,1000,"[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]"
1,Daily Time Spent on Site,float64,13,1.3,890,"[68.95, 80.23, 69.47, 74.15, 68.37, 59.99, 88...."
2,Age,int64,0,0.0,43,"[35, 31, 26, 29, 23, 33, 48, 30, 20, 49]"
3,Area Income,float64,13,1.3,987,"[432837300.0, 479092950.00000006, 418501580.0,..."
4,Daily Internet Usage,float64,11,1.1,955,"[256.09, 193.77, 236.5, 245.89, 225.58, 226.74..."
5,Male,object,3,0.3,2,"[Perempuan, Laki-Laki, nan]"
6,Timestamp,object,0,0.0,997,"[3/27/2016 0:53, 4/4/2016 1:39, 3/13/2016 20:3..."
7,Clicked on Ad,object,0,0.0,2,"[No, Yes]"
8,city,object,0,0.0,30,"[Jakarta Timur, Denpasar, Surabaya, Batam, Med..."
9,province,object,0,0.0,16,"[Daerah Khusus Ibukota Jakarta, Bali, Jawa Tim..."


In [5]:
df.duplicated().sum()

0

In [6]:
# numerikal fitur
nums = df.loc[:, (df.dtypes == 'int64') | (df.dtypes == float)].columns.tolist()
nums

['Unnamed: 0',
 'Daily Time Spent on Site',
 'Age',
 'Area Income',
 'Daily Internet Usage']

In [7]:
# kategorikal fitur
cats = df.loc[:, (df.dtypes == 'object')].columns.tolist()
cats

['Male', 'Timestamp', 'Clicked on Ad', 'city', 'province', 'category']