<a href="https://colab.research.google.com/github/abdul-rohman-lab/Predicting-Purchase-Behavior-After-Viewing-Product-Advertisements/blob/main/Predicting_Purchase_Behavior_After_Viewing_Product_Advertisements.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# `**Logistic Regression - Predicting Purchase Behavior After Viewing Product Advertisements**`
Untuk memprediksi apakah seseorang akan membeli setelah melihat iklan sebuah produk. Dataset untuk latihan bisa Anda unduh [Social_Network_Ads.csv](https://drive.google.com/file/d/1ukTl5KJsO-JnRuq4YBFvMSo5n18ou15h/view?usp=sharing)

Seperti biasa, setelah kita mengunggah berkas data pada Colab kita akan mengubah dataset menjadi dataframe Pandas. Jangan lupa juga untuk mengimpor library dasar.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
url = 'https://drive.google.com/uc?id=1jU7g_HLqVYlltykQGisKHEfv_LkTyK-z'
df = pd.read_csv(url)

1. `import pandas as pd:` Ini mengimpor pustaka pandas dan memberinya alias pd. Pandas adalah pustaka Python yang digunakan untuk manipulasi dan analisis data, terutama untuk bekerja dengan struktur data seperti DataFrame.
2. `from sklearn.model_selection import train_test_split`: Ini mengimpor fungsi train_test_split dari modul model_selection dalam pustaka scikit-learn. Fungsi ini digunakan untuk membagi dataset menjadi dua subset: satu untuk pelatihan (training) dan satu untuk pengujian (testing).
3. f`rom sklearn.preprocessing import StandardScaler: `Ini mengimpor kelas StandardScaler dari modul preprocessing dalam pustaka scikit-learn. StandardScaler digunakan untuk menstandarisasi fitur dengan mengubahnya menjadi distribusi dengan rata-rata 0 dan deviasi standar 1. Ini sering dilakukan sebelum melatih model untuk memastikan bahwa semua fitur memiliki skala yang sama.



In [None]:
# Coba kita tampilkan data frmae dari Social Network Ads
df.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0


Kita juga perlu melihat apakah ada nilai yang kosong pada setiap atribut dengan menggunakan fungsi info(). Dapat dilihat bahwa nilai pada semua kolom sudah lengkap.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   User ID          400 non-null    int64 
 1   Gender           400 non-null    object
 2   Age              400 non-null    int64 
 3   EstimatedSalary  400 non-null    int64 
 4   Purchased        400 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 15.8+ KB


`df.info()`:  Metode ini memberikan ringkasan informasi tentang DataFrame, termasuk jumlah baris, jumlah nilai non-null, dan tipe data untuk setiap kolom. Mari kita bahas setiap bagian dari output tersebut.

Contoh cara bacanya:

**User ID:**

- **400 non-null:**
Ada 400 nilai yang tidak kosong dalam kolom ini.


- **int64:** Tipe data kolom ini adalah integer 64-bit. Ini biasanya digunakan untuk menyimpan angka bulat.

Pada dataset terdapat kolom ‘User ID’. Kolom tersebut merupakan atribut yang tidak penting untuk dipelajari oleh model sehingga perlu dihilangkan. Untuk menghilangkan kolom dari dataframe, gunakan fungsi drop.

In [None]:
data = df.drop(columns=["User ID"])
data = pd.get_dummies(data)
data[['Gender_Female', 'Gender_Male']] = data[['Gender_Female', 'Gender_Male']].astype(int)
data

Unnamed: 0,Age,EstimatedSalary,Purchased,Gender_Female,Gender_Male
0,19,19000,0,0,1
1,35,20000,0,0,1
2,26,43000,0,1,0
3,27,57000,0,1,0
4,19,76000,0,0,1
...,...,...,...,...,...
395,46,41000,1,1,0
396,51,23000,1,0,1
397,50,20000,1,1,0
398,36,33000,0,0,1


`pd.get_dummies(data)` Untuk setiap kolom kategorikal dalam DataFrame, `pd.get_dummies()` akan membuat kolom baru untuk setiap kategori unik yang ada dalam kolom tersebut.  Misalkan Gender ada Female dan Male, naka dia akan membuat 2 kolom baru dengan nama Gender_Female dan Gender_Male

karna hasil dari `pd.get_dummies()` hasilnya boolean. Maka kita harus ubah dulu dalam bentuk int agar bisa digunakan untuk permodelan dengan `.astype(int)`

Kemudian kita pisahkan antara atribut dan label.

In [None]:
predictions = ["Age", "EstimatedSalary", "Gender_Female", "Gender_Male"]
x = data[predictions]
y = data["Purchased"]


1. `predictions = ["Age", "EstimatedSalary", "Gender_Female", "Gender_Male"]` = yang berisis nama-nama kolom yang akan digunakan sebagai fitur (input) untuk model prediksi.
2. `x = data[predictions]`= ini akan berfungsi sebagai fitur input untuk model prediksi
3. `y = data["Purchased"]` =  Kolom ini biasanya berisi label atau target yang ingin diprediksi oleh model (misalnya, apakah individu tersebut melakukan pembelian atau tidak, dengan nilai 1 untuk pembelian dan 0 untuk tidak).

Jangan lupa untuk membagi data menjadi train set dan test set yang dapat dilakukan dengan fungsi train_test_split yang disediakan SKLearn.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=42)

1. Fungsi `train_test_split`:

- Fungsi ini digunakan untuk membagi dataset menjadi dua subset: satu untuk pelatihan model dan satu untuk menguji model setelah dilatih.
- Ini adalah langkah penting dalam proses pembelajaran mesin untuk memastikan bahwa model dapat dievaluasi dengan data yang tidak terlihat sebelumnya.



2. Parameter:

- `x`: Ini adalah DataFrame yang berisi fitur (input) yang telah kita definisikan sebelumnya.

- `y`: Ini adalah Series yang berisi target (output) yang ingin diprediksi.

- `test_size=0.25`: Parameter ini menentukan proporsi data yang akan digunakan untuk set pengujian. Dalam hal ini, 25% dari data akan digunakan untuk pengujian, sementara 75% sisanya akan digunakan untuk pelatihan.

- `random_state=42`: Parameter ini digunakan untuk mengatur seed acak. Dengan menetapkan nilai ini, Anda memastikan bahwa pembagian data akan konsisten setiap kali Anda menjalankan kode. Ini berguna untuk reproduktifitas hasil.

3. Output:

- `X_train`: DataFrame yang berisi fitur untuk data pelatihan.
- `X_test`: DataFrame yang berisi fitur untuk data pengujian.
- `y_train`: Series yang berisi target untuk data pelatihan.
- `y_test`: Series yang berisi target untuk data pengujian.

Setelah membagi data, kita buat model dengan membuat sebuah objek logistic regression. Setelah model dibuat, kita bisa melatih model kita dengan train set menggunakan fungsi fit().

In [None]:
from sklearn import linear_model
model = linear_model.LogisticRegression()
model.fit(X_train, y_train)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


`from sklearn import linear_model`: Di sini, Kita mengimpor modul linear_model dari pustaka scikit-learn. Pustaka ini menyediakan berbagai algoritma untuk pembelajaran mesin, termasuk regresi logistik.

`model = linear_model.LogisticRegression()`: Kita membuat instance dari kelas LogisticRegression. Ini adalah model regresi logistik yang akan digunakan untuk klasifikasi. Regresi logistik adalah metode statistik yang digunakan untuk memprediksi probabilitas dari dua kelas (biner) berdasarkan satu atau lebih fitur.

`model.fit(X_train, y_train)`:
- `Metode fit()` digunakan untuk melatih model pada data pelatihan. Di sini, `X_train` adalah DataFrame atau array yang berisi fitur (variabel independen) yang digunakan untuk memprediksi, dan `y_train` adalah array atau Series yang berisi label (variabel dependen) yang ingin diprediksi.
- Selama proses pelatihan, model akan belajar dari data yang diberikan untuk menemukan pola yang dapat digunakan untuk membuat prediksi pada data baru.



Setelah model dilatih, kita bisa menguji akurasi model pada test set dengan memanggil fungsi score() pada objek model.

In [None]:
model.score(X_test, y_test)

0.9

hasil akurasi model regresi logistik Kita adalah 0.9, ini berarti bahwa model Kita berhasil mengklasifikasikan 90% dari data pengujian dengan benar.

In [None]:
# Mempersiapkan data untuk prediksi
input_data = pd.DataFrame({
    'Age': [32],
    'EstimatedSalary': [150000],
    'Gender_Female': [1],
    'Gender_Male': [0]
})

# Melakukan prediksi
prediction = model.predict(input_data)

# Menampilkan hasil prediksi dengan interpretasi
if prediction[0] == 0:
    print(f"Prediksi untuk input Age={input_data['Age'][0]}, EstimatedSalary={input_data['EstimatedSalary'][0]}, Gender_Female={input_data['Gender_Female'][0]}, Gender_Male={input_data['Gender_Male'][0]}: Tidak Akan Membeli Produk")
else:
    print(f"Prediksi untuk input Age={input_data['Age'][0]}, EstimatedSalary={input_data['EstimatedSalary'][0]}, Gender_Female={input_data['Gender_Female'][0]}, Gender_Male={input_data['Gender_Male'][0]}: Akan Membeli Produk")

Prediksi untuk input Age=32, EstimatedSalary=150000, Gender_Female=1, Gender_Male=0: Akan Membeli Produk


In [None]:
# Mempersiapkan data untuk prediksi
input_data = pd.DataFrame({
    'Age': [40],
    'EstimatedSalary': [54000],
    'Gender_Female': [0],
    'Gender_Male': [1]
})

# Melakukan prediksi
prediction = model.predict(input_data)

# Menampilkan hasil prediksi dengan interpretasi
if prediction[0] == 0:
    print(f"Prediksi untuk input Age={input_data['Age'][0]}, EstimatedSalary={input_data['EstimatedSalary'][0]}, Gender_Female={input_data['Gender_Female'][0]}, Gender_Male={input_data['Gender_Male'][0]}: Tidak Akan Membeli Produk")
else:
    print(f"Prediksi untuk input Age={input_data['Age'][0]}, EstimatedSalary={input_data['EstimatedSalary'][0]}, Gender_Female={input_data['Gender_Female'][0]}, Gender_Male={input_data['Gender_Male'][0]}: Akan Membeli Produk")

Prediksi untuk input Age=40, EstimatedSalary=54000, Gender_Female=0, Gender_Male=1: Tidak Akan Membeli Produk
