Pada notebook ini akan dibuat model Logistic Regression untuk memprediksi calon pembeli apakah akan membeli setelah melihat iklan sebuah produk

**Mengimport Dataset**

In [2]:
import pandas as pd

#membaca dataset dan mengubahnya menjadi dataframe
df = pd.read_csv("Social_Network_Ads.csv")

**Melihat Isi Dataset**

Selanjutnya yaitu melihat isi dari dataset dengan menggunakan fungsi head()

In [3]:
df.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0


Untuk melihat apakah terdapat nilai kosong pada setiap atribut, dapat menggunakan fungsi info()

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   User ID          400 non-null    int64 
 1   Gender           400 non-null    object
 2   Age              400 non-null    int64 
 3   EstimatedSalary  400 non-null    int64 
 4   Purchased        400 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 15.8+ KB


**Drop Kolom yang Tidak Diperlukan**

Pada dataset terdapat kolom ‘User ID’. Kolom tersebut merupakan atribut yang tidak penting untuk dipelajari oleh model sehingga perlu dihilangkan. Untuk menghilangkan kolom dari dataframe, gunakan fungsi drop()

In [5]:
data = df.drop(columns=['User ID'])

#menampilkan dataframe variable data yang baru
data.head()

Unnamed: 0,Gender,Age,EstimatedSalary,Purchased
0,Male,19,19000,0
1,Male,35,20000,0
2,Female,26,43000,0
3,Female,27,57000,0
4,Male,19,76000,0


**One Hot Encoding pada Label**

panggil fungsi get_dummies() untuk melakukan proses One-Hot Encoding karena label pada dataset kita merupakan data kategorikal, yaitu pada kolom gender

In [6]:
data = pd.get_dummies(data)

data.head()

Unnamed: 0,Age,EstimatedSalary,Purchased,Gender_Female,Gender_Male
0,19,19000,0,0,1
1,35,20000,0,0,1
2,26,43000,0,1,0
3,27,57000,0,1,0
4,19,76000,0,0,1


**Memisahkan Atribut dan Label dan Membagi Data Train dan Test**


In [7]:
#Memisahkan atribut dan label

prediction = ['Age', 'EstimatedSalary', 'Gender_Female', 'Gender_Male']
X = data[prediction]
y = data['Purchased']

Sebelum kita membagi data menjadi train dan test set, kita perlu melakukan standardisasi data

In [8]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X)
scaled_data = scaler.transform(X)
scaled_data = pd.DataFrame(scaled_data, columns=X.columns)
scaled_data.head()

Unnamed: 0,Age,EstimatedSalary,Gender_Female,Gender_Male
0,-1.781797,-1.490046,-1.020204,1.020204
1,-0.253587,-1.460681,-1.020204,1.020204
2,-1.113206,-0.78529,0.980196,-0.980196
3,-1.017692,-0.374182,0.980196,-0.980196
4,-1.781797,0.183751,-1.020204,1.020204


Tahap selanjutnya yaitu membagi data menjadi data train dan test dengan fungsi train_test_split()

In [15]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(scaled_data, y, test_size=0.1, random_state=42)

**Membuat Model**

Setelah membagi data, kita buat model dengan membuat sebuah objek logistic regression. Setelah model dibuat, kita bisa melatih model kita dengan train set menggunakan fungsi fit().

In [16]:
from sklearn import linear_model

model = linear_model.LogisticRegression()
model.fit(X_train, y_train)

Setelah model dilatih, kita bisa menguji akurasi model pada test set dengan memanggil fungsi score() pada objek model.

In [17]:
model.score(X_test, y_test)

0.9