In [9]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler,StandardScaler
from sklearn.linear_model import LogisticRegression
import pandas as pd
import numpy as np

# Setting DataFrame Random 

Usia (Age)
Variabel ini umumnya diukur dalam tahun.
Rentang nilai optimal: Bervariasi tergantung studi, tetapi biasanya antara 0 dan 100 tahun.

Jenis Kelamin (Gender)
Variabel ini dapat berupa data kategorikal yang diubah menjadi variabel dummy (misalnya, 0 untuk laki-laki, 1 untuk perempuan).
Rentang nilai optimal: 0 atau 1.

Indeks Massa Tubuh (Body Mass Index - BMI)
BMI adalah angka yang dihitung berdasarkan berat dan tinggi badan.
Rentang nilai optimal: Biasanya antara 15 dan 40, tetapi bisa melampaui rentang ini dalam kasus obesitas ekstrem atau malnutrisi parah.

Tekanan Darah (Blood Pressure)
Variabel ini sering dibagi menjadi tekanan darah sistolik dan diastolik, diukur dalam mmHg.
Rentang nilai optimal: Tekanan darah sistolik biasanya antara 90 dan 180 mmHg, tekanan darah diastolik antara 60 dan 120 mmHg. Variasi di luar rentang ini mungkin menunjukkan hipertensi atau hipotensi ekstrem.

Kadar Kolesterol (Cholesterol Level)
Kadar kolesterol diukur dalam miligram per desiliter (mg/dL).
Rentang nilai optimal: Biasanya antara 100 dan 300 mg/dL, dengan batas aman untuk kolesterol total adalah kurang dari 200 mg/dL.

In [5]:
# Generate random data
np.random.seed(42)

usia = np.random.randint(0, 50, size=500)
jk = np.random.randint(0, 2, size=500)
bmi = np.random.randint(15, 41, size=500)
sistol = np.random.randint(90, 121, size=500)
diastol = np.random.randint(60, 120, size=500)
kolestrol = np.random.randint(60, 120, size=500)
smoke = np.random.randint(0, 2, size=500)

# Create a DataFrame
data = pd.DataFrame({
    'Usia': usia,
    'Jenis Kelamin': jk,
    'Indeks Massa Tubuh': bmi,
    'Tekanan Sistolik': sistol,
    'Tekanan Diastolik': diastol,
    'Kadar Kolesterol ': kolestrol,
    'Status Merokok': smoke,
})

data

Unnamed: 0,Usia,Jenis Kelamin,Indeks Massa Tubuh,Tekanan Sistolik,Tekanan Diastolik,Kadar Kolesterol,Status Merokok
0,38,1,36,110,72,60,0
1,28,0,30,103,102,114,0
2,14,0,22,120,104,94,0
3,42,1,18,112,84,65,1
4,7,0,22,105,112,96,0
...,...,...,...,...,...,...,...
495,4,0,30,90,68,75,0
496,11,0,18,116,96,66,0
497,15,1,34,116,79,111,1
498,25,0,19,105,85,73,0


# Data Preparation

In [16]:
# Pisahkan variabel dependen (target) dan independen (fitur)
X = data.drop(['Status Merokok','Jenis Kelamin'], axis=1)
y = data['Status Merokok']

# Pisahkan data menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalisasi data menggunakan StandardScaler
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("X Train Scaled: ", X_train_scaled)
print("X Test Scaled: ", X_test_scaled)

X Train Scaled:  [[0.3877551  0.28       0.56666667 0.15254237 0.89830508]
 [0.10204082 0.48       0.33333333 0.98305085 0.33898305]
 [0.87755102 0.8        0.56666667 0.69491525 0.71186441]
 ...
 [0.65306122 0.16       0.66666667 0.98305085 0.61016949]
 [0.85714286 0.72       0.76666667 0.94915254 0.08474576]
 [0.         0.12       0.16666667 0.52542373 0.50847458]]
X Test Scaled:  [[0.10204082 0.84       0.93333333 0.49152542 0.81355932]
 [0.67346939 0.68       0.83333333 0.27118644 0.44067797]
 [0.44897959 0.         0.03333333 0.83050847 0.03389831]
 [0.06122449 0.72       0.6        0.55932203 0.03389831]
 [0.14285714 0.84       0.23333333 0.16949153 0.16949153]
 [0.51020408 1.         0.26666667 0.89830508 0.72881356]
 [0.34693878 0.72       0.63333333 0.52542373 0.96610169]
 [0.44897959 0.         0.         0.52542373 0.10169492]
 [0.06122449 0.88       0.7        0.52542373 0.11864407]
 [0.79591837 0.84       0.13333333 0.16949153 0.54237288]
 [0.20408163 0.08       0.       

# Pemodelan Regresi Logistik

In [17]:
# Buat objek model Regresi Logistik
model = LogisticRegression()

# Latih model dengan data latih
model.fit(X_train_scaled, y_train)

In [22]:
from sklearn.feature_selection import SelectKBest, chi2

# Contoh Feature Selection dengan Univariate Feature Selection
selector = SelectKBest(score_func=chi2, k=5)
X_train_selected = selector.fit_transform(X_train_scaled, y_train)
X_test_selected = selector.transform(X_test_scaled)

print(X_test_selected)

[[0.10204082 0.84       0.93333333 0.49152542 0.81355932]
 [0.67346939 0.68       0.83333333 0.27118644 0.44067797]
 [0.44897959 0.         0.03333333 0.83050847 0.03389831]
 [0.06122449 0.72       0.6        0.55932203 0.03389831]
 [0.14285714 0.84       0.23333333 0.16949153 0.16949153]
 [0.51020408 1.         0.26666667 0.89830508 0.72881356]
 [0.34693878 0.72       0.63333333 0.52542373 0.96610169]
 [0.44897959 0.         0.         0.52542373 0.10169492]
 [0.06122449 0.88       0.7        0.52542373 0.11864407]
 [0.79591837 0.84       0.13333333 0.16949153 0.54237288]
 [0.20408163 0.08       0.         1.         0.81355932]
 [0.16326531 0.36       0.36666667 0.10169492 0.23728814]
 [1.         0.92       0.26666667 0.59322034 0.49152542]
 [0.40816327 0.96       0.1        0.28813559 0.88135593]
 [0.65306122 0.84       0.33333333 0.3220339  0.62711864]
 [0.42857143 0.8        0.43333333 0.08474576 0.55932203]
 [0.08163265 0.6        0.         0.13559322 0.25423729]
 [0.53061224 1

# Regularization dengan Regresi Lasso dan Rigid 

In [23]:
# Contoh Regularization dengan L1 Regularization (Lasso)
lasso_model = LogisticRegression(penalty='l1', solver='liblinear', C=0.01)
lasso_model.fit(X_train_selected, y_train)

# Contoh Regularization dengan L2 Regularization (Ridge)
ridge_model = LogisticRegression(penalty='l2', C=0.01)
ridge_model.fit(X_train_selected, y_train)

solver='liblinear'
liblinear adalah solver yang digunakan untuk mengoptimalkan model. Solver ini mendukung regularisasi L1 dan L2, dan lebih cocok untuk dataset yang lebih kecil atau masalah dengan lebih sedikit fitur.

C=0.01
Parameter C adalah kebalikan dari kekuatan regularisasi. Nilai yang lebih kecil dari C berarti regularisasi yang lebih kuat, sedangkan nilai yang lebih besar berarti regularisasi yang lebih lemah. Dengan C=0.01, model akan memiliki regularisasi yang cukup kuat, mempengaruhi sejauh mana koefisien model dapat "ditekan" oleh regularisasi.

In [24]:
print(lasso_model.coef_[0])
print(ridge_model.coef_[0])

[0. 0. 0. 0. 0.]
[-0.01112643  0.02613495  0.02272398  0.02345801 -0.03043821]


Pada regresi lasso, seluruh koefisien untuk model Lasso adalah nol. Ini bisa berarti:

1. Model Lasso telah melakukan regularisasi yang sangat kuat, sehingga semua koefisien ditekan menjadi nol.
2. Tidak ada fitur yang dianggap cukup penting untuk digunakan dalam model setelah penerapan regularisasi L1 yang kuat.
3. Ketika semua koefisien adalah nol, model tidak memiliki informasi untuk membedakan antara kelas-kelas, yang dapat menjadi indikasi over-regularization atau bahwa data dan fitur yang digunakan tidak relevan atau tidak cukup beragam.

Regresi rigid cenderung meratakan koefisien dan mencegahnya menjadi sangat besar, namun jarang menghasilkan koefisien nol seperti L1. Dalam kasus ini, model Ridge memiliki koefisien dengan berbagai nilai, termasuk positif dan negatif. Ini menunjukkan:
1. Regularisasi L2 tidak menekan koefisien hingga nol, tetapi mengurangi besarnya koefisien sehingga tetap stabil dan mencegah overfitting.
2. Setiap nilai koefisien menunjukkan seberapa besar pengaruh masing-masing fitur terhadap prediksi. Nilai positif menunjukkan bahwa peningkatan fitur akan meningkatkan peluang menjadi satu kelas, sementara nilai negatif menunjukkan sebaliknya.

# Prediksi dengan Regresi Lasso dan Rigid

In [25]:
# Membuat prediksi
y_pred_ridge = ridge_model.predict(X_test)

# Menampilkan nilai prediksi Ridge
print("Nilai prediksi Ridge:")
print(y_pred_ridge)

Nilai prediksi Ridge:
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]




In [26]:
# Membuat prediksi
y_pred_lasso = lasso_model.predict(X_test)

# Menampilkan nilai prediksi lasso
print("Nilai prediksi Lasso:")
print(y_pred_lasso)

Nilai prediksi Lasso:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]




# Grid Search untuk mencari parameter terbaik

Parameter yang digunakan:
1. penalty: ['l2'] - Regularisasi yang dicoba adalah regularisasi L2 (regresi rigid).
2. C: [0.01, 0.1, 1.0, 10.0] - Nilai C adalah kebalikan dari kekuatan regularisasi; nilai yang lebih kecil berarti regularisasi yang lebih kuat, dan nilai yang lebih besar berarti regularisasi yang lebih lemah.
3. fit_intercept: [True, False] - Apakah model harus mencakup intercept (bias) atau tidak.

In [28]:
from sklearn.model_selection import GridSearchCV
# Define the list of parameter values to be tried in the Grid Search
param_grid = {'penalty': ['l2'], 'C': [0.01, 0.1, 1.0, 10.0], 'fit_intercept': [True, False]}

# Perform Grid Search with K-Fold Cross Validation (k=5)
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy', error_score='raise')
grid_search.fit(X_train_selected, y_train)

# Get the best parameters
best_params = grid_search.best_params_

print("Best Parameters:", best_params)

Best Parameters: {'C': 0.01, 'fit_intercept': False, 'penalty': 'l2'}


Output ini memberi tahu kita bahwa, berdasarkan pengaturan Grid Search dan data yang digunakan, model dengan regularisasi L2, nilai C 0.01 (regularisasi kuat), dan tanpa intercept memberikan kinerja terbaik. Dengan kata lain, model dengan regularisasi yang kuat dan tanpa intercept lebih cocok untuk dataset dan tugas yang Anda miliki.