# **Logistic Regression**

Logistic Regression adalah metode statistik yang digunakan untuk memprediksi hasil dari variabel dependen biner (dua kelas) berdasarkan satu atau lebih variabel independen. Tujuan dari logistic regression adalah untuk memodelkan probabilitas suatu peristiwa terjadi dengan memetakan input linier dari variabel-variabel independen menjadi rentang antara 0 dan 1 menggunakan fungsi logistik (sigmoid).

Dalam logistic regression, kurva yang dihasilkan bukanlah garis lurus, melainkan kurva berbentuk S (sigmoid). Model ini memperkirakan probabilitas suatu kelas, di mana probabilitas lebih besar dari 0,5 biasanya dikategorikan sebagai satu kelas, dan kurang dari 0,5 sebagai kelas lainnya. Logistic regression sering digunakan dalam kasus seperti prediksi.

#### **persamaan Logistic Regression**

$$ P(Y = 1 | X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n)}} $$

Di sini:
- \( P(Y = 1 | X) \) adalah probabilitas bahwa kelas output \( Y \) adalah 1, diberikan fitur \( X \).
- \( \beta_0 \) adalah intercept (bias), dan \( \beta_1, \beta_2, \dots, \beta_n \) adalah koefisien atau bobot fitur \( X_1, X_2, \dots, X_n \).
- \( e \) adalah bilangan Euler, dan fungsi logistik memastikan bahwa output berada dalam rentang 0 hingga 1.


#### **fungsi sigmoid**

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

Di mana $ \sigma(z) $ adalah fungsi sigmoid, dan $z$ adalah input linier yang dihasilkan dari variabel independen model.


# **Implementasi Logistic Regression**

#### **Library**

In [7]:
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/209.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m11.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [16]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
import joblib
from sklearn.metrics import accuracy_score
from sklearn.decomposition import PCA

#### **Load Data**

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
cd /content/drive/My Drive/PPW/tugas/

/content/drive/My Drive/PPW/tugas


In [15]:
X_train = pd.read_csv('/content/drive/My Drive/PPW/tugas/X_train.csv')
y_train = pd.read_csv('/content/drive/My Drive/PPW/tugas/y_train.csv')

#### **Logistic Regression (dengan PCA)**

memuat model TF-IDF vectorizer yang telah disimpan sebelumnya dalam format `.pkl` menggunakan library Joblib.

In [17]:
tfidf = joblib.load('/content/drive/My Drive/PPW/tugas/tf-idf_vectorizer.pkl')

reduksi dimensi menggunakan PCA pada data TF-IDF, melatih model Logistic Regression, mengevaluasi akurasinya, dan menyimpan model dalam format `.pkl`

In [23]:
# Reduksi dimensi menggunakan PCA
pca = PCA(n_components=0.95)  # Menyimpan 95% varians
X_train_tfidf = tfidf.transform(X_train['stemming']) # Mengganti 'stemmed_text' dengan fitur yang sesuai
X_train_pca = pca.fit_transform(X_train_tfidf.toarray())  # Mengubah ke array jika diperlukan

# Inisialisasi model Logistic Regression
model_pca = LogisticRegression(max_iter=1000)

# Latih model dengan data training yang sudah direduksi dimensinya
model_pca.fit(X_train_pca, y_train)

# Melakukan prediksi pada data training
y_pred_train_pca = model_pca.predict(X_train_pca)

# Menghitung akurasi model
accuracy_pca = accuracy_score(y_train, y_pred_train_pca)
print(f"Akurasi model dengan PCA pada data training: {accuracy_pca * 100:.2f}%")

# Menyimpan model ke dalam file .pkl
joblib.dump(model_pca, '/content/drive/My Drive/PPW/tugas/LR-model-PCA.pkl')

print("Model PCA telah disimpan ke dalam pkl\n")

Akurasi model dengan PCA pada data training: 100.00%
Model PCA telah disimpan ke dalam pkl



  y = column_or_1d(y, warn=True)


#### **Logistic Regression (tanpa PCA)**

melatih model Logistic Regression tanpa reduksi dimensi PCA, mengevaluasi akurasinya, dan menyimpan model yang dilatih dalam format `.pkl`

In [24]:
# Mengubah ke array jika diperlukan
X_train_pca = pca.fit_transform(X_train_tfidf.toarray())

# Inisialisasi model Logistic Regression
model = LogisticRegression(max_iter=1000)

# Latih model menggunakan data training
model.fit(X_train_tfidf, y_train)

# Melakukan prediksi pada data training
y_pred_train = model.predict(X_train_tfidf)

# Menghitung akurasi model
accuracy = accuracy_score(y_train, y_pred_train)
print(f"Akurasi model tanpa PCA pada data training: {accuracy * 100:.2f}%")

# Menyimpan model ke dalam file .pkl
joblib.dump(model_pca, '/content/drive/My Drive/PPW/tugas/LR-model-tanpa-PCA.pkl')

print("Model tanpa PCA telah disimpan ke dalam pkl\n")

Akurasi model tanpa PCA pada data training: 100.00%
Model PCA telah disimpan ke dalam pkl



  y = column_or_1d(y, warn=True)


#### **Pengujian Model (dengan PCA)**

memuat dataset X_test dan y_test dari file CSV

In [27]:
X_test = pd.read_csv('/content/drive/My Drive/PPW/tugas/X_test.csv')
y_test = pd.read_csv('/content/drive/My Drive/PPW/tugas/y_test.csv')

In [28]:
# Load model PCA dan Logistic Regression yang sudah disimpan
model_pca_= joblib.load('/content/drive/My Drive/PPW/tugas/LR-model-PCA.pkl')

transformasi data pengujian menggunakan TF-IDF dan PCA, kemudian memprediksi labelnya dan menghitung akurasi model berdasarkan hasil prediksi

In [29]:
# Transformasikan data test ke dalam bentuk TF-IDF
X_test_tfidf = tfidf.transform(X_test['stemming'])  # Ganti 'stemmed_text' dengan fitur yang sesuai

In [31]:
# Transformasi data test dengan PCA
X_test_pca = pca.transform(X_test_tfidf.toarray())

# Melakukan prediksi pada data testing dengan PCA
y_pred_pca = model_pca.predict(X_test_pca)

# Menghitung akurasi model dengan PCA
accuracy_pca = accuracy_score(y_test, y_pred_pca)
print(f"Akurasi model pada data testing (dengan PCA): {accuracy_pca * 100:.2f}%")

Akurasi model pada data testing (dengan PCA): 100.00%


mengubah hasil prediksi dan data target menjadi pandas Series, lalu membuat DataFrame untuk membandingkan nilai asli dan prediksi.

In [32]:
# Mengubah array menjadi pandas Series
y_pred_series = pd.Series(y_pred_pca)

In [33]:
# Jika y_test adalah DataFrame, ambil kolom targetnya
if isinstance(y_test, pd.DataFrame):
    y_test_series = y_test.iloc[:, 0]  # kolom pertama
else:
    y_test_series = pd.Series(y_test, name="Asli")

# ini adalah hasil prediksi yang sudah diubah jadi Series
y_pred_pca_series = pd.Series(y_pred_pca, name="Prediksi")

# Buat DataFrame untuk membandingkan y_test dan y_pred
comparison_df_pca = pd.DataFrame({'Asli': y_test_series, 'Prediksi': y_pred_pca_series})

# Menampilkan DataFrame perbandingan
print(comparison_df_pca)

    Asli  Prediksi
0      1         1
1      1         1
2      1         1
3      0         0
4      0         0
5      0         0
6      0         0
7      1         1
8      0         0
9      0         0
10     0         0
11     0         0
12     1         1
13     0         0
14     1         1
15     0         0
16     1         1
17     1         1
18     0         0
19     0         0


#### **Pengujian Model (tanpa PCA)**

In [34]:
# Load model PCA dan Logistic Regression yang sudah disimpan
model_pca_= joblib.load('/content/drive/My Drive/PPW/tugas/LR-model-tanpa-PCA.pkl')

In [35]:
# Transformasi data test dengan PCA
X_test_pca = pca.transform(X_test_tfidf.toarray())

# Melakukan prediksi pada data testing
y_pred = model.predict(X_test_tfidf).squeeze()

# Menghitung akurasi model tanpa PCA
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi model pada data testing (tanpa PCA): {accuracy * 100:.2f}%")

Akurasi model pada data testing (tanpa PCA): 100.00%


In [36]:
# Mengubah array menjadi pandas Series
y_pred_series = pd.Series(y_pred)

In [37]:
# Jika y_test adalah DataFrame, ambil kolom targetnya
if isinstance(y_test, pd.DataFrame):
    y_test_series = y_test.iloc[:, 0]  # kolom pertama
else:
    y_test_series = pd.Series(y_test, name="Asli")

# hasil prediksi yang sudah diubah jadi Series
y_pred_series = pd.Series(y_pred, name="Prediksi")

# membuat DataFrame untuk membandingkan y_test dan y_pred
comparison_df = pd.DataFrame({'Asli': y_test_series, 'Prediksi': y_pred_series})

# menampilkan DataFrame perbandingan
print(comparison_df)

    Asli  Prediksi
0      1         1
1      1         1
2      1         1
3      0         0
4      0         0
5      0         0
6      0         0
7      1         1
8      0         0
9      0         0
10     0         0
11     0         0
12     1         1
13     0         0
14     1         1
15     0         0
16     1         1
17     1         1
18     0         0
19     0         0
