# **Logistic Regression**

Logistic Regression adalah metode statistik yang digunakan untuk memprediksi hasil dari variabel dependen biner (dua kelas) berdasarkan satu atau lebih variabel independen. Tujuan dari logistic regression adalah untuk memodelkan probabilitas suatu peristiwa terjadi dengan memetakan input linier dari variabel-variabel independen menjadi rentang antara 0 dan 1 menggunakan fungsi logistik (sigmoid).

Dalam logistic regression, kurva yang dihasilkan bukanlah garis lurus, melainkan kurva berbentuk S (sigmoid). Model ini memperkirakan probabilitas suatu kelas, di mana probabilitas lebih besar dari 0,5 biasanya dikategorikan sebagai satu kelas, dan kurang dari 0,5 sebagai kelas lainnya. Logistic regression sering digunakan dalam kasus seperti prediksi.

#### **persamaan Logistic Regression**

$$ P(Y = 1 | X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n)}} $$

Di mana:
- \( P(Y = 1 | X) \) adalah probabilitas bahwa kelas output \( Y \) adalah 1, diberikan fitur \( X \).
- \( \beta_0 \) adalah intercept (bias), dan \( \beta_1, \beta_2, \dots, \beta_n \) adalah koefisien atau bobot fitur \( X_1, X_2, \dots, X_n \).
- \( e \) adalah bilangan Euler, dan fungsi logistik memastikan bahwa output berada dalam rentang 0 hingga 1.


#### **fungsi sigmoid**

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

Di mana $ \sigma(z) $ adalah fungsi sigmoid, dan $z$ adalah input linier yang dihasilkan dari variabel independen model.


# **Implementasi Logistic Regression**

#### **Library**

In [37]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
import joblib
from sklearn.metrics import accuracy_score
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
import pickle
import re

#### **Load Data Preprosesing**

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
cd /content/drive/My Drive/PPW/tugas/

/content/drive/My Drive/PPW/tugas


In [11]:
df = pd.read_csv("/content/drive/My Drive/PPW/tugas/preprosesing-berita.csv")

In [12]:
df

Unnamed: 0,NO,Judul Berita,Isi Berita,Tanggal Berita,Kategori Berita,Kategori,cleansing,case_folding,tokenize,stopword_removal,stemming
0,1,"Analisis PPI: Di Tangan Presiden Prabowo, Indo...","TIMESINDONESIA, JAKARTA – Di bawah kepemimpina...",04/09/2024 - 23:35,Politik,0,TIMESINDONESIA JAKARTA Di bawah kepemimpinan ...,timesindonesia jakarta di bawah kepemimpinan ...,"['timesindonesia', 'jakarta', 'di', 'bawah', '...",timesindonesia jakarta kepemimpinan presiden r...,timesindonesia jakarta pimpin presiden ri prab...
1,2,"Bacawabup Lathifah Solidkan Seribu Relawan, Si...","TIMESINDONESIA, MALANG – Bakal cawabup Malang,...",04/09/2024 - 22:02,Politik,0,TIMESINDONESIA MALANG Bakal cawabup Malang La...,timesindonesia malang bakal cawabup malang la...,"['timesindonesia', 'malang', 'bakal', 'cawabup...",timesindonesia malang cawabup malang lathifah ...,timesindonesia malang cawabup malang lathifah ...
2,3,Rois Syuriah Sebut Visi Misi Untoro-Wahyudi Se...,"TIMESINDONESIA, BANTUL – Rois Syuriah PCNU Ban...",04/09/2024 - 20:54,Politik,0,TIMESINDONESIA BANTUL Rois Syuriah PCNU Bantu...,timesindonesia bantul rois syuriah pcnu bantu...,"['timesindonesia', 'bantul', 'rois', 'syuriah'...",timesindonesia bantul rois syuriah pcnu bantul...,timesindonesia bantul rois syuriah pcnu bantul...
3,4,Ribuan Kader PKB Kabupaten Mojokerto Panasi Me...,"TIMESINDONESIA, MOJOKERTO – Ribuan kader PKB K...",04/09/2024 - 19:23,Politik,0,TIMESINDONESIA MOJOKERTO Ribuan kader PKB Kab...,timesindonesia mojokerto ribuan kader pkb kab...,"['timesindonesia', 'mojokerto', 'ribuan', 'kad...",timesindonesia mojokerto ribuan kader pkb kabu...,timesindonesia mojokerto ribu kader pkb kabupa...
4,5,"Wajah Pengurus Inti DPP PKB Tidak Berubah, Ini...","TIMESINDONESIA, JAKARTA – Partai Kebangkitan B...",04/09/2024 - 16:43,Politik,0,TIMESINDONESIA JAKARTA Partai Kebangkitan Ban...,timesindonesia jakarta partai kebangkitan ban...,"['timesindonesia', 'jakarta', 'partai', 'keban...",timesindonesia jakarta partai kebangkitan bang...,timesindonesia jakarta partai bangkit bangsa p...
...,...,...,...,...,...,...,...,...,...,...,...
95,96,Azquira Scarf Luncurkan Hijab Autentik dengan ...,"TIMESINDONESIA, MALANG – Azquira Scarf menggel...",01/09/2024 - 22:42,Gaya Hidup,1,TIMESINDONESIA MALANG Azquira Scarf menggelar...,timesindonesia malang azquira scarf menggelar...,"['timesindonesia', 'malang', 'azquira', 'scarf...",timesindonesia malang azquira scarf menggelar ...,timesindonesia malang azquira scarf gelar acar...
96,97,Mengulik Sejarah Bangunan Heritage Kota Malang...,"TIMESINDONESIA, MALANG – Pada Minggu (1/9/2024...",01/09/2024 - 22:16,Gaya Hidup,1,TIMESINDONESIA MALANG Pada Minggu komunitas ...,timesindonesia malang pada minggu komunitas ...,"['timesindonesia', 'malang', 'pada', 'minggu',...",timesindonesia malang minggu komunitas oom ir ...,timesindonesia malang minggu komunitas oom ir ...
97,98,"Ritual Wewangian, Parfum Lokal Jadi Pilihan In...","TIMESINDONESIA, SURABAYA – Memilih wewangian p...",31/08/2024 - 20:04,Gaya Hidup,1,TIMESINDONESIA SURABAYA Memilih wewangian pen...,timesindonesia surabaya memilih wewangian pen...,"['timesindonesia', 'surabaya', 'memilih', 'wew...",timesindonesia surabaya memilih wewangian peng...,timesindonesia surabaya pilih wewangian harum ...
98,99,Berkeliling Nusantara Melalui Suguhan Kuliner ...,"TIMESINDONESIA, MAGELANG – Anda ingin mencicip...",04/09/2024 - 17:00,Gaya Hidup,1,TIMESINDONESIA MAGELANG Anda ingin mencicipi ...,timesindonesia magelang anda ingin mencicipi ...,"['timesindonesia', 'magelang', 'anda', 'ingin'...",timesindonesia magelang mencicipi kenikmatan s...,timesindonesia magelang cicip nikmat deret kul...


In [17]:
x = df['stemming'].values
y = df['Kategori'].values

In [18]:
Xtrain, Xtest,Ytrain,Ytest = train_test_split(x,y,test_size=0.2,random_state=2)

### Preprosesing

In [None]:
df['lower_text'] = df['Isi Berita'].str.lower()

df[['Isi Berita', 'lower_text']]

Unnamed: 0,Isi Berita,lower_text
0,"TIMESINDONESIA, JAKARTA – Di bawah kepemimpina...","timesindonesia, jakarta – di bawah kepemimpina..."
1,"TIMESINDONESIA, MALANG – Bakal cawabup Malang,...","timesindonesia, malang – bakal cawabup malang,..."
2,"TIMESINDONESIA, BANTUL – Rois Syuriah PCNU Ban...","timesindonesia, bantul – rois syuriah pcnu ban..."
3,"TIMESINDONESIA, MOJOKERTO – Ribuan kader PKB K...","timesindonesia, mojokerto – ribuan kader pkb k..."
4,"TIMESINDONESIA, JAKARTA – Partai Kebangkitan B...","timesindonesia, jakarta – partai kebangkitan b..."
...,...,...
95,"TIMESINDONESIA, MALANG – Azquira Scarf menggel...","timesindonesia, malang – azquira scarf menggel..."
96,"TIMESINDONESIA, MALANG – Pada Minggu (1/9/2024...","timesindonesia, malang – pada minggu (1/9/2024..."
97,"TIMESINDONESIA, SURABAYA – Memilih wewangian p...","timesindonesia, surabaya – memilih wewangian p..."
98,"TIMESINDONESIA, MAGELANG – Anda ingin mencicip...","timesindonesia, magelang – anda ingin mencicip..."


In [None]:
df['cleaned_text'] = df['lower_text'].apply(lambda text: re.sub(r'\W', ' ', text))

df[['lower_text', 'cleaned_text']]

Unnamed: 0,lower_text,cleaned_text
0,"timesindonesia, jakarta – di bawah kepemimpina...",timesindonesia jakarta di bawah kepemimpina...
1,"timesindonesia, malang – bakal cawabup malang,...",timesindonesia malang bakal cawabup malang ...
2,"timesindonesia, bantul – rois syuriah pcnu ban...",timesindonesia bantul rois syuriah pcnu ban...
3,"timesindonesia, mojokerto – ribuan kader pkb k...",timesindonesia mojokerto ribuan kader pkb k...
4,"timesindonesia, jakarta – partai kebangkitan b...",timesindonesia jakarta partai kebangkitan b...
...,...,...
95,"timesindonesia, malang – azquira scarf menggel...",timesindonesia malang azquira scarf menggel...
96,"timesindonesia, malang – pada minggu (1/9/2024...",timesindonesia malang pada minggu 1 9 2024...
97,"timesindonesia, surabaya – memilih wewangian p...",timesindonesia surabaya memilih wewangian p...
98,"timesindonesia, magelang – anda ingin mencicip...",timesindonesia magelang anda ingin mencicip...


In [None]:
df['cleaned_text'] = df['lower_text'].apply(lambda text: re.sub(r'\W', ' ', text))

df[['lower_text', 'cleaned_text']]

Unnamed: 0,lower_text,cleaned_text
0,"timesindonesia, jakarta – di bawah kepemimpina...",timesindonesia jakarta di bawah kepemimpina...
1,"timesindonesia, malang – bakal cawabup malang,...",timesindonesia malang bakal cawabup malang ...
2,"timesindonesia, bantul – rois syuriah pcnu ban...",timesindonesia bantul rois syuriah pcnu ban...
3,"timesindonesia, mojokerto – ribuan kader pkb k...",timesindonesia mojokerto ribuan kader pkb k...
4,"timesindonesia, jakarta – partai kebangkitan b...",timesindonesia jakarta partai kebangkitan b...
...,...,...
95,"timesindonesia, malang – azquira scarf menggel...",timesindonesia malang azquira scarf menggel...
96,"timesindonesia, malang – pada minggu (1/9/2024...",timesindonesia malang pada minggu 1 9 2024...
97,"timesindonesia, surabaya – memilih wewangian p...",timesindonesia surabaya memilih wewangian p...
98,"timesindonesia, magelang – anda ingin mencicip...",timesindonesia magelang anda ingin mencicip...


In [None]:
df['tokenized_text'] = df['cleaned_text'].apply(lambda text: text.split())

df[['cleaned_text', 'tokenized_text']]

Unnamed: 0,cleaned_text,tokenized_text
0,timesindonesia jakarta di bawah kepemimpina...,"[timesindonesia, jakarta, di, bawah, kepemimpi..."
1,timesindonesia malang bakal cawabup malang ...,"[timesindonesia, malang, bakal, cawabup, malan..."
2,timesindonesia bantul rois syuriah pcnu ban...,"[timesindonesia, bantul, rois, syuriah, pcnu, ..."
3,timesindonesia mojokerto ribuan kader pkb k...,"[timesindonesia, mojokerto, ribuan, kader, pkb..."
4,timesindonesia jakarta partai kebangkitan b...,"[timesindonesia, jakarta, partai, kebangkitan,..."
...,...,...
95,timesindonesia malang azquira scarf menggel...,"[timesindonesia, malang, azquira, scarf, mengg..."
96,timesindonesia malang pada minggu 1 9 2024...,"[timesindonesia, malang, pada, minggu, 1, 9, 2..."
97,timesindonesia surabaya memilih wewangian p...,"[timesindonesia, surabaya, memilih, wewangian,..."
98,timesindonesia magelang anda ingin mencicip...,"[timesindonesia, magelang, anda, ingin, mencic..."


In [None]:
stop_words = set(stopwords.words('indonesian'))

df['no_stopwords_text'] = df['tokenized_text'].apply(lambda tokens: [word for word in tokens if word not in stop_words])

df[['tokenized_text', 'no_stopwords_text']]

Unnamed: 0,tokenized_text,no_stopwords_text
0,"[timesindonesia, jakarta, di, bawah, kepemimpi...","[timesindonesia, jakarta, kepemimpinan, presid..."
1,"[timesindonesia, malang, bakal, cawabup, malan...","[timesindonesia, malang, cawabup, malang, lath..."
2,"[timesindonesia, bantul, rois, syuriah, pcnu, ...","[timesindonesia, bantul, rois, syuriah, pcnu, ..."
3,"[timesindonesia, mojokerto, ribuan, kader, pkb...","[timesindonesia, mojokerto, ribuan, kader, pkb..."
4,"[timesindonesia, jakarta, partai, kebangkitan,...","[timesindonesia, jakarta, partai, kebangkitan,..."
...,...,...
95,"[timesindonesia, malang, azquira, scarf, mengg...","[timesindonesia, malang, azquira, scarf, mengg..."
96,"[timesindonesia, malang, pada, minggu, 1, 9, 2...","[timesindonesia, malang, minggu, 1, 9, 2024, k..."
97,"[timesindonesia, surabaya, memilih, wewangian,...","[timesindonesia, surabaya, memilih, wewangian,..."
98,"[timesindonesia, magelang, anda, ingin, mencic...","[timesindonesia, magelang, mencicipi, kenikmat..."


In [None]:
# Membuat objek Stemmer dari Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Menggunakan Sastrawi untuk stemming teks
df['stemmed_text'] = df['no_stopwords_text'].apply(lambda tokens: [stemmer.stem(word) for word in tokens])
df['final_text'] = df['stemmed_text'].apply(lambda x: ' '.join(x))

df[['no_stopwords_text', 'final_text']]

Unnamed: 0,no_stopwords_text,final_text
0,"[timesindonesia, jakarta, kepemimpinan, presid...",timesindonesia jakarta pimpin presiden ri prab...
1,"[timesindonesia, malang, cawabup, malang, lath...",timesindonesia malang cawabup malang lathifah ...
2,"[timesindonesia, bantul, rois, syuriah, pcnu, ...",timesindonesia bantul rois syuriah pcnu bantul...
3,"[timesindonesia, mojokerto, ribuan, kader, pkb...",timesindonesia mojokerto ribu kader pkb kabupa...
4,"[timesindonesia, jakarta, partai, kebangkitan,...",timesindonesia jakarta partai bangkit bangsa p...
...,...,...
95,"[timesindonesia, malang, azquira, scarf, mengg...",timesindonesia malang azquira scarf gelar acar...
96,"[timesindonesia, malang, minggu, 1, 9, 2024, k...",timesindonesia malang minggu 1 9 2024 komunita...
97,"[timesindonesia, surabaya, memilih, wewangian,...",timesindonesia surabaya pilih wewangian harum ...
98,"[timesindonesia, magelang, mencicipi, kenikmat...",timesindonesia magelang cicip nikmat deret kul...


In [None]:
x = df['Isi Berita'].values
y = df['Kategori'].values

In [None]:
Xtrain, Xtest,Ytrain,Ytest = train_test_split(x,y,test_size=0.2,random_state=2)

### **TF-IDF**

In [23]:
vect = TfidfVectorizer()
X = vect.fit_transform(Xtrain)

X_array = vect.transform(Xtrain)

X_array.toarray()

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.0855273 ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.0855273 ],
       [0.09296982, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.11666782, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.010861  , ..., 0.        , 0.        ,
        0.        ]])

In [28]:
with open('tfidf_vectorizer.pkl', 'wb') as f:
    pickle.dump(vect, f)

### **Logistic Regression**

In [24]:
# Membuat model Logistic Regression
model = LogisticRegression()

# Melatih model dengan data pelatihan
model.fit(X, Ytrain)

In [29]:
# Meyimpan model
with open('logistic_model', 'wb') as f:
    pickle.dump(model, f)

#### Pengujian menggunakan data tes

In [30]:
# Load TF-IDF dan model logistic regression dari file pickle
with open("tfidf_vectorizer.pkl", "rb") as f:
    tfidf_vectorizer = pickle.load(f)

In [31]:
with open("logistic_model", "rb") as f:
    model = pickle.load(f)

In [35]:
# Transformasi data baru dengan TF-IDF yang sudah dilatih
X_new = tfidf_vectorizer.transform(Xtest)

# Lakukan prediksi dengan model logistic regression
prediksi = model.predict(X_new)

print("Prediksi:", prediksi)

Prediksi: [1 0 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1]


In [36]:
accuracy = accuracy_score(Ytest, prediksi)
print(f"Akurasi: {accuracy * 100:.2f}%")

Akurasi: 100.00%
