# Tugas Pertemuan 3 - Logistic Regression


# Mengakses file di Google Drive

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Penjelasan:

*   Tujuan: Memuat dataset menggunakan pandas untuk proses analisis dan modeling.
*  Hasil: Menampilkan beberapa baris awal dataset untuk memeriksa isinya.





In [2]:
import pandas as pd

df = pd.read_csv("/content/drive/My Drive/PPW-A/report/Tugas-PPW-A/hasil_preprocesing.csv")
df.head()

Unnamed: 0,judul,tanggal,isi_berita,kategori,berita_clean,case_folding,tokenize,stopword_removal
0,Jorge Martin Bisa Saingi Bagnaia-Marc Marquez ...,"Kamis, 28 Nov 2024 17:50 WIB","Jorge Martin mengatakan, Francesco Bagnaia dan...",Olahraga,Jorge Martin mengatakan Francesco Bagnaia dan ...,jorge martin mengatakan francesco bagnaia dan ...,"['jorge', 'martin', 'mengatakan', 'francesco',...",jorge martin francesco bagnaia marc marquez fa...
1,Tiwi Tak Ingin Sia-Siakan Kesempatan Main di W...,"Kamis, 28 Nov 2024 12:30 WIB",Pebulutangkis ganda putri Amallia Cahaya Prati...,Olahraga,Pebulutangkis ganda putri Amallia Cahaya Prati...,pebulutangkis ganda putri amallia cahaya prati...,"['pebulutangkis', 'ganda', 'putri', 'amallia',...",pebulutangkis ganda putri amallia cahaya prati...
2,"Daftar Atlet BWF World Tour Finals 2024, 6 Wak...","Rabu, 27 Nov 2024 18:50 WIB",Kejuaraan bulutangkis BWF World Tour Finals 20...,Olahraga,Kejuaraan bulutangkis BWF World Tour Finals a...,kejuaraan bulutangkis bwf world tour finals a...,"['kejuaraan', 'bulutangkis', 'bwf', 'world', '...",kejuaraan bulutangkis bwf world tour finals ha...
3,"Performanya Terus Menanjak, Putri KW Bungkam K...","Rabu, 27 Nov 2024 17:20 WIB",Putri Kusuma Wardani sempat dapat banyak kriti...,Olahraga,Putri Kusuma Wardani sempat dapat banyak kriti...,putri kusuma wardani sempat dapat banyak kriti...,"['putri', 'kusuma', 'wardani', 'sempat', 'dapa...",putri kusuma wardani kritik sukses membungkamn...
4,Marc Marquez Sukses Usir Hantu,"Rabu, 27 Nov 2024 16:15 WIB","Semusim di tim Gresini, Marc Marquez berhasil ...",Olahraga,Semusim di tim Gresini Marc Marquez berhasil m...,semusim di tim gresini marc marquez berhasil m...,"['semusim', 'di', 'tim', 'gresini', 'marc', 'm...",semusim tim gresini marc marquez berhasil meng...


**TF-IDF (Term Frequency-Inverse Document Frequency)**


---




1. **`pandas`**: Library untuk membaca, mengolah, dan menganalisis data dalam bentuk tabel (DataFrame).

2. **`train_test_split`**: Membagi dataset menjadi dua bagian:
   - **Data pelatihan**: Melatih model.
   - **Data pengujian**: Mengevaluasi performa model.

3. **`LogisticRegression`**: Algoritma untuk membuat model prediksi yang mengelompokkan data ke dalam kategori tertentu, seperti "Makanan" atau "Olahraga".

4. **Metode evaluasi (`accuracy_score`, `confusion_matrix`, `classification_report`)**:
   - **Akurasi**: Persentase prediksi benar.
   - **Confusion Matrix**: Tabel yang menunjukkan prediksi benar dan salah untuk tiap kategori.
   - **Laporan Klasifikasi**: Rangkuman evaluasi model (precision, recall, F1-score).

**Tujuan**: Membantu melatih model dan mengevaluasi keakuratannya dalam melakukan klasifikasi.

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score



1. **`TfidfVectorizer`** adalah alat untuk mengubah teks menjadi angka dengan menghitung seberapa penting suatu kata dalam dokumen dibandingkan dengan dokumen lainnya.

2. **`vectorizer.fit_transform`** mempelajari kata-kata unik dari teks di kolom `Filtering/stopword removal` dan menghitung nilai pentingnya (TF-IDF) untuk setiap kata di setiap dokumen.

3. **Hasilnya** adalah sebuah tabel (matriks) di mana:
   - **Baris** mewakili dokumen (contoh: artikel).
   - **Kolom** mewakili kata unik.
   - Angka di dalamnya adalah skor pentingnya kata (nilai TF-IDF).

Ini dilakukan agar teks bisa digunakan untuk analisis atau pelatihan model.

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Menginisialisasi TfidfVectorizer
vectorizer = TfidfVectorizer()

# Menghitung TF-IDF
tfidf_matrix = vectorizer.fit_transform(df['stopword_removal'])




1. **`texts`**: Mengambil data teks dari kolom `Filtering/stopword removal`. Jika ada data kosong, diisi dengan string kosong (`''`) agar tidak error saat diproses.

2. **`labels`**: Mengambil label atau kategori dari kolom `kategori`. Jika ada data kosong, diisi dengan label default `unknown`.

3. **`labels.unique()`**: Menampilkan daftar kategori unik yang ada di kolom `kategori` untuk memastikan label yang digunakan sudah sesuai.

**Tujuan**: Menyiapkan teks dan label untuk proses klasifikasi.

In [7]:
# Menggunakan kolom 'cleaned_text' sebagai teks input dan 'kategori' sebagai label
texts = df['stopword_removal'].fillna('')  # Mengganti NaN dengan string kosong jika ada
labels = df['kategori'].fillna('unknown')  # Mengganti NaN di kategori jika ada

# Melihat label yang digunakan untuk klasifikasi
print(labels.unique())

['Olahraga' 'Makanan']




1. **`tfidf_matrix.toarray()`**: Mengubah matriks TF-IDF yang awalnya berbentuk *sparse matrix* menjadi array (tabel biasa) agar lebih mudah diolah.

2. **`pd.DataFrame`**: Membuat DataFrame (tabel) dari array tersebut.

3. **`columns=vectorizer.get_feature_names_out()`**: Memberikan nama kolom pada DataFrame sesuai dengan kata-kata unik (*feature names*) yang dihasilkan oleh `TfidfVectorizer`.

4. **`tfidf_df.head(10)`**: Menampilkan 10 baris pertama dari DataFrame.

**Tujuan**: Menyimpan hasil TF-IDF dalam bentuk tabel yang mudah dibaca dan dianalisis, di mana:
   - **Baris**: Dokumen.
   - **Kolom**: Kata unik.
   - **Isi**: Skor TF-IDF setiap kata di dokumen tersebut.

In [8]:
# Mengubah hasilnya menjadi DataFrame
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
tfidf_df.head(10)

Unnamed: 0,aaron,abhiram,abraham,absen,acara,aci,acungi,adakah,adangan,adelia,...,yuni,yunus,yunyu,yusuf,zac,zaman,zat,zero,zita,zoom
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.050513,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.068467,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


**Spliting Data**

---




1. **`TfidfVectorizer(max_features=5000)`**:
   - Menghitung nilai TF-IDF untuk teks dengan maksimal 5.000 kata yang paling sering muncul (*top features*).
   - Tujuannya untuk menyederhanakan data dan mengurangi waktu pemrosesan.

2. **`tfidf.fit_transform(texts)`**:
   - Mengubah teks menjadi matriks TF-IDF berdasarkan kata-kata penting.

3. **`train_test_split`**:
   - Membagi data menjadi 80% untuk pelatihan (**training**) dan 20% untuk pengujian (**testing**).
   - **`random_state=42`** memastikan hasil pembagian data konsisten setiap kali dijalankan.

4. **`print(X_train.shape, X_test.shape)`**:
   - Menampilkan ukuran data pelatihan dan pengujian (jumlah dokumen dan kata yang diproses).

**Tujuan**: Menyiapkan data yang telah diubah menjadi angka (TF-IDF) untuk melatih dan menguji model klasifikasi.

In [9]:
from sklearn.model_selection import train_test_split
# Melakukan transformasi TF-IDF
tfidf = TfidfVectorizer(max_features=5000)  # Menggunakan 5000 fitur teratas
X_tfidf = tfidf.fit_transform(texts)

# Memisahkan dataset menjadi training dan testing
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, labels, test_size=0.2, random_state=42)

# Melihat bentuk dari hasil TF-IDF
print("Shape of X_train:", X_train.shape)
print("Shape of X_test:", X_test.shape)

Shape of X_train: (80, 4458)
Shape of X_test: (20, 4458)


**Modeling**

---




1. **`LogisticRegression(max_iter=1000)`**:
   - Membuat model **Logistic Regression** untuk klasifikasi data.
   - **`max_iter=1000`**: Menentukan jumlah iterasi maksimum untuk proses pelatihan, memastikan model konvergen jika diperlukan lebih banyak waktu.

2. **`model.fit(X_train, y_train)`**:
   - Melatih model menggunakan data pelatihan (`X_train`) dan label yang sesuai (`y_train`).

3. **`model.predict(X_test)`**:
   - Menggunakan model yang telah dilatih untuk memprediksi label pada data pengujian (`X_test`).

**Tujuan**: Melatih model untuk mengenali pola dalam data dan memprediksi kategori untuk data yang belum terlihat (data pengujian).

In [10]:
from sklearn.linear_model import LogisticRegression

# Membuat model Logistic Regression dengan regularisasi
model = LogisticRegression(max_iter=1000)  # Mengurangi nilai C untuk menambah regularisasi

# Melatih model dengan data yang sudah diresample (jika diperlukan)
model.fit(X_train, y_train)

# Memprediksi hasil pada data testing
y_pred = model.predict(X_test)



**Evaluasi Model**

---




1. **`accuracy_score(y_test, y_pred)`**:
   - Menghitung akurasi model, yaitu persentase prediksi yang benar dari total prediksi pada data pengujian.

2. **`print(f'Accuracy: {accuracy * 100:.2f}%')`**:
   - Menampilkan akurasi model dalam bentuk persentase.

3. **`confusion_matrix(y_test, y_pred)`**:
   - Menampilkan matriks kebingungannya, yang menunjukkan jumlah prediksi yang benar dan salah untuk setiap kategori.

4. **`classification_report(y_test, y_pred)`**:
   - Menampilkan laporan klasifikasi yang mencakup metrik seperti precision, recall, dan F1-score untuk masing-masing kategori.

5. **`cross_val_score(model, X_train, y_train, cv=5)`**:
   - Melakukan **cross-validation** untuk mengecek seberapa baik model bekerja pada data yang berbeda, dengan membagi data pelatihan menjadi 5 bagian (fold).
   - **`cv=5`**: Menggunakan 5 fold untuk cross-validation.

**Tujuan**: Mengevaluasi kinerja model dengan metrik akurasi, matriks kebingungannya, dan laporan klasifikasi, serta melakukan cross-validation untuk memastikan model tidak overfitting.

In [11]:
# Evaluasi hasil prediksi
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy * 100:.2f}%')

# Menampilkan confusion matrix dan laporan klasifikasi
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

# Alternatif: Menggunakan cross-validation untuk mengecek overfitting
from sklearn.model_selection import cross_val_score

# Menggunakan cross-validation
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
print(f'Cross-validation accuracy: {cv_scores.mean() * 100:.2f}%')


Accuracy: 100.00%
Confusion Matrix:
[[ 8  0]
 [ 0 12]]

Classification Report:
              precision    recall  f1-score   support

     Makanan       1.00      1.00      1.00         8
    Olahraga       1.00      1.00      1.00        12

    accuracy                           1.00        20
   macro avg       1.00      1.00      1.00        20
weighted avg       1.00      1.00      1.00        20

Cross-validation accuracy: 93.75%



1. **`pickle.dump(vectorizer, tfidf_file)`**:
   - Menyimpan objek **TF-IDF vectorizer** ke dalam file bernama `tfidf_vectorizer.pkl` menggunakan **pickle**. Ini memungkinkan untuk memuat kembali vectorizer yang sama di lain waktu tanpa perlu menghitung ulang TF-IDF.

2. **`pickle.dump(model, model_file)`**:
   - Menyimpan **model Logistic Regression** ke dalam file bernama `logistic_regression_model.pkl`.

**Tujuan**: Menyimpan model dan vectorizer yang telah dilatih ke dalam file, agar bisa digunakan lagi di masa depan tanpa perlu melatih ulang.

In [12]:
# Simpan TF-IDF vectorizer dan model
import pickle

with open('tfidf_vectorizer.pkl', 'wb') as tfidf_file:
    pickle.dump(vectorizer, tfidf_file)

with open('logistic_regression_model.pkl', 'wb') as model_file:
    pickle.dump(model, model_file)

**Pengujian**


----



1. **`joblib.load('tfidf_vectorizer.pkl')`**:
   - Memuat kembali **TF-IDF vectorizer** yang sudah disimpan sebelumnya, dari file `tfidf_vectorizer.pkl`.

2. **`joblib.load('logistic_regression_model.pkl')`**:
   - Memuat kembali **model Logistic Regression** yang sudah disimpan sebelumnya, dari file `logistic_regression_model.pkl`.

**Tujuan**: Mengambil kembali model dan vectorizer yang sudah disimpan, sehingga bisa digunakan untuk prediksi tanpa perlu melatih ulang.

In [13]:
import joblib

# Memuat vectorizer dan model
tfidf = joblib.load('tfidf_vectorizer.pkl')
model = joblib.load('logistic_regression_model.pkl')



1. **`new_text_1` dan `new_text_2`**:
   - Dua teks baru yang berisi artikel. Teks pertama tentang balapan MotoGP (Olahraga), dan teks kedua tentang kuliner viral (Makanan).

2. **`new_text = new_text_1 + new_text_2`**:
   - Menggabungkan kedua teks baru ke dalam satu list untuk diproses bersama.

3. **`new_text_tfidf = tfidf.transform(new_text)`**:
   - Melakukan transformasi teks baru menggunakan **TF-IDF vectorizer** yang telah dilatih sebelumnya. Ini mengubah teks menjadi representasi numerik agar bisa diprediksi oleh model.

4. **`predictions = model.predict(new_text_tfidf)`**:
   - Menggunakan **Logistic Regression model** yang sudah dilatih untuk memprediksi kategori (Makanan atau Olahraga) untuk setiap teks.

5. **`predicted_categories = ["Makanan" if prediction == 'Makanan' else "Olahraga" for prediction in predictions]`**:
   - Mengubah hasil prediksi numerik dari model menjadi kategori yang lebih mudah dipahami (Makanan atau Olahraga).

6. **`for i, category in enumerate(predicted_categories):`**:
   - Menampilkan hasil prediksi untuk setiap teks baru.

**Tujuan**: Memprediksi kategori (Makanan atau Olahraga) dari teks baru menggunakan model yang sudah dilatih.

In [14]:
# Teks baru yang ingin diprediksi
new_text_1 = [''' Jakarta - Rider Ducati, Enea Bastianini, memetik kemenangan di MotoGP Emilia Romagna 2024. Dia menyebut pencapaian itu luar biasa.
Di Sirkuit Misano, Minggu (22/9/2024), Bastianini menjadi yang tercepat dalam 27 balapan. Dia menyalip rider Pramac Ducati Jorge Martin pada lap terakhir dengan catatan waktu 41 menit 14,653 detik.
Momen Bastianini menyalip Martin terjadi pada tikungan empat. Martin beberapa kalai goyang saat mengendarai motor, Bastianini mengambil sisi dalam tikungan untuk bisa merebut posisi terdepan."Ini adalah balapan yang luar biasa. Jorge melaju dengan sempurna dan terlalu sulit untuk mencoba melewatinya," kata Bastianini di Marca.
"Pada lap terakhir, saya melihat sedikit ruang di tikungan 4 dan saya sedikit melewati batas, tapi pada akhirnya saya bisa menutup jalur."
"Luar biasa bisa mendapat kemenangan hari ini dan kembali ke podium teratas," kata dia menambahkan.
Dengan kemenangan Bastianini, Ducati mencatatkan sejarah. Tim pabrikan asal Italia itu meraih kemenangan ke-100. Lebih istimewanya lagi, hasil itu didapat saat balapan kandang.
Sementara bagi Bastianini, ini merupakan kemenangan kedua di MotoGP 2024. Sebelumnya, dia juga berhasil menjadi pemenang di MotoGP Inggris.
''']

new_text_2 = [''' Jakarta - Banyak kuliner viral yang populer beberapa bulan saja.Namun, ada juga kuliner viral yang bertahan hingga sekarang. Tersebar di Jakarta dan Bandung.
Kuliner viral bermunculan di media sosial, kebanyakan berasal dari Jakarta dan Bandung. Beberapa kuliner viral ini ramai diburu para pelanggannya, tetapi banyak juga yang populernya hanya sesaat saja.
Beberapa kuliner viral di Jakarta dan Bandung berikut ini masih ramai dan populer. Di antaranya gultik, kuotie, hingga sate jando.
Berikut 5 kuliner viral yang sampai sekarang masih ramai:
1. Gultik
Foodies Jakarta pasti sudah tak asing lagi dengan makanan satu ini, namanya gultik atau gulai tikungan. Gultik banyak ditawarkan oleh penjual kaki lima di kawasan Blok M, Jakarta Selatan. Tepatnya berada di dekat Plaza Blok M dan Bulungan.
Tempat makan gultik di Blok M ada sangat banyak, kamu bisa memilih salah satu di antaranya karena rasa yang ditawarkan tak jauh berbeda. Seporsi gultik dibanderol mulai dari Rp 15.000, untuk satenya sekitar Rp 5.000 saja.
2. Kuotie Jalan Nanas
Kuotie Mas Iman atau yang kini disebut Kuotie Jalan Nanas ini sangat viral. Lokasinya ada di Jalan Nanas, Bandung, tepat berjualan di depan kafe Little Contrast.
Penjualnya hanya menggunakan gerobak sederhana, tapi kuotie ini laris-manis diantre pelanggan. Dalam sehari, kuotie ini bisa habis sekitar 1.000 buah. Untuk isinya halal, menggunakan daging ayam, kucai, dan telur.
Kuotie ini ditawarkan dengan harga Rp 5.000 per buahnya. Biasanya orang minimal akan memesan 10 buah dengan harga Rp 50.000. Selain makan di tempat, kuotie ini juga bisa dijadikan oleh-oleh lho! ''']

# Gabungkan kedua teks menjadi satu list
new_text = new_text_1 + new_text_2

# Preprocessing dan transformasi menggunakan TF-IDF yang sudah disimpan
new_text_tfidf = tfidf.transform(new_text)

# Melakukan prediksi menggunakan model Logistic Regression
predictions = model.predict(new_text_tfidf)

# Hasil prediksi
predicted_categories = ["Makanan" if prediction == 'Makanan' else "Olahraga" for prediction in predictions]

# Output hasil prediksi untuk masing-masing teks
for i, category in enumerate(predicted_categories):
    print(f"Prediksi untuk teks {i+1}: {category}")



Prediksi untuk teks 1: Olahraga
Prediksi untuk teks 2: Makanan
