# Implementasi Reduksi Dimensi PTA Dataset dengan Menggunakan Modelling Naive Bayes dan Term Frequensi

## Import Library

In [4]:
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.feature_extraction.text import CountVectorizer

import joblib
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

Kode di atas adalah sebuah skrip Python yang mengimpor berbagai pustaka dan modul. Berikut adalah penjelasan singkat dari setiap baris kode:

- `from nltk.tokenize import sent_tokenize`: mengimpor fungsi `sent_tokenize` dari pustaka Natural Language Toolkit (NLTK), yang digunakan untuk membagi teks menjadi kalimat-kalimat.
- `from sklearn.feature_extraction.text import TfidfVectorizer`: mengimpor kelas `TfidfVectorizer` dari pustaka scikit-learn, yang digunakan untuk mengubah teks menjadi matriks fitur TF-IDF.
- `from sklearn.metrics.pairwise import cosine_similarity`: mengimpor fungsi `cosine_similarity` dari scikit-learn, yang digunakan untuk menghitung kemiripan kosinus antara dua vektor.
- `from sklearn.naive_bayes import GaussianNB`: mengimpor kelas `GaussianNB` dari scikit-learn, yang digunakan untuk mengimplementasikan algoritma Naive Bayes Gaussian untuk klasifikasi.
- `from sklearn.svm import SVC`: mengimpor kelas `SVC` dari scikit-learn, yang digunakan untuk mengimplementasikan algoritma Support Vector Machine untuk klasifikasi.
- `from sklearn.model_selection import train_test_split`: mengimport fungsi `train_test_split` dari scikit-learn, yang digunakan untuk membagi dataset menjadi data latih dan data uji.
- `from sklearn.metrics import accuracy_score, classification_report, confusion_matrix`: mengimport berbagai fungsi dari scikit-learn untuk mengevaluasi performa model klasifikasi.
- `import networkx as nx`: mengimport pustaka `networkx`, yang digunakan untuk membuat dan graph.
- `import seaborn as sns`: mengimpor pustaka `seaborn`, yang digunakan untuk membuat visualisasi.
- `import matplotlib.pyplot as plt`: mengimpor modul `pyplot` dari pustaka `matplotlib`, yang digunakan untuk membuat plot dan grafik.
- `import warnings`: mengimpor modul `warnings`, yang digunakan untuk menekan pesan peringatan.
- `import pandas as pd`: mengimpor pustaka `pandas`, yang digunakan untuk bekerja dengan data dalam bentuk tabel.
- `import numpy as np`: mengimpor pustaka `numpy`, yang digunakan untuk bekerja dengan array dan matriks.
- `import nltk`: mengimport pustaka Natural Language Toolkit (NLTK).
- `import re`: mengimpor modul `re`, yang digunakan untuk bekerja dengan ekspresi reguler.
- `import joblib`: mengimpor modul `joblib`, yang digunakan untuk menyimpan dan memuat model.

Skrip ini juga mengunduh dua korpus NLTK, `stopwords` dan `punkt`, yang digunakan untuk penghapusan stopwords dan tokenisasi, masing-masing.



## Load Dataset Term Frequensi

Kode di bawah adalah sebuah skrip Python yang digunakan untuk membaca file CSV dan memuatnya ke dalam sebuah DataFrame menggunakan pustaka pandas.
Berikut adalah penjelasan singkat dari setiap baris kode:

1. `import pandas as pd`: mengimpor pustaka pandas sebagai `pd`.
2. `df = pd.read_csv('/content/drive/MyDrive/PPW/PPW/Resource/Term Frequensi.csv')`: membaca file CSV dari lokasi tertentu menggunakan fungsi `read_csv` dari pustaka pandas dan menyimpannya ke dalam variabel `df`.
3. `df`: mencetak DataFrame `df` ke layar.

Fungsi `read_csv` dari pustaka pandas digunakan untuk membaca file CSV dan mengembalikan DataFrame yang berisi data dari file tersebut. Fungsi ini menerima beberapa parameter, termasuk `filepath_or_buffer`, yang merupakan path atau URL ke file CSV yang akan dibaca. Dalam kasus ini, path file CSV adalah `/content/drive/MyDrive/PPW/PPW/Resource/Term Frequensi.csv`. DataFrame yang dihasilkan kemudian disimpan dalam variabel `df`.



In [5]:
df = pd.read_csv('/content/drive/MyDrive/PPW/PPW/Resource/Term Frequensi.csv')
df

Unnamed: 0,Dokumen,aalysis,aam,ab,abad,abadi,ability,abjad,absensi,absolut,...,zat,zcz,zf,zona,zone,zoning,zoom,zucara,zungu,Label
0,sistem informasi akademik siakad sistem inform...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,RPL
1,berjalannya koneksi jaringan komputer lancar g...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,RPL
2,web server perangkat lunak server berfungsi me...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,RPL
3,penjadwalan kuliah perguruan kompleks permasal...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
4,seiring perkembangan teknologi didunia muncul ...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
823,kurangnya pemahaman gejala penyakit saluran pe...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
824,data set hilang utama studi bersifat substansi...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
825,proses seleksi penerimaan tenaga kerja faktor ...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
826,sapi salah hewan ternak komoditi utama bahan p...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK


##  Cek Jumlah Nilai Null Atau Kosong Pada Setiap Kolom

Kode di bawah adalah sebuah skrip Python yang digunakan untuk menghitung jumlah nilai null atau kosong pada setiap kolom dalam sebuah DataFrame menggunakan pustaka pandas.

Pada baris pertama, `df` adalah sebuah DataFrame yang telah dimuat sebelumnya. Pada baris kedua, `isnull()` adalah sebuah metode dari pustaka pandas yang digunakan untuk mendeteksi nilai null atau kosong dalam sebuah DataFrame. Metode ini mengembalikan DataFrame yang berisi nilai boolean True untuk nilai null atau kosong, dan False untuk nilai yang tidak null atau kosong. Pada baris ketiga, `sum()` adalah sebuah metode dari pustaka pandas yang digunakan untuk menghitung jumlah nilai True dalam setiap kolom DataFrame. Metode ini mengembalikan sebuah Series yang berisi jumlah nilai True dalam setiap kolom.




In [6]:
df.isnull().sum()

Dokumen    36
aalysis     0
aam         0
ab          0
abad        0
           ..
zoning      0
zoom        0
zucara      0
zungu       0
Label      30
Length: 9050, dtype: int64

## Menghapus Baris Yang Mengandung Nilai Null Atau Kosong Dari Sebuah DataFrame

Kode di bawah adalah sebuah skrip Python yang digunakan untuk menghapus baris yang mengandung nilai null atau kosong dari sebuah DataFrame menggunakan pustaka pandas.

Pada baris pertama, `df` adalah sebuah DataFrame yang telah dimuat sebelumnya. Pada baris kedua, `dropna()` adalah sebuah metode dari pustaka pandas yang digunakan untuk menghapus baris yang mengandung nilai null atau kosong dari sebuah DataFrame. Metode ini mengembalikan DataFrame yang telah dihapus barisnya. Pada baris ketiga, DataFrame yang telah dihapus barisnya disimpan kembali ke dalam variabel `df`.





In [7]:
df = df.dropna()

## Deklarasi X dan y Dengan Drop Fitur Dokumen Dan Label

Dalam proses ini melakukan pemisahan antara fitur (X) dan target (y) dalam DataFrame df untuk digunakan dalam proses pemodelan. Berikut penjelasan singkatnya:

X = df.drop(['Dokumen', 'Label'], axis=1): Ini adalah perintah yang menghasilkan DataFrame X yang berisi fitur atau atribut dari data. Dalam hal ini, Anda sedang menghapus dua kolom, yaitu ‘Dokumen’ dan ‘Label’, dari DataFrame df menggunakan metode drop dengan parameter axis=1. Hasilnya adalah DataFrame X yang berisi semua kolom kecuali ‘Dokumen’ dan ‘Label’. Fitur-fitur ini akan digunakan dalam pemodelan.

y = df['Label']: Ini adalah perintah yang menghasilkan Series y yang berisi target atau label yang ingin diprediksi. Dalam hal ini, Anda hanya mengambil kolom ‘Label’ dari DataFrame df dan menyimpannya dalam Series y. Ini adalah variabel yang akan menjadi target dalam pemodelan klasifikasi.

In [8]:
X = df.drop(['Dokumen', 'Label'], axis=1)
y = df['Label']

In [9]:
X

Unnamed: 0,aalysis,aam,ab,abad,abadi,ability,abjad,absensi,absolut,absolute,...,zara,zat,zcz,zf,zona,zone,zoning,zoom,zucara,zungu
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
823,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
824,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
825,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
826,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## Splitting Data

Dalam proses ini menggunakan modul train_test_split dari Scikit-Learn untuk membagi dataset menjadi subset pelatihan (training) dan pengujian (testing). Berikut penjelasan singkat tentang apa yang terjadi:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42): Ini adalah perintah yang membagi data menjadi empat subset, yaitu X_train (fitur pelatihan), X_test (fitur pengujian), y_train (target pelatihan), dan y_test (target pengujian).

X adalah DataFrame yang berisi fitur.

y adalah Series yang berisi target atau label.

test_size=0.3 menentukan bahwa 30% dari data akan digunakan sebagai data pengujian, sementara 70% akan digunakan sebagai data pelatihan.

random_state=42 digunakan untuk mengatur nilai seed agar pembagian data dapat direproduksi dengan hasil yang konsisten. Anda dapat menggantinya dengan nilai lain jika diperlukan.

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Deklarasi K, Alpha, dan Beta

In [11]:
k = 3
alpha = 0.1
beta = 0.2



## Latent Dirichlet Allocation (LDA)

In [12]:
lda = LatentDirichletAllocation(n_components=k, doc_topic_prior=alpha, topic_word_prior=beta)
proporsi_topik_dokumen = lda.fit_transform(X)

## Tampilan Hasil Reduksi Dimensi

In [13]:
dokumen = df['Dokumen']
output_proporsi_TD = pd.DataFrame(proporsi_topik_dokumen, columns=['Topik 1', 'Topik 2', 'Topik 3'])
output_proporsi_TD.insert(0,'Dokumen', dokumen)
output_proporsi_TD.insert(len(output_proporsi_TD.columns),'Label', df['Label'])
output_proporsi_TD

Unnamed: 0,Dokumen,Topik 1,Topik 2,Topik 3,Label
0,sistem informasi akademik siakad sistem inform...,0.001215,0.997569,0.001215,RPL
1,berjalannya koneksi jaringan komputer lancar g...,0.000950,0.998100,0.000950,RPL
2,web server perangkat lunak server berfungsi me...,0.000915,0.998170,0.000915,RPL
3,penjadwalan kuliah perguruan kompleks permasal...,0.001486,0.001486,0.997027,KK
4,seiring perkembangan teknologi didunia muncul ...,0.001201,0.997599,0.001201,KK
...,...,...,...,...,...
787,teknologi berkembang pesat mendorong meningkat...,0.000853,0.998294,0.000853,KK
788,temu citra image retrieval sistem pencarian ci...,0.504017,0.494738,0.001246,KK
789,ilmu pengetahuan alam sains salah ilmu dunia p...,0.998728,0.000636,0.000636,RPL
790,jantung salah organ tubuh manusia jantung berp...,0.708104,0.000773,0.291123,KK


## Save Data hasil reduksi dimensi

In [14]:
output_proporsi_TD.to_csv('reduksi dimensi.csv')

## Tampilan proporsi kata di tiap topik

In [15]:
# Output distribusi kata pada topik
distribusi_kata_topik = pd.DataFrame(lda.components_)
distribusi_kata_topik

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,9038,9039,9040,9041,9042,9043,9044,9045,9046,9047
0,1.2,0.2,0.2,1.187439,0.2,1.186761,3.2,0.200467,0.217151,5.19976,...,0.201594,0.210009,0.201803,16.2,0.2,0.20148,0.201443,0.2,0.2,0.2
1,0.2,2.187558,0.205148,0.212561,0.209835,0.213239,0.2,4.2,0.2,0.20024,...,0.2,1.189991,0.2,0.2,0.2,0.2,0.2,1.2,1.2,1.2
2,0.2,0.212442,1.194852,1.2,2.190165,0.2,0.2,2.199532,1.182849,0.2,...,2.198406,0.2,1.198197,0.2,8.2,3.19852,4.198557,0.2,0.2,0.2


#Modeling Menggunakan Naive Bayes

In [16]:
# Impor library yang diperlukan
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import joblib


# Memuat dataset Dokumen
X = df.drop(['Dokumen', 'Label'], axis=1)
y = df['Label']

k = 3
alpha = 0.1
beta = 0.2

# Memisahkan dataset menjadi data pelatihan dan data pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
lda = LatentDirichletAllocation(n_components=k, doc_topic_prior=alpha, topic_word_prior=beta)

result_lda_X_train = lda.fit_transform(X_train)
result_lda_X_test = lda.transform(X_test)

# Membuat model Naive Bayes
model = GaussianNB()

# Melatih model pada data pelatihan
model.fit(result_lda_X_train, y_train)

# Melakukan prediksi pada data pengujian
y_pred = model.predict(result_lda_X_test)

# Menghitung akurasi
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi:", accuracy)

# Menampilkan laporan klasifikasi
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))

# Menampilkan matriks kebingungan
confusion = confusion_matrix(y_test, y_pred)
print("Confusion Matriks:")
print(confusion)

Akurasi: 0.6512605042016807
Laporan Klasifikasi:
              precision    recall  f1-score   support

          KK       0.65      1.00      0.79       155
         RPL       0.00      0.00      0.00        83

    accuracy                           0.65       238
   macro avg       0.33      0.50      0.39       238
weighted avg       0.42      0.65      0.51       238

Confusion Matriks:
[[155   0]
 [ 83   0]]


## Predict

In [17]:
data = ["Penelitian ini menggabungkan konsep kecerdasan buatan dengan algoritma penjadwalan dalam upaya meningkatkan efisiensi produksi dalam lingkungan manufaktur. Kami memperkenalkan pendekatan yang memanfaatkan kecerdasan komputasional, yaitu algoritma optimasi berbasis swarm intelligence, seperti algoritma PSO (Particle Swarm Optimization) dan algoritma ACO (Ant Colony Optimization). Tujuan utama penelitian ini adalah untuk mengoptimalkan jadwal produksi dengan meminimalkan waktu produksi dan biaya, sambil mempertimbangkan berbagai kendala produksi seperti kapasitas mesin, waktu pemrosesan, dan persyaratan bahan baku. Melalui eksperimen dan simulasi, kami membandingkan hasil dari algoritma swarm intelligence dengan pendekatan konvensional. Hasilnya menunjukkan bahwa algoritma PSO dan ACO dapat menghasilkan jadwal produksi yang lebih efisien, dengan waktu produksi yang lebih pendek dan biaya yang lebih rendah. Selain itu, algoritma ini mampu beradaptasi dengan perubahan dalam lingkungan produksi dan menghasilkan jadwal yang optimal bahkan dalam situasi yang kompleks. Penelitian ini menunjukkan potensi besar dari penggunaan kecerdasan komputasional dalam meningkatkan efisiensi dan produktivitas dalam industri manufaktur. Hasil penelitian ini dapat digunakan sebagai dasar untuk mengembangkan sistem penjadwalan cerdas yang dapat diterapkan dalam berbagai industri."]
vectorizer = joblib.load('/content/drive/MyDrive/PPW/PPW/tf_vectorizer.pkl')
a = vectorizer.transform(data).toarray()
b = lda.transform(a)
model.predict(b)

array(['KK'], dtype='<U3')

## Save Model

In [18]:
# Simpan model ke dalam file
joblib.dump(model, 'NB.pkl')

['NB.pkl']

In [19]:
# Simpan model ke dalam file
joblib.dump(lda, 'LDA.pkl')

['LDA.pkl']