# Naive Bayes Dengan Reduksi Dimensi & Modeling (Term Frequensi)

## Import Library

In [2]:
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.feature_extraction.text import CountVectorizer

import joblib
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

Kode di atas adalah impor pustaka dan modul yang diperlukan untuk melakukan analisis teks dengan Naive Bayes, termasuk penggunaan Latent Dirichlet Allocation (LDA) untuk reduksi dimensi dan ekstraksi fitur teks. Berikut penjelasan singkat tentang setiap modul yang diimpor:

- `from sklearn.decomposition import LatentDirichletAllocation`: Ini mengimpor modul LatentDirichletAllocation dari pustaka Scikit-Learn. LDA adalah algoritma yang digunakan untuk reduksi dimensi dalam analisis teks, terutama untuk topik modeling.

- `from sklearn.model_selection import train_test_split`: Modul `train_test_split` dari Scikit-Learn digunakan untuk membagi dataset ke dalam subset pelatihan dan pengujian. Ini adalah langkah yang umum dalam pemodelan dan evaluasi.

- `from sklearn.naive_bayes import GaussianNB`: Ini mengimpor modul `GaussianNB` dari Scikit-Learn, yang merupakan implementasi Naive Bayes dengan distribusi Gaussian. Ini adalah salah satu varian algoritma Naive Bayes yang dapat digunakan dalam klasifikasi.

- `from sklearn.metrics import accuracy_score, classification_report, confusion_matrix`: Ini mengimpor beberapa modul yang digunakan untuk mengevaluasi kinerja model klasifikasi. `accuracy_score` digunakan untuk mengukur akurasi model, `classification_report` memberikan ringkasan berbagai metrik evaluasi, dan `confusion_matrix` digunakan untuk menganalisis hasil klasifikasi.

- `from sklearn.feature_extraction.text import CountVectorizer`: Modul `CountVectorizer` digunakan untuk mengubah teks menjadi vektor Term Frequensi (TF), yang dapat digunakan sebagai fitur dalam pemodelan klasifikasi.

- `import joblib`: Ini mengimpor modul `joblib`, yang dapat digunakan untuk menyimpan dan memuat model yang telah dilatih.

- `import pandas as pd`: Modul `pandas` digunakan untuk manipulasi data, termasuk membaca dan menyimpan data dalam bentuk DataFrame.

- `import warnings`: Modul `warnings` digunakan untuk mengelola dan menghilangkan peringatan yang muncul selama proses eksekusi kode.

## Load Dataset (transform to Term Frequency)

Dalam kode di bawah, program ini menggunakan pustaka `pandas` untuk membaca sebuah file CSV dari lokasi yang diberikan, dan kemudian menampilkan isi DataFrame tersebut. Ini berguna ketika Anda ingin memuat dan mengeksplorasi data dari file CSV yang sudah ada.

Berikut penjelasan singkatnya:

- `df = pd.read_csv('/content/drive/MyDrive/Kuliah /Semester 7/Pencarian Dan Penambangan Web/ppw/pages/Term Frequensi.csv')`: Ini adalah perintah yang menggunakan `pandas` untuk membaca data dari file CSV yang terletak pada jalur tertentu. Anda memberikan jalur lengkap ke file CSV yang ingin dibaca, dan hasilnya dimuat ke dalam variabel `df`. Variabel `df` adalah objek DataFrame yang berisi data dari file CSV.

- `df`: Setelah Anda membaca data dari file CSV ke dalam DataFrame, perintah ini akan menampilkan seluruh isi DataFrame tersebut.

Jadi, dengan melakukan perintah tersebut, Anda telah memuat data dari file CSV ke dalam DataFrame dan menampilkan isi dari DataFrame tersebut di lingkungan kerja Anda, yang memungkinkan Anda untuk melihat, menganalisis, atau melakukan operasi lain pada data tersebut.

In [3]:
df = pd.read_csv('/content/drive/MyDrive/Kuliah /Semester 7/Pencarian Dan Penambangan Web/ppw/pages/Term Frequensi.csv')
df

Unnamed: 0,Dokumen,aalysis,aam,ab,abad,abadi,ability,abjad,absensi,absolut,...,zat,zcz,zf,zona,zone,zoning,zoom,zucara,zungu,Label
0,sistem informasi akademik siakad sistem inform...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,RPL
1,berjalannya koneksi jaringan komputer lancar g...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,RPL
2,web server perangkat lunak server berfungsi me...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,RPL
3,penjadwalan kuliah perguruan kompleks permasal...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
4,seiring perkembangan teknologi didunia muncul ...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
823,kurangnya pemahaman gejala penyakit saluran pe...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
824,data set hilang utama studi bersifat substansi...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
825,proses seleksi penerimaan tenaga kerja faktor ...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK
826,sapi salah hewan ternak komoditi utama bahan p...,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,KK


## Cek NULL Data

Perintah `df.isnull().sum()` digunakan untuk menghitung jumlah nilai-nilai yang hilang (missing values) dalam DataFrame `df`. Ini akan memberikan jumlah nilai-nilai yang hilang untuk setiap kolom dalam DataFrame. Hasilnya akan berupa deret data yang menunjukkan berapa banyak nilai yang hilang dalam masing-masing kolom.

In [4]:
df.isnull().sum()

Dokumen    36
aalysis     0
aam         0
ab          0
abad        0
           ..
zoning      0
zoom        0
zucara      0
zungu       0
Label      30
Length: 9050, dtype: int64

## Drop NULL Data

Perintah `df.dropna()` digunakan untuk menghapus baris (dokumen) yang mengandung setidaknya satu nilai yang hilang (NaN) dari DataFrame `df`. Ini adalah cara untuk mengatasi data yang hilang dalam dataset Anda.

In [5]:
df = df.dropna()

## Deklarasi X dan y dengan drop fitur dokumen dan label

Dalam proses ini melakukan pemisahan antara fitur (X) dan target (y) dalam DataFrame `df` untuk digunakan dalam proses pemodelan. Berikut penjelasan singkatnya:

- `X = df.drop(['Dokumen', 'Label'], axis=1)`: Ini adalah perintah yang menghasilkan DataFrame `X` yang berisi fitur atau atribut dari data. Dalam hal ini, Anda sedang menghapus dua kolom, yaitu 'Dokumen' dan 'Label', dari DataFrame `df` menggunakan metode `drop` dengan parameter `axis=1`. Hasilnya adalah DataFrame `X` yang berisi semua kolom kecuali 'Dokumen' dan 'Label'. Fitur-fitur ini akan digunakan dalam pemodelan.

- `y = df['Label']`: Ini adalah perintah yang menghasilkan Series `y` yang berisi target atau label yang ingin diprediksi. Dalam hal ini, Anda hanya mengambil kolom 'Label' dari DataFrame `df` dan menyimpannya dalam Series `y`. Ini adalah variabel yang akan menjadi target dalam pemodelan klasifikasi.

In [6]:
X = df.drop(['Dokumen', 'Label'], axis=1)
y = df['Label']

In [7]:
X

Unnamed: 0,aalysis,aam,ab,abad,abadi,ability,abjad,absensi,absolut,absolute,...,zara,zat,zcz,zf,zona,zone,zoning,zoom,zucara,zungu
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
823,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
824,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
825,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
826,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [8]:
y

0      RPL
1      RPL
2      RPL
3       KK
4       KK
      ... 
823     KK
824     KK
825     KK
826     KK
827     KK
Name: Label, Length: 792, dtype: object

## Splitting Data

Dalam proses ini menggunakan modul `train_test_split` dari Scikit-Learn untuk membagi dataset menjadi subset pelatihan (training) dan pengujian (testing). Berikut penjelasan singkat tentang apa yang terjadi:

- `X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)`: Ini adalah perintah yang membagi data menjadi empat subset, yaitu `X_train` (fitur pelatihan), `X_test` (fitur pengujian), `y_train` (target pelatihan), dan `y_test` (target pengujian).

    - `X` adalah DataFrame yang berisi fitur.
    - `y` adalah Series yang berisi target atau label.
    - `test_size=0.3` menentukan bahwa 30% dari data akan digunakan sebagai data pengujian, sementara 70% akan digunakan sebagai data pelatihan.
    - `random_state=42` digunakan untuk mengatur nilai seed agar pembagian data dapat direproduksi dengan hasil yang konsisten. Anda dapat menggantinya dengan nilai lain jika diperlukan.

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Deklarasi K, Alpha, dan Beta

In [10]:
k = 3
alpha = 0.1
beta = 0.2

## LDA

Dalam langkah berikutnya, saya menggunakan algoritma yang disebut Latent Dirichlet Allocation atau LDA untuk mengurangi dimensi data teks. LDA adalah algoritma yang membantu saya mengidentifikasi topik-topik utama yang muncul dalam dokumen-dokumen saya. Hasil dari ini adalah representasi dokumen-dalam-topik, yang artinya kita menggambarkan setiap dokumen sebagai kombinasi dari topik-topik yang ada.

Kami menerapkan LDA pada data pelatihan, yang menghasilkan matriks yang disebut `lda_x_train`. Matriks ini berisi representasi dokumen-dalam-topik untuk data pelatihan. Ini adalah cara kita menggambarkan hubungan antara dokumen dan topik dalam data pelatihan.

Kemudian, saya menggunakan model LDA yang sudah kita latih pada data pelatihan untuk mengubah data pengujian menjadi representasi dokumen-dalam-topik yang saya sebut sebagai `lda_x_test`. Ini membantu saya dalam memahami bagaimana dokumen-dokumen pengujian terkait dengan topik-topik yang telah saya identifikasi sebelumnya.

Dengan mengubah data teks ke dalam representasi topik-topik ini, saya memungkinkan penggunaan informasi ini dalam analisis lebih lanjut atau dalam pemodelan klasifikasi. Ini adalah salah satu cara di mana saya dapat mengolah dan memahami data teks dengan lebih baik."

In [11]:
lda = LatentDirichletAllocation(n_components=k, doc_topic_prior=alpha, topic_word_prior=beta)
lda_x_train = lda.fit_transform(X_train)
lda_x_test = lda.transform(X_test)

## Tampilan Hasil Reduksi Dimensi

In [12]:
dokumen = df['Dokumen']
output_proporsi_TD = pd.DataFrame(lda_x_train, columns=['Topik 1', 'Topik 2', 'Topik 3'])
output_proporsi_TD.insert(0,'Dokumen', dokumen)
output_proporsi_TD.insert(len(output_proporsi_TD.columns),'Label', df['Label'])
output_proporsi_TD

Unnamed: 0,Dokumen,Topik 1,Topik 2,Topik 3,Label
0,sistem informasi akademik siakad sistem inform...,0.001464,0.997071,0.001464,RPL
1,berjalannya koneksi jaringan komputer lancar g...,0.998250,0.000875,0.000875,RPL
2,web server perangkat lunak server berfungsi me...,0.001146,0.001146,0.997709,RPL
3,penjadwalan kuliah perguruan kompleks permasal...,0.001173,0.997655,0.001173,KK
4,seiring perkembangan teknologi didunia muncul ...,0.001061,0.001061,0.997879,KK
...,...,...,...,...,...
549,audit teknologi informasi proses mengumpulkan ...,0.001108,0.997785,0.001108,RPL
550,tanda tangan bentuk khusus tulisan tangan meng...,0.000959,0.998082,0.000959,KK
551,tanda tangan palsu keperluan mengatasi tercipt...,0.001133,0.362399,0.636469,KK
552,kesehatan anak memiliki usia dibawah istilahny...,0.001039,0.001039,0.997923,KK


## Save Data hasil reduksi dimensi

In [13]:
output_proporsi_TD.to_csv('reduksi dimensi.csv')

## Tampilan proporsi kata di tiap topik

In [15]:
# Output distribusi kata pada topik
distribusi_kata_topik = pd.DataFrame(lda.components_)
distribusi_kata_topik

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,9038,9039,9040,9041,9042,9043,9044,9045,9046,9047
0,0.2,0.2,0.2,0.2,2.2,0.2,0.2,1.128711,0.2,3.191022,...,0.459034,1.2,0.2,0.204187,0.2,0.2,0.2,0.2,1.198183,1.198183
1,0.2,0.2,0.2,0.2,0.2,1.181637,3.2,0.271289,0.2,0.2,...,0.2,0.2,1.2,9.195813,0.2,3.2,4.2,0.2,0.2,0.2
2,0.2,0.2,1.2,1.2,0.2,0.218363,0.2,0.2,0.2,0.208978,...,1.940965,0.2,0.2,0.2,0.2,0.2,0.2,0.2,0.201817,0.201817


## Modeling Naive Bayes

In [16]:
# Membuat model Naive Bayes
model = GaussianNB()

# Melatih model pada data pelatihan
model.fit(lda_x_train, y_train)

# Melakukan prediksi pada data pengujian
y_pred = model.predict(lda_x_test)

# Menghitung akurasi
accuracy = accuracy_score(y_test, y_pred)
print("Akurasi:", accuracy)

# Menampilkan laporan klasifikasi
print("Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))

# Menampilkan matriks kebingungan
confusion = confusion_matrix(y_test, y_pred)
print("Confusion Matriks:")
print(confusion)

Akurasi: 0.6512605042016807
Laporan Klasifikasi:
              precision    recall  f1-score   support

          KK       0.65      1.00      0.79       155
         RPL       0.00      0.00      0.00        83

    accuracy                           0.65       238
   macro avg       0.33      0.50      0.39       238
weighted avg       0.42      0.65      0.51       238

Confusion Matriks:
[[155   0]
 [ 83   0]]


## Predict

In [17]:
data = ["Penelitian ini menggabungkan konsep kecerdasan buatan dengan algoritma penjadwalan dalam upaya meningkatkan efisiensi produksi dalam lingkungan manufaktur. Kami memperkenalkan pendekatan yang memanfaatkan kecerdasan komputasional, yaitu algoritma optimasi berbasis swarm intelligence, seperti algoritma PSO (Particle Swarm Optimization) dan algoritma ACO (Ant Colony Optimization). Tujuan utama penelitian ini adalah untuk mengoptimalkan jadwal produksi dengan meminimalkan waktu produksi dan biaya, sambil mempertimbangkan berbagai kendala produksi seperti kapasitas mesin, waktu pemrosesan, dan persyaratan bahan baku. Melalui eksperimen dan simulasi, kami membandingkan hasil dari algoritma swarm intelligence dengan pendekatan konvensional. Hasilnya menunjukkan bahwa algoritma PSO dan ACO dapat menghasilkan jadwal produksi yang lebih efisien, dengan waktu produksi yang lebih pendek dan biaya yang lebih rendah. Selain itu, algoritma ini mampu beradaptasi dengan perubahan dalam lingkungan produksi dan menghasilkan jadwal yang optimal bahkan dalam situasi yang kompleks. Penelitian ini menunjukkan potensi besar dari penggunaan kecerdasan komputasional dalam meningkatkan efisiensi dan produktivitas dalam industri manufaktur. Hasil penelitian ini dapat digunakan sebagai dasar untuk mengembangkan sistem penjadwalan cerdas yang dapat diterapkan dalam berbagai industri."]
vectorizer = joblib.load('/content/drive/MyDrive/Kuliah /Semester 7/Pencarian Dan Penambangan Web/ppw/Model/tf_vectorizer.pkl')
a = vectorizer.transform(data).toarray()
b = lda.transform(a)
model.predict(b)

array(['KK'], dtype='<U3')

## Save Model

In [18]:
import joblib

joblib.dump(lda, "lda.pkl")
joblib.dump(model, "naive bayes.pkl")

['naive bayes.pkl']

## Deployment

[Link Deployment Streamlit](https://app-pta-trunojoyo.streamlit.app/)