# UAS

https://colab.research.google.com/drive/11aNqJkkyW4H-_zbKZvCNU8Sd-HEjOud8?usp=sharing

*   **NLTK** berfungsi fungsi untuk melakukan tugas-tugas seperti tokenisasi, stemming, lemmatization, analisis sentimen, pengenalan entitas, dan banyak lagi.
*   **Pandas** menyediakan cara yang efisien untuk mengelola dan menganalisis data tabular seperti dataframe.
*   **CountVectorizer** untuk melakukan ekstraksi fitur dalam bentuk term frequency.
*   **numpy** untuk array dan operasi matematika pada array.
*   **re** Ekspresi reguler digunakan untuk pencocokan pola string dan manipulasi teks.
*   **train_test_split** untuk membagi data training dan data testing.
*   **Latent Dirichlet Allocation** untuk melakukan ekstrak data menjadi data dokumen per topik.
*   **GausianNB** untuk melatih data training sehingga dapat digunakan untuk mendeteksi data baru.

In [None]:
!pip install nltk



In [None]:
import pandas as pd
import numpy as np
from nltk.corpus import stopwords
import re
import nltk
import pickle
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt')
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.naive_bayes import GaussianNB

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


## Load Data

Dalam proses ini data yang digunakan berasal dari proses crawling pada detik.com dan suararakyat.id dengan kategori berupa sport, pendidikan, dan politik.

In [None]:
data1 = pd.read_csv('/content/drive/MyDrive/ppw/tugas/tugas_ppw/detik.csv')
data1

Unnamed: 0,Judul,Isi,Kategori
0,Balasan TKN ke Anies yang Singgung 'RI Bukan u...,Ucapan capres nomor urut 1 Anies Baswedan soal...,Politik
1,Indonesia Juara Umum Lomba Karate Internasiona...,Tim karate pelajar Indonesia membanggakann Ind...,Pendidikan
2,"12 Universitas Tertua di Indonesia, Ada Kampusmu?",Universitas di Indonesia sudah ada sejak zaman...,Pendidikan
3,"Besok, Bintang-bintang Olimpiade Tampil di BNI...",Ajang bulutangkis BNI Bright Up Cup 2023 siap ...,Sport
4,Misi Anthony Ginting di BWF World Tour Finals ...,Anthony Sinisuka Ginting menegaskan dirinya ha...,Sport
...,...,...,...
895,Jadwal Megawati & Red Sparks di Putaran 3 Liga...,Atlet voli Indonesia Megawati Hangestri menata...,Sport
896,"Disanksi Peringatan Keras, Bawaslu Bakal PAW K...",Ketua Bawaslu RI Rahmat Bagja akan menindaklan...,Politik
897,Gregoria Cs Maksimalkan Waktu Tersisa dengan L...,Atlet-atlet bulutangkis RI memanfaatkan waktu ...,Sport
898,Siasat Aryono Miranat untuk Bagas dan Fajar Je...,Ganda putra Indonesia tidak dalam kondisi yang...,Sport


In [None]:
data2 = pd.read_csv('/content/drive/MyDrive/ppw/tugas/tugas_ppw/suararakyat.csv')
data2

Unnamed: 0,Judul,Isi,Kategori
0,PPK-O Penalaran UTM Lahirkan Inovasi Konsep Sm...,"BANGKALAN, Suararakyat.id– Tim Program Penguat...",Pendidikan
1,Silaturrahim IKS-PI Cabang Sampang ke Biringko...,"SAMPANG, suararakyat.id– Dalam mempererat tali...",Sport
2,MK Kabulkan Syarat Capres-Cawapres Punya Penga...,"JAKARTA, Suararakyat.id– Setelah perkara yang ...",Politik
3,UPT SMPN 2 CAMPLONG yang Melahirkan Generasi ...,UPTD SMPN 2 CAMPLONG terletak di daerah pedesa...,Pendidikan
4,Laskar Sape Kerab Kembali Menduduki Puncak Kla...,"BANGKALAN,Suararakyat.id– Pertandingan pekan k...",Sport
...,...,...,...
141,"Diperkuat Pemain Timnas Dimas Saputra, PBV Ren...","SUMENEP,Suararakyat.id– Partai final Sportif C...",Sport
142,MK Tolak Gugatan Usia Minimal Capres-Cawapres ...,"JAKARTA, Suararakyat.id–Mahkamah Konstitusi (M...",Politik
143,Atlet Cabor Taekwondo Sampang Tasyakuran di Ko...,"SAMPANG, Suararakyat.id – Kegiatan tasyakuran ...",Sport
144,Gelar Workshop untuk Tingkatkan Kinerja Tenaga...,"PAMEKASAN, Suararakyat.id– Dalam upaya meningk...",Pendidikan


In [None]:
combined_df = pd.concat([data1, data2]).reset_index(drop=True)
combined_df

Unnamed: 0,Judul,Isi,Kategori
0,Balasan TKN ke Anies yang Singgung 'RI Bukan u...,Ucapan capres nomor urut 1 Anies Baswedan soal...,Politik
1,Indonesia Juara Umum Lomba Karate Internasiona...,Tim karate pelajar Indonesia membanggakann Ind...,Pendidikan
2,"12 Universitas Tertua di Indonesia, Ada Kampusmu?",Universitas di Indonesia sudah ada sejak zaman...,Pendidikan
3,"Besok, Bintang-bintang Olimpiade Tampil di BNI...",Ajang bulutangkis BNI Bright Up Cup 2023 siap ...,Sport
4,Misi Anthony Ginting di BWF World Tour Finals ...,Anthony Sinisuka Ginting menegaskan dirinya ha...,Sport
...,...,...,...
1041,"Diperkuat Pemain Timnas Dimas Saputra, PBV Ren...","SUMENEP,Suararakyat.id– Partai final Sportif C...",Sport
1042,MK Tolak Gugatan Usia Minimal Capres-Cawapres ...,"JAKARTA, Suararakyat.id–Mahkamah Konstitusi (M...",Politik
1043,Atlet Cabor Taekwondo Sampang Tasyakuran di Ko...,"SAMPANG, Suararakyat.id – Kegiatan tasyakuran ...",Sport
1044,Gelar Workshop untuk Tingkatkan Kinerja Tenaga...,"PAMEKASAN, Suararakyat.id– Dalam upaya meningk...",Pendidikan


## Preprocessing

1. Cleaning

Cleaning adalah menghapus hal-hal yang tidak digunakan seperti tanda baca, angka, tag dan hastag. dalam proses cleaning ini digunakan library regex untuk mencari hal-hal yang diinginkan.
2. Casefolding

Casefolding adalah merubah huruf kapital menjadi huruf kecil.
3. Tokenizing

Tokenizing adalah memisahkan kalimat menjadi kata-kata berdasarkan spasi. dalam proses tokenizing dilakukan looping setiap datanya untuk dipisahkan menggunakan bantuan library nltk yang menghasilkan list setiap data yang sudah terpisah-pisah katanya.
3. Stopword

Stopword adalah menghapus kata yang tidak penting dalam kalimat. hasil dari tokenize akan dilakukan pengecekan setiap kata dalam data untuk menghapus kata yang tidak perlu. Hasil pengecekan tadi kemudian dikembalikan dalam bentuk list.

In [None]:
#Remove Puncutuation
clean_tag = re.compile('@\S+')
clean_url = re.compile('https?:\/\/.*[\r\n]*')
clean_hastag = re.compile('#\S+')
clean_symbol = re.compile('[^a-zA-Z]')
def clean_punct(text):
    text = clean_tag.sub('', str(text))
    text = clean_url.sub('', text)
    text = clean_hastag.sub(' ', text)
    text = clean_symbol.sub(' ', text)
    text = text.lower()
    return text
# Buat kolom tambahan untuk data description yang telah diremovepunctuation
preprocessing = combined_df['Isi'].apply(clean_punct)
clean=pd.DataFrame(preprocessing)
clean

Unnamed: 0,Isi
0,ucapan capres nomor urut anies baswedan soal...
1,tim karate pelajar indonesia membanggakann ind...
2,universitas di indonesia sudah ada sejak zaman...
3,ajang bulutangkis bni bright up cup siap ...
4,anthony sinisuka ginting menegaskan dirinya ha...
...,...
1041,sumenep suararakyat id partai final sportif c...
1042,jakarta suararakyat id mahkamah konstitusi m...
1043,sampang suararakyat id kegiatan tasyakuran ...
1044,pamekasan suararakyat id dalam upaya meningk...


In [None]:
data_clean=[]
for i in range(len(preprocessing)):
  data_clean.append(preprocessing[i])

In [None]:
tokenize=[]
for i in range(len(data_clean)):
  token=word_tokenize(data_clean[i])
  tokendata = []
  for x in token :
    tokendata.append(x)
  tokenize.append(tokendata)
  # print(tokendata)

In [None]:
stopword=[]
for i in range(len(tokenize)):
  listStopword =  set(stopwords.words('indonesian'))
  removed=[]
  for x in (tokenize[i]):
    if x not in listStopword:
       removed.append(x)
  stopword.append(removed)
  # print(removed)

In [None]:
join=[]
for i in range(len(stopword)):
  joinkata = ' '.join(stopword[i])
  join.append(joinkata)

hasilpreproses = pd.DataFrame(join, columns=['Isi'])
hasilpreproses

Unnamed: 0,Isi
0,ucapan capres nomor urut anies baswedan pendir...
1,tim karate pelajar indonesia membanggakann ind...
2,universitas indonesia zaman penjajahan kampus ...
3,ajang bulutangkis bni bright up cup digelar go...
4,anthony sinisuka ginting juara bwf world tour ...
...,...
1041,sumenep suararakyat id partai final sportif cu...
1042,jakarta suararakyat id mahkamah konstitusi mk ...
1043,sampang suararakyat id kegiatan tasyakuran do ...
1044,pamekasan suararakyat id upaya meningkatkan ki...


## Ekstraksi Fitur

Term frequency (TF) adalah ukuran yang menghitung frekuensi kemunculan suatu kata dalam dokumen.

$\textbf{TF} = \frac{Jumlah kemunculan kata}{Jumlah total kata dalam dokumen}$

proses Term Frequency disini menggunakan library sklearn yaitu CountVectorizer

In [None]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(np.array(hasilpreproses['Isi']))

In [None]:
tf_name=vectorizer.get_feature_names_out()
tf_name

array(['aa', 'aal', 'aamiin', ..., 'zulmi', 'zuri', 'zurich'],
      dtype=object)

In [None]:
tf_array = X.toarray()
print(tf_array)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [None]:
df_tf= pd.DataFrame(tf_array, columns = tf_name)
df_tf

Unnamed: 0,aa,aal,aamiin,aang,aaron,aawal,ab,abad,abadi,abah,...,zubairi,zuhad,zuhdan,zul,zulhas,zulkaedin,zulkifli,zulmi,zuri,zurich
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1041,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1042,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1043,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1044,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
pickle.dump(vectorizer,open('/content/drive/MyDrive/ppw/tugas/tugas_ppw/tf_uas.sav','wb'))

## Split Data

Splitting adalah proses pembagian data training dan data testing.

Data Train = 80%

Data Test = 20%

In [None]:
y = combined_df['Kategori']

In [None]:
X_train,X_test,y_train,y_test = train_test_split(df_tf,y,test_size=0.2,random_state=42)

## LDA + Modelling

*   Buat list kosong dengan nama datalda dan X_test_lda untuk menampung hasil topik per dokumen berdasarkan looping jumlah topik yng diinginkan mulai 3-51 topik
*   jalankan library lda dan lakukan fit transform pada data yang sudah di load sebelumnya. hasil lda disimpan ke dalam variabel datalda. proses ini berlangsung sampai range mencapai batas akhir.

In [None]:
datalda=[]
X_test_lda=[]
for i in range (3,51):
  lda = LatentDirichletAllocation(n_components=i, doc_topic_prior=0.2, topic_word_prior=0.1,random_state=42,max_iter=1)
  lda_top=lda.fit_transform(X_train)
  test_lda = lda.transform(X_test)
  datalda.append(lda_top)
  X_test_lda.append(test_lda)

*  Hasil LDA yang ditampung di dalam variabel datalda digunakan untuk melatih model dengan menggunakan metode Naive Bayes. dan data X_test_lda untuk menengetes model yang sudah dilatih dan hasil akurasi disimpan dalam variabel akurasi.
*   Selanjutnya membuat looping untuk menampilkan akurasi berdasarkan jumlah topiknya.


In [None]:
akurasi=[]
for i in range(len(datalda)):
  NB = GaussianNB()
  gaus=NB.fit(datalda[i], y_train)
  nlakurasi=gaus.score(X_test_lda[i], y_test)
  akurasi.append(nlakurasi)

In [None]:
for i in range(len(akurasi)):
  print ("topik", i+3, ":", akurasi[i])

topik 3 : 0.6571428571428571
topik 4 : 0.6714285714285714
topik 5 : 0.6238095238095238
topik 6 : 0.6238095238095238
topik 7 : 0.5761904761904761
topik 8 : 0.6333333333333333
topik 9 : 0.6476190476190476
topik 10 : 0.6047619047619047
topik 11 : 0.6
topik 12 : 0.638095238095238
topik 13 : 0.6428571428571429
topik 14 : 0.6333333333333333
topik 15 : 0.6571428571428571
topik 16 : 0.6523809523809524
topik 17 : 0.6095238095238096
topik 18 : 0.6285714285714286
topik 19 : 0.5952380952380952
topik 20 : 0.5857142857142857
topik 21 : 0.5904761904761905
topik 22 : 0.6047619047619047
topik 23 : 0.6047619047619047
topik 24 : 0.5857142857142857
topik 25 : 0.5952380952380952
topik 26 : 0.5523809523809524
topik 27 : 0.5666666666666667
topik 28 : 0.5619047619047619
topik 29 : 0.5857142857142857
topik 30 : 0.5761904761904761
topik 31 : 0.5666666666666667
topik 32 : 0.5238095238095238
topik 33 : 0.5952380952380952
topik 34 : 0.6095238095238096
topik 35 : 0.6095238095238096
topik 36 : 0.5761904761904761
top

**Dari percobaan setiap topik diperoleh nilai akurasi tertinggi sebesar 0,73 di posisi jumlah topik sebanyak 50**

### Download model yang memiliki nilai akurasi terbaik

Dari model dengan jumlah topik yang memperoleh nilai akurasi terbaik akan disimpan dalam bentuk pickle untuk diimplementasikan dalam bentuk streamlit.

In [None]:
lda = LatentDirichletAllocation(n_components=50, doc_topic_prior=0.2, topic_word_prior=0.1,random_state=42,max_iter=1)
lda_top=lda.fit_transform(X_train)

In [None]:
NB = GaussianNB()
gaus=NB.fit(lda_top, y_train)

In [None]:
test_lda = lda.transform(X_test)
gaus.score(test_lda, y_test)

0.7333333333333333

In [None]:
pickle.dump(lda,open('/content/drive/MyDrive/ppw/tugas/tugas_ppw/lda.sav','wb'))
pickle.dump(NB,open('/content/drive/MyDrive/ppw/tugas/tugas_ppw/naive.sav','wb'))