Notebook ini bertujuan untuk melakukan eksplorasi topik pada tugas akhir yang terdapat dalam portal tugas akhir UTM (Trunojoyo University) menggunakan model Latent Dirichlet Allocation (LDA). LDA adalah algoritma dalam pemodelan tema yang dapat membantu mengidentifikasi topik-topik utama yang mungkin ada dalam kumpulan tugas akhir mahasiswa. Dengan menggunakan teknik ini, kita dapat mengeksplorasi struktur topik yang mendasari tanpa harus membaca setiap tugas akhir secara manual

## Import Data

In [90]:
import numpy as np
import pandas as pd

df=pd.read_csv('https://raw.githubusercontent.com/tiarh/ppw/main/PTA.csv')
display(df)
df.isnull().sum()

Unnamed: 0.1,Unnamed: 0,Judul,Penulis,pembimbing I,pembimbing II,Abstrak
0,0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,A.Ubaidillah S.Kom,Budi Setyono M.T,Hermawan S.T,Sistem informasi akademik (SIAKAD) merupaka...
1,1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"M. Basith Ardianto,","Drs. Budi Soesilo, MT","Koko Joni, ST",Berjalannya koneksi jaringan komputer dengan l...
2,2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\nEN...,"Akhmad Suyandi, S.Kom","Drs. Budi Soesilo, M.T","Hermawan, ST, MT",Web server adalah sebuah perangkat lunak serve...
3,3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Heri Supriyanto,"Mulaab, S.Si., M.Kom","Firli Irhamni, ST., M.Kom",Penjadwalan kuliah di Perguruan Tinggi me...
4,4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Septian Rahman Hakim,"Arik Kurniawati, S.Kom., M.T.","Haryanto, S.T., M.T.",Seiring perkembangan teknologi yang ada diduni...
...,...,...,...,...,...,...
853,853,PENERAPAN ALGORITMA LONG-SHORT TERM MEMORY UNT...,Rachmad Agung Pambudi,"Eka Mala Sari Rochman, S.Kom., M.Kom","Sri Herawati, S.Kom., M.Kom",Investasi saham selama ini memiliki resiko ker...
854,854,SISTEM PENCARIAN TEKS AL-QURAN TERJEMAHAN BERB...,Nadila Hidayanti,"Achmad Jauhari, S.T., M.Kom","Ika Oktavia Suzanti, S.Kom., M.Cs",Information Retrieval (IR) merupakan pengambil...
855,855,KLASIFIKASI KOMPLEKSITAS VISUAL CITRA SAMPAH M...,Afni Sakinah,"Dr. Indah Agustien Siradjuddin, S.Kom., M.Kom.","Moch. Kautsar Sophan, S.Kom., M.MT.",Klasifikasi citra merupakan proses pengelompok...
856,856,IDENTIFIKASI BINER ATRIBUT PEJALAN KAKI MENGGU...,Friska Fatmawatiningrum,"Dr. Indah Agustien Siradjuddin, S.Kom., M.Kom.","Prof. Dr. Arief Muntasa, S.Si., M.MT.",Identifikasi atribut pejalan kaki merupakan sa...


Unnamed: 0        0
Judul             6
Penulis          10
pembimbing I     10
pembimbing II    11
Abstrak          30
dtype: int64

## Preprocessing Data

### Cleaning Data

Pembersihan data (data cleaning) dilakukan untuk meningkatkan kualitas data dengan menghilangkan atau menangani elemen yang tidak diinginkan atau tidak relevan. Dalam konteks fungsi clean yang diberikan, pembersihan data teks dilakukan untuk tujuan-tujuan berikut:

> Menghilangkan Noise:

Maksud: Menghapus elemen yang tidak diperlukan, seperti tag HTML, karakter khusus, dan angka.
Tujuan: Menyederhanakan data dan mengurangi gangguan yang tidak relevan.
> Konsistensi Format:

Maksud: Menyamakan format huruf dengan mengubah semua huruf menjadi huruf kecil.
Tujuan: Memastikan konsistensi dalam analisis, menghindari perbedaan antara huruf besar dan kecil.
> Pemusatan Data:

Maksud: Menghapus spasi di awal dan akhir teks.
Tujuan: Menyederhanakan manipulasi data dan menghindari spasi yang tidak diinginkan.
> Penghilangan Tanda Baca:

Maksud: Menghapus tanda baca dan karakter spesial.
Tujuan: Mengurangi kompleksitas teks dan memfokuskan pada konten tekstual utama.
> Pembersihan Angka:

Maksud: Menghapus angka dari teks.
Tujuan: Jika informasi angka tidak relevan, menghilangkan elemen ini untuk fokus pada konten tekstual.
> Penggantian 'nan' dengan Whitespace:

Maksud: Mengganti string 'nan' dengan spasi.
Tujuan: Persiapan data untuk langkah-langkah berikutnya dan mengatasi nilai yang mungkin tidak diinginkan.

In [92]:
import re, string

# Data Clean
def clean(data):
    # HTML Tag Removal
    data = re.compile('<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});').sub('', str(data))

    # Case folding
    data = data.lower()

    # Trim data
    data = data.strip()

    # Remove punctuations, karakter spesial, and spasi ganda
    data = re.compile('<.*?>').sub('', data)
    data = re.compile('[%s]' % re.escape(string.punctuation)).sub(' ', data)
    data = re.sub('\s+', ' ', data)

    # Number removal
    data = re.sub(r'\[[0-9]*\]', ' ', data)
    data = re.sub(r'[^\w\s]', '', str(data).lower().strip())
    data = re.sub(r'\d', ' ', data)
    data = re.sub(r'\s+', ' ', data)

    # Mengubah data 'nan' dengan whitespace agar nantinya dapat dihapus
    data = re.sub('nan', '', data)

    return data

In [93]:
df['Abstrak'] = df['Abstrak'].apply(lambda x: clean(x))

df.head()

Unnamed: 0.1,Unnamed: 0,Judul,Penulis,pembimbing I,pembimbing II,Abstrak
0,0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,A.Ubaidillah S.Kom,Budi Setyono M.T,Hermawan S.T,sistem informasi akademik siakad merupakan sis...
1,1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"M. Basith Ardianto,","Drs. Budi Soesilo, MT","Koko Joni, ST",berjalannya koneksi jaringan komputer dengan l...
2,2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\nEN...,"Akhmad Suyandi, S.Kom","Drs. Budi Soesilo, M.T","Hermawan, ST, MT",web server adalah sebuah perangkat lunak serve...
3,3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Heri Supriyanto,"Mulaab, S.Si., M.Kom","Firli Irhamni, ST., M.Kom",penjadwalan kuliah di perguruan tinggi merupak...
4,4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Septian Rahman Hakim,"Arik Kurniawati, S.Kom., M.T.","Haryanto, S.T., M.T.",seiring perkembangan teknologi yang ada diduni...


In [94]:
# Ubah empty string menjadi NaN value
df = df.replace('', np.nan)


In [95]:
# Remove missing values
df.dropna(inplace=True)
len(df)

821

### Cek Data Duplikasi Abstrak

In [96]:
# Remove duplicates abstrak
df.drop_duplicates(subset=['Abstrak'], inplace=True)

# Cek apakah masih terdapat duplikasi data pada kolom abstrak
df[df['Abstrak'].duplicated()]

Unnamed: 0.1,Unnamed: 0,Judul,Penulis,pembimbing I,pembimbing II,Abstrak


### Tokenisasi

Tokenisasi adalah proses memecah teks menjadi unit-unit kecil, seperti kata-kata. Tujuannya adalah untuk memahami struktur teks, melakukan analisis morfologi, mempersiapkan data untuk NLP, ekstraksi informasi, dan meningkatkan kinerja model. Ini adalah langkah dasar dalam pengolahan bahasa alami.

In [97]:
import nltk
from nltk.tokenize import word_tokenize
# nltk.download('punkt')
nltk.download('popular')

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to /root/nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to /root/nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to /root/nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Package movie_reviews is already up-to-date!
[nltk_data]    | Downloading package names to /root/nltk_data...
[nltk_data]    |   Package names is already up-to-date!
[nltk_data]    | Do

True

In [98]:
# Tokenizing Abstrak
df['abstrak_tokens'] = df['Abstrak'].apply(lambda x: word_tokenize(x))
df[["Abstrak", "abstrak_tokens"]].head()

Unnamed: 0,Abstrak,abstrak_tokens
0,sistem informasi akademik siakad merupakan sis...,"[sistem, informasi, akademik, siakad, merupaka..."
1,berjalannya koneksi jaringan komputer dengan l...,"[berjalannya, koneksi, jaringan, komputer, den..."
2,web server adalah sebuah perangkat lunak serve...,"[web, server, adalah, sebuah, perangkat, lunak..."
3,penjadwalan kuliah di perguruan tinggi merupak...,"[penjadwalan, kuliah, di, perguruan, tinggi, m..."
4,seiring perkembangan teknologi yang ada diduni...,"[seiring, perkembangan, teknologi, yang, ada, ..."


### Menghapus Kata Tidak Penting (Stopwords)


Stopword digunakan untuk menghapus kata-kata umum yang cenderung tidak memberikan nilai tambah dalam analisis teks. Tujuannya adalah menyederhanakan data dan meningkatkan fokus pada kata-kata kunci yang lebih informatif.

In [99]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [100]:
from nltk.corpus import stopwords
from itertools import chain

stop_words = set(chain(stopwords.words('indonesian')))

df['abstrak_tokens'] = df['abstrak_tokens'].apply(lambda x: [w for w in x if not w in stop_words])

In [101]:
df[["Abstrak", "abstrak_tokens"]].head()

Unnamed: 0,Abstrak,abstrak_tokens
0,sistem informasi akademik siakad merupakan sis...,"[sistem, informasi, akademik, siakad, sistem, ..."
1,berjalannya koneksi jaringan komputer dengan l...,"[berjalannya, koneksi, jaringan, komputer, lan..."
2,web server adalah sebuah perangkat lunak serve...,"[web, server, perangkat, lunak, server, berfun..."
3,penjadwalan kuliah di perguruan tinggi merupak...,"[penjadwalan, kuliah, perguruan, kompleks, per..."
4,seiring perkembangan teknologi yang ada diduni...,"[seiring, perkembangan, teknologi, didunia, mu..."


In [102]:
print(df.isna().sum())

Unnamed: 0        0
Judul             0
Penulis           0
pembimbing I      0
pembimbing II     0
Abstrak           0
abstrak_tokens    0
dtype: int64


In [103]:
df.dropna(inplace=True)

In [104]:
df= df.drop(columns=['Unnamed: 0'])
display(df)
df.isnull().sum()

Unnamed: 0,Judul,Penulis,pembimbing I,pembimbing II,Abstrak,abstrak_tokens
0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,A.Ubaidillah S.Kom,Budi Setyono M.T,Hermawan S.T,sistem informasi akademik siakad merupakan sis...,"[sistem, informasi, akademik, siakad, sistem, ..."
1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"M. Basith Ardianto,","Drs. Budi Soesilo, MT","Koko Joni, ST",berjalannya koneksi jaringan komputer dengan l...,"[berjalannya, koneksi, jaringan, komputer, lan..."
2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\nEN...,"Akhmad Suyandi, S.Kom","Drs. Budi Soesilo, M.T","Hermawan, ST, MT",web server adalah sebuah perangkat lunak serve...,"[web, server, perangkat, lunak, server, berfun..."
3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Heri Supriyanto,"Mulaab, S.Si., M.Kom","Firli Irhamni, ST., M.Kom",penjadwalan kuliah di perguruan tinggi merupak...,"[penjadwalan, kuliah, perguruan, kompleks, per..."
4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Septian Rahman Hakim,"Arik Kurniawati, S.Kom., M.T.","Haryanto, S.T., M.T.",seiring perkembangan teknologi yang ada diduni...,"[seiring, perkembangan, teknologi, didunia, mu..."
...,...,...,...,...,...,...
853,PENERAPAN ALGORITMA LONG-SHORT TERM MEMORY UNT...,Rachmad Agung Pambudi,"Eka Mala Sari Rochman, S.Kom., M.Kom","Sri Herawati, S.Kom., M.Kom",investasi saham selama ini memiliki resiko ker...,"[investasi, saham, memiliki, resiko, kerugian,..."
854,SISTEM PENCARIAN TEKS AL-QURAN TERJEMAHAN BERB...,Nadila Hidayanti,"Achmad Jauhari, S.T., M.Kom","Ika Oktavia Suzanti, S.Kom., M.Cs",information retrieval ir merupakan pengambilan...,"[information, retrieval, ir, pengambilan, info..."
855,KLASIFIKASI KOMPLEKSITAS VISUAL CITRA SAMPAH M...,Afni Sakinah,"Dr. Indah Agustien Siradjuddin, S.Kom., M.Kom.","Moch. Kautsar Sophan, S.Kom., M.MT.",klasifikasi citra merupakan proses pengelompok...,"[klasifikasi, citra, proses, pengelompokan, pi..."
856,IDENTIFIKASI BINER ATRIBUT PEJALAN KAKI MENGGU...,Friska Fatmawatiningrum,"Dr. Indah Agustien Siradjuddin, S.Kom., M.Kom.","Prof. Dr. Arief Muntasa, S.Si., M.MT.",identifikasi atribut pejalan kaki merupakan sa...,"[identifikasi, atribut, pejalan, kaki, salah, ..."


Judul             0
Penulis           0
pembimbing I      0
pembimbing II     0
Abstrak           0
abstrak_tokens    0
dtype: int64

In [105]:
df['abstrak_tokens'] = df['abstrak_tokens'].apply(lambda x: ' '.join(x))

df['abstrak_tokens'].head()

0    sistem informasi akademik siakad sistem inform...
1    berjalannya koneksi jaringan komputer lancar g...
2    web server perangkat lunak server berfungsi me...
3    penjadwalan kuliah perguruan kompleks permasal...
4    seiring perkembangan teknologi didunia muncul ...
Name: abstrak_tokens, dtype: object

## Membentuk VSM dalam term frequency

Dengan menggunakan TF, kode tersebut menciptakan representasi numerik dari seberapa sering kata-kata tertentu muncul dalam setiap dokumen. Ini adalah langkah awal dalam pembuatan model Vector Space Model (VSM) untuk analisis teks, di mana matriks TF akan menjadi dasar bagi perhitungan lebih lanjut, seperti TF-IDF atau model-machine learning untuk klasifikasi teks.

In [106]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

coun_vect = CountVectorizer(stop_words=['ke', 'yang', 'dan'])
count_matrix = coun_vect.fit_transform(df['abstrak_tokens'])
count_array = count_matrix.toarray()
tf_df = pd.DataFrame(data=count_array,columns = coun_vect.vocabulary_.keys())
tf_df

Unnamed: 0,sistem,informasi,akademik,siakad,berfungsi,megani,pengelolaan,penyajian,data,fakultas,...,accelerated,segment,augmentasi,weak,stump,ransel,diseimbangkan,detector,anchor,pretrained
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
816,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
817,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
818,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
819,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## Model LDA

Topic modeling LDA memanfaatkan probabilitas dan statistik untuk menemukan struktur topikal dalam koleksi dokumen. Prosesnya melibatkan pemilihan jumlah topik, pelatihan model, dan interpretasi hasil untuk pemahaman yang lebih baik tentang informasi dalam data teks.

$ P(z_{d,n} = k | w_{d,n}, \alpha, \beta) \propto \frac{\sum_{k'} (C_{k',n}^{(d)} + \alpha)}{C_{k,n}^{(d)} + \alpha} \cdot \frac{\sum_{v} (C_{v,k}^{(w)} + \beta)}{C_{w_{d,n},k}^{(w)} + \beta} $

$ P(z_{d,n} = k | w_{d,n}, \alpha, \beta): $ Probabilitas posterior bahwa kata ke-$n$ dalam dokumen $d$ memiliki topik $k$, diberikan kata tersebut $w_{d,n}$, parameter $\alpha$, dan parameter $\beta$.

$ \alpha: $ Parameter distribusi Dirichlet untuk distribusi topik dokumen. Ini mengontrol seberapa banyak topik yang diharapkan dalam satu dokumen.

$ \beta: $ Parameter distribusi Dirichlet untuk distribusi kata topik. Ini mengontrol seberapa banyak kata yang diharapkan dalam satu topik.

$ C_{k',n}^{(d)}: $ Jumlah kata dengan topik $k'$ dalam dokumen $d$ hingga posisi ke-$n$.

$ C_{k,n}^{(d)}: $ Jumlah kata dengan topik $k$ dalam dokumen $d$ hingga posisi ke-$n$.

$ C_{v,k}^{(w)}: $ Jumlah kata $v$ dengan topik $k$ dalam seluruh koleksi dokumen (korpus).

$ C_{w_{d,n},k}^{(w)}: $ Jumlah kemunculan kata $w_{d,n}$ dengan topik $k$ dalam seluruh koleksi dokumen.



In [107]:
import pandas as pd
import numpy as np

In [108]:
import pandas as pd
from sklearn.decomposition import LatentDirichletAllocation

In [109]:
TF = tf_df
TF

Unnamed: 0,sistem,informasi,akademik,siakad,berfungsi,megani,pengelolaan,penyajian,data,fakultas,...,accelerated,segment,augmentasi,weak,stump,ransel,diseimbangkan,detector,anchor,pretrained
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
816,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
817,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
818,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
819,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [110]:
lda = LatentDirichletAllocation(n_components=5, doc_topic_prior=0.1, topic_word_prior=0.2,random_state=42,max_iter=1)
lda_top=lda.fit_transform(TF)

In [111]:
print(lda_top.shape)  # (no_of_doc,no_of_topics)
print(lda_top)

(821, 5)
[[9.95208555e-01 1.19784537e-03 1.19792155e-03 1.19784444e-03
  1.19783404e-03]
 [9.39180532e-04 9.39147936e-04 9.96243428e-01 9.39127945e-04
  9.39115639e-04]
 [9.96443641e-01 8.89078457e-04 8.89076492e-04 8.89070794e-04
  8.89132979e-04]
 ...
 [3.88539180e-01 6.39123744e-04 6.39117226e-04 6.09543462e-01
  6.39117002e-04]
 [7.78452260e-04 7.78433038e-04 7.78384675e-04 2.42263948e-01
  7.55400782e-01]
 [9.95529606e-01 1.11762115e-03 1.11757150e-03 1.11761605e-03
  1.11758566e-03]]


In [112]:
U = pd.DataFrame(lda_top, columns=[f'Topik {i + 1}' for i in range(5)])
U

Unnamed: 0,Topik 1,Topik 2,Topik 3,Topik 4,Topik 5
0,0.995209,0.001198,0.001198,0.001198,0.001198
1,0.000939,0.000939,0.996243,0.000939,0.000939
2,0.996444,0.000889,0.000889,0.000889,0.000889
3,0.994159,0.001460,0.001460,0.001460,0.001460
4,0.995321,0.001170,0.001170,0.001170,0.001170
...,...,...,...,...,...
816,0.000823,0.000823,0.000823,0.996707,0.000823
817,0.645044,0.001198,0.351363,0.001198,0.001198
818,0.388539,0.000639,0.000639,0.609543,0.000639
819,0.000778,0.000778,0.000778,0.242264,0.755401


In [113]:
print(lda.components_)
print(lda.components_.shape)  # (no_of_topics*no_of_words)

[[0.20000048 0.76021414 0.20000041 ... 1.34184322 0.62049734 0.55857546]
 [0.37755222 0.33136594 1.11700214 ... 0.34810444 0.7795018  0.8414236 ]
 [0.2000004  1.5084187  0.20000031 ... 0.20000094 0.2000003  0.20000036]
 [1.02244657 0.20000062 1.28299669 ... 1.90630743 0.20000023 0.20000028]
 [0.20000034 0.20000061 0.20000044 ... 0.20374397 0.20000033 0.2000003 ]]
(5, 8243)


In [114]:
#bobot setiap kata terhadap topik
label=[]
for i in range (1,(lda.components_.shape[1]+1)):
  masukan = TF.columns[i-1]
  label.append(masukan)
VT_tabel = pd.DataFrame(lda.components_,columns=label)
VT_tabel.rename(index={0:"Topik 1",1:"Topik 2",2:"Topik 3",3:"Topik 4",4:"Topik 5"}).transpose()

Unnamed: 0,Topik 1,Topik 2,Topik 3,Topik 4,Topik 5
sistem,0.200000,0.377552,0.200000,1.022447,0.200000
informasi,0.760214,0.331366,1.508419,0.200001,0.200001
akademik,0.200000,1.117002,0.200000,1.282997,0.200000
siakad,0.367539,0.200000,2.032460,0.200000,0.200000
berfungsi,0.200000,0.200000,0.450872,0.949127,0.200000
...,...,...,...,...,...
ransel,0.200001,2.200635,1.199363,0.200001,0.200001
diseimbangkan,0.200001,3.059486,1.340511,0.200001,0.200001
detector,1.341843,0.348104,0.200001,1.906307,0.203744
anchor,0.620497,0.779502,0.200000,0.200000,0.200000


## Cluster

clustering dilakukan menggunakan algoritma KMeans setelah penerapan Latent Dirichlet Allocation (LDA) pada data teks. Dengan memanfaatkan representasi vektor TF-IDF atau hasil LDA, KMeans mengelompokkan dokumen ke dalam tiga cluster, memfasilitasi analisis dan interpretasi dokumen dengan mengidentifikasi kelompok yang potensial memiliki kesamaan topik atau konten.

In [115]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# Create an instance of TfidfVectorizer
vectorizer = TfidfVectorizer()

# Menghapus kolom pertama (kolom dengan label 0)
data_for_clustering = U.iloc[:, 1:]  # Mengambil semua kolom kecuali kolom pertama

# Create an instance of KMeans
kmeans = KMeans(n_clusters=3)

# Fit the KMeans model to the data
kmeans.fit(data_for_clustering)

# Add the cluster labels to the DataFrame
U['cluster'] = kmeans.labels_

# Display the DataFrame with cluster labels
display(U)




Unnamed: 0,Topik 1,Topik 2,Topik 3,Topik 4,Topik 5,cluster
0,0.995209,0.001198,0.001198,0.001198,0.001198,0
1,0.000939,0.000939,0.996243,0.000939,0.000939,0
2,0.996444,0.000889,0.000889,0.000889,0.000889,0
3,0.994159,0.001460,0.001460,0.001460,0.001460,0
4,0.995321,0.001170,0.001170,0.001170,0.001170,0
...,...,...,...,...,...,...
816,0.000823,0.000823,0.000823,0.996707,0.000823,1
817,0.645044,0.001198,0.351363,0.001198,0.001198,0
818,0.388539,0.000639,0.000639,0.609543,0.000639,1
819,0.000778,0.000778,0.000778,0.242264,0.755401,0


## Silhouette Score

silhouette score memberikan gambaran seberapa baik suatu cluster terbentuk dan seberapa baik objek-objek dalam cluster tersebut saling berdekatan dibandingkan dengan cluster lainnya. Tujuannya adalah membantu evaluasi dan pemilihan model clustering yang baik, terutama dalam algoritma yang memerlukan pengaturan parameter seperti KMeans, di mana kita perlu menentukan jumlah cluster yang optimal. Silhouette score dapat membantu mengidentifikasi jumlah cluster yang menghasilkan pembagian yang paling baik.

In [116]:
from sklearn.metrics import silhouette_score

# Hitung Silhouette Score
silhouette_avg = silhouette_score(data_for_clustering, kmeans.labels_)
print(f"Silhouette Score: {silhouette_avg}")


Silhouette Score: 0.5607864327358673
