#Crawling
---

In [37]:
!pip install bs4



In [38]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Membuat list kosong untuk menyimpan data dari semua halaman
all_data = []

# Jumlah halaman yang ingin di-crawl
total_pages = 1

for page in range(1, total_pages + 1):
    # URL target dengan nomor halaman
    url = f"https://pta.trunojoyo.ac.id/c_search/byprod/10/{page}"

    # Mengirim permintaan HTTP GET ke URL
    response = requests.get(url)

    # Memeriksa apakah permintaan berhasil
    if response.status_code == 200:
        # Parsing HTML dengan BeautifulSoup
        soup = BeautifulSoup(response.text, 'html.parser')

        # Cari semua elemen <li> dengan atribut data-id yang mengandung "id-"
        data_items = soup.find_all('li', attrs={"data-id": lambda x: x and "id-" in x})

        # Iterasi melalui elemen-elemen yang ditemukan
        for item in data_items:
            # Mengambil judul berita
            judul_berita = item.find('a', class_='title').text.strip()

            # Mengambil informasi penulis dan dosen pembimbing
            penulis = item.find_all('div', style="padding:2px 2px 2px 2px;")
            penulis_info = [p.span.text.strip() for p in penulis]

            # Mengambil URL selengkapnya
            selengkapnya_link = item.find('a', class_='gray button')['href']

            # Mengirim permintaan HTTP GET ke halaman selengkapnya
            selengkapnya_response = requests.get(selengkapnya_link)
            if selengkapnya_response.status_code == 200:
                selengkapnya_soup = BeautifulSoup(selengkapnya_response.text, 'html.parser')
                # Mencari dan mengambil teks abstrak
                abstrak = selengkapnya_soup.find('p', align='justify').text.strip()
            else:
                abstrak = "Tidak dapat mengambil abstrak"

            # Menambahkan data ke list
            all_data.append([judul_berita] + penulis_info + [abstrak])

    else:
        print(f"Gagal mengambil halaman {url}, kode status: {response.status_code}")

# Membuat DataFrame dari list data
df = pd.DataFrame(all_data, columns=["Judul", "Penulis", "Pembimbing 1", "Pembimbing 2", "Abstrak"])
# df.to_csv('data_berita_abstrak.csv', index=False)

In [39]:
df

Unnamed: 0,Judul,Penulis,Pembimbing 1,Pembimbing 2,Abstrak
0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,Penulis : A.Ubaidillah S.Kom,Dosen Pembimbing I : Budi Setyono M.T,Dosen Pembimbing II :Hermawan S.T,Sistem informasi akademik (SIAKAD) merupaka...
1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"Penulis : M. Basith Ardianto,","Dosen Pembimbing I : Drs. Budi Soesilo, MT","Dosen Pembimbing II :Koko Joni, ST",Berjalannya koneksi jaringan komputer dengan l...
2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\r\n...,"Penulis : Akhmad Suyandi, S.Kom","Dosen Pembimbing I : Drs. Budi Soesilo, M.T","Dosen Pembimbing II :Hermawan, ST, MT",Web server adalah sebuah perangkat lunak serve...
3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Penulis : Heri Supriyanto,"Dosen Pembimbing I : Mulaab, S.Si., M.Kom","Dosen Pembimbing II :Firli Irhamni, ST., M.Kom",Penjadwalan kuliah di Perguruan Tinggi me...
4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Penulis : Septian Rahman Hakim,"Dosen Pembimbing I : Arik Kurniawati, S.Kom., ...","Dosen Pembimbing II :Haryanto, S.T., M.T.",Seiring perkembangan teknologi yang ada diduni...


In [40]:
# Simpan DataFrame ke dalam file CSV
df.to_csv('data_berita_informatika_1.csv', index=False)

#Preprocessing

**Import File CSV Crawling**

In [41]:
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/rifkiavendika/PPW/main/data_berita_informatika_1.csv")

In [42]:
df

Unnamed: 0,Judul,Penulis,Pembimbing 1,Pembimbing 2,Abstrak
0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,Penulis : A.Ubaidillah S.Kom,Dosen Pembimbing I : Budi Setyono M.T,Dosen Pembimbing II :Hermawan S.T,Sistem informasi akademik (SIAKAD) merupaka...
1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"Penulis : M. Basith Ardianto,","Dosen Pembimbing I : Drs. Budi Soesilo, MT","Dosen Pembimbing II :Koko Joni, ST",Berjalannya koneksi jaringan komputer dengan l...
2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\r\n...,"Penulis : Akhmad Suyandi, S.Kom","Dosen Pembimbing I : Drs. Budi Soesilo, M.T","Dosen Pembimbing II :Hermawan, ST, MT",Web server adalah sebuah perangkat lunak serve...
3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Penulis : Heri Supriyanto,"Dosen Pembimbing I : Mulaab, S.Si., M.Kom","Dosen Pembimbing II :Firli Irhamni, ST., M.Kom",Penjadwalan kuliah di Perguruan Tinggi me...
4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Penulis : Septian Rahman Hakim,"Dosen Pembimbing I : Arik Kurniawati, S.Kom., ...","Dosen Pembimbing II :Haryanto, S.T., M.T.",Seiring perkembangan teknologi yang ada diduni...


**CaseFolding**

In [43]:
data=df['Abstrak']
df['CaseFolding'] = data.str.lower()

In [44]:
df

Unnamed: 0,Judul,Penulis,Pembimbing 1,Pembimbing 2,Abstrak,CaseFolding
0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,Penulis : A.Ubaidillah S.Kom,Dosen Pembimbing I : Budi Setyono M.T,Dosen Pembimbing II :Hermawan S.T,Sistem informasi akademik (SIAKAD) merupaka...,sistem informasi akademik (siakad) merupaka...
1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"Penulis : M. Basith Ardianto,","Dosen Pembimbing I : Drs. Budi Soesilo, MT","Dosen Pembimbing II :Koko Joni, ST",Berjalannya koneksi jaringan komputer dengan l...,berjalannya koneksi jaringan komputer dengan l...
2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\r\n...,"Penulis : Akhmad Suyandi, S.Kom","Dosen Pembimbing I : Drs. Budi Soesilo, M.T","Dosen Pembimbing II :Hermawan, ST, MT",Web server adalah sebuah perangkat lunak serve...,web server adalah sebuah perangkat lunak serve...
3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Penulis : Heri Supriyanto,"Dosen Pembimbing I : Mulaab, S.Si., M.Kom","Dosen Pembimbing II :Firli Irhamni, ST., M.Kom",Penjadwalan kuliah di Perguruan Tinggi me...,penjadwalan kuliah di perguruan tinggi me...
4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Penulis : Septian Rahman Hakim,"Dosen Pembimbing I : Arik Kurniawati, S.Kom., ...","Dosen Pembimbing II :Haryanto, S.T., M.T.",Seiring perkembangan teknologi yang ada diduni...,seiring perkembangan teknologi yang ada diduni...


**Character Cleansing**

In [45]:
#Import Library untuk Character Cleansing
import string
import re #regex library
data=df['CaseFolding'].astype(str)

In [46]:
def character_cleansing(text):
  # menghapus tab, new line, dan back slice
  text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
  # menghapus non ASCII (emoticon, chinese word, .etc)
  text = text.encode('ascii', 'replace').decode('ascii')
  # menghapus mention, link, hashtag
  text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
  # menghapus incomplete URL
  text =  text.replace("http://", " ").replace("https://", " ")
  #menghapus nomor
  text = re.sub(r"\d+", "", text)
  #menghapus punctuation
  text = text.translate(str.maketrans("","",string.punctuation))
  #menghapus spasi leading & trailing
  text = text.strip()
  #menghapus spasi tunggal dan ganda
  text = re.sub('\s+',' ',text)
  # menghapus kata 1 abjad
  text=re.sub(r"\b[a-zA-Z]\b", "", text)
  return text

df['CharacterCleansing'] = data.apply(character_cleansing)

In [47]:
df

Unnamed: 0,Judul,Penulis,Pembimbing 1,Pembimbing 2,Abstrak,CaseFolding,CharacterCleansing
0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,Penulis : A.Ubaidillah S.Kom,Dosen Pembimbing I : Budi Setyono M.T,Dosen Pembimbing II :Hermawan S.T,Sistem informasi akademik (SIAKAD) merupaka...,sistem informasi akademik (siakad) merupaka...,sistem informasi akademik siakad merupakan sis...
1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"Penulis : M. Basith Ardianto,","Dosen Pembimbing I : Drs. Budi Soesilo, MT","Dosen Pembimbing II :Koko Joni, ST",Berjalannya koneksi jaringan komputer dengan l...,berjalannya koneksi jaringan komputer dengan l...,berjalannya koneksi jaringan komputer dengan l...
2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\r\n...,"Penulis : Akhmad Suyandi, S.Kom","Dosen Pembimbing I : Drs. Budi Soesilo, M.T","Dosen Pembimbing II :Hermawan, ST, MT",Web server adalah sebuah perangkat lunak serve...,web server adalah sebuah perangkat lunak serve...,web server adalah sebuah perangkat lunak serve...
3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Penulis : Heri Supriyanto,"Dosen Pembimbing I : Mulaab, S.Si., M.Kom","Dosen Pembimbing II :Firli Irhamni, ST., M.Kom",Penjadwalan kuliah di Perguruan Tinggi me...,penjadwalan kuliah di perguruan tinggi me...,penjadwalan kuliah di perguruan tinggi merupak...
4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Penulis : Septian Rahman Hakim,"Dosen Pembimbing I : Arik Kurniawati, S.Kom., ...","Dosen Pembimbing II :Haryanto, S.T., M.T.",Seiring perkembangan teknologi yang ada diduni...,seiring perkembangan teknologi yang ada diduni...,seiring perkembangan teknologi yang ada diduni...


**Tokenisasi**

In [48]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [49]:
data=df['CharacterCleansing']
# import word_tokenize
from nltk.tokenize import word_tokenize
def word_tokenizing(text):
    return word_tokenize(text)
df['Tokenization'] = data.apply(word_tokenizing)
df

Unnamed: 0,Judul,Penulis,Pembimbing 1,Pembimbing 2,Abstrak,CaseFolding,CharacterCleansing,Tokenization
0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,Penulis : A.Ubaidillah S.Kom,Dosen Pembimbing I : Budi Setyono M.T,Dosen Pembimbing II :Hermawan S.T,Sistem informasi akademik (SIAKAD) merupaka...,sistem informasi akademik (siakad) merupaka...,sistem informasi akademik siakad merupakan sis...,"[sistem, informasi, akademik, siakad, merupaka..."
1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"Penulis : M. Basith Ardianto,","Dosen Pembimbing I : Drs. Budi Soesilo, MT","Dosen Pembimbing II :Koko Joni, ST",Berjalannya koneksi jaringan komputer dengan l...,berjalannya koneksi jaringan komputer dengan l...,berjalannya koneksi jaringan komputer dengan l...,"[berjalannya, koneksi, jaringan, komputer, den..."
2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\r\n...,"Penulis : Akhmad Suyandi, S.Kom","Dosen Pembimbing I : Drs. Budi Soesilo, M.T","Dosen Pembimbing II :Hermawan, ST, MT",Web server adalah sebuah perangkat lunak serve...,web server adalah sebuah perangkat lunak serve...,web server adalah sebuah perangkat lunak serve...,"[web, server, adalah, sebuah, perangkat, lunak..."
3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Penulis : Heri Supriyanto,"Dosen Pembimbing I : Mulaab, S.Si., M.Kom","Dosen Pembimbing II :Firli Irhamni, ST., M.Kom",Penjadwalan kuliah di Perguruan Tinggi me...,penjadwalan kuliah di perguruan tinggi me...,penjadwalan kuliah di perguruan tinggi merupak...,"[penjadwalan, kuliah, di, perguruan, tinggi, m..."
4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Penulis : Septian Rahman Hakim,"Dosen Pembimbing I : Arik Kurniawati, S.Kom., ...","Dosen Pembimbing II :Haryanto, S.T., M.T.",Seiring perkembangan teknologi yang ada diduni...,seiring perkembangan teknologi yang ada diduni...,seiring perkembangan teknologi yang ada diduni...,"[seiring, perkembangan, teknologi, yang, ada, ..."


**StopWord**

In [50]:
!pip install nltk



In [51]:
import string
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [52]:
from nltk.corpus import stopwords
data=df['Tokenization']
def stopword(words):
  list_stopwords = stopwords.words('indonesian')
  #Mengubah List ke dictionary
  list_stopwords = set(list_stopwords)
  #remove stopword pada list token
  return [word for word in words if word not in list_stopwords]
#Stopwording
df['Stopword'] = data.apply(stopword)
df

Unnamed: 0,Judul,Penulis,Pembimbing 1,Pembimbing 2,Abstrak,CaseFolding,CharacterCleansing,Tokenization,Stopword
0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,Penulis : A.Ubaidillah S.Kom,Dosen Pembimbing I : Budi Setyono M.T,Dosen Pembimbing II :Hermawan S.T,Sistem informasi akademik (SIAKAD) merupaka...,sistem informasi akademik (siakad) merupaka...,sistem informasi akademik siakad merupakan sis...,"[sistem, informasi, akademik, siakad, merupaka...","[sistem, informasi, akademik, siakad, sistem, ..."
1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"Penulis : M. Basith Ardianto,","Dosen Pembimbing I : Drs. Budi Soesilo, MT","Dosen Pembimbing II :Koko Joni, ST",Berjalannya koneksi jaringan komputer dengan l...,berjalannya koneksi jaringan komputer dengan l...,berjalannya koneksi jaringan komputer dengan l...,"[berjalannya, koneksi, jaringan, komputer, den...","[berjalannya, koneksi, jaringan, komputer, lan..."
2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\r\n...,"Penulis : Akhmad Suyandi, S.Kom","Dosen Pembimbing I : Drs. Budi Soesilo, M.T","Dosen Pembimbing II :Hermawan, ST, MT",Web server adalah sebuah perangkat lunak serve...,web server adalah sebuah perangkat lunak serve...,web server adalah sebuah perangkat lunak serve...,"[web, server, adalah, sebuah, perangkat, lunak...","[web, server, perangkat, lunak, server, berfun..."
3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Penulis : Heri Supriyanto,"Dosen Pembimbing I : Mulaab, S.Si., M.Kom","Dosen Pembimbing II :Firli Irhamni, ST., M.Kom",Penjadwalan kuliah di Perguruan Tinggi me...,penjadwalan kuliah di perguruan tinggi me...,penjadwalan kuliah di perguruan tinggi merupak...,"[penjadwalan, kuliah, di, perguruan, tinggi, m...","[penjadwalan, kuliah, perguruan, kompleks, per..."
4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Penulis : Septian Rahman Hakim,"Dosen Pembimbing I : Arik Kurniawati, S.Kom., ...","Dosen Pembimbing II :Haryanto, S.T., M.T.",Seiring perkembangan teknologi yang ada diduni...,seiring perkembangan teknologi yang ada diduni...,seiring perkembangan teknologi yang ada diduni...,"[seiring, perkembangan, teknologi, yang, ada, ...","[seiring, perkembangan, teknologi, didunia, mu..."


In [53]:
stop_words = set(stopwords.words('indonesian'))
print(stop_words)

{'kalaulah', 'pernah', 'diperlukannya', 'mengakhiri', 'jawab', 'kecil', 'setibanya', 'biasa', 'ataupun', 'sebelum', 'bekerja', 'kedua', 'banyak', 'katanya', 'bukankah', 'keterlaluan', 'lima', 'berarti', 'seenaknya', 'keadaan', 'anda', 'buat', 'serupa', 'memang', 'seusai', 'mengucapkannya', 'lainnya', 'tiga', 'akan', 'setiap', 'dilakukan', 'segala', 'dipunyai', 'itukah', 'luar', 'inikah', 'menyiapkan', 'berlainan', 'bila', 'dimaksudkannya', 'sementara', 'diibaratkannya', 'aku', 'dulu', 'seharusnya', 'meyakinkan', 'mengucapkan', 'menaiki', 'dimaksud', 'pasti', 'bisakah', 'disini', 'yakni', 'menanyai', 'cukup', 'demikianlah', 'ingat-ingat', 'sebaik', 'katakanlah', 'ucap', 'pantas', 'bawah', 'cara', 'cukupkah', 'digunakan', 'dikarenakan', 'pak', 'sebelumnya', 'asalkan', 'menunjukkan', 'dikatakan', 'bersama', 'agak', 'bahwasanya', 'sewaktu', 'bagaimana', 'keluar', 'malah', 'disampaikan', 'berikan', 'jawaban', 'bahkan', 'perlukah', 'sesudahnya', 'se', 'dapat', 'bagian', 'apaan', 'diperbuat',

**Stemming**

In [54]:
!pip install Sastrawi



In [55]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Inisialisasi stemmer Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi untuk melakukan stemming pada kolom token
def stem_tokens(tokens):
    return [stemmer.stem(token) for token in tokens]

# Kolom token yang ingin di-stem
data = df["Stopword"]

# Melakukan stemming pada kolom token tertentu
df["Stemming"] = data.apply(stem_tokens)


In [56]:
df

Unnamed: 0,Judul,Penulis,Pembimbing 1,Pembimbing 2,Abstrak,CaseFolding,CharacterCleansing,Tokenization,Stopword,Stemming
0,PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...,Penulis : A.Ubaidillah S.Kom,Dosen Pembimbing I : Budi Setyono M.T,Dosen Pembimbing II :Hermawan S.T,Sistem informasi akademik (SIAKAD) merupaka...,sistem informasi akademik (siakad) merupaka...,sistem informasi akademik siakad merupakan sis...,"[sistem, informasi, akademik, siakad, merupaka...","[sistem, informasi, akademik, siakad, sistem, ...","[sistem, informasi, akademik, siakad, sistem, ..."
1,APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...,"Penulis : M. Basith Ardianto,","Dosen Pembimbing I : Drs. Budi Soesilo, MT","Dosen Pembimbing II :Koko Joni, ST",Berjalannya koneksi jaringan komputer dengan l...,berjalannya koneksi jaringan komputer dengan l...,berjalannya koneksi jaringan komputer dengan l...,"[berjalannya, koneksi, jaringan, komputer, den...","[berjalannya, koneksi, jaringan, komputer, lan...","[jalan, koneksi, jaring, komputer, lancar, gan..."
2,RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\r\n...,"Penulis : Akhmad Suyandi, S.Kom","Dosen Pembimbing I : Drs. Budi Soesilo, M.T","Dosen Pembimbing II :Hermawan, ST, MT",Web server adalah sebuah perangkat lunak serve...,web server adalah sebuah perangkat lunak serve...,web server adalah sebuah perangkat lunak serve...,"[web, server, adalah, sebuah, perangkat, lunak...","[web, server, perangkat, lunak, server, berfun...","[web, server, perangkat, lunak, server, fungsi..."
3,SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...,Penulis : Heri Supriyanto,"Dosen Pembimbing I : Mulaab, S.Si., M.Kom","Dosen Pembimbing II :Firli Irhamni, ST., M.Kom",Penjadwalan kuliah di Perguruan Tinggi me...,penjadwalan kuliah di perguruan tinggi me...,penjadwalan kuliah di perguruan tinggi merupak...,"[penjadwalan, kuliah, di, perguruan, tinggi, m...","[penjadwalan, kuliah, perguruan, kompleks, per...","[jadwal, kuliah, guru, kompleks, masalah, vari..."
4,SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...,Penulis : Septian Rahman Hakim,"Dosen Pembimbing I : Arik Kurniawati, S.Kom., ...","Dosen Pembimbing II :Haryanto, S.T., M.T.",Seiring perkembangan teknologi yang ada diduni...,seiring perkembangan teknologi yang ada diduni...,seiring perkembangan teknologi yang ada diduni...,"[seiring, perkembangan, teknologi, yang, ada, ...","[seiring, perkembangan, teknologi, didunia, mu...","[iring, kembang, teknologi, dunia, muncul, tek..."


In [57]:
df.to_csv("Data+Preprocessing.csv", index=False)

#Feature Extraction

In [58]:
!pip install scikit-learn



In [59]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

In [60]:
# Menggabungkan token-token kembali menjadi teks
df["Teks"] = df["Stemming"].apply(lambda tokens: ' '.join(tokens))

In [61]:
df["Teks"]

0    sistem informasi akademik siakad sistem inform...
1    jalan koneksi jaring komputer lancar ganggu ha...
2    web server perangkat lunak server fungsi terim...
3    jadwal kuliah guru kompleks masalah variabel t...
4    iring kembang teknologi dunia muncul teknologi...
Name: Teks, dtype: object

In [62]:
# Inisialisasi CountVectorizer
vectorizer = CountVectorizer()

# Menghitung TF dan membentuk VSM
tf_matrix = vectorizer.fit_transform(df["Teks"])

# Membentuk DataFrame dari matriks TF
tf_df = pd.DataFrame(tf_matrix.toarray(), columns=vectorizer.get_feature_names_out())

# Hasil VSM dalam term frequency
tf_df

Unnamed: 0,administrator,adu,akademik,akses,alat,algoritma,ambil,anggap,animasi,aplikasi,...,tugas,tuju,tuntut,universitas,untung,upaya,variabel,view,virtual,web
0,0,0,3,0,0,0,0,1,0,0,...,0,0,0,1,1,0,0,0,0,0
1,6,1,0,3,0,0,1,0,0,0,...,1,0,1,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,4,...,0,1,0,0,0,0,0,1,0,11
3,0,0,0,0,0,3,0,0,0,1,...,1,1,0,0,0,0,1,0,0,0
4,0,0,0,0,1,0,0,0,2,1,...,0,0,0,0,0,1,0,0,2,0


#Word2Vec

In [63]:
!pip install gensim



In [64]:
from gensim.models import Word2Vec

In [65]:
# Membangun model Word2Vec dari kolom "Stemming"
word2vec_model = Word2Vec(df["Stemming"], vector_size=100, window=5, min_count=1, sg=0)

In [66]:
vectors = [word2vec_model.wv[token] for token in df['Stemming'] if token]

In [67]:
import numpy as np

# Menghitung rata-rata vektor kata untuk setiap dokumen
average_vectors = []
for doc_vectors in vectors:
    if len(doc_vectors) > 0:
        average_vector = np.mean(doc_vectors, axis=0)
        average_vectors.append(average_vector)
    else:
        # Jika dokumen tidak memiliki vektor kata, kita bisa mengisi dengan vektor nol
        average_vectors.append(np.zeros(100))

average_vectors

[array([ 4.70644736e-04,  4.19893360e-04, -4.63470875e-04, -7.82422081e-04,
         2.09504287e-04, -7.37169466e-04,  3.62245948e-04,  1.51588570e-03,
        -6.05324050e-04, -2.80097476e-04, -2.33558982e-04, -8.24111281e-04,
         6.98055665e-04,  7.81218172e-04,  9.82286874e-04, -3.96811840e-04,
         1.07768236e-03, -1.81122054e-03, -9.30009002e-04, -4.63887700e-04,
         1.66674668e-03, -6.96879169e-07,  8.85052024e-04,  1.01628399e-03,
        -1.33128499e-03,  4.04508697e-04,  8.25407915e-04, -1.97933870e-04,
         2.10960061e-05, -2.19237921e-03,  1.42376474e-03, -1.05080944e-04,
        -4.07303392e-04, -6.80009485e-04, -1.05962237e-04,  1.21262937e-03,
         2.26389361e-03, -1.24409707e-04, -1.85362902e-03,  8.13773018e-04,
         2.33981642e-04,  7.59234536e-04,  5.42793248e-04, -9.48282483e-04,
        -7.19667014e-06, -5.24199568e-04, -1.26756879e-03,  9.39119491e-04,
        -1.86320147e-04,  7.51503336e-04, -5.81227767e-04,  1.01981268e-05,
        -7.3

In [68]:
# Membuat DataFrame dari average_vectors
avg = pd.DataFrame(average_vectors)
avg

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
0,0.000471,0.00042,-0.000463,-0.000782,0.00021,-0.000737,0.000362,0.001516,-0.000605,-0.00028,...,-0.000847,0.000276,0.000155,0.000434,0.000281,0.000494,-0.000141,-0.001264,7.8e-05,-0.000452
1,0.000271,0.001336,0.001553,0.000164,-0.002005,-0.001846,0.001356,0.003236,-0.00074,-0.002038,...,0.002786,0.000786,0.000427,-3.7e-05,0.003937,0.000844,-0.001153,-0.001447,0.000316,0.000396
2,-0.000834,0.000681,-0.000567,0.002142,0.000295,-0.001247,0.000443,0.002283,-0.002262,-0.000454,...,0.000671,0.001939,0.000661,0.000663,0.0012,0.000957,0.00251,-0.000183,-0.000428,0.000816
3,-0.002504,-0.000386,-0.00156,-0.000541,0.00143,-0.001547,-0.000257,0.001156,2.1e-05,0.000386,...,0.001888,-0.000819,0.000253,-0.001507,0.001312,-0.001033,0.000626,0.000398,0.001038,-3e-06
4,-0.000507,0.000778,0.001193,0.000507,0.001564,-0.000982,0.00173,0.001132,-0.001165,-0.001642,...,0.001142,0.000467,-0.000477,0.000423,0.002196,0.00148,0.000654,-0.000149,-0.000111,-0.001686


In [69]:
# Menyimpan DataFrame ke file Excel
avg.to_excel('avg_word2vec.xlsx', index=False, header=False)

#Permodelan Topik

In [70]:
from gensim import corpora
from gensim.models import LdaModel

# Membuat kamus (dictionary) dari dokumen
dictionary = corpora.Dictionary(df['Stemming'])

# Membuat korpus
corpus = [dictionary.doc2bow(text) for text in df['Stemming']]


In [80]:
# Membuat model LDA
num_topics = 2
lda_model = LdaModel(corpus, num_topics=num_topics, id2word=dictionary)



In [81]:
import pandas as pd

# Mendapatkan distribusi topik untuk setiap dokumen
topic_distribution = [lda_model[doc] for doc in corpus]

# Membuat DataFrame untuk proporsi topik dalam dokumen
df_topic_dist = pd.DataFrame(topic_distribution, columns=[f'Topic {i+1}' for i in range(num_topics)])

# Mendapatkan distribusi kata untuk setiap topik
word_distribution = lda_model.show_topics(num_topics=num_topics, num_words=2, formatted=False)

# Membuat DataFrame untuk proporsi kata dalam topik
df_word_dist = pd.DataFrame([[word[0] for word in topic[1]] for topic in word_distribution],
                            columns=[f'Topic {i+1}' for i in range(num_topics)])



In [82]:
# Menampilkan proporsi topik dalam dokumen
print("Proporsi Topik dalam Dokumen:")
df_topic_dist

Proporsi Topik dalam Dokumen:


Unnamed: 0,Topic 1,Topic 2
0,"(1, 0.9930837)",
1,"(1, 0.994937)",
2,"(0, 0.99529606)",
3,"(1, 0.9915296)",
4,"(0, 0.010707343)","(1, 0.9892926)"


In [83]:
# Menampilkan proporsi kata dalam topik
print("\nProporsi Kata dalam Topik:")
df_word_dist


Proporsi Kata dalam Topik:


Unnamed: 0,Topic 1,Topic 2
0,web,dokumen
1,jaring,jadwal


#Klastering

In [84]:
from sklearn.cluster import KMeans

# Inisialisasi model K-means
num_clusters = 2
kmeans = KMeans(n_clusters=num_clusters, random_state=0)

# Latih model K-means dengan vektor dokumen yang sudah dibuat dengan word2vec
kmeans.fit(average_vectors)

# Dapatkan label klaster untuk setiap dokumen
labels = kmeans.predict(average_vectors)

# Sekarang 'labels' berisi nomor klaster untuk setiap dokumen




In [85]:
# Buat DataFrame dari dokumen dan label klaster
hasil_cluster = pd.DataFrame({'Dokumen': df['Abstrak'], 'Klaster': labels})

# Tampilkan DataFrame
hasil_cluster

Unnamed: 0,Dokumen,Klaster
0,Sistem informasi akademik (SIAKAD) merupaka...,1
1,Berjalannya koneksi jaringan komputer dengan l...,0
2,Web server adalah sebuah perangkat lunak serve...,1
3,Penjadwalan kuliah di Perguruan Tinggi me...,0
4,Seiring perkembangan teknologi yang ada diduni...,1


In [86]:
from sklearn.metrics import silhouette_score

# Hitung nilai siluet
silhouette_avg = silhouette_score(average_vectors, labels)

# Tampilkan nilai siluet
print(f"Nilai Siluet: {silhouette_avg}")

Nilai Siluet: 0.06655129790306091
