# Preprocessing_PTA

Preprocessing merupakan tahapan dari pemrosesan bahasa alami (NLP) dimana proses persiapan dan pengolahan data sebelum diinput ke dalam suatu sistem atau model. Tujuan dari preprocessing adalah untuk meningkatkan kualitas data, mengurangi noise, dan memastikan bahwa data yang digunakan sesuai dengan kebutuhan analisis atau model pembelajaran mesin. Proses preprocessing dapat melibatkan berbagai tahap, tergantung pada jenis data dan tujuan analisis. Berikut tahapan-tahapan dalam preprocessing data PTA yang sudah saya crawling sebelumnya:

1. Cleaning Data : Menghapus karakter atau elemen teks yang tidak relevan atau tidak diinginkan, seperti tanda baca, angka, atau karakter khusus.
2. Tokenizing : Memisahkan teks menjadi unit-unit yang lebih kecil, yang disebut token. Token bisa berupa kata, frasa, atau bahkan karakter, tergantung pada tingkat granularitas yang diinginkan
3. Stopword : Menghilangkan kata-kata umum yang sering muncul namun tidak membawa banyak informasi, seperti "dan," "atau," dan "yang."
4. Stemming : Mereduksi kata-kata ke bentuk dasar mereka. Stemming menghapus akhiran kata secara kasar.


**Import Library**

import pandas merupakan library python yang sering digunakan untuk manipulasi dan analisis data.
NumPy menyediakan struktur data array dan operasi matematika yang efisien untuk manipulasi data numerik.


In [None]:
import numpy as np
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/AderisaDyta/ppw/main/PTA_Utm.csv') #memabaca data csv dari file digithub
df #menampilkan data


Unnamed: 0.1,Unnamed: 0,Judul,Penulis,Pembimbing I,Pembimbing II,Abstrak
0,0,OPTIMASI PEMILIHAN PORTOFOLIO SAHAM PERUSAHAAN...,Siliwangi Fitra Rachmawanto S.T.,"Heri Awalul Ilhamsah S.T., M.T.","Retno Indriartiningtias S.T., M.T.",Portofolio adalah sekumpulan saham yang dimili...
1,1,PERANCANGAN TATA LETAK FASILITAS LANTAI PRODUK...,AHMAD MAS'UD,"SABARUDIN AKHMAD, S.T., M.T.","SUGENG PURWOKO, S.T., M.T.",PT. ABC merupakan perusahaan yang bergerak dib...
2,2,PERUMUSAN STRATEGI BISNIS UD. BUDI JAYA BANGKA...,Yulianto Fauzanta,"Fitri Agustina, S.T., M.T","Retno Indriartiningtias, S.T., M.T",Bangkalan merupakan salah satu kabupaten yang ...
3,3,USULAN PERBAIKAN UTILITAS RESOURCES PADA LANTA...,M Mundir Muhlisin,Mu'alim ST MT,Sugeng Purwoko ST MT,Simulasi adalah duplikasi atau abstraksi dari ...
4,4,Peningkatan Kepuasan Masyarakat Terhadap Pelay...,Muhibbin,Rahmad Hidayat,Retno Indriartiningtias,Kepuasan adalah tingkat perasaan seseorang ter...
...,...,...,...,...,...,...
705,705,PENENTUAN LOKASI PENGELOMPOKAN TANI GARAM DI ...,Ridho Mukasafa,"Dr. Kukuh Winarso, S.Si., M.T, IPM ASEAN Eng","Dr. Sabarudin Akhmad, S.T., M.T, IPM ASEAN Eng",Penelitian ini bertujuan untuk mengetahui dima...
706,706,USULAN PERBAIKAN UPAYA MINIMASI REJECT PART BO...,YOLANDA ABIGAIL LAPIAN,"Prof. Dr. Rachmad Hidayat, M.T.,IPU, Asean Eng","Imron Kuswandi S.T., M.T",Kualitas dan pengendalian kualitas memiliki pe...
707,707,PERENCANAAN KEBIJAKAN PENGENDALIAN PERSEDIAA...,Nisfu Laylatus Sabihis,"Sugeng Purwoko, S.T., M.T","Mu'alim, S.T., M.T",PT. Apie Indo Karunia merupakan suatu perusaha...
708,708,PENGEMBANGAN DAN KARAKTERISASI HASIL ASSESSMEN...,Muhammad Asri Wahyu Dianto,"Dr.Sabarudin Akhmad, S.T., M.T., IPM. Asean Eng","Anis Arendra S.T,. M.Eng",MSDs atau Musculoskeletal Disorders adalah gan...


Mengambil DataFrame baru yang hanya berisi kolom 'Abstrak' dari DataFrame asli.

In [None]:
df = pd.DataFrame (df['Abstrak'])
df

Unnamed: 0,Abstrak
0,Portofolio adalah sekumpulan saham yang dimili...
1,PT. ABC merupakan perusahaan yang bergerak dib...
2,Bangkalan merupakan salah satu kabupaten yang ...
3,Simulasi adalah duplikasi atau abstraksi dari ...
4,Kepuasan adalah tingkat perasaan seseorang ter...
...,...
705,Penelitian ini bertujuan untuk mengetahui dima...
706,Kualitas dan pengendalian kualitas memiliki pe...
707,PT. Apie Indo Karunia merupakan suatu perusaha...
708,MSDs atau Musculoskeletal Disorders adalah gan...


**Cleaning Data**

Import Library

re: Library untuk operasi regular expression (regex), digunakan untuk mencari dan mengganti pola dalam teks.

string: Library yang menyediakan string of characters umum, seperti string.punctuation yang berisi karakter tanda baca.

In [None]:
#import library
import re, string

Menggunakan fungsi cleaning data

In [None]:
# Text Cleaning
def cleaning(text):
    # menggunakan regex untuk menghapus tag HTML dan karakter HTML entities dari teks.
    text = re.compile('<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});').sub('', str(text))
    # Melakukan case folding dengan mengubah semua huruf menjadi huruf kecil.
    text = text.lower()
    # Menghapus spasi di awal dan akhir teks.
    text = text.strip()
    # Menghapus tanda baca, karakter spesial, dan menggantinya dengan spasi tunggal.
    text = re.compile('<.*?>').sub('', text)
    text = re.compile('[%s]' % re.escape(string.punctuation)).sub(' ', text)
    text = re.sub('\s+', ' ', text)
    # Menghapus angka dan karakter non-huruf dan non-spasi.
    text = re.sub(r'\[[0-9]*\]', ' ', text)
    text = re.sub(r'[^\w\s]', '', str(text).lower().strip())
    text = re.sub(r'\d', ' ', text)
    text = re.sub(r'\s+', ' ', text)
    #Mengembalikan teks yang sudah dibersihkan.
    return text

membersihkan kolom 'Abstrak' dalam DataFrame df menggunakan fungsi cleaning yang telah didefinisikan sebelumnya.

In [None]:
df['Abstrak'] = df['Abstrak'].apply(lambda x: cleaning(x))
df.head()

Unnamed: 0,Abstrak
0,portofolio adalah sekumpulan saham yang dimili...
1,pt abc merupakan perusahaan yang bergerak dibi...
2,bangkalan merupakan salah satu kabupaten yang ...
3,simulasi adalah duplikasi atau abstraksi dari ...
4,kepuasan adalah tingkat perasaan seseorang ter...


Menyimpan hasil dalam bentuk csv

In [None]:
# Checkpoint: Export Hasil Text Cleaning pada abstrak
df.to_csv('DataCleaning.csv')

**Tokenisasi**

Import Library

- NLTK adalah library yang umumnya digunakan untuk pemrosesan bahasa alami (NLP) dalam lingkungan Python.

-  fungsi download dari NLTK untuk mengunduh dataset dan modul populer. Fungsi 'popular' digunakan untuk mengunduh koleksi populer NLTK, termasuk tokenizer, stop words, dan lainnya

-  fungsi word_tokenize dari modul tokenize yang terdapat di dalam library NLTK. Fungsi word_tokenize digunakan untuk memecah teks menjadi token kata-kata.

In [None]:
import nltk
nltk.download('popular')
from nltk.tokenize import word_tokenize

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to /root/nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to /root/nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to /root/nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Package movie_reviews is already up-to-date!
[nltk_data]    | Downloading package names to /root/nltk_data...
[nltk_data]    |   Package names is already up-to-date!
[nltk_data]    | Do

menggunakan fungsi word_tokenize dari NLTK untuk melakukan tokenisasi pada kolom 'Abstrak' dalam DataFrame df

In [None]:
# Tokenizing Abstrak
# membuat kolom baru dalam df 'Abstrak_Tokens' yang berisi token-token kata-kata dari 'Abstrak'.
# metode apply untuk menerapkan fungsi lambda ke setiap nilai di dalam kolom 'Abstrak'. Fungsi lambda ini memanggil fungsi
df['Abstrak_Tokens'] = df['Abstrak'].apply(lambda x: word_tokenize(x))
df[["Abstrak", "Abstrak_Tokens"]].head()

Unnamed: 0,Abstrak,Abstrak_Tokens
0,portofolio adalah sekumpulan saham yang dimili...,"[portofolio, adalah, sekumpulan, saham, yang, ..."
1,pt abc merupakan perusahaan yang bergerak dibi...,"[pt, abc, merupakan, perusahaan, yang, bergera..."
2,bangkalan merupakan salah satu kabupaten yang ...,"[bangkalan, merupakan, salah, satu, kabupaten,..."
3,simulasi adalah duplikasi atau abstraksi dari ...,"[simulasi, adalah, duplikasi, atau, abstraksi,..."
4,kepuasan adalah tingkat perasaan seseorang ter...,"[kepuasan, adalah, tingkat, perasaan, seseoran..."


**Stopword**


Import Library

menggunakan library NLTK untuk mengimpor daftar kata-kata tidak penting (stopwords) untuk bahasa Indonesia.

- mengimpor modul stopwords dari NLTK. Modul ini menyediakan daftar kata-kata tidak penting (stopwords) dalam berbagai bahasa.

- menggunakan fungsi download dari NLTK untuk mengunduh daftar kata-kata tidak penting untuk bahasa Indonesia.

- menginisialisasi daftar kata-kata tidak penting (stopwords) untuk bahasa Indonesia. Daftar ini kemudian disimpan dalam variabel stoplist.

In [None]:
# import library kumpulan kata2 tidak penting
from nltk.corpus import stopwords
nltk.download('stopwords')
# Initialize the stopwords
stoplist = stopwords.words('indonesian') #Ini menginisialisasi daftar kata-kata tidak penting (stopwords) untuk bahasa Indonesia

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Manmpilkan kata tidak penting

In [None]:
print(stoplist)

['ada', 'adalah', 'adanya', 'adapun', 'agak', 'agaknya', 'agar', 'akan', 'akankah', 'akhir', 'akhiri', 'akhirnya', 'aku', 'akulah', 'amat', 'amatlah', 'anda', 'andalah', 'antar', 'antara', 'antaranya', 'apa', 'apaan', 'apabila', 'apakah', 'apalagi', 'apatah', 'artinya', 'asal', 'asalkan', 'atas', 'atau', 'ataukah', 'ataupun', 'awal', 'awalnya', 'bagai', 'bagaikan', 'bagaimana', 'bagaimanakah', 'bagaimanapun', 'bagi', 'bagian', 'bahkan', 'bahwa', 'bahwasanya', 'baik', 'bakal', 'bakalan', 'balik', 'banyak', 'bapak', 'baru', 'bawah', 'beberapa', 'begini', 'beginian', 'beginikah', 'beginilah', 'begitu', 'begitukah', 'begitulah', 'begitupun', 'bekerja', 'belakang', 'belakangan', 'belum', 'belumlah', 'benar', 'benarkah', 'benarlah', 'berada', 'berakhir', 'berakhirlah', 'berakhirnya', 'berapa', 'berapakah', 'berapalah', 'berapapun', 'berarti', 'berawal', 'berbagai', 'berdatangan', 'beri', 'berikan', 'berikut', 'berikutnya', 'berjumlah', 'berkali-kali', 'berkata', 'berkehendak', 'berkeinginan'

menggunakan daftar kata-kata tidak penting (stopwords) untuk bahasa Indonesia dan bahasa Inggris dari NLTK untuk menghilangkan kata-kata tersebut dari kolom 'Abstrak_Tokens' dalam DataFrame df

In [None]:
#menghilangkan kata-kata yang tidak penting (stopwords) dari kolom 'Abstrak_Tokens' pada sebuah DataFrame (df)
from nltk.corpus import stopwords
from itertools import chain #Fungsi ini digunakan untuk menggabungkan dua atau lebih iterable menjadi satu iterable.

# Mendapatkan daftar kata-kata tidak penting (stopwords) untuk bahasa Indonesia dan inggris dari NLTK.
stop_words = set(chain(stopwords.words('indonesian'), stopwords.words('english')))
#metode apply untuk menerapkan fungsi lambda ke setiap nilai di dalam kolom 'Abstrak_Tokens'.
#Fungsi lambda ini membentuk list baru yang hanya berisi kata-kata yang bukan stopwords.
df['Abstrak_Tokens'] = df['Abstrak_Tokens'].apply(lambda x: [w for w in x if not w in stop_words])

Menampilkan abstrak dan abstrak_tokens

In [None]:
df[["Abstrak", "Abstrak_Tokens"]].head()

Unnamed: 0,Abstrak,Abstrak_Tokens
0,portofolio adalah sekumpulan saham yang dimili...,"[portofolio, sekumpulan, saham, dimiliki, inve..."
1,pt abc merupakan perusahaan yang bergerak dibi...,"[pt, abc, perusahaan, bergerak, dibidang, manu..."
2,bangkalan merupakan salah satu kabupaten yang ...,"[bangkalan, salah, kabupaten, memiliki, potens..."
3,simulasi adalah duplikasi atau abstraksi dari ...,"[simulasi, duplikasi, abstraksi, kehidupan, ny..."
4,kepuasan adalah tingkat perasaan seseorang ter...,"[kepuasan, tingkat, perasaan, pelayanan, memba..."


Stemming

Proses merubah kata berimbuhan menjadi kata dasar
(Mengubah hasil dari stopword menjadi kata dasar)

Instal sastrawi

sebuah library untuk pemrosesan bahasa alami (NLP) dalam bahasa Indonesia. Library ini menyediakan berbagai fitur, termasuk penghapusan kata-kata tidak penting (stopwords) dan stemming.

In [None]:
pip install Sastrawi




menggunakan Sastrawi untuk membuat objek stemmer menggunakan StemmerFactory. Selain itu,juga menggunakan tqdm (tqdm adalah singkatan dari "taqaddum" dalam bahasa Arab yang berarti "kemajuan") untuk menambahkan bar progres ke dalam iterasi.

In [None]:
#pemrosesan teks untuk mengubah kata-kata ke bentuk dasarnya atau kata dasar
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from tqdm.auto import tqdm
tqdm.pandas()

factory = StemmerFactory()
stemmer = factory.create_stemmer()

In [None]:
# Stemming abstrak
#df['Abstrak_Tokens'] = df['Abstrak_Tokens'].progress_apply(lambda x: stemmer.stem(' '.join(x)).split(' '))

  0%|          | 0/710 [00:00<?, ?it/s]

KeyboardInterrupt: ignored

Menampilkan hasil stemming

In [None]:
# Hasil stemming abstrak
df[["Abstrak", "Abstrak_Tokens"]]
df

Unnamed: 0,Abstrak,Abstrak_Tokens
0,portofolio adalah sekumpulan saham yang dimili...,"[portofolio, sekumpulan, saham, dimiliki, inve..."
1,pt abc merupakan perusahaan yang bergerak dibi...,"[pt, abc, perusahaan, bergerak, dibidang, manu..."
2,bangkalan merupakan salah satu kabupaten yang ...,"[bangkalan, salah, kabupaten, memiliki, potens..."
3,simulasi adalah duplikasi atau abstraksi dari ...,"[simulasi, duplikasi, abstraksi, kehidupan, ny..."
4,kepuasan adalah tingkat perasaan seseorang ter...,"[kepuasan, tingkat, perasaan, pelayanan, memba..."
...,...,...
705,penelitian ini bertujuan untuk mengetahui dima...,"[penelitian, bertujuan, dimana, lokasi, pengel..."
706,kualitas dan pengendalian kualitas memiliki pe...,"[kualitas, pengendalian, kualitas, memiliki, p..."
707,pt apie indo karunia merupakan suatu perusahaa...,"[pt, apie, indo, karunia, perusahaan, bidang, ..."
708,msds atau musculoskeletal disorders adalah gan...,"[msds, musculoskeletal, disorders, gangguan, c..."


**Feature Extraction**


Feature extraction adalah proses mengonversi data mentah menjadi representasi fitur yang dapat digunakan untuk analisis atau pemodelan. Ini adalah langkah kritis dalam pemrosesan data sebelum diterapkan pada model machine learning atau analisis data.

**One Hot Encoder**

menggunakan OneHotEncoder dari scikit-learn untuk mengubah variabel kategorikal (dalam hal ini, kolom 'Abstrak') menjadi representasi numerik biner atau one-hot encoding.

In [None]:
#mengubah variabel kategorikal menjadi representasi numerik biner.
#mengimpor kelas OneHotEncoder dari modul sklearn.preprocessing.
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder() #membuat objek OneHotEncoder.
X_encoder = encoder.fit_transform(df[['Abstrak']]) #metode fit_transform untuk mengubah nilai-nilai dalam kolom 'Abstrak' menjadi representasi one-hot encoding.
#X_encoder akan berisi matriks dengan representasi numerik biner.


#Ini mendapatkan daftar nama fitur (features) yang dihasilkan oleh one-hot encoding. Nama fitur ini kemudian digunakan untuk membuat nama kolom dalam DataFrame baru.
encoded_features = encoder.get_feature_names_out(input_features=["Abstrak"])
#membuat DataFrame baru (one_hot_df) dari matriks yang dihasilkan oleh one-hot encoding. Setiap baris dalam DataFrame ini akan merepresentasikan satu entitas (dalam hal ini, satu dokumen), dan setiap kolom akan merepresentasikan nilai binary dari satu kategori dalam variabel kategorikal.
one_hot_df = pd.DataFrame(X_encoder.toarray(), columns=encoded_features)
print(one_hot_df)


     Abstrak_abstrak achmad agung ferrianto penerapan rekayasa nilai pada pembangunan gedung sdn sambongrejo bojonegoro studi kasus cv jasa karya engineering setiap tahun pembangunan gedung dilakukan oleh pemerintah kota di setiap daerah pembangunan ini dilakukan bertujuan untuk pembaruan sebuah bangunan agar dapat berdiri kokoh dan tidak terjadi kerusakan yang menyebabkan sebuah kecelakaan adapun beberapa komponen material yang menimbulkan biaya besar yaitu material rangka atap dan kusen hal ini dikarenakan harga material pada komponen tersebut sangat besar maka dari itu dibutuhkan adanya penerepan rekayasa nilai agar biaya biaya yang tidak diperlukan dapat diminimalisir dengan memunculkan kriteria dan alternatif yang kemudian dilakukan pembobotan dengan metode ahp dari penerapan rekayasa nilai didapatkan alternatif material dimana hal tersebut dapat dilihat dari alternatif terpilih yang mempunyai value nilai tertinggi pada kusen didapatkan alternatif material aluminium sebesar dan ra

Menyimpan hasil One hot encoder

In [None]:
one_hot_df.to_csv('Dt-OneHot.csv', index=False)

**TF-IDF**

menghitung kemunculan term(kata) dari dokumen teks menggunakan library scikit-learn.

menggunakan modul TfidfVectorizer dari scikit-learn (sklearn) untuk mengonversi teks dalam kolom 'Abstrak' suatu DataFrame menjadi representasi numerik dengan skema TF-IDF (Term Frequency-Inverse Document Frequency)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
# untuk mengubah teks menjadi representasi numerik
#untuk menghitung TF-IDF dari kolom 'Abstrak'
vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(df['Abstrak'].tolist())

#mendapatkan daftar kata kunci (terms) yang digunakan dalam representasi TF-IDF. Setiap kata kunci ini akan menjadi fitur dalam matriks TF-IDF.
terms = vectorizer.get_feature_names_out()
#membuat DataFrame baru (df_tfidfvect) dari matriks TF-IDF. Setiap baris dalam DataFrame ini akan merepresentasikan satu dokumen, dan setiap kolom akan merepresentasikan kata kunci (term) dari TF-IDF.
df_tfidfvect = pd.DataFrame(data = X_tfidf.toarray(),columns = terms)
df_tfidfvect

Unnamed: 0,aadalah,ab,abad,abadi,abc,abdoel,abghmnqr,abms,abnormal,abon,...,zam,zaman,zat,zeid,zero,zona,zoo,zscore,zz,µm
0,0.0,0.0,0.0,0.0,0.00000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.22743,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.00000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.00000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.00000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
705,0.0,0.0,0.0,0.0,0.00000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.135905,0.0,0.0,0.0,0.0
706,0.0,0.0,0.0,0.0,0.00000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
707,0.0,0.0,0.0,0.0,0.00000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
708,0.0,0.0,0.0,0.0,0.00000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0


Menyimpan hasil TF-IDF

In [None]:
df_tfidfvect.to_csv('Dt_Tf-Idf.csv', index=False)

**Term Frequensi**


Term frequency (TF) adalah metrik yang digunakan dalam pemrosesan bahasa alami dan pengelolaan informasi untuk mengukur seberapa sering sebuah kata muncul dalam suatu dokumen atau kumpulan dokumen. Tujuan dari TF adalah untuk memberikan bobot pada kata-kata berdasarkan frekuensi kemunculan mereka dalam suatu konteks.

In [None]:
#import library
#digunakan untuk mengonversi koleksi dokumen teks menjadi matriks frekuensi kata-kata.
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer() #membuat objek CountVectorizer. Objek ini akan digunakan untuk menghitung frekuensi kemunculan kata-kata dalam dokumen.
# metode fit_transform untuk menghitung frekuensi kemunculan kata-kata dalam dokumen. Hasilnya adalah matriks yang menyajikan frekuensi kemunculan setiap kata dalam setiap dokumen.
X_count = count_vectorizer.fit_transform(df['Abstrak'].tolist())


#mendapatkan daftar kata kunci (terms) yang digunakan dalam representasi TF.
# Nama-nama fitur ini kemudian digunakan untuk membuat nama kolom dalam DataFrame baru.
terms_count = count_vectorizer.get_feature_names_out()
#membuat DataFrame baru (df_countvect) dari matriks frekuensi kata-kata.
df_countvect = pd.DataFrame(data = X_count.toarray(),columns = terms_count)
df_countvect

Unnamed: 0,aadalah,ab,abad,abadi,abc,abdoel,abghmnqr,abms,abnormal,abon,...,zam,zaman,zat,zeid,zero,zona,zoo,zscore,zz,µm
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,3,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
705,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
706,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
707,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
708,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


 menghitung jumlah kemunculan kata-kata setelah menggunakan CountVectorizer.

In [None]:
#menghitung jumlah kemunculan kata
token_counts = df_countvect.sum(axis=0)
#menghitung jumlah kemunculan kata-kata dengan menjumlahkan nilai-nilai dalam setiap kolom DataFrame df_countvect.
non_zero_token_counts = token_counts[token_counts != 0] #Axis 0 digunakan untuk menjumlahkan kolom, sehingga kita mendapatkan jumlah kemunculan setiap kata.

print("Token Counts yang Tidak Sama dengan 0:")
print(non_zero_token_counts)

Token Counts yang Tidak Sama dengan 0:
aadalah     1
ab          7
abad        1
abadi       2
abc        29
           ..
zona        3
zoo         1
zscore      3
zz          1
µm          1
Length: 9099, dtype: int64


Menyimpan hasil term frequensi

In [None]:
df_countvect.to_csv('Dt-TermFrequensi.csv', index=False)

**Log Frekuensi**

metode yang melibatkan penggunaan logaritma untuk mengubah skala frekuensi kata-kata dalam suatu dokumen. Tujuannya adalah untuk mengurangi dampak perbedaan besar dalam frekuensi dan memberikan representasi yang lebih seimbang.

menggunakan TfidfVectorizer dari scikit-learn untuk menghitung Term Frequency (TF) tanpa menggunakan Inverse Document Frequency (IDF).

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
log_vectorizer = TfidfVectorizer(use_idf=False, smooth_idf=False, norm=None)
#metode fit_transform untuk menghitung Term Frequency (TF) dari kata-kata dalam dokumen.
#X_log akan berisi matriks yang menyajikan frekuensi kemunculan setiap kata dalam setiap dokumen.
X_log = log_vectorizer.fit_transform(df['Abstrak'].tolist())
# X_log = log_vectorizer.fit_transform(df['Abstrak'])

log_terms = log_vectorizer.get_feature_names_out()
df_log = pd.DataFrame(data = X_log.toarray(),columns = log_terms)
df_log

Unnamed: 0,aadalah,ab,abad,abadi,abc,abdoel,abghmnqr,abms,abnormal,abon,...,zam,zaman,zat,zeid,zero,zona,zoo,zscore,zz,µm
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,3.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
705,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
706,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
707,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
708,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


menghitung jumlah kemunculan kata-kata setelah menggunakan TfidfVectorizer dengan use_idf=False (sehingga hanya menghitung Term Frequency tanpa IDF) dan parameter lainnya.

In [None]:
# suatu array boolean yang menunjukkan apakah nilai dalam token_counts tidak sama dengan 0.
token_counts = df_log.sum(axis=0)
#mengambil hanya nilai-nilai yang tidak sama dengan 0 dari token_counts, yang mewakili kata-kata yang benar-benar muncul dalam dokumen.
non_zero_token_counts = token_counts[token_counts != 0]

print("Token Counts yang Tidak Sama dengan 0:")
print(non_zero_token_counts)

Token Counts yang Tidak Sama dengan 0:
aadalah     1.0
ab          7.0
abad        1.0
abadi       2.0
abc        29.0
           ... 
zona        3.0
zoo         1.0
zscore      3.0
zz          1.0
µm          1.0
Length: 9099, dtype: float64


Menyimpan hasil LogFrekuensi

In [None]:
df_log.to_csv('Dt_LogFrekuensi.csv', index=False)

**Binary Frekuensi**

metode representasi di mana kita hanya memperhatikan keberadaan atau ketiadaan suatu kata dalam suatu dokumen, tanpa memperhitungkan berapa kali kata tersebut muncul. Representasi ini menghasilkan matriks biner di mana nilai setiap elemen dapat menjadi 0 (tidak ada) atau 1 (ada).

menggunakan CountVectorizer dari scikit-learn dengan parameter binary=True untuk membuat representasi binary frequency atau binary term presence dari dokumen-dokumen dalam kolom 'Abstrak'.

In [None]:
#Import library
from sklearn.feature_extraction.text import TfidfVectorizer
# Parameter ini mengatur agar matriks hasil transformasi hanya mengandung nilai biner (0 atau 1) yang menunjukkan keberadaan atau ketiadaan kata-kata dalam dokumen.
vectorizer = CountVectorizer(binary=True)
#metode fit_transform untuk menghitung representasi binary frequency dari keberadaan kata-kata dalam dokumen.
#X akan berisi matriks yang menyajikan keberadaan atau ketiadaan setiap kata dalam setiap dokumen.
X = vectorizer.fit_transform(df['Abstrak'].tolist())

feature_names = vectorizer.get_feature_names_out()
df_vsm_binary = pd.DataFrame(data=X.toarray(), columns=feature_names)
df_vsm_binary


Unnamed: 0,aadalah,ab,abad,abadi,abc,abdoel,abghmnqr,abms,abnormal,abon,...,zam,zaman,zat,zeid,zero,zona,zoo,zscore,zz,µm
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
705,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
706,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
707,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
708,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


menghitung jumlah kemunculan kata-kata dalam representasi binary frequency (df_vsm_binary)

In [None]:
#jumlah kata yang muncul
token_counts = df_vsm_binary.sum(axis=0)

non_zero_token_counts = token_counts[token_counts != 0]

print("Token Counts yang Tidak Sama dengan 0:")
print(non_zero_token_counts)

Token Counts yang Tidak Sama dengan 0:
aadalah     1
ab          5
abad        1
abadi       2
abc        15
           ..
zona        2
zoo         1
zscore      2
zz          1
µm          1
Length: 9099, dtype: int64


Menyimpan hasil binary

In [None]:
df_vsm_binary.to_csv('Dt_Binary.csv', index=False)

Import Library

mengimpor pustaka pandas dan menggunakan modul warnings untuk mengabaikan pesan peringatan.

In [None]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

melakukan analisis topic modeling menggunakan metode Latent Dirichlet Allocation (LDA).

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

## Pemodelan LDA
Latent Dirichlet Allocation (LDA) adalah sebuah model probabilistik yang digunakan untuk mengidentifikasi topik-topik utama yang muncul dalam kumpulan dokumen atau teks.

Proses penerapan Latent Dirichlet Allocation (LDA) untuk melakukan analisis topik pada dokumen menggunakan pustaka scikit-learn

In [None]:
# Menggunakan CountVectorizer untuk mengonversi teks menjadi representasi matriks kata
vectorizer_lda = CountVectorizer()
X = vectorizer_lda.fit_transform(df['Abstrak'])
# Konfigurasi LDA dengan k=4, alpha=0.1, dan beta=0.2
k = 4
alpha = 0.1
beta = 0.2
lda = LatentDirichletAllocation(n_components=k, doc_topic_prior=alpha, topic_word_prior=beta)

# Melatih model LDA pada data
lda.fit(X)

proporsi_topik_dokumen = lda.transform(X) # Proporsi topik pada dokumen
proporsi_topik_df = pd.DataFrame(proporsi_topik_dokumen, columns=[f"Topik {i+1}" for i in range(k)]) # Membuat DataFrame untuk proporsi topik pada dokumen

distribusi_kata_pada_topik = lda.components_ # Distribusi kata pada topik
distribusi_kata_df = pd.DataFrame(distribusi_kata_pada_topik, columns=vectorizer.get_feature_names_out()) # Membuat DataFrame Untuk Distribusi Kata pada topik

In [None]:
print("Proporsi Topik pada Dokumen:\n")
proporsi_topik_df

#proporsi topik pd dokumen *presentase paling tinggi berarti itu yang dominan.

Proporsi Topik pada Dokumen:



Unnamed: 0,Topik 1,Topik 2,Topik 3,Topik 4
0,0.603620,0.155159,0.240627,0.000594
1,0.000739,0.000739,0.000739,0.997784
2,0.000679,0.324091,0.674552,0.000679
3,0.000693,0.080324,0.000693,0.918291
4,0.410120,0.588968,0.000456,0.000456
...,...,...,...,...
705,0.000898,0.227461,0.770743,0.000898
706,0.594589,0.403790,0.000811,0.000811
707,0.000434,0.998698,0.000434,0.000434
708,0.290760,0.000448,0.000448,0.708345


Menyimpan hasil proporsi topik pada dokumen

In [None]:
proporsi_topik_df.to_csv('Proporsi_topik.csv', index=False)

In [None]:
print("Distribusi Kata pada Topik:\n")
distribusi_kata_df

Distribusi Kata pada Topik:



Unnamed: 0,aadalah,ab,abad,abadi,abc,abdoel,abghmnqr,abms,abnormal,abon,...,zam,zaman,zat,zeid,zero,zona,zoo,zscore,zz,µm
0,0.2,0.203166,0.208133,0.2,4.956645,1.19334,0.2,0.2,0.2,0.2,...,2.2,2.198311,7.648939,0.2,2.199488,0.2,0.200585,3.197439,0.2,0.2
1,1.199706,5.295113,1.191867,0.201312,9.625322,0.20666,1.2,0.2,4.2,0.2,...,0.2,1.189561,6.77379,0.2,1.2,0.200279,1.193506,0.2,1.2,1.2
2,0.2,0.2,0.2,1.198688,3.813562,0.2,0.2,0.200628,0.2,0.2,...,0.2,0.201689,0.200299,0.2,0.2,3.199721,0.205909,0.202154,0.2,0.2
3,0.200294,2.101721,0.2,1.2,11.404472,0.2,0.2,2.199372,0.2,2.2,...,0.2,0.210439,3.176973,1.2,0.200512,0.2,0.2,0.200406,0.2,0.2


Menyimpan hasil Distribusi kata pada topik

In [None]:
distribusi_kata_df.to_csv('PTA_Distribusi.csv', index=False)