# TOPIK MODELLING

Topik Modelling adalah pendekatan yang digunakan untuk menganalisis sekumpulan dokumen yang berbentuk teks yang kemudian dikelompokkan menjadi beberapa topik. Proses topik modelling dapat dilakukan dengan tahapan-tahapan sebagai berikut:
1. Crawling Data
2. Pre-Processing Data
   - Cleansing Data
   - Stopword
3. Modelling (LSA)

# 1. Crawling Data Berita

Crawling data adalah proses pengambilan data secara online untuk sebuah kebutuhan umum. Proses yang dilakukan yaitu mengimport suatu informasi atau sebuah data yang telah di ambil ke dalam file lokal pada komputer. Crawling data dilakukan untuk mengekstraksi data yang mengacu pengumpulan data dari worldwide web, dokumen-dokumen, file, dan lainnya. 

Berikut adalah code untuk proses Crawling data website berita menggunakan Scrapy. Website berita yang di crawling adalah https://ekbis.sindonews.com/, data yang di ambil adalah data Judul, Waktu, Category berita, dan Deskripsi berita.

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'https://pta.trunojoyo.ac.id/welcome/detail/080211100070',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100002',
            'https://pta.trunojoyo.ac.id/welcome/detail/080211100050',
            'https://pta.trunojoyo.ac.id/welcome/detail/090111100077',
            'https://pta.trunojoyo.ac.id/welcome/detail/070111100093',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100029',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100011',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100023',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100007',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100047',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100082',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100054',
            'https://pta.trunojoyo.ac.id/welcome/detail/090111100053',
            'https://pta.trunojoyo.ac.id/welcome/detail/090111100003',
            'https://pta.trunojoyo.ac.id/welcome/detail/090111100068',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100010',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100031',
            'https://pta.trunojoyo.ac.id/welcome/detail/080111100084',
            'https://pta.trunojoyo.ac.id/welcome/detail/050111100448'
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        # print(response.url)
        yield {
            'judul': response.css('#content_journal > ul > li > div:nth-child(2) > a::text').extract(),
            'penulis': response.css('#content_journal > ul > li > div:nth-child(2) > div:nth-child(2) > span::text').extract(),
            'dosen_pembimbing_1': response.css('#content_journal > ul > li > div:nth-child(2) > div:nth-child(3) > span::text').extract(),
            'dosen_pembimbing_2': response.css('#content_journal > ul > li > div:nth-child(2) > div:nth-child(4) > span::text').extract(),
            'abstrak': response.css('#content_journal > ul > li > div:nth-child(4) > div:nth-child(2) > p::text').extract(),
        }
        # content_journal > ul > li:nth-child(1) > div:nth-child(1) > a
        # content_journal > ul > li:nth-child(1) > div:nth-child(1) > a


# 2. Pre-Processing Data

Pre-Processing Data merupakan suatu proses mengubah data mentah menjadi bentuk data yang lebih mudah dipahami. Proses dilakukan untuk membersihkan data dari angka, tanda baca, whitespace, dan kata yang tidak penting untuk digunakan. Tahapan dalam pre-processing data yaitu:

## Cleansing Data


Cleaning data atau membersihkan data artinya mengeksekusi ulang data yang telah di peroleh, seperti menghapus atau menghilangkan data-data yang tidak lengkap, tidak relavan, dan tidak akurat. Langkah pertama yang dilakukan untuk membulai proses pre-processing data adalah dengan mengimport modul-module yang diperlukan untuk proses pre-processing.

###  1. Import Module

In [86]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

#import nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

# for named entity recognition (NER)
from nltk import ne_chunk

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

#stop-words
stop_words=set(nltk.corpus.stopwords.words('indonesian'))

### 2. Load Dataset

setelah proses import module yang digunakan, langkah kedua pada proses cleaning data adalah Load Data. Load Data adalah proses membuka/membaca file dari data yang akan digunakan untuk proses Pre-Processing, data yang digunakan biasanya berbentuk file csv, json dan lainnya. disini saya menggunakan format file csv.

In [87]:
df=pd.read_csv('pta2.csv')

In [88]:
df.head()

Unnamed: 0,judul,penulis,abstrak
0,PERLINDUNGAN HUKUM BAGI KONSUMEN ATAS PRODUK E...,Penulis : TOMMY ADITYA PARLINDUNGAN MARBUN,\r\nProduk elektronik adalah suatu benda berge...
1,Pertanggungjawaban Pidana Direksi BUMN (Perser...,Penulis : Maulina Nurlaily,Badan Usaha Milik Negara (BUMN) adalah Badan u...
2,TELAAH KRITIS TENTANG\r\nPEMBERITAAN MEDIA MAS...,Penulis : Andri Eka Sugiarto,ABSTRAK\r\n\r\nJaminan akan kemerdekaan dan ke...
3,PELAKSANAAN PENDAFTARAN TANAH UNTUK PERTAMA KA...,Penulis : Agung Saiful Anam,ABSTRAK\r\n\r\nPendaftaran tanah untuk pertama...
4,TRANSAKSI JUAL BELI MELALUI INTERNET PERSPEKTI...,Penulis : Adityo Nugroho,\r\nABSTRAK\r\n\r\n\tSalah satu bentuk kemajua...


df.head() adalah proses untuk menampilkan data awal/teratas yang terdapat a pada file. Jika pada df.head() tidak diberikan parameter angka, hasil yang akan ditampilkan adalah 5 data teratas yang ada pada file.

### 3. Drop data yang tidak diperlukan

Drop data adalah proses penghapusan data pada tabel data yang tidak diperlukan dalam proses pre-processing data. Pada tahap ini data yang dihapus adalah data yang ada pada tabel judul, waktu, dan category karena data yang akan digunakan adalah data yang ada pada tabel isi.

In [89]:
# drop the publish date.
df.drop(['judul','penulis'],axis=1, inplace=True)

tahap setelah penghapusan data yaitu menampilkan hasil data yang telah di proses dengan menggunakan df.head(). pada bagian ini terdapat nilai 30 sebagai parameter dari data yang akan ditampilkan, ini berarti banyaknya data yang akan di tampilkan adalah 30 data dimulai dari hitungan index ke 0.

In [90]:
df.head(20)

Unnamed: 0,abstrak
0,\r\nProduk elektronik adalah suatu benda berge...
1,Badan Usaha Milik Negara (BUMN) adalah Badan u...
2,ABSTRAK\r\n\r\nJaminan akan kemerdekaan dan ke...
3,ABSTRAK\r\n\r\nPendaftaran tanah untuk pertama...
4,\r\nABSTRAK\r\n\r\n\tSalah satu bentuk kemajua...
5,ABSTRAK\r\nPelaksanaan perlindungan terhadap T...
6,ABSTRAK\r\n\r\nPerbedaan aliran yaitu antara a...
7,ABSTRAK\r\nPasal 24C Ayat (1) Undang Undang Da...
8,ABSTRAK\r\n\r\nUndang-undang No 12 tahun 2011 ...
9,Oli bekas kapal merupakan oli sisa yang dihasi...




### 4. Clean Data & Processing Data


Proses ini adalah proses untuk membersihkan data dari angka-angka

In [91]:
import string 
import re #regex library

# import word_tokenize & FreqDist from NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist

#remove number
def remove_number(text):
    return  re.sub(r"\d+", "", text)

df['hapus angka'] = df['abstrak'].apply(remove_number)
df.head(10)

Unnamed: 0,abstrak,hapus angka
0,\r\nProduk elektronik adalah suatu benda berge...,\r\nProduk elektronik adalah suatu benda berge...
1,Badan Usaha Milik Negara (BUMN) adalah Badan u...,Badan Usaha Milik Negara (BUMN) adalah Badan u...
2,ABSTRAK\r\n\r\nJaminan akan kemerdekaan dan ke...,ABSTRAK\r\n\r\nJaminan akan kemerdekaan dan ke...
3,ABSTRAK\r\n\r\nPendaftaran tanah untuk pertama...,ABSTRAK\r\n\r\nPendaftaran tanah untuk pertama...
4,\r\nABSTRAK\r\n\r\n\tSalah satu bentuk kemajua...,\r\nABSTRAK\r\n\r\n\tSalah satu bentuk kemajua...
5,ABSTRAK\r\nPelaksanaan perlindungan terhadap T...,ABSTRAK\r\nPelaksanaan perlindungan terhadap T...
6,ABSTRAK\r\n\r\nPerbedaan aliran yaitu antara a...,ABSTRAK\r\n\r\nPerbedaan aliran yaitu antara a...
7,ABSTRAK\r\nPasal 24C Ayat (1) Undang Undang Da...,ABSTRAK\r\nPasal C Ayat () Undang Undang Dasar...
8,ABSTRAK\r\n\r\nUndang-undang No 12 tahun 2011 ...,ABSTRAK\r\n\r\nUndang-undang No tahun tentan...
9,Oli bekas kapal merupakan oli sisa yang dihasi...,Oli bekas kapal merupakan oli sisa yang dihasi...


In [92]:
def remove_all(text):
    # remove tab, new line, ans back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
    # remove non ASCII (emoticon, chinese word, .etc)
    text = text.encode('ascii', 'replace').decode('ascii')
    # remove mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    # remove incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
df['remov all'] = df['hapus angka'].apply(remove_all)
df.head(10)

Unnamed: 0,abstrak,hapus angka,remov all
0,\r\nProduk elektronik adalah suatu benda berge...,\r\nProduk elektronik adalah suatu benda berge...,Produk elektronik adalah suatu benda bergerak ...
1,Badan Usaha Milik Negara (BUMN) adalah Badan u...,Badan Usaha Milik Negara (BUMN) adalah Badan u...,Badan Usaha Milik Negara (BUMN) adalah Badan u...
2,ABSTRAK\r\n\r\nJaminan akan kemerdekaan dan ke...,ABSTRAK\r\n\r\nJaminan akan kemerdekaan dan ke...,ABSTRAK Jaminan akan kemerdekaan dan kebebasan...
3,ABSTRAK\r\n\r\nPendaftaran tanah untuk pertama...,ABSTRAK\r\n\r\nPendaftaran tanah untuk pertama...,ABSTRAK Pendaftaran tanah untuk pertama kali b...
4,\r\nABSTRAK\r\n\r\n\tSalah satu bentuk kemajua...,\r\nABSTRAK\r\n\r\n\tSalah satu bentuk kemajua...,ABSTRAK Salah satu bentuk kemajuan teknologi a...
5,ABSTRAK\r\nPelaksanaan perlindungan terhadap T...,ABSTRAK\r\nPelaksanaan perlindungan terhadap T...,ABSTRAK Pelaksanaan perlindungan terhadap Tena...
6,ABSTRAK\r\n\r\nPerbedaan aliran yaitu antara a...,ABSTRAK\r\n\r\nPerbedaan aliran yaitu antara a...,ABSTRAK Perbedaan aliran yaitu antara aliran s...
7,ABSTRAK\r\nPasal 24C Ayat (1) Undang Undang Da...,ABSTRAK\r\nPasal C Ayat () Undang Undang Dasar...,ABSTRAK Pasal C Ayat () Undang Undang Dasar Ne...
8,ABSTRAK\r\n\r\nUndang-undang No 12 tahun 2011 ...,ABSTRAK\r\n\r\nUndang-undang No tahun tentan...,ABSTRAK Undang-undang No tahun tentang Pembent...
9,Oli bekas kapal merupakan oli sisa yang dihasi...,Oli bekas kapal merupakan oli sisa yang dihasi...,Oli bekas kapal merupakan oli sisa yang dihasi...


In [93]:
#mengubah huruf menjadi kecil dengan menggunakan Series.str.lower() pada pandas

df['remov all'] = df['remov all'].str.lower()

print (df['remov all'])

0     produk elektronik adalah suatu benda bergerak ...
1     badan usaha milik negara (bumn) adalah badan u...
2     abstrak jaminan akan kemerdekaan dan kebebasan...
3     abstrak pendaftaran tanah untuk pertama kali b...
4     abstrak salah satu bentuk kemajuan teknologi a...
5     abstrak pelaksanaan perlindungan terhadap tena...
6     abstrak perbedaan aliran yaitu antara aliran s...
7     abstrak pasal c ayat () undang undang dasar ne...
8     abstrak undang-undang no tahun tentang pembent...
9     oli bekas kapal merupakan oli sisa yang dihasi...
10    undang-undang tentang penghapusan kekerasan da...
11    abstrak pelaksanaan terhadap kebijakan morator...
12    abstrak perkembangan teknologi informasi dan k...
13    pers memaknai segala kegiatan jurnalistiknya m...
14    tindak pidana narkotika merupakan tindak kejah...
15    penelitian ini dilatarbelakangi oleh keinginta...
16    peradilan in absentia adalah konsep di mana te...
Name: remov all, dtype: object


## Stopword

Proses selanjutnya adalah proses Stopword. Stopword merupakan proses mengabaikan kata-kata yang perlu di abaikan dalam sebuah dokumen dan memilih kata-kata penting yang mewakili suatu dokumen.

In [94]:
def clean_text(headline):
  le=WordNetLemmatizer()
  word_tokens=word_tokenize(headline)
  tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
  cleaned_text=" ".join(tokens)
  return cleaned_text

In [95]:
# time taking
#nltk.download('wordnet')
df['clean_text_isi']=df['hapus angka'].apply(clean_text)

In [96]:
df.head()

Unnamed: 0,abstrak,hapus angka,remov all,clean_text_isi
0,\r\nProduk elektronik adalah suatu benda berge...,\r\nProduk elektronik adalah suatu benda berge...,produk elektronik adalah suatu benda bergerak ...,Produk elektronik benda bergerak dihasilkan pr...
1,Badan Usaha Milik Negara (BUMN) adalah Badan u...,Badan Usaha Milik Negara (BUMN) adalah Badan u...,badan usaha milik negara (bumn) adalah badan u...,Badan Usaha Milik Negara BUMN Badan usaha moda...
2,ABSTRAK\r\n\r\nJaminan akan kemerdekaan dan ke...,ABSTRAK\r\n\r\nJaminan akan kemerdekaan dan ke...,abstrak jaminan akan kemerdekaan dan kebebasan...,ABSTRAK Jaminan kemerdekaan kebebasan pers Ind...
3,ABSTRAK\r\n\r\nPendaftaran tanah untuk pertama...,ABSTRAK\r\n\r\nPendaftaran tanah untuk pertama...,abstrak pendaftaran tanah untuk pertama kali b...,ABSTRAK Pendaftaran tanah kali bertujuan kepas...
4,\r\nABSTRAK\r\n\r\n\tSalah satu bentuk kemajua...,\r\nABSTRAK\r\n\r\n\tSalah satu bentuk kemajua...,abstrak salah satu bentuk kemajuan teknologi a...,ABSTRAK Salah bentuk kemajuan teknologi jual b...


setelah Stopword, proses selanjutnya sama dengan proses sebelumnya yaitu menghapus data pada tabel yang tidak diperlukan dan hanya menyisakan data pada tabel hasil dari proses sebelumnya.

In [97]:
df.drop(['abstrak','hapus angka', 'clean_text_isi'],axis=1,inplace=True)

In [98]:
df

Unnamed: 0,remov all
0,produk elektronik adalah suatu benda bergerak ...
1,badan usaha milik negara (bumn) adalah badan u...
2,abstrak jaminan akan kemerdekaan dan kebebasan...
3,abstrak pendaftaran tanah untuk pertama kali b...
4,abstrak salah satu bentuk kemajuan teknologi a...
5,abstrak pelaksanaan perlindungan terhadap tena...
6,abstrak perbedaan aliran yaitu antara aliran s...
7,abstrak pasal c ayat () undang undang dasar ne...
8,abstrak undang-undang no tahun tentang pembent...
9,oli bekas kapal merupakan oli sisa yang dihasi...


Untuk menampilkan isi dari suatu index data pada tabel dapat dilakukan dengan menggunakan code berikut:

In [99]:
df['remov all'][10]

'undang-undang tentang penghapusan kekerasan dalam rumah tangga (uu- pkdrt) nomor tahun membuat sebagian orang berpikir bahwa masalah pribadi menjadi konsumsi pablik. tidak dapat diungkiri masyarakat kita menganggap masalah keluarga yang tidak perlu diungkap karenanya tidak layak diungkap ke muka umum. maka tidak salah, walaupun undang-undang ini sudah berlaku tahun, kasus yang dilaporkan masih sedikit. dalam pasal uu pkdrt, dimandatkan untuk dibuatnya peraturan pemerintah terkait pelaksanaan pemenuhan hak-hak korban dalam rangka pemulihan. peraturan pemerintah untuk uu pdkrt terkait dengan upaya pemulihan baru ditetapkan tahun , yakni peraturan pemerintah nomor tahun tentang penyelenggaraan dan kerjasama pemulihan korban kekerasan dalam rumah tangga. peraturan pemerintah ini menekankan bahwa pemulihan terhadap korban kdrt tidak hanya berupa pemulihan fisik, tetapi juga psikis. sehingga sangat diperlukan fasilitas dan kerjasama antar pihak yang telah disebutkan dalam undang-undang. per

In [105]:
df.to_csv("abstrak_pre-processing")

### Mengekstraksi Fitur dan Membuat Document-Term-Matrix (DTM)

Term Frequency-Inverse Document Frequency (TF-IDF) adalah algoritma yang digunakan untuk menganalisa hubungan natara frase/kalimat dengan sekumpulan dokumen. Inti algoritma TF-IDF adalah menghitung terlebih dahulu nilai TF dan nilai IDF dari masing -masing dokumen. 


Term Frequency(TF) adalah jumlah kemunculan sebuah term pada sebuah dokumen
Nilai TF dihitung menggunakan rumus:

$$
\mathrm{tf}(t, d)=\frac{f_{t_{1} d}}{\sum_{t^{\prime} \in d} f_{t^{\prime}, d}}
$$

Inverse Document Frequency(IDF) yaitu pengurangan dominasi term yang sering muncul diberbagai dokumen, dengan memperhitungkan kebalikan frekuensi dokumen yang mengandung suatu kata.
dan nilai IDF dihitung dengan rumus:
$$
\operatorname{idf}=\log \left(\frac{D}{d f}\right)
$$

setelah mendapatkan nilai TF dan IDF, yang akan kita hitung adalah nilai dari TF-IDF, berikut adalah rumus perhitungannya:
$$
\begin{gathered}
Tf-idf=t f_{i j} * i d f_{j} \\
Tf-idf=t f_{i j} * \log \left(\frac{D}{d f}\right)
\end{gathered}
$$

Catatan:

Df = jumlah dokumen yang didalamnya memuat term tertentu

D = Jumlah Dokumen yang di perbandingkan


Terdapat beberapa poin penting yaitu:

1) LSA umumnya diimplementasikan dengan nilai Tf-Idf di mana-mana dan bukan dengan Count Vectorizer.

2) max_features tergantung pada daya komputasi dan juga pada eval. Metrik (skor koherensi adalah metrik untuk model topik). 

3) Nilai default untuk min_df &max_df bekerja dengan baik.

4) Dapat mencoba nilai yang berbeda untuk ngram_range.

In [112]:
import pandas as pd
import numpy as np

df = pd.read_csv("abstrak_pre-processing", usecols=['remov all'])
df.columns = ['hasil-akhir']

df.head()

Unnamed: 0,hasil-akhir
0,produk elektronik adalah suatu benda bergerak ...
1,badan usaha milik negara (bumn) adalah badan u...
2,abstrak jaminan akan kemerdekaan dan kebebasan...
3,abstrak pendaftaran tanah untuk pertama kali b...
4,abstrak salah satu bentuk kemajuan teknologi a...


In [114]:
from sklearn.feature_extraction.text import CountVectorizer

document = df['hasil-akhir']
a=len(document)

#create a vectorizer object
vectorizer = CountVectorizer()

vectorizer.fit(document)
# Printing the identified Unique words along with their indices
print("Vocabulary: ", vectorizer.vocabulary_)

Vocabulary:  {'produk': 746, 'elektronik': 225, 'adalah': 6, 'suatu': 846, 'benda': 64, 'bergerak': 74, 'yang': 956, 'dihasilkan': 167, 'melalui': 458, 'proses': 751, 'produksi': 747, 'oleh': 588, 'pengusaha': 663, 'berupa': 100, 'peralatan': 688, 'atau': 37, 'alat': 20, 'bekerja': 59, 'berdasarkan': 72, 'kerja': 357, 'elektronika': 226, 'selalu': 808, 'update': 937, 'bervariasi': 101, 'baik': 49, 'dari': 134, 'segi': 801, 'bentuk': 65, 'maupun': 452, 'kecanggihannya': 322, 'contohnya': 121, 'televisi': 879, 'radio': 757, 'handphone': 249, 'perekam': 695, 'kaset': 307, 'compact': 117, 'disc': 203, 'kamera': 299, 'digital': 160, 'video': 944, 'dan': 132, 'lain': 412, 'jenis': 287, 'tersebut': 907, 'merupakan': 556, 'barang': 54, 'sering': 822, 'digunakan': 162, 'telah': 877, 'menjadi': 538, 'kebutuhan': 321, 'setiap': 827, 'manusia': 439, 'karena': 303, 'banyak': 51, 'membantu': 474, 'pekerjaan': 607, 'di': 142, 'kehidupan': 329, 'sehari': 802, 'hari': 252, 'dalam': 129, 'efesiensi': 22

In [117]:
# Encode the Document
vector = vectorizer.transform(document)

# Summarizing the Encoded Texts
print("Encoded Document is:")
vector.toarray()

Encoded Document is:


array([[ 0,  0,  0, ...,  0, 14,  1],
       [ 0,  0,  0, ...,  0,  9,  1],
       [ 0,  0,  1, ...,  0,  5,  0],
       ...,
       [ 0,  0,  0, ...,  0,  4,  1],
       [ 0,  0,  0, ...,  0,  8,  1],
       [ 0,  5,  0, ...,  0,  7,  1]], dtype=int64)

In [116]:
a = vectorizer.get_feature_names()

tfidf = TfidfTransformer(use_idf=True, norm='l2', smooth_idf=True)
tf = tfidf.fit_transform(vectorizer.fit_transform(document)).toarray()

dfb = pd.DataFrame(data=tf,index=list(range(1, len(tf[:,1])+1, )),columns=[a])
dfb

dfb.to_csv("hasil-paling-akhir.csv")



# K-Means

In [80]:
from sklearn.cluster import KMeans
from matplotlib import pyplot as plt
from sklearn.preprocessing import StandardScaler

In [118]:
#--- Mengubah Variabel Data Frame Menjadi Array ---
x_array =  np.array(dfb)
print(x_array)

[[0.         0.         0.         ... 0.         0.17761181 0.02466853]
 [0.         0.         0.         ... 0.         0.15307551 0.03307216]
 [0.         0.         0.02571763 ... 0.         0.08098579 0.        ]
 ...
 [0.         0.         0.         ... 0.         0.05387803 0.02619094]
 [0.         0.         0.         ... 0.         0.15099275 0.03669995]
 [0.         0.26967408 0.         ... 0.         0.11808483 0.03280163]]


In [81]:
scaler = StandardScaler()
scaler.fit(df)
df_scaled = scaler.transform(df)

In [82]:
print (df_scaled)

[[-0.22727748 -0.1831997  -0.23503274 ... -0.17470422 -0.19058394
  -0.25352268]
 [-0.22727748 -0.1831997  -0.23503274 ... -0.17470422 -0.19058394
   8.05186458]
 [-0.22727748 -0.1831997   0.56666642 ... -0.17470422 -0.19058394
  -0.25352268]
 ...
 [ 0.73649433 -0.1831997  -0.23503274 ... -0.17470422  1.35287784
  -0.25352268]
 [-0.22727748 -0.1831997  -0.23503274 ... -0.17470422 -0.19058394
  -0.25352268]
 [ 0.52110884  0.81189341 -0.23503274 ...  0.58387963  1.00794218
   0.75669767]]


## Modelling Latent Semantic Analysis (LSA)

LSA pada dasarnya adalah dekomposisi nilai tunggal.

SVD menguraikan DTM asli menjadi tiga matriks S=U.(sigma). (V.T). Di sini matriks U menunjukkan matriks dokumen-topik sedangkan (V) adalah matriks topik-istilah.

Setiap baris matriks U (document-term matrix) adalah representasi vektor dari dokumen yang sesuai. Panjang vektor ini adalah jumlah topik yang diinginkan. Representasi vektor untuk istilah-istilah dalam data kami dapat ditemukan dalam matriks V (matriks term-topic).

Jadi, SVD memberi kita vektor untuk setiap dokumen dan istilah dalam data kita. Panjang setiap vektor adalah k. Kita kemudian dapat menggunakan vektor-vektor ini untuk menemukan kata-kata serupa dan dokumen serupa menggunakan metode kesamaan kosinus.

Kita dapat menggunakan fungsi truncatedSVD untuk mengimplementasikan LSA. Parameter n_components adalah jumlah topik yang ingin kami ekstrak. Model kemudian cocok dan diubah pada hasil yang diberikan oleh vectorizer.

Terakhir perhatikan bahwa LSA dan LSI (I untuk pengindeksan) adalah sama dan yang lebih baru hanya kadang-kadang digunakan dalam konteks pengambilan informasi.

Singular Value Decomposition (SVD) adalah teknik reduksi dimensi yang bermanfaat untuk memperkecil nilai kompleksitas dalam pemrogresan term-document matrix. rumus SVD yaitu:

$$
\begin{array}{ll}
A_{m n}=U_{m m} x S_{m n} x V_{n n}^{T} \\\\\\
\mathrm{~A}_{m n}= { matriks awal } \\
\mathrm{U}_{m m}= { matriks ortogonal U } \\
\mathrm{S}_{m n}= { matriks diagonal S } \\
\mathrm{V}_{n n}^{\top}= { transpose matriks ortogonal } \mathrm{V}
\end{array}
$$

In [75]:
from sklearn.decomposition import TruncatedSVD
lsa_model = TruncatedSVD(n_components=10, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)

In [76]:
print(lsa_top)
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

[[ 2.55051078e-01  5.89269891e-02  5.03548369e-01  4.20357772e-01
  -1.27637508e-02 -2.80748247e-01 -2.21599344e-01  2.24526787e-01
   6.46089984e-02 -9.60528422e-02]
 [ 3.19535654e-01 -1.81696694e-01 -1.89599214e-02 -1.91229040e-01
  -2.23762243e-01 -2.70462813e-01 -3.06987123e-02 -1.01162106e-01
   5.61635193e-01  5.43329733e-01]
 [ 4.62151878e-01 -2.70592006e-01 -4.52337782e-01  1.79498026e-01
   3.04816542e-02 -2.12361955e-01 -1.50571394e-01  1.73580054e-02
  -4.20338351e-01 -4.08614482e-02]
 [ 2.70683143e-01  1.35024352e-01  1.78370667e-01  2.18739830e-01
  -2.73981764e-02  2.77183862e-01  3.23745408e-01 -3.57742263e-01
  -3.34551270e-01  5.32091771e-01]
 [ 1.43241002e-01 -4.94105995e-02  1.64618629e-01 -1.41786582e-01
   7.50270330e-01 -8.27897242e-02  9.03292487e-02  1.02302911e-01
  -3.81418543e-02  2.07751005e-01]
 [ 3.17568511e-01  7.55390397e-01 -1.31555783e-01 -7.79086982e-02
   9.49933501e-03 -2.04456780e-01  3.40277811e-02 -2.06717748e-02
   2.28647747e-02 -5.67938040e-02

In [77]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  25.505107778232105
Topic  1  :  5.892698907494205
Topic  2  :  50.354836884786145
Topic  3  :  42.035777241220586
Topic  4  :  -1.2763750837396912
Topic  5  :  -28.074824689375955
Topic  6  :  -22.1599344026332
Topic  7  :  22.452678676003774
Topic  8  :  6.4608998367008565
Topic  9  :  -9.605284220053086


Similalry dengan dokumen lain kita bisa melakukan ini. Namun perlu perhatikan bahwa nilai tidak ditambahkan ke 1 karena dalam LSA itu bukan probabiltiy dari suatu topik dalam dokumen.

In [78]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(10, 750)
[[ 0.01332691  0.06022948  0.03896505 ...  0.01809168  0.00607684
   0.03020837]
 [-0.0101396  -0.01907093  0.02300931 ... -0.00658073 -0.00277338
  -0.01180538]
 [ 0.01114724  0.01273155  0.00750698 ...  0.00804909  0.00875156
   0.00802982]
 ...
 [-0.00582125 -0.10335224 -0.00131876 ...  0.00649241 -0.004991
   0.01004952]
 [ 0.00403454  0.04490748 -0.02087188 ...  0.02918382 -0.01103828
   0.045522  ]
 [-0.01407538 -0.09061661  0.01827539 ... -0.027426   -0.0061795
  -0.00793788]]


Untuk memperoleh kata-kata penting pada tiap dokument, yaitu dengan menggunakan code di bawah ini.

In [79]:
# most important words for each topic
vocab = vect.get_feature_names_out()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
undang pers pidana negara penelitian elektronik hak tindak hukum penempatan 

Topic 1: 
penempatan tki moratorium bangkalan tkw perlindungan negeri kebijakan pelaksanaan pemerintah 

Topic 2: 
elektronik produk dokumen mpr tap alat bukti perdata indonesia undang 

Topic 3: 
elektronik produk dokumen bukti pers alat rekonstruksi perdata tanah pidana 

Topic 4: 
beli jual internet kapal oli bekas gharar unsur limbah transaksi 

Topic 5: 
penal korban upaya pemulihan tanah kekerasan non kuhp aliran beragama 

Topic 6: 
narkotika narapidana remisi tanah terdakwa rekonstruksi hak pemasyarakatan pemberian pidana 

Topic 7: 
narkotika narapidana remisi pemasyarakatan pemberian lembaga produk iia klas pamekasan 

Topic 8: 
bumn rekonstruksi direksi persero perkara penulis pidana kerugian perseroan terbatas 

Topic 9: 
bumn tanah direksi persero pendaftaran data kendala pertanahan milik kerugian 

