# TOPIK MODELLING

Topik Modelling adalah pendekatan yang digunakan untuk menganalisis sekumpulan dokumen yang berbentuk teks yang kemudian dikelompokkan menjadi beberapa topik. Proses topik modelling dapat dilakukan dengan tahapan-tahapan sebagai berikut:
1. Crawling Data
2. Pre-Processing Data
   - Cleansing Data
   - Stopword
3. Modelling (LSA)

# 1. Crawling Data Berita

Crawling data adalah proses pengambilan data secara online untuk sebuah kebutuhan umum. Proses yang dilakukan yaitu mengimport suatu informasi atau sebuah data yang telah di ambil ke dalam file lokal pada komputer. Crawling data dilakukan untuk mengekstraksi data yang mengacu pengumpulan data dari worldwide web, dokumen-dokumen, file, dan lainnya. 

Berikut adalah code untuk proses Crawling data website berita menggunakan Scrapy. Website berita yang di crawling adalah https://ekbis.sindonews.com/, data yang di ambil adalah data Judul, Waktu, Category berita, dan Deskripsi berita.

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'https://ekbis.sindonews.com/'

        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        # print(response.url)
        for i in range(0, 30):
            for data in response.css('body > div:nth-child(5) > section > div.grid_24 > div.homelist-new > ul'):
                yield{
                    'judul': data.css('li.latest-event.latest-track-' + str(i) + ' > div.homelist-box > div.homelist-title > a::text').extract(),

                    'waktu': data.css('li.latest-event.latest-track-' + str(i) + ' > div.homelist-box > div.homelist-top > div.homelist-date::text').extract(),

                    'category': data.css('li.latest-event.latest-track-' + str(i) + ' > div.homelist-box > div.homelist-top > div.homelist-channel::text').extract(),

                    'isi': data.css('li.latest-event.latest-track-' + str(i) + ' > div.homelist-box > div.homelist-desc::text').extract()
                }
                


# 2. Pre-Processing Data

Pre-Processing Data merupakan suatu proses mengubah data mentah menjadi bentuk data yang lebih mudah dipahami. Proses dilakukan untuk membersihkan data dari angka, tanda baca, whitespace, dan kata yang tidak penting untuk digunakan. Tahapan dalam pre-processing data yaitu:

## Cleansing Data


Cleaning data atau membersihkan data artinya mengeksekusi ulang data yang telah di peroleh, seperti menghapus atau menghilangkan data-data yang tidak lengkap, tidak relavan, dan tidak akurat. Langkah pertama yang dilakukan untuk membulai proses pre-processing data adalah dengan mengimport modul-module yang diperlukan untuk proses pre-processing.

###  1. Import Module

In [28]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

#import nltk
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

# for named entity recognition (NER)
from nltk import ne_chunk

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

#stop-words
stop_words=set(nltk.corpus.stopwords.words('indonesian'))

### 2. Load Dataset

setelah proses import module yang digunakan, langkah kedua pada proses cleaning data adalah Load Data. Load Data adalah proses membuka data yang akan digunakan untuk proses Pre-Processing, data yang digunakan biasanya berbentuk file csv.

In [29]:
df=pd.read_csv('wrapping-text.csv')

In [30]:
df.head()

Unnamed: 0,judul,waktu,category,isi
0,Wapres Ungkap Data Amerika Soal Ketahanan Pang...,"Selasa, 22 Maret 2022 - 17:14 WIB",Sektor Riil,"Wakil Presiden Maruf Amin mengungkapkan, berda..."
1,"Lebih Murah, YLKI Khawatir Konsumen Bakal Migr...","Selasa, 22 Maret 2022 - 16:48 WIB",Sektor Riil,Ketua Yayasan Lembaga Konsumen Indonesia (YLKI...
2,Kemenkeu Siapkan 186 Pasal yang Mengatur Penda...,"Selasa, 22 Maret 2022 - 16:24 WIB",Makro,Kementerian Keuangan tengah menyiapkan 186 pas...
3,"Menghijau, IHSG Hari Ini Ditutup Tembus Level ...","Selasa, 22 Maret 2022 - 15:37 WIB",Kurs & Saham,Indeks Harga Saham Gabungan (IHSG) hari ini me...
4,"Tumbuh Berlipat dari PDB, Ekonomi Digital Jadi...","Selasa, 22 Maret 2022 - 15:29 WIB",Makro,Laju pertumbuhan ekonomi digital Indonesia dip...


df.head() adalah proses untuk menampilkan data awal yang ada pada file.

### 3. Drop data yang tidak diperlukan

Drop data adalah proses penghapusan data pada tabel data yang tidak diperlukan dalam proses pre-processing data. Pada tahap ini data yang dihapus adalah data yang ada pada tabel judul, waktu, dan category karena data yang akan digunakan adalah data yang ada pada tabel isi.

In [31]:
# drop the publish date.
df.drop(['judul'],axis=1,inplace=True)

In [32]:
df.drop(['waktu'],axis=1,inplace=True)

In [33]:
df.drop(['category'],axis=1,inplace=True)

tahap setelah penghapusan data yaitu menampilkan hasil data yang telah di proses.

In [34]:
df.head(30)

Unnamed: 0,isi
0,"Wakil Presiden Maruf Amin mengungkapkan, berda..."
1,Ketua Yayasan Lembaga Konsumen Indonesia (YLKI...
2,Kementerian Keuangan tengah menyiapkan 186 pas...
3,Indeks Harga Saham Gabungan (IHSG) hari ini me...
4,Laju pertumbuhan ekonomi digital Indonesia dip...
5,Menyusul dicabutnya aturan Harga Eceran Tertin...
6,Menteri Keuangan (Menkeu) Sri Mulyani menyatak...
7,Menteri Keuangan (Menkeu) Sri Mulyani merespon...
8,Harga minyak mentah atau crude oil mengalami k...
9,Menko Airlangga mengakui pelaku UMKM menjadi c...


### 4. Clean Data & Processing Data

Proses ini adalah proses untuk membersihkan data dari angka-angka

In [35]:
import string 
import re #regex library

# import word_tokenize & FreqDist from NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist

#remove number
def remove_number(text):
    return  re.sub(r"\d+", "", text)

df['hapus angka'] = df['isi'].apply(remove_number)
df.head(10)

Unnamed: 0,isi,hapus angka
0,"Wakil Presiden Maruf Amin mengungkapkan, berda...","Wakil Presiden Maruf Amin mengungkapkan, berda..."
1,Ketua Yayasan Lembaga Konsumen Indonesia (YLKI...,Ketua Yayasan Lembaga Konsumen Indonesia (YLKI...
2,Kementerian Keuangan tengah menyiapkan 186 pas...,Kementerian Keuangan tengah menyiapkan pasal ...
3,Indeks Harga Saham Gabungan (IHSG) hari ini me...,Indeks Harga Saham Gabungan (IHSG) hari ini me...
4,Laju pertumbuhan ekonomi digital Indonesia dip...,Laju pertumbuhan ekonomi digital Indonesia dip...
5,Menyusul dicabutnya aturan Harga Eceran Tertin...,Menyusul dicabutnya aturan Harga Eceran Tertin...
6,Menteri Keuangan (Menkeu) Sri Mulyani menyatak...,Menteri Keuangan (Menkeu) Sri Mulyani menyatak...
7,Menteri Keuangan (Menkeu) Sri Mulyani merespon...,Menteri Keuangan (Menkeu) Sri Mulyani merespon...
8,Harga minyak mentah atau crude oil mengalami k...,Harga minyak mentah atau crude oil mengalami k...
9,Menko Airlangga mengakui pelaku UMKM menjadi c...,Menko Airlangga mengakui pelaku UMKM menjadi c...


## Stopword

Proses selanjutnya adalah proses Stopword. Stopword merupakan proses mengabaikan kata-kata yang perlu di abaikan dalam sebuah dokumen

In [36]:
def clean_text(headline):
  le=WordNetLemmatizer()
  word_tokens=word_tokenize(headline)
  tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
  cleaned_text=" ".join(tokens)
  return cleaned_text

In [37]:
# time taking
#nltk.download('wordnet')
df['clean_text_isi']=df['hapus angka'].apply(clean_text)

In [38]:
df.head()

Unnamed: 0,isi,hapus angka,clean_text_isi
0,"Wakil Presiden Maruf Amin mengungkapkan, berda...","Wakil Presiden Maruf Amin mengungkapkan, berda...",Wakil Presiden Maruf Amin berdasarkan data Ame...
1,Ketua Yayasan Lembaga Konsumen Indonesia (YLKI...,Ketua Yayasan Lembaga Konsumen Indonesia (YLKI...,Ketua Yayasan Lembaga Konsumen Indonesia YLKI ...
2,Kementerian Keuangan tengah menyiapkan 186 pas...,Kementerian Keuangan tengah menyiapkan pasal ...,Kementerian Keuangan pasal aturan turunan Ranc...
3,Indeks Harga Saham Gabungan (IHSG) hari ini me...,Indeks Harga Saham Gabungan (IHSG) hari ini me...,Indeks Harga Saham Gabungan IHSG mendarat zona...
4,Laju pertumbuhan ekonomi digital Indonesia dip...,Laju pertumbuhan ekonomi digital Indonesia dip...,Laju pertumbuhan ekonomi digital Indonesia dip...


setelah Stopword, proses selanjutnya sama dengan proses sebelumnya yaitu menghapus data pada tabel yang tidak diperlukan dan menyisakan data pada tabel hasil proses sebelumnya.

In [39]:
df.drop(['isi'],axis=1,inplace=True)

In [40]:
df.drop(['hapus angka'],axis=1,inplace=True)

In [43]:
df

Unnamed: 0,clean_text_isi
0,Wakil Presiden Maruf Amin berdasarkan data Ame...
1,Ketua Yayasan Lembaga Konsumen Indonesia YLKI ...
2,Kementerian Keuangan pasal aturan turunan Ranc...
3,Indeks Harga Saham Gabungan IHSG mendarat zona...
4,Laju pertumbuhan ekonomi digital Indonesia dip...
5,Menyusul dicabutnya aturan Harga Eceran Tertin...
6,Menteri Keuangan Menkeu Mulyani kenaikan April...
7,Menteri Keuangan Menkeu Mulyani merespons terk...
8,Harga minyak mentah crude mengalami kenaikan p...
9,Menko Airlangga mengakui pelaku UMKM critical ...


Untuk menampilkan isi dari suatu index data pada tabel dapat dilakukan dengan menggunakan code berikut:

In [42]:
df['clean_text_isi'][10]

'Asosiasi Pengusaha Ritel Indonesia Aprindo membeberkan free market distributor memasok minyak goreng ritel modern terbatas'

### TF-IDF

MENGEKSTRAKSI FITUR DAN MEMBUAT DOCUMENT-TERM-MATRIX (DTM). Nilai DTM adalah nilai dari TF-idf.

Terdapat beberapa poin penting yaitu:

1) LSA umumnya diimplementasikan dengan nilai Tfidf di mana-mana dan bukan dengan Count Vectorizer.

2) max_features tergantung pada daya komputasi Anda dan juga pada eval. metrik (skor koherensi adalah metrik untuk model topik). Cobalah nilai yang memberikan eval terbaik. metrik dan tidak membatasi kekuatan pemrosesan.

3) Nilai default untuk min_df &max_df bekerja dengan baik.

4) Dapat mencoba nilai yang berbeda untuk ngram_range.

In [45]:
vect =TfidfVectorizer(stop_words=stop_words,max_features=1000) 

In [48]:
vect_text=vect.fit_transform(df['clean_text_isi'])

In [49]:
print(vect_text.shape)
print(vect_text)

(30, 274)
  (0, 93)	0.2165271149567325
  (0, 192)	0.2867690431796365
  (0, 39)	0.2867690431796365
  (0, 30)	0.2867690431796365
  (0, 113)	0.2867690431796365
  (0, 241)	0.2867690431796365
  (0, 6)	0.2867690431796365
  (0, 47)	0.2867690431796365
  (0, 25)	0.25568649478108163
  (0, 7)	0.2867690431796365
  (0, 140)	0.2867690431796365
  (0, 226)	0.2867690431796365
  (0, 270)	0.25568649478108163
  (1, 130)	0.26858557741510825
  (1, 115)	0.21881885803291912
  (1, 46)	0.23947391279261487
  (1, 84)	0.17863945218504915
  (1, 176)	0.15303083349122784
  (1, 86)	0.13994047402823656
  (1, 239)	0.26858557741510825
  (1, 59)	0.26858557741510825
  (1, 160)	0.26858557741510825
  (1, 0)	0.26858557741510825
  (1, 260)	0.26858557741510825
  (1, 272)	0.26858557741510825
  :	:
  (27, 235)	0.2005516098159421
  (28, 27)	0.37180473370818173
  (28, 91)	0.37180473370818173
  (28, 109)	0.37180473370818173
  (28, 190)	0.37180473370818173
  (28, 154)	0.37180473370818173
  (28, 202)	0.37180473370818173
  (28, 12)	0.3

In [51]:
idf=vect.idf_

Dari hasil di atas dapat dilihat kata-kata yang paling sering muncul dan langka pada document berdasarkan skor idf. Semakin rendah nilainya berarti kata tersebut jarang muncul di document, sedangkan semakin tinggi nilainya menandakan bahwa kata tersebut sering muncul pada document.

## Modelling Latent Semantic Analysis (LSA)

LSA pada dasarnya adalah dekomposisi nilai tunggal.

SVD menguraikan DTM asli menjadi tiga matriks S=U.(sigma). (V.T). Di sini matriks U menunjukkan matriks dokumen-topik sedangkan (V) adalah matriks topik-istilah.

Setiap baris matriks U (document-term matrix) adalah representasi vektor dari dokumen yang sesuai. Panjang vektor ini adalah jumlah topik yang diinginkan. Representasi vektor untuk istilah-istilah dalam data kami dapat ditemukan dalam matriks V (matriks term-topic).

Jadi, SVD memberi kita vektor untuk setiap dokumen dan istilah dalam data kita. Panjang setiap vektor adalah k. Kita kemudian dapat menggunakan vektor-vektor ini untuk menemukan kata-kata serupa dan dokumen serupa menggunakan metode kesamaan kosinus.

Kita dapat menggunakan fungsi truncatedSVD untuk mengimplementasikan LSA. Parameter n_components adalah jumlah topik yang ingin kami ekstrak. Model kemudian cocok dan diubah pada hasil yang diberikan oleh vectorizer.

