# TOPIC MODELLING LSA

# Tahap Crawling Data

Crawling adalah teknik pengumpulan data yang digunakan untuk mengindeks informasi pada halaman menggunakan URL (Uniform Resource Locator) dengan menyertakan API (Application Programming Interface) untuk melakukan penambangan dataset yang lebih besar.

Melakukan Scrapy

Scrapy ini adalah library python yang digunakan untuk melakukan scraping/ crawling data

In [1]:
!pip install scrapy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting scrapy
  Downloading Scrapy-2.6.1-py2.py3-none-any.whl (264 kB)
[K     |████████████████████████████████| 264 kB 5.0 MB/s 
[?25hCollecting queuelib>=1.4.2
  Downloading queuelib-1.6.2-py2.py3-none-any.whl (13 kB)
Collecting cryptography>=2.0
  Downloading cryptography-37.0.2-cp36-abi3-manylinux_2_24_x86_64.whl (4.0 MB)
[K     |████████████████████████████████| 4.0 MB 59.3 MB/s 
[?25hCollecting pyOpenSSL>=16.2.0
  Downloading pyOpenSSL-22.0.0-py2.py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 3.8 MB/s 
[?25hCollecting service-identity>=16.0.0
  Downloading service_identity-21.1.0-py2.py3-none-any.whl (12 kB)
Collecting tldextract
  Downloading tldextract-3.3.0-py3-none-any.whl (93 kB)
[K     |████████████████████████████████| 93 kB 1.8 MB/s 
[?25hCollecting itemadapter>=0.1.0
  Downloading itemadapter-0.6.0-py3-none-any.whl (10 kB)
Collecting it

In [2]:
import scrapy
from scrapy.crawler import CrawlerProcess

Pada bagian ini dilakukan proses crawling pada data web berita. Lalu memasukkan url yang dituju. 

Disini dilakukan crawling pada web sindonews dengan mengambil data berupa judul, waktu, kategori, dan deskripsi.

In [3]:
class ScrapingWeb(scrapy.Spider):    
    name = "sindonews"
    keyword = 'edukasi'
    start_urls = [
        'https://edukasi.sindonews.com/'+keyword
        ]
    custom_settings = {
        'FEED_FORMAT': 'csv',
        'FEED_URI': 'crawlingweb.csv'
        }
    
    def parse(self, response):
        for data in response.css('div.sinfix'):
            yield {
                'judul': data.css('div.title a::text').get(),
                'waktu': data.css('time::text').get(),
                'kategori':data.css('span::text').get(),
                'deskripsi': data.css('div.subcaption::text').get()
                }
proses = CrawlerProcess()
proses.crawl(ScrapingWeb)
proses.start()

2022-06-15 11:36:18 [scrapy.utils.log] INFO: Scrapy 2.6.1 started (bot: scrapybot)
2022-06-15 11:36:18 [scrapy.utils.log] INFO: Versions: lxml 4.2.6.0, libxml2 2.9.8, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 22.4.0, Python 3.7.13 (default, Apr 24 2022, 01:04:09) - [GCC 7.5.0], pyOpenSSL 22.0.0 (OpenSSL 3.0.3 3 May 2022), cryptography 37.0.2, Platform Linux-5.4.188+-x86_64-with-Ubuntu-18.04-bionic
2022-06-15 11:36:18 [scrapy.crawler] INFO: Overridden settings:
{}
2022-06-15 11:36:18 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2022-06-15 11:36:18 [scrapy.extensions.telnet] INFO: Telnet Password: 7dbb935f56e341b6
  exporter = cls(crawler)
2022-06-15 11:36:18 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
2022-06-15 11:36:18 [scr

# Melakukan Import Module

Terdapat beberapa library yang harus diimport terlebih dahulu.
- Numpy: NumPy (Numerical Python) adalah library Python yang fokus pada scientific computing dan memiliki kemampuan untuk membentuk objek N-dimensional array, yang mirip dengan list pada Python. Keunggulan NumPy array dibandingkan dengan list pada Python adalah konsumsi memory yang lebih kecil serta runtime yang lebih cepat.

- Pandas (Python for Data Analysis) adalah library Python yang fokus untuk proses analisis data seperti manipulasi data, persiapan data, dan pembersihan data. Pandas menyediakan struktur data dan fungsi high-level untuk membuat data lebih terstruktur, lebih cepat, mudah. Dalam pandas terdapat dua objek yang sering dibahas, yaitu DataFrame dan Series.

- matplotlib.pyplot adalah kumpulan fungsi yang membuat beberapa perubahan pada gambar. misalnya membuat gambar, membuat area plot dalam gambar, menambah label di plot dan lainnya. Biasanya untuk mempermudah secara umum matplotlib.pyplot disingkat menjadi plt import matplotlib.pyplot as plt

- Matplotlib adalah library Python yang fokus pada visualisasi data yang biasa difungsikan membuat plot grafik. matplotlib tersebut dipanggil dan dilakukan import style.

- Seaborn memiliki banyak fungsi untuk visualisasi data dan lebih mudah digunakan untuk menggunakan library seaborn kita harus install library ini terlebih dahulu dengan menggunakan PIP pip install seaborn Untuk menggunakannya import terlebih dahulu dengan perintah seperti ini import seaborn as sns.

In [None]:
# data visualisation and manipulation
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import style
import seaborn as sns

Melakukan Konfigurasi

set matplotlib ke inline dan menampilkan grafik di bawah sel yang sesuai.

In [None]:
#configure
# sets matplotlib to inline and displays graphs below the corressponding cell.
%matplotlib inline  
style.use('fivethirtyeight')
sns.set(style='whitegrid',color_codes=True)

# Persiapan Preprocessing

Preprocessing Data merupakan tahapan dalam melakukan mining data. Data Preprocessing atau praproses data biasanya dilakukan melalui cara eliminasi data yang tidak sesuai.

- Stopwords di nltk adalah kata yang paling umum dalam data. Itu adalah kata-kata yang tidak ingin digunakan untuk menggambarkan topik data dan telah ditentukan sebelumnya juga tidak dapat dihapus.

- Tokenization pada dasarnya mengacu pada pemisahan teks yang lebih besar menjadi baris yang lebih kecil, kata-kata atau bahkan membuat kata-kata untuk bahasa non-Inggris. 

In [None]:
#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

In [None]:
# for named entity recognition (NER)
from nltk import ne_chunk

In [None]:
# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

Melakukan instalasi nltk. Nltk (toolkit bahasa alami) adalah salah satu library python suite yang berisi program yang digunakan untuk melakukan pemrosesan bahasa statistik. 

In [None]:
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
#stop-words
stop_words=set(nltk.corpus.stopwords.words('english'))

# Menampilkan Dataset

Disini dilakukan proses untuk menampilkan data yang bernama crawlingweb.csv

In [None]:
df=pd.read_csv(r'crawlingweb.csv')

In [None]:
df.head()

Unnamed: 0,judul,waktu,kategori,deskripsi
0,6 Hal yang Sering Ditanyakan di Jalur PTO dan ...,"Selasa, 14 Juni 2022 - 11:23 WIB",Sekolah,Penerimaan Peserta Didik Baru (PPDB) DKI Jakar...
1,"Angelo Wijaya , Alumnus UGM Raih Juara 1 di Ko...","Selasa, 14 Juni 2022 - 09:50 WIB",Kampus,"Angelo Wijaya, alumnus Jurusan Ilmu Hubungan I..."
2,"PPDB DKI Jakarta 2022, Serba-serbi Jalur Prestasi","Selasa, 14 Juni 2022 - 09:29 WIB",Sekolah,PPDB DKI Jakarta 2022 membuka beberapa kategor...
3,Partai Perindo: Mars Partai Perindo dengan QR ...,,Video,Lahir dari semangat untuk mengembalikan cita-c...
4,Mahasiswa UI Raih Juara Ajang Internasional Fe...,"Senin, 13 Juni 2022 - 20:44 WIB",Kampus,Sembilan mahasiswa Universitas Indonesia (UI) ...


Lakukan drop kolom pada judul, waktu dan kategori, karena yang akan diproses datanya disini adalah deskripsi.

In [None]:
# drop judul, waktu, kategori
df.drop(['judul','waktu','kategori'],axis=1,inplace=True)

Menampilkan data berupa 'deskripsi' dengan 26 record data

In [None]:
df.head(26)

Unnamed: 0,deskripsi
0,Penerimaan Peserta Didik Baru (PPDB) DKI Jakar...
1,"Angelo Wijaya, alumnus Jurusan Ilmu Hubungan I..."
2,PPDB DKI Jakarta 2022 membuka beberapa kategor...
3,Lahir dari semangat untuk mengembalikan cita-c...
4,Sembilan mahasiswa Universitas Indonesia (UI) ...
5,9 mahasiswa prodi Teknik Perkapalan Universita...
6,Bio Energi Indonesia (Bionersia) yang merupaka...
7,Lima mahasiswa Indonesia meraih Juara Tiga The...
8,Indonesia memiliki lebih dari 4.500 perguruan ...
9,Proses Penerimaan Peserta Didik Baru (PPDB) DK...


# Cleaning Data

Salah satu preprocessing adalah melakukan cleaning data untuk melakukan proses pembersihan data yang tidak diperlukan. Dalam tahap ini, data dibersihkan melalui beberapa proses seperti mengisi nilai yang hilang, menghaluskan noisy data, dan menyelesaikan inkonsistensi yang ditemukan. Data juga bisa dibersihkan dengan dibagi menjadi segmen-segmen yang memiliki ukuran serupa lalu dihaluskan (binning).

Disini telah menggunakan lemmatizer dan juga dapat menggunakan stemmer. Juga kata-kata berhenti telah digunakan bersama dengan kata-kata yang panjangnya lebih pendek dari 3 karakter untuk mengurangi beberapa kata yang menyimpang. 

In [None]:
def clean_text(headline):
  le=WordNetLemmatizer()
  word_tokens=word_tokenize(headline)
  tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
  cleaned_text=" ".join(tokens)
  return cleaned_text

In [None]:
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [None]:
# time taking
df['deskripsi_cleaned_text']=df['deskripsi'].apply(clean_text)

In [None]:
df.head(26)

Unnamed: 0,deskripsi,deskripsi_cleaned_text
0,Penerimaan Peserta Didik Baru (PPDB) DKI Jakar...,Penerimaan Peserta Didik Baru PPDB Jakarta 202...
1,"Angelo Wijaya, alumnus Jurusan Ilmu Hubungan I...",Angelo Wijaya alumnus Jurusan Ilmu Hubungan In...
2,PPDB DKI Jakarta 2022 membuka beberapa kategor...,PPDB Jakarta 2022 membuka beberapa kategori pe...
3,Lahir dari semangat untuk mengembalikan cita-c...,Lahir dari semangat untuk mengembalikan cita-c...
4,Sembilan mahasiswa Universitas Indonesia (UI) ...,Sembilan mahasiswa Universitas Indonesia dari ...
5,9 mahasiswa prodi Teknik Perkapalan Universita...,mahasiswa prodi Teknik Perkapalan Universitas ...
6,Bio Energi Indonesia (Bionersia) yang merupaka...,Energi Indonesia Bionersia yang merupakan star...
7,Lima mahasiswa Indonesia meraih Juara Tiga The...,Lima mahasiswa Indonesia meraih Juara Tiga Ame...
8,Indonesia memiliki lebih dari 4.500 perguruan ...,Indonesia memiliki lebih dari 4.500 perguruan ...
9,Proses Penerimaan Peserta Didik Baru (PPDB) DK...,Proses Penerimaan Peserta Didik Baru PPDB Jaka...


Drop kolom yang tidak diproses, yang akan didrop/ hapus adalah deskripsi

In [None]:
df.drop(['deskripsi'],axis=1,inplace=True)

# Data Deskripsi_cleaned_text

Tampilkan data deskripsi_cleaned_text

In [None]:
df.head(26)

Unnamed: 0,deskripsi_cleaned_text
0,Penerimaan Peserta Didik Baru PPDB Jakarta 202...
1,Angelo Wijaya alumnus Jurusan Ilmu Hubungan In...
2,PPDB Jakarta 2022 membuka beberapa kategori pe...
3,Lahir dari semangat untuk mengembalikan cita-c...
4,Sembilan mahasiswa Universitas Indonesia dari ...
5,mahasiswa prodi Teknik Perkapalan Universitas ...
6,Energi Indonesia Bionersia yang merupakan star...
7,Lima mahasiswa Indonesia meraih Juara Tiga Ame...
8,Indonesia memiliki lebih dari 4.500 perguruan ...
9,Proses Penerimaan Peserta Didik Baru PPDB Jaka...


In [None]:
df['deskripsi_cleaned_text'][0]

'Penerimaan Peserta Didik Baru PPDB Jakarta 2022 membuka jalur Perpindahan Tugas Orang Anak Guru dengan kuota sebanyak persen'

MENGEKSTRAKSI FITUR DAN MEMBUAT DOCUMENT-TERM-MATRIX ( DTM )
Di DTM nilainya adalah nilai TFidf.

Saya juga telah menentukan beberapa parameter dari vectorizer TF-IDF.

Berikut poin penting pada LSA

1) LSA umumnya diimplementasikan dengan nilai TF-IDF dimana-mana dan bukan dengan Count Vectorizer.

2) max_features tergantung pada daya komputasi Anda dan juga pada eval. matrik (skor koherensi adalah matrik untuk model topik). Cobalah nilai yang memberikan eval terbaik. matrik dan tidak membatasi kekuatan pemrosesan.

3) Nilai default untuk min_df &max_df bekerja dengan baik.

4) Dapat mencoba nilai yang berbeda untuk ngram_range.

In [None]:
vect =TfidfVectorizer(stop_words=stop_words,max_features=1000)

In [None]:
vect_text=vect.fit_transform(df['deskripsi_cleaned_text'])

Kita sekarang melihat kata-kata yang paling sering muncul dan langka di berita utama berdasarkan skor idf. Semakin kecil nilainya; lebih umum adalah kata dalam berita utama.

In [None]:
print(vect_text.shape)
print(vect_text)

(26, 302)
  (0, 207)	0.289694729359556
  (0, 236)	0.23395829286047842
  (0, 129)	0.289694729359556
  (0, 60)	0.2013545675846921
  (0, 82)	0.25709100408376967
  (0, 15)	0.23395829286047842
  (0, 181)	0.25709100408376967
  (0, 284)	0.25709100408376967
  (0, 206)	0.25709100408376967
  (0, 103)	0.21601516804251994
  (0, 154)	0.21601516804251994
  (0, 3)	0.2013545675846921
  (0, 102)	0.21601516804251994
  (0, 213)	0.21601516804251994
  (0, 30)	0.2013545675846921
  (0, 65)	0.23395829286047842
  (0, 211)	0.23395829286047842
  (0, 198)	0.2013545675846921
  (1, 265)	0.2394050907133411
  (1, 300)	0.2124612183671009
  (1, 81)	0.2394050907133411
  (1, 27)	0.2394050907133411
  (1, 297)	0.19334423670471124
  (1, 180)	0.2124612183671009
  (1, 63)	0.2394050907133411
  :	:
  (24, 69)	0.27072468617216744
  (24, 78)	0.27072468617216744
  (24, 100)	0.27072468617216744
  (24, 201)	0.27072468617216744
  (24, 74)	0.27072468617216744
  (24, 70)	0.27072468617216744
  (24, 125)	0.2402559464997394
  (24, 46)	0.2

In [None]:
idf=vect.idf_

In [None]:
dd=dict(zip(vect.get_feature_names(), idf))
l=sorted(dd, key=(dd).get)
# print(l)
print(l[0],l[-1])
print(dd['anak'])
print(dd['aliyah'])

indonesia zonasi
2.9095425048844383
3.6026896854443837




Oleh karena itu, dapat dilihat bahwa berdasarkan nilai idf, 'anak' adalah kata yang paling sering terklihat. Sedangkan 'aliyah' paling jarang terlihat di antara berita lainnya.

# Tahap Topic Modelling LSA

Latent Semantic Analysis (LSA)

Latent Semantic Analysis (LSA), adalah salah satu teknik dasar dalam pemodelan topik. Ide intinya adalah mengambil matriks dari apa yang kita miliki - dokumen dan istilah - dan menguraikannya menjadi matriks topik dokumen dan matriks istilah topik yang terpisah.

Pendekatan pertama yang digunakan adalah LSA. LSA pada dasarnya adalah dekomposisi nilai tunggal.

SVD menguraikan DTM asli menjadi tiga matriks S=U.(sigma).(V.T). Di sini matriks U menunjukkan matriks dokumen-topik sementara (V) adalah matriks topik-term.

Setiap baris dari matriks U (matriks istilah dokumen) adalah representasi vektor dari dokumen yang sesuai. Panjang vektor ini adalah jumlah topik yang diinginkan. Representasi vektor untuk suku-suku dalam data kami dapat ditemukan dalam matriks V (matriks istilah-topik).

Jadi, SVD memberi kita vektor untuk setiap dokumen dan istilah dalam data kita. Panjang setiap vektor adalah k. Kami kemudian dapat menggunakan vektor-vektor ini untuk menemukan kata-kata dan dokumen serupa menggunakan metode kesamaan kosinus.

Kita dapat menggunakan fungsi truncatedSVD untuk mengimplementasikan LSA. Parameter n_components adalah jumlah topik yang ingin kita ekstrak. Model tersebut kemudian di fit dan ditransformasikan pada hasil yang diberikan oleh vectorizer.

Terakhir perhatikan bahwa LSA dan LSI (I untuk pengindeksan) adalah sama dan yang terakhir kadang-kadang digunakan dalam konteks pencarian informasi.

In [None]:
from sklearn.decomposition import TruncatedSVD
lsa_model = TruncatedSVD(n_components=10, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)

In [None]:
print(lsa_top)
print(lsa_top.shape)  # (no_of_doc*no_of_topics)

[[ 0.72256115 -0.34999338 -0.01600903 -0.0311643   0.02620161 -0.03405063
  -0.08216404 -0.05289906 -0.00379401  0.04111651]
 [ 0.18255235  0.19789991 -0.11438913  0.07576267 -0.02844799  0.1934747
  -0.05229691  0.60445616  0.01881249  0.20599098]
 [ 0.57854562 -0.33048067  0.04883829 -0.00540662 -0.01570786 -0.03255078
  -0.10040807 -0.08542666 -0.11089027  0.0580679 ]
 [ 0.10308558  0.14173346  0.0085351   0.11507792 -0.16731478  0.47940666
   0.34453951 -0.17707401 -0.09187048  0.1608037 ]
 [ 0.19151059  0.40791167  0.49981394  0.17056039 -0.15887891 -0.08576106
   0.00476509  0.02043023  0.14914404 -0.04135598]
 [ 0.18461886  0.40382697  0.5526085   0.18530858 -0.17384387 -0.09792987
  -0.02642569  0.04268639  0.1869927  -0.05562639]
 [ 0.11122132  0.20044947 -0.13427679 -0.03897828 -0.17439021  0.47338019
   0.30332848 -0.02328665  0.05597552  0.10883381]
 [ 0.09985692  0.21137269  0.31022727  0.06713967 -0.07077228 -0.02133334
  -0.13590692  0.1261782   0.01438924  0.03138327]
 

In [None]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  72.25611527177617
Topic  1  :  -34.999337858095835
Topic  2  :  -1.6009032278664757
Topic  3  :  -3.1164303299628866
Topic  4  :  2.6201605106472274
Topic  5  :  -3.4050633364504104
Topic  6  :  -8.216403609589888
Topic  7  :  -5.289905933750028
Topic  8  :  -0.37940062234803357
Topic  9  :  4.11165102979716


Demikian pula untuk dokumen lain kita bisa melakukan proses tersebut. Namun perhatikan bahwa nilai tidak menambah 1 seperti di LSA itu bukan kemungkinan topik dalam dokumen.

In [None]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(10, 302)
[[ 0.06695695  0.0076551   0.02123125 ...  0.00085431  0.01819373
   0.06371657]
 [-0.04118361  0.01241512  0.04020607 ...  0.00149046  0.02352239
  -0.04274759]
 [-0.0069452  -0.00478335 -0.00644305 ... -0.00313765 -0.02089176
   0.00888283]
 ...
 [ 0.0251672  -0.03443052 -0.00333397 ...  0.09708487  0.20591465
  -0.01962102]
 [ 0.04031578  0.04817892  0.07036253 ...  0.01082368  0.01378376
  -0.02629633]
 [-0.0258872   0.05969074 -0.06155911 ...  0.15447331  0.17985912
   0.01396848]]


Pada proses ini mendapatkan daftar kata-kata penting untuk masing-masing dari 10 topik seperti yang ditunjukkan. Untuk proses tahapannya disini ditunjukkan 10 kata untuk setiap topik.

In [None]:
# most important words for each topic
vocab = vect.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
ppdb 2022 jalur penerimaan jakarta membuka baru didik peserta anak 

Topic 1: 
indonesia yang universitas memiliki mahasiswa dari technology bisa fakultas terbaik 

Topic 2: 
mahasiswa hydromodelling workshop technology dari competition juara kancah kembali mengharumkan 

Topic 3: 
university ranking world menjadi antaranya dalam masuk naik pemeringkatan peringkat 

Topic 4: 
komunikasi buana mercu universitas cumlaude doktor dosen enjang gelar irawan 

Topic 5: 
untuk cita hadir komunikasi alumnus bionersia emisi energi institut karbon 

Topic 6: 
untuk beasiswa putri siswa cita akan mendapatkan hadir wahyu british 

Topic 7: 
youth jurusan oleh juara angelo bank berhasil diadakan group hubungan 

Topic 8: 
inovasi muda agar sydney technology diharapkan generasi khususnya lembaga mampu 

Topic 9: 
youth aliyah victorian young barat cendekia forum global insan kalimantan 



