# Latent Semantic Analytic (LSA)

## Data Berita
Data berita merupakan sebuah dataset yang berisi tentang berita aktual yang ada di website. Data Berita yang digunakan berdasarkan dari website www.detik.com dan akan dilakukan beberapa analisis, yaitu sebuah LSA atau Latent Semantic Analytic.

### LSA (Latent Semantic Analytic)
LSA atau Latent Semantic Analytic merupakan menggunakan model bag of word(BoW), yang menghasilkan matriks term-dokumen (kemunculan istilah dalam dokumen). Baris mewakili istilah dan kolom mewakili dokumen. LSA mempelajari topik laten dengan melakukan dekomposisi matriks pada matriks istilah dokumen menggunakan dekomposisi nilai Singular. LSA biasanya digunakan sebagai teknik pengurangan dimensi atau pengurangan kebisingan (noise redusing technique). Dalam LSA, dilakukan sebuah topic modelling.

<img src="https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1538411402/image3_maagmh.png">

### Topic Modelling
secara otomatis menemukan tema tersembunyi dari dokumen yang diberikan. Ini adalah algoritma analitik teks tanpa pengawasan yang digunakan untuk menemukan kelompok kata dari dokumen yang diberikan. Kelompok kata ini mewakili sebuah topik. Ada kemungkinan bahwa, satu dokumen dapat dikaitkan dengan beberapa tema. misalnya, kata kelompok seperti 'pasien', 'dokter', 'penyakit', 'kanker', iklan 'kesehatan' akan mewakili topik 'kesehatan'. Pemodelan Topik atau topic modelling adalah permainan yang berbeda dibandingkan dengan pencarian teks berbasis aturan yang menggunakan ekspresi reguler.

<img src="https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1538411402/Image1_dz0yfl.png">

### Perbandingan Antara Teks Klasifikasi dengan Topic Modelling
Klasifikasi teks adalah masalah pembelajaran mesin yang diawasi, di mana dokumen teks atau artikel diklasifikasikan ke dalam kumpulan kelas yang telah ditentukan sebelumnya. Pemodelan topik adalah proses menemukan kelompok kata-kata yang muncul bersama dalam dokumen teks. Kata-kata terkait yang muncul bersama kelompok ini membuat "topik". Ini adalah bentuk pembelajaran tanpa pengawasan, sehingga rangkaian topik yang mungkin tidak diketahui. Pemodelan topik dapat digunakan untuk menyelesaikan masalah klasifikasi teks. Pemodelan topik akan mengidentifikasi topik yang disajikan dalam dokumen" sedangkan klasifikasi teks mengklasifikasikan teks ke dalam satu kelas.

<img src="https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1538411402/image2_ndnai9.png">

## Crawling Data
Crawling data berita menggunakan modul beautifulsoup dan berikut tahapan yang dilakukan:

### Menginstal Modul
Menginstal modul yang dibutuhkan

In [None]:
!pip install requests
!pip install html5lib
!pip install bs4
!pip install urllib3

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


### Menentukan Direktori
Memastikan bekerja dalam direktori yang diinginkan

In [None]:
# get the current working directory
import os
os.getcwd()

'/content/Berita'

In [None]:
os.mkdir('Berita')

In [None]:
# change working directories
os.chdir('/content/Berita')
os.getcwd()

'/content/Berita'

### Import CSV
Membuat sebuah file csv dalam file dengan nama result.csv untuk menampung hasil crawling data berita

In [None]:
import csv
writer = csv.writer(open("result.csv", 'w'))

### Mendapatkan Data
Untuk bisa crawlingh data yang mungkin sekali terdapat di lebih dari 1 halaman, kita perlu mencari pola URL nya. Caranya dengan melihat URL untuk halaman 2 atau seterusnya. Klik kanan dan “Open link in new tab”. Pola URL halaman pencarian yang muncul seperti berikut: https://www.detik.com/search/searchall?query=ihsg&sortby=time&page=2 <br>
Perhatikan bagian URL yang ditebalkan,
https://www.detik.com/search/searchall?query=ihsg&sortby=time&amp;page=2. Halaman 2 mengandung “page=2”, halaman 3 mengandung “page=3”, dst. Kita membutuhkan variabel GET dengan nama “page” sebagai basis iterasi pencarian data per halaman via script Python3 dan BeautifulSoup4 nanti.
Hasil pencarian dapat disimpan dengan format file CSV (Comma Separated Values). Di dalam contoh skrip saya berikan nama filenya result.csv dengan header: Title, Date, Category, dan Summary. Header ini berguna jika file CSV tersebut dibuka di aplikasi Excel agar baris pertama berisi nama variabel.
Iterasi “for page in range(1,5): ” bertujuan untuk penelusuran setiap halaman dari 1 sampai 5. URL penelusuran harus diatur agar iterasi dapat dilakukan.
Saya gunakan pola berikut: url = “https://www.detik.com/search/searchnews?query=ihsg&sortby=time&page={}“.format(page) yang mana {} akan diganti dengan nilai variabel page pada skrip iterasi yaitu integer 1 sampai 5. Sehingga URL yang akan di-crawl adalah: <br>
<ul> https://www.detik.com/search/searchnews?query=ihsg&sortby=time&page=1 </ul>
<ul> https://www.detik.com/search/searchnews?query=ihsg&sortby=time&page=2 </ul>
<ul> https://www.detik.com/search/searchnews?query=ihsg&sortby=time&page=3 </ul>
<ul> https://www.detik.com/search/searchnews?query=ihsg&sortby=time&page=4 </ul>
<ul> https://www.detik.com/search/searchnews?query=ihsg&sortby=time&page=5 </ul>

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
file = "result.csv"
f = open(file, "w")
Headers = "Title,Category,Date,Summary\n" #Pemisah menggunakan ,
f.write(Headers)
#halaman dapat diatur sesuai range (1,5) berarti scrap data pada halaman 1 sampai dengan halaman 5
for page in range(1,5):
    url = "https://www.detik.com/search/searchnews?query=ihsg&sortby=time&page={}".format(page)
    html = urlopen(url)
    soup = BeautifulSoup(html,"html.parser")
    soup.prettify()
    Article = soup.find_all("article")
    #print(Article)
    for i in Article:
        try:
            #Mengambil Title
            title = i.find("h2", {"class":"title"}).get_text()
            #Mencari tanggal dan kategori
            date_and_category = i.find("span",{"class":"date"}).get_text()
            summary = i.find("p").get_text()
            #Tulis data ke dalam file
            f.write("{}".format(title).replace(",","|") + ", {}".format(date_and_category).replace("  -  ",",") + "," + ", {}".format(summary).replace(","," ") + "\n" )
        except: AttributeError
f.close()

### Menyimpan Data
Simpan Data hasil crawling kedalam csv

In [None]:
#Load Dataset
import pandas as pd
data=pd.read_csv('result.csv')
data

Unnamed: 0,Title,Category,Date,Summary
0,IHSG Dibuka Menguat Lagi ke 7.099| Intip Rekom...,detikFinanceSelasa,25 Okt 2022 09:08 WIB,Indeks Harga Saham Gabungan (IHSG) hari ini ...
1,IHSG Hijau Seharian| Sore Ini Ditutup di Level...,detikFinanceSenin,24 Okt 2022 16:14 WIB,Indeks Harga Saham Gabungan (IHSG) hari ini ...
2,IHSG Dibuka Menguat ke 7.041 di Awal Pekan,detikFinanceSenin,24 Okt 2022 09:10 WIB,Indeks Harga Saham Gabungan (IHSG) hari ini ...
3,IHSG Ditutup Menguat ke 7.017 Jelang Akhir Pekan,detikFinanceJumat,21 Okt 2022 16:09 WIB,Indeks Harga Saham Gabungan (IHSG) hari ini ...
4,IHSG Balik ke Level 7.000! Cek Rekomendasi Sah...,detikFinanceJumat,21 Okt 2022 09:10 WIB,IHSG berhasil kembali ke level 7.006. IHSG b...
5,IHSG Hari Ini 'Kepeleset' tapi Balik Menguat k...,detikFinanceKamis,20 Okt 2022 09:08 WIB,IHSG sempat menyentuh zona merah dan berbali...
6,IHSG Berhasil Mantul ke Zona Hijau| Tutup di 6...,detikFinanceRabu,19 Okt 2022 16:27 WIB,Indeks harga saham gabungan (IHSG) ditutup m...
7,IHSG Dibuka Melemah Tipis| Intip Peluang Lajun...,detikFinanceRabu,19 Okt 2022 09:19 WIB,Indeks Harga Saham Gabungan (IHSG) pagi ini ...
8,Masih Rugi dan Punya Utang| Kok Blibli Nekat IPO?,detikFinanceRabu,19 Okt 2022 06:00 WIB,Blibli mantap melantai di Bursa Efek Indones...
9,IHSG Ditutup Menguat Setelah Tadi Pagi Menukik...,detikFinanceSenin,17 Okt 2022 16:00 WIB,Indeks harga saham gabungan (IHSG) ditutup m...


## Preprocessing Text
Langkah pertama adalah mengubah ulasan ini menjadi matriks istilah dokumen atau document-term matrix.

Untuk itu, kita harus melakukan beberapa preprocessing pada teks. Ini memerlukan huruf kecil semua teks, menghapus tanda baca, menghentikan kata, kata-kata pendek (yaitu kata-kata kurang dari 3 karakter), dan mengurangi setiap kata ke bentuk dasarnya dengan stemming.

Semua ini dapat dicapai dengan fungsi preprocess_string, yang mengubah teks tertentu menjadi daftar token yang diproses.

In [None]:
import pandas as pd

# load data
df = pd.read_csv('result.csv', usecols=['Summary'])
df

Unnamed: 0,Summary
0,Indeks Harga Saham Gabungan (IHSG) hari ini ...
1,Indeks Harga Saham Gabungan (IHSG) hari ini ...
2,Indeks Harga Saham Gabungan (IHSG) hari ini ...
3,Indeks Harga Saham Gabungan (IHSG) hari ini ...
4,IHSG berhasil kembali ke level 7.006. IHSG b...
5,IHSG sempat menyentuh zona merah dan berbali...
6,Indeks harga saham gabungan (IHSG) ditutup m...
7,Indeks Harga Saham Gabungan (IHSG) pagi ini ...
8,Blibli mantap melantai di Bursa Efek Indones...
9,Indeks harga saham gabungan (IHSG) ditutup m...


### Cleaning Text
Preprocessing yang dibutuhkan dalam melakukan LSA adalah hanya membuat kata menjadi lower, melakukan stopwords, menghapus tanda baca, menghentikan kata, kata-kata pendek (yaitu kata-kata kurang dari 3 karakter), dan mengurangi setiap kata ke bentuk dasarnya dengan stemming.

In [None]:
#import nltk
import nltk
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize,sent_tokenize

#preprocessing
from nltk.corpus import stopwords  #stopwords
from nltk import word_tokenize,sent_tokenize # tokenizing
from nltk.stem import PorterStemmer,LancasterStemmer  # using the Porter Stemmer and Lancaster Stemmer and others
from nltk.stem.snowball import SnowballStemmer
from nltk.stem import WordNetLemmatizer  # lammatizer from WordNet

# for named entity recognition (NER)
from nltk import ne_chunk

#stop-words
stop_words=set(nltk.corpus.stopwords.words('indonesian'))

# vectorizers for creating the document-term-matrix (DTM)
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [None]:
def clean_text(headline):
  le=WordNetLemmatizer()
  word_tokens=word_tokenize(headline)
  tokens=[le.lemmatize(w) for w in word_tokens if w not in stop_words and len(w)>3]
  cleaned_text=" ".join(tokens)
  return cleaned_text

In [None]:
# time taking
df['headline_cleaned_text']=df['Summary'].apply(clean_text)

### Preview Dataset
Melihat Hasil Preprocessing Teks

In [None]:
# preview of dataset
df.head()

Unnamed: 0,Summary,headline_cleaned_text
0,Indeks Harga Saham Gabungan (IHSG) hari ini ...,Indeks Harga Saham Gabungan IHSG dibuka mengua...
1,Indeks Harga Saham Gabungan (IHSG) hari ini ...,Indeks Harga Saham Gabungan IHSG ditutup mengu...
2,Indeks Harga Saham Gabungan (IHSG) hari ini ...,Indeks Harga Saham Gabungan IHSG dibuka mengua...
3,Indeks Harga Saham Gabungan (IHSG) hari ini ...,Indeks Harga Saham Gabungan IHSG ditutup mengu...
4,IHSG berhasil kembali ke level 7.006. IHSG b...,IHSG berhasil level 7.006 IHSG level tertinggi...


## Mengubah Hasil Preprocessing Menjadi Document Term Matrix
Sekarang, kita dapat mengubah ulasan yang telah diproses ini menjadi matriks istilah dokumen dengan model bag of words. Dan Selanjutnya memproses data menjadi sebuah TF-IDF atau Term Frequency.

### TF-IDF
(Term Frequency-Inverse Document Frequency) : Representasi Vector Data Text <br>
merupakan metode yang digunakan untuk menentukan nilai frekuensi sebuah kata di dalam sebuah dokumen atau artikel dan juga frekuensi di dalam banyak dokumen. Perhitungan ini menentukan seberapa relevan sebuah kata di dalam sebuah dokumen. <br>

Bagaimana TF-IDF bekerja? <br>
Pada dasarnya, TF-IDF bekerja dalam menentukan frekuensi relatif suatu kata kemudian dibandingkan dengan proporsi kata tersebut pada seluruh dokumen. Intuisinya bahwa kata yang muncul di banyak dokumen bukanlah pembeda yang baik, dan harus diberi bobot kurang dari satu yang terjadi dalam beberapa dokumen. <br>

Rumus TF-IDF <br>
Frekuensi istilah, tf(t, d) adalah frekuensi istilah t, <br>
<img src ="https://wikimedia.org/api/rest_v1/media/math/render/svg/09d2ad7109a12acef6a03ad71a8d93f5166e2b3b">
<p>dengan <span class="texhtml" style="white-space: nowrap;"><i>f</i><sub><i>t</i>,<i>d</i></sub></span> adalah <i>pencacahan mentah</i> istilah dalam dokumen, yaitu jumlah kemunculan istilah <span class="texhtml mvar" style="font-style:italic;">t</span> dalam dokumen <span class="texhtml mvar" style="font-style:italic;">d</span>. Semakin sering suatu istilah muncul, semakin besar nilai tf-nya. Terdapat beberapa cara untuk mendefinisikan frekuensi istilah


### Term Frequency 
Term frequency yaitu jumlah kemunculan sebuah term pada sebuah dokumen. Inverse Document Frequency yaitu pengurangan dominasi term yang sering muncul diberbagai dokumen, dengan memperhitungkan kebalikan frekuensi dokumen yang mengandung suatu kata. <br>

Berikut Hasil Term Frequency menggunakan TfidVectorizer

In [None]:
vect =TfidfVectorizer(stop_words=stop_words,max_features=1000) 

In [None]:
vect_text=vect.fit_transform(df['headline_cleaned_text'])

  % sorted(inconsistent)


In [None]:
vect_text.toarray()

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.19640219],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.23814747],
       [0.34972246, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.36699295, 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.29141666],
       [0.        , 0.        , 0.        , ..., 0.23945836, 0.        ,
        0.        ]])

Hasil data term frequency di shape untuk mengatahui hasil matrix.

In [None]:
print(vect_text.shape)
print(vect_text)

(36, 110)
  (0, 50)	0.3211804714568847
  (0, 40)	0.24040981869654232
  (0, 109)	0.1964021851186655
  (0, 82)	0.3498343165285299
  (0, 60)	0.2807951450767135
  (0, 8)	0.3902196429087011
  (0, 56)	0.2117559736248971
  (0, 88)	0.2521413000050683
  (0, 64)	0.1831021285532519
  (0, 30)	0.4408450434311649
  (0, 41)	0.2160491900173806
  (0, 38)	0.1273630136668491
  (0, 97)	0.12386783152823938
  (0, 39)	0.1273630136668491
  (0, 42)	0.1273630136668491
  (1, 98)	0.3218609126460267
  (1, 22)	0.3057339292712595
  (1, 6)	0.4731608217412492
  (1, 35)	0.2567647024176508
  (1, 40)	0.29150892179903704
  (1, 109)	0.2381474664110318
  (1, 56)	0.2567647024176508
  (1, 88)	0.3057339292712595
  (1, 64)	0.22202048303626462
  (1, 41)	0.26197044188539914
  :	:
  (33, 42)	0.14552979559796708
  (34, 79)	0.5190754303041437
  (34, 62)	0.3141982302352328
  (34, 75)	0.26272279883458616
  (34, 40)	0.35671409062315884
  (34, 109)	0.2914166619352544
  (34, 30)	0.32705743805699367
  (34, 41)	0.3205683976002615
  (34, 38

### IDF 
Inverse Document Frequency (IDF) dalam ilmu informasi dan statistik, adalah metode untuk menentukan frekuensi kata dalam kumpulan data teks. Dalam kombinasi dengan Dalam Frekuensi Dokumen, Frekuensi Dokumen Balik membantu untuk membuat konten yang unik dan bahkan dapat mengganti kepadatan kata kunci sebagai skor kualitas yang telah lama digunakan untuk menentukan kualitas teks. <br>

Frekuensi Dokumen Invers ditentukan oleh perhitungan logaritmik. Ini adalah rasio dari semua teks dan dokumen yang ada dari seluruh dataset dan jumlah teks yang berisi kata kunci yang ditentukan. <br>


In [None]:
idf=vect.idf_

In [None]:
idf

array([3.22462355, 3.91777073, 3.91777073, 3.91777073, 3.91777073,
       3.91777073, 3.91777073, 3.91777073, 3.91777073, 3.51230562,
       3.91777073, 3.91777073, 3.91777073, 3.91777073, 3.91777073,
       3.91777073, 3.91777073, 3.91777073, 3.91777073, 3.91777073,
       3.91777073, 3.51230562, 2.53147637, 3.91777073, 3.91777073,
       3.91777073, 3.91777073, 3.51230562, 3.91777073, 3.91777073,
       2.21302264, 3.91777073, 3.51230562, 3.51230562, 3.91777073,
       2.12601126, 3.51230562, 3.51230562, 1.2787134 , 1.2787134 ,
       2.41369334, 1.08455739, 1.2787134 , 3.51230562, 3.91777073,
       3.91777073, 3.91777073, 3.91777073, 3.91777073, 3.91777073,
       3.22462355, 3.91777073, 3.91777073, 3.91777073, 3.22462355,
       3.91777073, 2.12601126, 3.91777073, 3.22462355, 3.91777073,
       2.81915844, 3.91777073, 2.12601126, 3.91777073, 1.83832919,
       3.91777073, 3.91777073, 3.91777073, 3.91777073, 3.00148   ,
       3.51230562, 3.91777073, 3.51230562, 3.91777073, 3.91777

### Mengetahui Kata yang Sering Ada
Mengetahui hasil nilai data yang sering keluar dalam topik yang ada.

In [None]:
dd=dict(zip(vect.get_feature_names(), idf))
l=sorted(dd, key=(dd).get)
# print(l)
print(l[0],l[-1])
print(dd['ihsg'])
print(dd['widodo'])  # ihsg dan widodo merupakan kata yang sering muncul dalam headline

ihsg widodo
1.084557388028063
3.917770732084279




## LSA 
SVD menguraikan DTM asli menjadi tiga matriks S=U.(sigma).(V.T). Di sini matriks U menunjukkan matriks dokumen-topik sementara (V) adalah matriks topik-term. <br>

Setiap baris dari matriks U (matriks istilah dokumen) adalah representasi vektor dari dokumen yang sesuai. Panjang vektor ini adalah jumlah topik yang diinginkan. Representasi vektor untuk suku-suku dalam data kami dapat ditemukan dalam matriks V (matriks istilah-topik).

Jadi, SVD memberi kita vektor untuk setiap dokumen dan istilah dalam data kita. Panjang setiap vektor adalah k. Kami kemudian dapat menggunakan vektor-vektor ini untuk menemukan kata-kata dan dokumen serupa menggunakan metode kesamaan kosinus.

Kita dapat menggunakan fungsi truncatedSVD untuk mengimplementasikan LSA. Parameter n_components adalah jumlah topik yang ingin kita ekstrak. Model tersebut kemudian di fit dan ditransformasikan pada hasil yang diberikan oleh vectorizer.

Terakhir perhatikan bahwa LSA dan LSI (I untuk pengindeksan) adalah sama dan yang terakhir kadang-kadang digunakan dalam konteks pencarian informasi.

### SVD 
SVD atau Singular Value Decomposition, memiliki beragam aplikasi. Ini termasuk pengurangan dimensi, kompresi gambar, dan denoising data. Pada intinya, SVD menyatakan bahwa suatu matriks dapat direpresentasikan sebagai produk dari tiga matriks lainnya. Rumus SVD dapat dijabarkan sebagai berikut: <br>

<img src="https://miro.medium.com/max/335/1*P4VgGcZYQl04Jqa4NW9b4A.png">


di mana n adalah jumlah baris (yaitu sampel) dan p mewakili jumlah dimensi.

In [None]:
from sklearn.decomposition import TruncatedSVD
lsa_model = TruncatedSVD(n_components=10, algorithm='randomized', n_iter=10, random_state=42)

lsa_top=lsa_model.fit_transform(vect_text)

Hasil SVD di shape

In [None]:
print(lsa_top)
print(lsa_top.shape)

[[ 5.84875151e-01 -1.20933298e-01  2.92917688e-01 -8.96867746e-02
  -4.71545609e-02 -2.08929285e-01  6.75476722e-02 -6.99774296e-02
  -1.40353625e-01 -3.95790578e-01]
 [ 6.56432029e-01  3.60306912e-01  2.35454147e-01  7.91806990e-02
   1.66978567e-02 -1.86141770e-01  4.60956140e-03 -1.91494497e-02
   1.16703355e-02 -9.41759752e-02]
 [ 4.76945285e-01 -9.97645455e-02  5.54106591e-01  4.65233416e-03
  -3.06846568e-02 -1.73932520e-01 -1.29097355e-02  1.04330311e-02
   1.30066709e-02 -7.85580478e-02]
 [ 5.43267100e-01  1.35404364e-01  4.08065803e-01 -9.14160316e-02
   1.26264290e-01 -2.67533038e-01 -1.10666146e-02  7.40132609e-02
   4.57869488e-02  1.02484970e-01]
 [ 1.45788078e-01 -6.02293325e-03  3.83914528e-01  1.95456550e-01
  -9.81658404e-02 -2.16407582e-02 -4.10860590e-02 -1.78834306e-02
   8.45403218e-02  3.69725262e-02]
 [ 2.95279498e-01  1.90442303e-01  3.43846150e-01  1.04993142e-01
   6.74109399e-02 -2.22734643e-01 -2.89982494e-01 -1.44866721e-01
   1.99596766e-01 -8.29573843e-02


Mirip dengan dokumen lain kita bisa melakukan ini. Namun perhatikan bahwa nilai tidak menambah 1 seperti di LSA itu bukan kemungkinan topik dalam dokumen.

In [None]:
l=lsa_top[0]
print("Document 0 :")
for i,topic in enumerate(l):
  print("Topic ",i," : ",topic*100)

Document 0 :
Topic  0  :  58.48751514341895
Topic  1  :  -12.093329753351522
Topic  2  :  29.29176883622418
Topic  3  :  -8.968677459296185
Topic  4  :  -4.715456091302982
Topic  5  :  -20.89292846477461
Topic  6  :  6.7547672191680785
Topic  7  :  -6.997742963523714
Topic  8  :  -14.035362533699786
Topic  9  :  -39.57905779842051


In [None]:
print(lsa_model.components_.shape) # (no_of_topics*no_of_words)
print(lsa_model.components_)

(10, 110)
[[ 5.24597635e-02  5.71429036e-03  6.58506140e-03 ...  4.01956316e-03
   5.23767448e-03  2.15705068e-01]
 [-6.51691007e-02 -8.08051247e-04  1.47022329e-02 ... -2.72053509e-02
  -4.92170651e-03  2.43404460e-01]
 [ 2.29368646e-01  6.87649508e-02  6.88310912e-02 ...  1.63659180e-02
  -5.64784916e-05 -6.88470102e-02]
 ...
 [ 1.72425055e-03 -5.42696811e-03  3.10210770e-02 ... -3.90746430e-03
   1.55164986e-01 -1.08043589e-01]
 [-1.63437883e-03  2.61556322e-02 -4.53125319e-02 ...  4.48824267e-02
   8.84379719e-02  6.80050535e-02]
 [-5.88372360e-02  1.20480713e-02  5.63708577e-02 ... -2.65315572e-02
  -1.25510793e-02 -2.10183928e-01]]


In [None]:
# kata-kata paling penting untuk setiap topik
vocab = vect.get_feature_names()

for i, comp in enumerate(lsa_model.components_):
    vocab_comp = zip(vocab, comp)
    sorted_words = sorted(vocab_comp, key= lambda x:x[1], reverse=True)[:10]
    print("Topic "+str(i)+": ")
    for t in sorted_words:
        print(t[0],end=" ")
    print("\n")

Topic 0: 
ihsg gabungan harga indeks menguat saham pagi zona ditutup melemah 

Topic 1: 
sore ditutup zona hijau seharian bergerak menguat mayoritas didominasi positif 

Topic 2: 
level poin 000 melanjutkan menguat tren mixed 017 041 kokoh 

Topic 3: 
melemah bergerak diprediksi mixed level dolar rupiah 081 929 analisanya 

Topic 4: 
rupiah dolar pelemahan 15 nilai tukar menguat poin 200 angka 

Topic 5: 
melanjutkan tren pelemahan 000 pelemahannya pagi lengser menjauh negatifnya mayoritas 

Topic 6: 
pergerakan ramalan laju bergerak didominasi positif labil mixed pelemahan tipi 

Topic 7: 
bursa efek indonesia perdana berpesan cetak jemawa joko jokowi presiden 

Topic 8: 
pergerakan ramalan merah labil bursa efek indonesia berpesan cetak jemawa 

Topic 9: 
diprediksi tipi analisanya simak mixed menguat jelang menipis penguatannya penutupan 



## Kesimpulan
Jadi, Hasil LSA pada topik berita yang diangkat adalah: <br>
Topic 0: 
ihsg gabungan harga indeks menguat saham pagi zona ditutup melemah 

Topic 1: 
sore ditutup zona hijau seharian bergerak menguat mayoritas didominasi positif 

Topic 2: 
level poin 000 melanjutkan menguat tren mixed 017 041 kokoh 

Topic 3: 
melemah bergerak diprediksi mixed level dolar rupiah 081 929 analisanya 

Topic 4: 
rupiah dolar pelemahan 15 nilai tukar menguat poin 200 angka 

Topic 5: 
melanjutkan tren pelemahan 000 pelemahannya pagi lengser menjauh negatifnya mayoritas 

Topic 6: 
pergerakan ramalan laju bergerak didominasi positif labil mixed pelemahan tipi 

Topic 7: 
bursa efek indonesia perdana berpesan cetak jemawa joko jokowi presiden 

Topic 8: 
pergerakan ramalan merah labil bursa efek indonesia berpesan cetak jemawa 

Topic 9: 
diprediksi tipi analisanya simak mixed menguat jelang menipis penguatannya penutupan 