# Latent Semantic Analysis

1. Lakukan analisa topik modelling dengan menggunakan LSA ( Latent Semantic Analysis ) pada data twitter atau Komentar Youtube.
2. Kata kunci yang digunakan adalah "capres 2024"
3. Representasi data dalam bentuk TF-IDF
4. Output tugas adalah : 

  *   Bobot kata terhadap masing - masing topik
  *   Bobot setiap topik terhadap  dokumen

## Persiapan Environment

In [1]:
!pip install nltk
!pip install indoNLP
!pip install pydrive

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting indoNLP
  Downloading indoNLP-0.3.4-py3-none-any.whl (121 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m121.9/121.9 kB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: indoNLP
Successfully installed indoNLP-0.3.4
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
import pandas as pd
import numpy as np #numpy
import re #regex
import string #string population
from nltk.tokenize import word_tokenize #tokenize
from nltk.corpus import stopwords #stopword
from indoNLP.preprocessing import replace_slang #slank word
from nltk.stem.porter import PorterStemmer #stemming

import os
from nltk.tokenize import RegexpTokenizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

In [3]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

## Pengambilan Data dari Komentar Youtube

In [4]:
from googleapiclient.discovery import build

In [5]:
def video_comments(video_id):
	# list kosong untuk menampung data komentar
	replies = []

	# membuat resource youtube
	youtube = build('youtube', 'v3', developerKey=api_key)

	# menerima hasil pencarian video youtube
	video_response = youtube.commentThreads().list(part='snippet,replies', videoId=video_id).execute()

	# iterasi berdasarkan respon video yang didapat
	while video_response:
		if len(replies) >= 500:
				break
		
		#ekstraksi informasi yang dibutuhkan
		for item in video_response['items']:
			
			# ekstraksi komentar
			published = item['snippet']['topLevelComment']['snippet']['publishedAt']
			user = item['snippet']['topLevelComment']['snippet']['authorDisplayName']
			comment = item['snippet']['topLevelComment']['snippet']['textDisplay']

			replies.append([published, user, comment])
			
			# menghitung jumlah balasan pada komentar
			replycount = item['snippet']['totalReplyCount']

			# apabila komentar memiliki balasan
			if replycount>0:
				# iterasi pada setiap balasan
				for reply in item['replies']['comments']:
					
					# ekstraksi balasan pada komentar
					published = reply['snippet']['publishedAt']
					user = reply['snippet']['authorDisplayName']
					repl = reply['snippet']['textDisplay']
					
					# Menampung balasan pada list
					replies.append([published, user, repl])

		if 'nextPageToken' in video_response:
			video_response = youtube.commentThreads().list(
					part = 'snippet,replies',
					pageToken = video_response['nextPageToken'], 
					videoId = video_id
				).execute()
		else:
			break
	#endwhile
	return replies


In [6]:
# isikan dengan api key Anda
api_key = 'AIzaSyBGoaEoYdlPsBVvPKX8t_ZDqpD_8foCF2c'

# masukkan id video
video_id = "rxzhWUWV9yM"

#panggil fungsi diatas
comments = video_comments(video_id)

comments

[['2023-05-08T15:42:27Z', 'I Gede Surya Hartono', 'BRAVO PRABOWO GANJAR AHOK'],
 ['2023-05-06T01:18:07Z',
  'Loe Elise',
  'Yg penting AKU dan kwn kwn WNI yg di luar negeri sependapat ; TIDAK AKAN MEMILIH ANIES ( BS TERBALIK DUNia di buat anies )<br>Pokoknya kami juga sependapat akan memilih GANJAR ....'],
 ['2023-04-28T11:50:49Z', 'medan', 'Aceh dan sesumatra prabowo RI 1'],
 ['2023-04-28T07:03:34Z',
  'Andi Mlg',
  'saya gk memilih semua saya urus sgala macem repot gk ada yg jadi malah kenak biaya uwang percuma  gk.meliat kondisi rak yat kecil.blt aja gk pernah dpt'],
 ['2023-04-27T01:55:39Z',
  'Ranny Mustopa',
  'Kalau saya AHY dan Anis atau ma Rk aja .'],
 ['2023-04-26T09:12:46Z',
  'Ririn Fadhila',
  'Survei tertutup, pengumuman nya pas malam hari'],
 ['2023-04-26T06:21:29Z',
  'Situmorang situmorang',
  'Hasil survey tak bisa di percaya  sering di sogok mega dan ganjal'],
 ['2023-04-25T19:18:40Z',
  'KESHEN SAPUTRA',
  'hasil surve hoakk yg pasti anis prabowo yg unggul.. tuh wad

### Mengubah Data Komentar Menjadi Dataframe

In [7]:
df_youtube = pd.DataFrame(comments, columns=['Timestamp', 'Nama Akun', 'Komentar'])
df_youtube

Unnamed: 0,Timestamp,Nama Akun,Komentar
0,2023-05-08T15:42:27Z,I Gede Surya Hartono,BRAVO PRABOWO GANJAR AHOK
1,2023-05-06T01:18:07Z,Loe Elise,Yg penting AKU dan kwn kwn WNI yg di luar nege...
2,2023-04-28T11:50:49Z,medan,Aceh dan sesumatra prabowo RI 1
3,2023-04-28T07:03:34Z,Andi Mlg,saya gk memilih semua saya urus sgala macem re...
4,2023-04-27T01:55:39Z,Ranny Mustopa,Kalau saya AHY dan Anis atau ma Rk aja .
...,...,...,...
504,2022-07-11T05:38:10Z,ayune house,Ganjar prestasinya apa kok bisa mengalahkan An...
505,2022-07-11T05:25:28Z,Cardi Cardi,Sp pun Presidennya semoga bs membawa Indonesia...
506,2022-07-11T05:22:39Z,Endang Kristini,Ganjar 2004 👍👍👍👍👍PILIHANKU
507,2022-07-11T03:50:39Z,Kusbandi Ajah,Bpk Anies cocok bila berpasangan dng bpk Ridwa...


## Pengambilan Data dari Twitter

In [8]:
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth                  
from oauth2client.client import GoogleCredentials

In [9]:
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)
your_module = drive.CreateFile({"id": "13sFuLQ9LNUz_BCIJTnyKMzY8n-FPCIgn"})
your_module.GetContentFile("credential.py") 

In [10]:
from credential import twitterApi

In [11]:
# Deklarasi kebutuhan modul/library 
import tweepy
from tweepy import OAuthHandler
import pandas as pd
import re 

# Inisialisasi kode akses token dan kode secret akses token
consumer_key    = twitterApi['consumer_key']
consumer_secret = twitterApi['consumer_secret']
access_token    = twitterApi['access_token']
access_token_secret = twitterApi['access_token_secret']

# Membuat objek otentifikasi
authenticate = tweepy.OAuthHandler(consumer_key, consumer_secret) 
    
# Memasukkan kode akses token dan kode secret akses token
authenticate.set_access_token(access_token, access_token_secret) 
    
# Membuat objek API ketika melewatkan informasi otentifikasi
api = tweepy.API(authenticate)


# Mengekstrak 500 tweet terakhir dari user Twitter
hashtag="capres2024"
limit=500
posts = tweepy.Cursor(api.search_tweets, q=hashtag+' -filter:tweets', tweet_mode="extended", result_type='mixed').items(limit)

# Membuat dataframe
df_twitter = pd.DataFrame([[tweet.full_text, tweet.user.location, tweet.user.screen_name] for tweet in posts], columns=['Tweets', 'Location', 'Name'])
df_twitter

Unnamed: 0,Tweets,Location,Name
0,Sudah terbukti kan? Kalau @ganjarpranowo merup...,Indonesia,Ganjaran_app
1,"Menjadi kandidat terkuat dalam capres 2024, @g...",Indonesia,Ganjaran_app
2,Anies Baswedan berjanji jika terpilih sebagai ...,Pulo Gadung,tvOneNews
3,Pemilu 2024 Sesuai Tahapan\n#PemiluSerentak202...,Riau,Lienka_sani
4,Pemilu 2024 Sesuai Tahapan\n#PemiluSerentak202...,Riau,Lienka_sani
...,...,...,...
495,"""Pilpres Jokowi dalam dua pemilu terdahulu Pra...",jakarta,fadyahrismaaul
496,"""Pilpres Jokowi dalam dua pemilu terdahulu Pra...",jakarta,hazmadesiasalsa
497,"Wow, elektabilitas Prabowo sangat meroket dala...",jakarta,hazmadesiasalsa
498,"Wow, elektabilitas Prabowo sangat meroket dala...",jakarta,reginaoctav21


## Menggabungkan Data Komentar Youtube dan Twitter Menjadi Satu Dataframe

In [12]:
yt = df_youtube['Komentar'].iloc[0:500]
tw = df_twitter['Tweets']
df_all = pd.concat([yt,tw], axis=1)
df_all

Unnamed: 0,Komentar,Tweets
0,BRAVO PRABOWO GANJAR AHOK,Sudah terbukti kan? Kalau @ganjarpranowo merup...
1,Yg penting AKU dan kwn kwn WNI yg di luar nege...,"Menjadi kandidat terkuat dalam capres 2024, @g..."
2,Aceh dan sesumatra prabowo RI 1,Anies Baswedan berjanji jika terpilih sebagai ...
3,saya gk memilih semua saya urus sgala macem re...,Pemilu 2024 Sesuai Tahapan\n#PemiluSerentak202...
4,Kalau saya AHY dan Anis atau ma Rk aja .,Pemilu 2024 Sesuai Tahapan\n#PemiluSerentak202...
...,...,...
495,Isi bensin pakai my Pertamina.... 😂😂😂 Auto ga ...,"""Pilpres Jokowi dalam dua pemilu terdahulu Pra..."
496,Pak ganjar👍,"""Pilpres Jokowi dalam dua pemilu terdahulu Pra..."
497,kalau saya lihat prabowo dan anies pas dan san...,"Wow, elektabilitas Prabowo sangat meroket dala..."
498,Hati2 survei abal2...bro...,"Wow, elektabilitas Prabowo sangat meroket dala..."


## Prepocessing Data

### Function Untuk Prepocessing

In [13]:
class Prepocessing:
  def __init__(self):
    self.listStopword =  set(stopwords.words('indonesian'))
    self.stemmer = PorterStemmer()

  def remove_emoji(self, string): #menghapus emoji
    emoji_pattern = re.compile("["
      u"\U0001F600-\U0001F64F"  # emoticons
      u"\U0001F300-\U0001F5FF"  # symbols & pictographs
      u"\U0001F680-\U0001F6FF"  # transport & map symbols
      u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
      u"\U00002702-\U000027B0"
      u"\U000024C2-\U0001F251"
      "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r' ', string)

  def remove_unwanted(self, document): #membersihkan teks
    # menghapus mention dari user
    document = re.sub("@[A-Za-z0-9_]+"," ", document)
    # menghapus url
    document = re.sub(r'http\S+', ' ', document)
    # menghapus hashtag
    document = re.sub("#[A-Za-z0-9_]+","", document)
    # menghapus emoji
    document = self.remove_emoji(document)
    # menghapus tanda baca
    document = re.sub("[^0-9A-Za-z ]", "" , document)
    # menghapus spasi dobel
    document = document.replace('  '," ")
    return document.strip()
  
  def tokenize(self, text): #tokenize -> memisah kalimat 
    return word_tokenize(text.translate(str.maketrans('', '', string.punctuation)).lower())
  
  def stopWord(self, text): #stopword -> menghapus kata hubung
    return [kata for kata in text if kata not in self.listStopword]
  
  def slank_word(self, text): #slank word -> mengganti kata yang tidak baku
    return [replace_slang(kata) for kata in text]

  def stemming(self, text): #stemming -> mengganti kata menjadi kata dasar
    return " ".join([self.stemmer.stem(kata) for kata in text])

### Prepocessing Untuk Data Twitter

In [14]:
preprocessing = Prepocessing()

In [15]:
df_all['clean_twt'] = df_all['Tweets'].apply(lambda x: preprocessing.remove_unwanted(x))

In [16]:
df_all['tokenize_twt'] = df_all['clean_twt'].apply(lambda x: preprocessing.tokenize(x))

In [17]:
df_all['stopword_twt'] = df_all['tokenize_twt'].apply(lambda x: preprocessing.stopWord(x))

In [18]:
df_all['slankword_twt'] = df_all['stopword_twt'].apply(lambda x: preprocessing.slank_word(x))

In [19]:
df_all['stem_twt'] = df_all['slankword_twt'].apply(lambda x: preprocessing.stemming(x))

In [20]:
df_all[['Tweets', 'clean_twt', 'tokenize_twt', 'stopword_twt', 'slankword_twt', 'stem_twt']]

Unnamed: 0,Tweets,clean_twt,tokenize_twt,stopword_twt,slankword_twt,stem_twt
0,Sudah terbukti kan? Kalau @ganjarpranowo merup...,Sudah terbukti kan Kalau merupakan pemimpin y...,"[sudah, terbukti, kan, kalau, merupakan, pemim...","[terbukti, pemimpin, cocok, kalangan, kalangan...","[terbukti, pemimpin, cocok, kalangan, kalangan...",terbukti pemimpin cocok kalangan kalangan anak...
1,"Menjadi kandidat terkuat dalam capres 2024, @g...",Menjadi kandidat terkuat dalam capres 2024 me...,"[menjadi, kandidat, terkuat, dalam, capres, 20...","[kandidat, terkuat, capres, 2024, sinyal, duku...","[kandidat, terkuat, capres, 2024, sinyal, duku...",kandidat terkuat capr 2024 sinyal dukungan
2,Anies Baswedan berjanji jika terpilih sebagai ...,Anies Baswedan berjanji jika terpilih sebagai ...,"[anies, baswedan, berjanji, jika, terpilih, se...","[anies, baswedan, berjanji, terpilih, presiden...","[anies, baswedan, berjanji, terpilih, presiden...",ani baswedan berjanji terpilih presiden menjal...
3,Pemilu 2024 Sesuai Tahapan\n#PemiluSerentak202...,Pemilu 2024 Sesuai Tahapan,"[pemilu, 2024, sesuai, tahapan]","[pemilu, 2024, sesuai, tahapan]","[pemilu, 2024, sesuai, tahapan]",pemilu 2024 sesuai tahapan
4,Pemilu 2024 Sesuai Tahapan\n#PemiluSerentak202...,Pemilu 2024 Sesuai Tahapan,"[pemilu, 2024, sesuai, tahapan]","[pemilu, 2024, sesuai, tahapan]","[pemilu, 2024, sesuai, tahapan]",pemilu 2024 sesuai tahapan
...,...,...,...,...,...,...
495,"""Pilpres Jokowi dalam dua pemilu terdahulu Pra...",Pilpres Jokowi dalam dua pemilu terdahulu Prab...,"[pilpres, jokowi, dalam, dua, pemilu, terdahul...","[pilpres, jokowi, pemilu, prabowo, diasosiasik...","[pilpres, jokowi, pemilu, prabowo, diasosiasik...",pilpr jokowi pemilu prabowo diasosiasikan baca...
496,"""Pilpres Jokowi dalam dua pemilu terdahulu Pra...",Pilpres Jokowi dalam dua pemilu terdahulu Prab...,"[pilpres, jokowi, dalam, dua, pemilu, terdahul...","[pilpres, jokowi, pemilu, prabowo, diasosiasik...","[pilpres, jokowi, pemilu, prabowo, diasosiasik...",pilpr jokowi pemilu prabowo diasosiasikan baca...
497,"Wow, elektabilitas Prabowo sangat meroket dala...",Wow elektabilitas Prabowo sangat meroket dalam...,"[wow, elektabilitas, prabowo, sangat, meroket,...","[wow, elektabilitas, prabowo, meroket]","[wow, elektabilitas, prabowo, meroket]",wow elektabilita prabowo meroket
498,"Wow, elektabilitas Prabowo sangat meroket dala...",Wow elektabilitas Prabowo sangat meroket dalam...,"[wow, elektabilitas, prabowo, sangat, meroket,...","[wow, elektabilitas, prabowo, meroket]","[wow, elektabilitas, prabowo, meroket]",wow elektabilita prabowo meroket


In [21]:
df_final_twt = df_all[['stem_twt']]
df_final_twt

Unnamed: 0,stem_twt
0,terbukti pemimpin cocok kalangan kalangan anak...
1,kandidat terkuat capr 2024 sinyal dukungan
2,ani baswedan berjanji terpilih presiden menjal...
3,pemilu 2024 sesuai tahapan
4,pemilu 2024 sesuai tahapan
...,...
495,pilpr jokowi pemilu prabowo diasosiasikan baca...
496,pilpr jokowi pemilu prabowo diasosiasikan baca...
497,wow elektabilita prabowo meroket
498,wow elektabilita prabowo meroket


In [22]:
df_save_twt = df_final_twt.drop_duplicates().reset_index(drop=True)
df_save_twt

Unnamed: 0,stem_twt
0,terbukti pemimpin cocok kalangan kalangan anak...
1,kandidat terkuat capr 2024 sinyal dukungan
2,ani baswedan berjanji terpilih presiden menjal...
3,pemilu 2024 sesuai tahapan
4,rt poll yuk biar rekayasa rakyat indonesiapili...
...,...
202,keren elektabilita prabowo dibandingkan paslon...
203,wow elektabilita prabowo meroket
204,pilpr jokowi pemilu prabowo diasosiasikan baca...
205,keberhasilan menhan prabowo menuai dukungan pe...


In [23]:
df_save_twt.to_csv('datasetTwitterCapres2024.csv', index=False)

### Prepocessing Untuk Data Youtube

In [24]:
df_all['clean_yt'] = df_all['Komentar'].apply(lambda x: preprocessing.remove_unwanted(x))

In [25]:
df_all['tokenize_yt'] = df_all['clean_yt'].apply(lambda x: preprocessing.tokenize(x))

In [26]:
df_all['stopword_yt'] = df_all['tokenize_yt'].apply(lambda x: preprocessing.stopWord(x))

In [27]:
df_all['slankword_yt'] = df_all['stopword_yt'].apply(lambda x: preprocessing.slank_word(x))

In [28]:
df_all['stem_yt'] = df_all['slankword_yt'].apply(lambda x: preprocessing.stemming(x))

In [29]:
df_all[['Komentar', 'clean_yt', 'tokenize_yt', 'stopword_yt', 'slankword_yt', 'stem_yt']]

Unnamed: 0,Komentar,clean_yt,tokenize_yt,stopword_yt,slankword_yt,stem_yt
0,BRAVO PRABOWO GANJAR AHOK,BRAVO PRABOWO GANJAR AHOK,"[bravo, prabowo, ganjar, ahok]","[bravo, prabowo, ganjar, ahok]","[bravo, prabowo, ganjar, ahok]",bravo prabowo ganjar ahok
1,Yg penting AKU dan kwn kwn WNI yg di luar nege...,Yg penting AKU dan kwn kwn WNI yg di luar nege...,"[yg, penting, aku, dan, kwn, kwn, wni, yg, di,...","[yg, kwn, kwn, wni, yg, negeri, sependapat, me...","[yang, kwn, kwn, wni, yang, negeri, sependapat...",yang kwn kwn wni yang negeri sependapat memili...
2,Aceh dan sesumatra prabowo RI 1,Aceh dan sesumatra prabowo RI 1,"[aceh, dan, sesumatra, prabowo, ri, 1]","[aceh, sesumatra, prabowo, ri, 1]","[aceh, sesumatra, prabowo, ri, 1]",aceh sesumatra prabowo ri 1
3,saya gk memilih semua saya urus sgala macem re...,saya gk memilih semua saya urus sgala macem re...,"[saya, gk, memilih, semua, saya, urus, sgala, ...","[gk, memilih, urus, sgala, macem, repot, gk, y...","[enggak, memilih, urus, sgala, macam, repot, e...",enggak memilih uru sgala macam repot enggak ya...
4,Kalau saya AHY dan Anis atau ma Rk aja .,Kalau saya AHY dan Anis atau ma Rk aja,"[kalau, saya, ahy, dan, anis, atau, ma, rk, aja]","[ahy, anis, ma, rk, aja]","[ahy, anis, sama, rk, saja]",ahi ani sama rk saja
...,...,...,...,...,...,...
495,Isi bensin pakai my Pertamina.... 😂😂😂 Auto ga ...,Isi bensin pakai my Pertamina Auto ga nyoblos...,"[isi, bensin, pakai, my, pertamina, auto, ga, ...","[isi, bensin, pakai, my, pertamina, auto, ga, ...","[isi, bensin, pakai, my, pertamina, auto, engg...",isi bensin pakai my pertamina auto enggak nyob...
496,Pak ganjar👍,Pak ganjar,"[pak, ganjar]",[ganjar],[ganjar],ganjar
497,kalau saya lihat prabowo dan anies pas dan san...,kalau saya lihat prabowo dan anies pas dan san...,"[kalau, saya, lihat, prabowo, dan, anies, pas,...","[lihat, prabowo, anies, pas, ideal]","[lihat, prabowo, anies, pas, ideal]",lihat prabowo ani pa ideal
498,Hati2 survei abal2...bro...,Hati2 survei abal2bro,"[hati2, survei, abal2bro]","[hati2, survei, abal2bro]","[hati-hati, survei, abal2bro]",hati-hati survei abal2bro


In [30]:
df_final_yt = df_all[['stem_yt']]
df_final_yt

Unnamed: 0,stem_yt
0,bravo prabowo ganjar ahok
1,yang kwn kwn wni yang negeri sependapat memili...
2,aceh sesumatra prabowo ri 1
3,enggak memilih uru sgala macam repot enggak ya...
4,ahi ani sama rk saja
...,...
495,isi bensin pakai my pertamina auto enggak nyob...
496,ganjar
497,lihat prabowo ani pa ideal
498,hati-hati survei abal2bro


In [31]:
df_save_yt = df_final_yt.drop_duplicates().reset_index(drop=True)
df_save_yt

Unnamed: 0,stem_yt
0,bravo prabowo ganjar ahok
1,yang kwn kwn wni yang negeri sependapat memili...
2,aceh sesumatra prabowo ri 1
3,enggak memilih uru sgala macam repot enggak ya...
4,ahi ani sama rk saja
...,...
482,heran hasil survei ganjar enggak prestasi ungg...
483,isi bensin pakai my pertamina auto enggak nyob...
484,lihat prabowo ani pa ideal
485,hati-hati survei abal2bro


In [32]:
df_save_yt.to_csv('datasetYoutubeCapres2024.csv', index=False)

## Modelling Data

### Load Dataset Youtube dan Twitter yang telah Melalui Prepocessing

In [33]:
df_tw = pd.read_csv('https://raw.githubusercontent.com/andreandriand/dataset/main/datasetTwitterCapres2024.csv')
df_tw.rename(columns = {'stem_twt':'Tweets'}, inplace = True)
df_tw

Unnamed: 0,Tweets
0,terbukti pemimpin cocok kalangan kalangan anak...
1,kandidat terkuat capr 2024 sinyal dukungan
2,ani baswedan berjanji terpilih presiden menjal...
3,rt memiliki hak yang
4,memiliki hak yang
...,...
203,keren elektabilita prabowo dibandingkan paslon...
204,wow elektabilita prabowo meroket
205,pilpr jokowi pemilu prabowo diasosiasikan baca...
206,keberhasilan menhan prabowo menuai dukungan pe...


In [44]:
df_yt = pd.read_csv('https://raw.githubusercontent.com/andreandriand/dataset/main/datasetYoutubeCapres2024.csv')
df_yt.rename(columns = {'stem_yt':'Youtube'}, inplace = True)
df_yt

Unnamed: 0,Youtube
0,bravo prabowo ganjar ahok
1,yang kwn kwn wni yang negeri sependapat memili...
2,aceh sesumatra prabowo ri 1
3,enggak memilih uru sgala macam repot enggak ya...
4,ahi ani sama rk saja
...,...
482,heran hasil survei ganjar enggak prestasi ungg...
483,isi bensin pakai my pertamina auto enggak nyob...
484,lihat prabowo ani pa ideal
485,hati-hati survei abal2bro


### TF-IDF (Mengubah Teks Menjadi Fitur)

In [36]:
tfidf_tw = TfidfVectorizer()
tfidf_yt = TfidfVectorizer()

In [37]:
documents_tw = df_tw.values.reshape(-1,).tolist()

In [38]:
train_data_tw = tfidf_tw.fit_transform(documents_tw)

In [39]:
train_data_yt = tfidf_yt.fit_transform(df_yt['Youtube'].values.astype('U'))

### Singular Value Decomposition

 Singular Value Decomposition (SVD) adalah suatu pemfaktoran matriks dengan mengurai suatu matriks ke dalam dua matriks uniter U dan V, dan sebuah matriks diagonal S yang berisi faktor skala yang disebut dengan nilai singular. 

#### Perform SVD Untuk Data Twitter

In [40]:
# Definisikan nilai dari topik atau komponen
num_components=20

# Membuat objek SVD
lsa_tw = TruncatedSVD(n_components=num_components, n_iter=100, random_state=42)

# Fitting Model SVD ke data
lsa_tw.fit_transform(train_data_tw)

# Mendapatkan nilai Singular dan Komponen
Sigma_tw = lsa_tw.singular_values_
V_transpose_tw = lsa_tw.components_.T

In [41]:
terms_tw = tfidf_tw.get_feature_names_out() 

for index, component in enumerate(lsa_tw.components_):
    zipped = zip(terms_tw, component)
    top_terms_key=sorted(zipped, key = lambda t: t[1], reverse=True)[:5]
    top_terms_list=list(dict(top_terms_key).keys())
    print("Topik "+str(index)+": ",top_terms_list)

Topik 0:  ['capres2024', 'dekade08', 'mendingprabowo', 'terusmajubersamaprabowo', 'prabowo']
Topik 1:  ['tanah', 'datar', 'kuda', 'pacu', 'open']
Topik 2:  ['berkuda', 'olahraga', 'berkembang', 'pesat', 'pemda']
Topik 3:  ['minang', 'unggulan', 'bibit', 'kuda', 'rakyat']
Topik 4:  ['barat', 'sumatera', 'kasih', 'terima', 'gerindra']
Topik 5:  ['kasih', 'terima', 'elektabilita', 'diterima', 'kampung']
Topik 6:  ['jokowi', 'presiden', 'kasih', 'terima', 'kampung']
Topik 7:  ['minang', 'pemda', 'menhan', 'subianto', 'mengembangkan']
Topik 8:  ['capr', '2024', 'kasih', 'terima', 'pilpr']
Topik 9:  ['partai', 'presiden', 'politik', 'buruh', 'mengaku']
Topik 10:  ['kirim', 'bidang', 'anak', 'muda', 'berbakat']
Topik 11:  ['politik', 'rt', 'capr', 'erick', 'nu']
Topik 12:  ['capr', 'diasosiasikan', 'direstui', 'presiden', 'keren']
Topik 13:  ['masyarakat', 'rt', 'sumbar', 'ganjar', 'acara']
Topik 14:  ['anak', 'muda', 'berbakat', 'jakarta', 'joki']
Topik 15:  ['persen', '317', 'subianto', 'ma

#### Perform SVD Untuk Data Youtube

In [42]:
# Definisikan nilai dari topik atau komponen
num_components=20

# Membuat objek SVD
lsa_yt = TruncatedSVD(n_components=num_components, n_iter=100, random_state=42)

# Fitting Model SVD ke data
lsa_yt.fit_transform(train_data_yt)

# Mendapatkan nilai Singular dan Komponen
Sigma_yt = lsa_yt.singular_values_
V_transpose_yt = lsa_yt.components_.T

In [43]:
terms_yt = tfidf_yt.get_feature_names_out() 

for index, component in enumerate(lsa_yt.components_):
    zipped = zip(terms_yt, component)
    top_terms_key=sorted(zipped, key = lambda t: t[1], reverse=True)[:5]
    top_terms_list=list(dict(top_terms_key).keys())
    print("Topik "+str(index)+": ",top_terms_list)

Topik 0:  ['ani', 'yang', 'ganjar', 'prabowo', 'pilih']
Topik 1:  ['ganjar', 'prabowo', 'pranowo', 'ahok', 'ri']
Topik 2:  ['abal', 'survei', 'survey', 'percaya', 'bayaran']
Topik 3:  ['prabowo', 'ahok', 'pilih', 'kamil', '2024']
Topik 4:  ['yang', 'rakyat', 'enggak', 'pemimpin', 'surv']
Topik 5:  ['survey', 'abal', 'ab', 'prabowo', 'bayar']
Topik 6:  ['kamil', 'ridwan', 'abal', 'pilih', 'yang']
Topik 7:  ['abal', '2024', 'yang', 'prabowo', 'pranowo']
Topik 8:  ['pilih', 'enggak', 'abal', 'percaya', 'ahi']
Topik 9:  ['pilih', 'survei', 'survey', 'pranowo', 'ahok']
Topik 10:  ['rakyat', '2024', 'indonesia', 'baswedan', 'pintar']
Topik 11:  ['ahok', 'rakyat', 'bravo', 'pintar', 'mantap']
Topik 12:  ['surv', 'bayaran', 'percaya', 'enggak', 'pranowo']
Topik 13:  ['ahok', '2024', 'pranowo', 'surv', 'bayaran']
Topik 14:  ['bayaran', 'surv', 'saja', 'ahi', 'pilih']
Topik 15:  ['pranowo', 'ahi', 'terbaik', 'saja', 'baswedan']
Topik 16:  ['ya', 'menang', 'semoga', 'capr', 'nya']
Topik 17:  ['ya