In [19]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [20]:
df = pd.read_csv('data_crawl2.csv')
abstracts = df['abstract'].dropna().tolist()  # Ambil kolom 'abstract' dan hilangkan nilai NaN

In [21]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
# Download the necessary data for punkt
nltk.download('punkt_tab')

# Existing code remains the same
stop_words = set(stopwords.words('indonesian'))  # Stopwords dalam bahasa Indonesia

def preprocess(text):
    tokens = word_tokenize(text.lower())
    tokens = [word for word in tokens if word.isalnum() and word not in stop_words]
    return tokens

processed_abstracts = [preprocess(abstract) for abstract in abstracts]

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [22]:
vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=1000)
dtm = vectorizer.fit_transform([' '.join(tokens) for tokens in processed_abstracts])

In [23]:
lda = LatentDirichletAllocation(n_components=5, random_state=42)
lda.fit(dtm)

In [24]:
for index, topic in enumerate(lda.components_):
    print(f"Topik {index + 1}:")
    print([vectorizer.get_feature_names_out()[i] for i in topic.argsort()[-10:]])
    print()

Topik 1:
['kualitas', 'produk', 'citra', 'perusahaan', 'pembelian', 'kerja', 'keputusan', 'bertujuan', 'pengaruh', 'penelitian']

Topik 2:
['that', 'in', 'and', 'is', 'this', 'to', 'universitas', 'brawijaya', 'the', 'of']

Topik 3:
['in', 'faculty', 'mahasiswa', 'komputer', 'administrasi', 'of', 'ilmu', 'fakultas', 'universitas', 'brawijaya']

Topik 4:
['universitas', 'brawijaya', 'malang', 'kinerja', 'pertanian', 'brand', 'fakultas', 'ub', 'keuangan', 'penelitian']

Topik 5:
['responden', 'data', 'teknik', 'ekonomi', 'sampel', 'malang', 'mahasiswa', 'penelitian', 'brawijaya', 'universitas']



In [25]:
!pip install pyLDAvis



In [26]:
!pip install pyLDAvis[sklearn]



In [30]:
import pyLDAvis
import pyLDAvis.lda_model
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [31]:
pyLDAvis.enable_notebook()
vis = pyLDAvis.lda_model.prepare(lda, dtm, vectorizer)
pyLDAvis.display(vis)

# BERTOPIC


In [40]:
!pip install deepl

Collecting deepl
  Downloading deepl-1.21.0-py3-none-any.whl.metadata (30 kB)
Downloading deepl-1.21.0-py3-none-any.whl (38 kB)
Installing collected packages: deepl
Successfully installed deepl-1.21.0


In [41]:
from bertopic import BERTopic
import pandas as pd
import deepl

In [42]:
data = pd.read_csv("data_crawl2.csv")

In [48]:
data2 = data[['title']].copy()

In [49]:
data2.head()

Unnamed: 0,title
0,Faktor-faktor yang mempengaruhi literasi finan...
1,… (survei pada mahasiswa sarjana jurusan ilmu ...
2,Rancang Bangun Aplikasi Sistem Informasi Manaj...
3,[PDF][PDF] Optimasi pemanfaatan energi listrik...
4,… consumer review oleh beauty vlogger terhadap...


In [45]:
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/209.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m204.8/209.7 kB[0m [31m6.1 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [50]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Buat objek stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi untuk stemming
def stem_sentence(sentence):
    return stemmer.stem(sentence)

# Terapkan ke DataFrame
data2['Stemmed_Text'] = data2['title'].apply(stem_sentence)

# Lihat hasilnya
print(data2)

                                                 title  \
0    Faktor-faktor yang mempengaruhi literasi finan...   
1    … (survei pada mahasiswa sarjana jurusan ilmu ...   
2    Rancang Bangun Aplikasi Sistem Informasi Manaj...   
3    [PDF][PDF] Optimasi pemanfaatan energi listrik...   
4    … consumer review oleh beauty vlogger terhadap...   
..                                                 ...   
405  Pengaruh Good Corporate Governance Dan Profita...   
406  Pengaruh kepuasan kerja terhadap stres kerja d...   
407  Evaluasi Usability dan Perbaikan Desain Antarm...   
408  Pengaruh Kemudahan, Keamanan, Kepercayaan Dan ...   
409  … Of Use, Behavioral Control, Security And Tru...   

                                          Stemmed_Text  
0    faktor yang pengaruh literasi finansial mahasi...  
1    survei pada mahasiswa sarjana jurus ilmu admin...  
2    rancang bangun aplikasi sistem informasi manaj...  
3    pdf pdf optimasi manfaat energi listrik tenaga...  
4    consumer revi

In [51]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

# Buat stop word remover
factory = StopWordRemoverFactory()
stopword = factory.create_stop_word_remover()

def stop_sentence(sentence):
    return stopword.remove(sentence)

# Terapkan ke DataFrame
data2['Stopped_Text'] = data2['Stemmed_Text'].apply(stop_sentence)

print(data2)

                                                 title  \
0    Faktor-faktor yang mempengaruhi literasi finan...   
1    … (survei pada mahasiswa sarjana jurusan ilmu ...   
2    Rancang Bangun Aplikasi Sistem Informasi Manaj...   
3    [PDF][PDF] Optimasi pemanfaatan energi listrik...   
4    … consumer review oleh beauty vlogger terhadap...   
..                                                 ...   
405  Pengaruh Good Corporate Governance Dan Profita...   
406  Pengaruh kepuasan kerja terhadap stres kerja d...   
407  Evaluasi Usability dan Perbaikan Desain Antarm...   
408  Pengaruh Kemudahan, Keamanan, Kepercayaan Dan ...   
409  … Of Use, Behavioral Control, Security And Tru...   

                                          Stemmed_Text  \
0    faktor yang pengaruh literasi finansial mahasi...   
1    survei pada mahasiswa sarjana jurus ilmu admin...   
2    rancang bangun aplikasi sistem informasi manaj...   
3    pdf pdf optimasi manfaat energi listrik tenaga...   
4    consumer

In [52]:
data2.head()

Unnamed: 0,title,Stemmed_Text,Stopped_Text
0,Faktor-faktor yang mempengaruhi literasi finan...,faktor yang pengaruh literasi finansial mahasi...,faktor pengaruh literasi finansial mahasiswa f...
1,… (survei pada mahasiswa sarjana jurusan ilmu ...,survei pada mahasiswa sarjana jurus ilmu admin...,survei mahasiswa sarjana jurus ilmu administra...
2,Rancang Bangun Aplikasi Sistem Informasi Manaj...,rancang bangun aplikasi sistem informasi manaj...,rancang bangun aplikasi sistem informasi manaj...
3,[PDF][PDF] Optimasi pemanfaatan energi listrik...,pdf pdf optimasi manfaat energi listrik tenaga...,pdf pdf optimasi manfaat energi listrik tenaga...
4,… consumer review oleh beauty vlogger terhadap...,consumer review oleh beauty vlogger hadap putu...,consumer review beauty vlogger hadap putus bel...


In [53]:
model = BERTopic()

In [54]:
topics,prob = model.fit_transform(data2['Stopped_Text'])

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling%2Fconfig.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [55]:
model.get_topic_info()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,44,-1_hadap_studi_ekonomi_universitas,"[hadap, studi, ekonomi, universitas, brawijaya...",[beli produk kosmetik sertifikat halal mui stu...
1,0,142,0_universitas_brawijaya_ilmu_fakultas,"[universitas, brawijaya, ilmu, fakultas, admin...",[sikap e-learning survei mahasiswa jurus admin...
2,1,108,1_pengaruh_hadap_usaha_tanam,"[pengaruh, hadap, usaha, tanam, studi, indones...",[pengaruh ukur usaha profitabilitas leverage n...
3,2,40,2_hadap_brand_beli_survei,"[hadap, brand, beli, survei, pengaruh, putus, ...",[pengaruh brand image hadap putus beli survei ...
4,3,25,3_kabupaten_kembang_pariwisata_analisis,"[kabupaten, kembang, pariwisata, analisis, bud...",[rencana kembang wisata daerah studi dinas pem...
5,4,20,4_pdf_universitas_brawijaya_mahasiswa,"[pdf, universitas, brawijaya, mahasiswa, trans...",[pdf pdf minat mahasiswa program studi paja be...
6,5,18,5_pengaruh_mahasiswa_brawijaya_universitas,"[pengaruh, mahasiswa, brawijaya, universitas, ...",[pengaruh alam magang minat kerja hadap kesiap...
7,6,13,6_kerja_karyawan_motivasi_pengaruh,"[kerja, karyawan, motivasi, pengaruh, hadap, o...",[pengaruh work family conflict hadap kerja kar...


In [56]:
model.visualize_barchart()

In [57]:
model.visualize_topics()