In [5]:
import numpy as np
import torch
from transformers import AutoTokenizer, AutoModel
from sklearn.cluster import KMeans
from sklearn.preprocessing import normalize

# Dataset
documents = [
    "Assalamu’alaikum warahmatullahi wabarakatuh.",
    "Salam sejahtera untuk kita sekalian.",
    "Syalom.",
    "Om Swastiastu.",
    "Namo Buddhaya.",
    "Salam Kebajikan.",
    "Rahayu, Rahayu.",
    "Yang saya hormati, para pimpinan dan anggota MPR RI.",
    "Yang saya hormati, para pimpinan dan anggota lembaga-lembaga negara.",
    "Yang saya hormati, para mantan Presiden dan Wakil Presiden Republik Indonesia.",
    "Yang saya hormati, Ibu Megawati Soekarnoputri, Presiden ke-5 Republik Indonesia.",
    "Yang saya hormati, Bapak Susilo Bambang Yudhoyono, Presiden ke-6 Republik Indonesia.",
    "Yang saya hormati, Bapak Joko Widodo, Presiden ke-7 Republik Indonesia.",
    "Yang saya hormati, Bapak Ma’ruf Amin, Wakil Presiden ke-13 Republik Indonesia.",
    "Yang saya hormati, para tamu undangan dari negara-negara sahabat.",
    "Saudara-saudara sebangsa dan setanah air, rakyat Indonesia yang saya cintai dan saya banggakan.",
    "Beberapa saat yang lalu, di hadapan majelis yang terhormat ini, di hadapan seluruh rakyat Indonesia, dan yang terpenting di hadapan Tuhan Yang Maha Kuasa, Allah SWT, saya, Prabowo Subianto, dan saudara Gibran Rakabuming Raka telah mengucapkan sumpah untuk mempertahankan Undang-Undang Dasar kita, untuk menjalankan semua undang-undang yang berlaku, untuk berbakti kepada negara dan bangsa.",
    "Kami akan menjalankan kepemimpinan pemerintah Republik Indonesia, kepemimpinan negara dan bangsa Indonesia dengan tulus, dengan mengutamakan kepentingan seluruh rakyat Indonesia, termasuk mereka yang tidak memilih kami.",
    "Kami akan bekerja keras untuk seluruh rakyat Indonesia, dari Sabang sampai Merauke, dari Miangas sampai Pulau Rote.",
    "Kami akan bekerja keras untuk memastikan bahwa setiap rakyat Indonesia merasakan keadilan, merasakan kemakmuran, merasakan kedamaian, merasakan kebahagiaan sebagai warga negara Republik Indonesia.",
    "Kami akan bekerja keras untuk memastikan bahwa tidak ada satu pun rakyat Indonesia yang merasa tertinggal di dalam Republik ini.",
    "Kami akan bekerja keras untuk memastikan bahwa kekayaan alam Indonesia digunakan sebesar-besarnya untuk kemakmuran rakyat Indonesia.",
    "Kami akan bekerja keras untuk memastikan bahwa kedaulatan Indonesia dihormati oleh bangsa lain.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia berdiri di atas kaki sendiri, berdiri tegak di antara bangsa-bangsa lain di dunia.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang mandiri, bangsa yang berdaulat, bangsa yang bermartabat, bangsa yang disegani oleh bangsa-bangsa lain di dunia.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang adil, bangsa yang makmur, bangsa yang sejahtera, bangsa yang bahagia.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang berbudaya, bangsa yang beradab, bangsa yang berakhlak mulia.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang cinta damai, bangsa yang menghormati hak asasi manusia, bangsa yang menjunjung tinggi nilai-nilai demokrasi.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang peduli terhadap lingkungan hidup, bangsa yang menjaga kelestarian alam, bangsa yang mencintai bumi pertiwi.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang inovatif, bangsa yang kreatif, bangsa yang produktif.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang unggul, bangsa yang kompetitif, bangsa yang berdaya saing tinggi.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang berkepribadian dalam kebudayaan, bangsa yang menghargai warisan leluhur, bangsa yang bangga akan jati dirinya.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang bersatu, bangsa yang rukun, bangsa yang damai.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang gotong royong, bangsa yang saling tolong-menolong, bangsa yang saling bahu-membahu.",
    "Kami akan bekerja keras untuk memastikan bahwa Indonesia menjadi bangsa yang adil dan makmur, bangsa yang sejahtera lahir dan batin.",
    "Demikianlah janji kami, demikianlah tekad kami, demikianlah komitmen kami.",
    "Semoga Tuhan Yang Maha Kuasa, Allah SWT, senantiasa memberikan kekuatan kepada kami, memberikan petunjuk kepada kami, memberikan perlindungan kepada kami, dalam menjalankan amanah yang mulia ini.",
    "Wassalamu’alaikum warahmatullahi wabarakatuh.",
    "Salam sejahtera bagi kita semua.",
    "Om shanti shanti shanti om.",
    "Namo buddhaya.",
    "Salam kebajikan."
]

# Load IndoBERT tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("indobenchmark/indobert-large-p2")
model = AutoModel.from_pretrained("indobenchmark/indobert-large-p2")

# Compute embeddings


def compute_embeddings(documents):
    embeddings = []
    for doc in documents:
        inputs = tokenizer(doc, return_tensors='pt',
                           padding=True, truncation=True, max_length=512)
        with torch.no_grad():
            outputs = model(**inputs)
            # CLS token embedding
            cls_embedding = outputs.last_hidden_state[:, 0, :]
            embeddings.append(cls_embedding.squeeze().numpy())
    return np.array(embeddings)


embeddings = compute_embeddings(documents)
# Normalize embeddings for better clustering
embeddings = normalize(embeddings)

# Clustering using KMeans
n_clusters = 5
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
labels = kmeans.fit_predict(embeddings)

# Organize and print the results
clustered_docs = {i: [] for i in range(n_clusters)}
for doc, label in zip(documents, labels):
    clustered_docs[label].append(doc)

# Display results
for cluster, docs in clustered_docs.items():
    print(f"Cluster {cluster}:")
    for doc in docs:
        print(f"  - {doc}")
    print()

Cluster 0:
  - Yang saya hormati, para pimpinan dan anggota MPR RI.
  - Yang saya hormati, para pimpinan dan anggota lembaga-lembaga negara.
  - Yang saya hormati, para mantan Presiden dan Wakil Presiden Republik Indonesia.
  - Yang saya hormati, Ibu Megawati Soekarnoputri, Presiden ke-5 Republik Indonesia.
  - Yang saya hormati, Bapak Susilo Bambang Yudhoyono, Presiden ke-6 Republik Indonesia.
  - Yang saya hormati, Bapak Joko Widodo, Presiden ke-7 Republik Indonesia.
  - Yang saya hormati, Bapak Ma’ruf Amin, Wakil Presiden ke-13 Republik Indonesia.
  - Yang saya hormati, para tamu undangan dari negara-negara sahabat.
  - Saudara-saudara sebangsa dan setanah air, rakyat Indonesia yang saya cintai dan saya banggakan.
  - Beberapa saat yang lalu, di hadapan majelis yang terhormat ini, di hadapan seluruh rakyat Indonesia, dan yang terpenting di hadapan Tuhan Yang Maha Kuasa, Allah SWT, saya, Prabowo Subianto, dan saudara Gibran Rakabuming Raka telah mengucapkan sumpah untuk mempertahanka