In [1]:
# Import library yang diperlukan
import pandas as pd
import re
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

In [2]:
# Buka file teks hasil ekspor data WA
file_path = 'chatgroup.txt'
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()

In [10]:
# Gabungkan baris yang merupakan bagian dari pesan sebelumnya
def combine_multiline_messages(lines):
    combined_lines = []
    current_message = ""

    for line in lines:
        if re.match(r'\d+/\d+/\d+ \d+:\d+ - ', line):  # Baris baru dengan timestamp
            if current_message:
                combined_lines.append(current_message.strip())
            current_message = line.strip()
        else:
            current_message += f" {line.strip()}"

    if current_message:  # Tambahkan pesan terakhir
        combined_lines.append(current_message.strip())

    return combined_lines

lines = combine_multiline_messages(lines)

In [11]:
# Ekstrak pesan-pesan dari teks
messages = []
unmatched_lines = []
for line in lines:
    match = re.search(r'\d+/\d+/\d+ \d+:\d+ - (.*)', line)
    if match:
        message = match.group(1).strip()
        if message:
            messages.append(message)
    else:
        unmatched_lines.append(line.strip())

In [12]:
# Debugging: Print beberapa baris yang tidak cocok
if unmatched_lines:
    print("Baris yang tidak cocok dengan regex:")
    print(unmatched_lines[:5])

if not messages:
    raise ValueError("Tidak ada pesan yang valid untuk diproses.")

Baris yang tidak cocok dengan regex:
['07/01/23 19.05 - Pesan dan panggilan dienkripsi secara end-to-end. Tidak seorang pun di luar chat ini, termasuk WhatsApp, yang dapat membaca atau mendengarkannya. Ketuk untuk info selengkapnya. 20/12/22 18.54 - \u200eMas Bima Tennis membuat grup "UKM Tenis UMS (2023)" 07/01/23 19.05 - \u200eIbnu menambahkan Anda 07/01/23 20.02 - Mbak Isnaini: Minta tolong di isi ya guys *Data Pengurus* Maks.besok hari minggu jam 12.00 malam  https://forms.gle/GCCW3Dka96ppPyHS6 07/01/23 20.03 - mbak sekar Tenis: <Media tidak disertakan> 07/01/23 20.05 - Mbak Isnaini: <Media tidak disertakan> 07/01/23 22.01 - Mbak Rani Tenis: untuk pengisian form DL lusa ya tanggal 9 jadi yang belum isi buruan isi terimakasih 07/01/23 22.02 - Mas Afif Tenis: Siap kak 07/01/23 22.02 - Mbak Rani Tenis: mohon bantuannya nggih🙏 07/01/23 22.04 - mas dzaka Tennis: Nggih 07/01/23 22.12 - Mbak Rani Tenis: ralat ya besok malem 08/01/23 18.21 - Mas Bima Tennis: Malam ini harus udah keisi ya ?

ValueError: Tidak ada pesan yang valid untuk diproses.

In [13]:
# Debugging: Print beberapa pesan untuk memastikan isinya valid
print("Beberapa pesan yang diekstrak:", messages[:5])

Beberapa pesan yang diekstrak: []


In [14]:
# Gabungkan pesan menjadi satu string untuk setiap pengirim jika diperlukan
data = '\n'.join(messages)

In [15]:
# Simpan ke file teks
data_group_file = 'data_group.txt'
with open(data_group_file, 'w', encoding='utf-8') as file:
    file.write(data)

print(f"File teks berhasil dibuat: {data_group_file}")

File teks berhasil dibuat: data_group.txt


In [16]:
# Proses pembersihan data (opsional)
def clean_text(text):
    return re.sub(r'[^a-zA-Z0-9 .,!?]', '', text)

data_cleaned = clean_text(data)

In [17]:
# Simpan data yang sudah dibersihkan ke file baru
cleaned_file = 'data_group_cleaned.txt'
with open(cleaned_file, 'w', encoding='utf-8') as file:
    file.write(data_cleaned)

print(f"File teks yang dibersihkan berhasil dibuat: {cleaned_file}")

File teks yang dibersihkan berhasil dibuat: data_group_cleaned.txt


In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer
import re

# Contoh data (Anda dapat mengganti ini dengan data asli)
messages = [
    "Selamat datang di tutorial TF-IDF.",
    "TF-IDF adalah metode untuk konversi teks menjadi angka.",
    "Pastikan data Anda tidak kosong.",
    "",
    "      ",
    None
]

# 1. Bersihkan data messages
# - Hapus elemen kosong atau None
# - Hapus elemen yang hanya berupa spasi
# - Hapus karakter non-ASCII (opsional, jika data memiliki karakter aneh)

cleaned_messages = [
    re.sub(r'[^\x00-\x7F]+', ' ', msg.strip())  # Hilangkan karakter non-ASCII
    for msg in messages if isinstance(msg, str) and msg.strip()
]

# Pastikan data tidak kosong setelah dibersihkan
if not cleaned_messages:
    raise ValueError("Data 'messages' kosong atau tidak valid setelah proses pembersihan.")

# 2. Konversi teks menjadi representasi numerik menggunakan TF-IDF
try:
    vectorizer = TfidfVectorizer(analyzer='word', min_df=1, max_df=1.0)
    data_vectorized = vectorizer.fit_transform(cleaned_messages)

    # Informasi tentang hasil
    print("Berhasil memproses data!")
    print(f"Ukuran vocabulary: {len(vectorizer.vocabulary_)}")
    print(f"Nama fitur (vocabulary): {list(vectorizer.vocabulary_.keys())}")
except ValueError as e:
    print("Terjadi error:", e)


Berhasil memproses data!
Ukuran vocabulary: 18
Nama fitur (vocabulary): ['selamat', 'datang', 'di', 'tutorial', 'tf', 'idf', 'adalah', 'metode', 'untuk', 'konversi', 'teks', 'menjadi', 'angka', 'pastikan', 'data', 'anda', 'tidak', 'kosong']


In [26]:
# Debugging: Periksa dimensi data TF-IDF dan fitur yang diekstrak
print(f"TF-IDF shape: {data_vectorized.shape}")
print("Beberapa fitur TF-IDF:", vectorizer.get_feature_names_out()[:10])

TF-IDF shape: (3, 18)
Beberapa fitur TF-IDF: ['adalah' 'anda' 'angka' 'data' 'datang' 'di' 'idf' 'konversi' 'kosong'
 'menjadi']


In [27]:
# Clustering menggunakan KMeans
def perform_clustering(data, n_clusters):
    model = KMeans(n_clusters=n_clusters, random_state=42)
    model.fit(data)
    labels = model.labels_
    return model, labels

In [30]:
clusters = {}
for n in [3, 4, 5]:
    if data_vectorized.shape[0] >= n:  # Memastikan jumlah data >= jumlah cluster
        model, labels = perform_clustering(data_vectorized, n)
        clusters[n] = {
            'model': model,
            'labels': labels,
            'top_terms': [vectorizer.get_feature_names_out()[i] for i in model.cluster_centers_.argsort()[:, -3:][:, ::-1].flatten()]
        }
    else:
        print(f"Jumlah data tidak cukup untuk {n} cluster. Jumlah data: {data_vectorized.shape[0]}, jumlah cluster: {n}")


Jumlah data tidak cukup untuk 4 cluster. Jumlah data: 3, jumlah cluster: 4
Jumlah data tidak cukup untuk 5 cluster. Jumlah data: 3, jumlah cluster: 5


In [32]:
for n, cluster_data in clusters.items():
    cluster_file = f'data_cluster_{n}.csv'
    
    # Cek panjang array
    print(f"Jumlah pesan: {len(messages)}")
    print(f"Jumlah label cluster: {len(cluster_data['labels'])}")
    
    if len(messages) == len(cluster_data['labels']):
        df = pd.DataFrame({
            'Message': messages,
            'Cluster': cluster_data['labels']
        })
        df.to_csv(cluster_file, index=False)
        print(f"Hasil clustering untuk {n} cluster disimpan di: {cluster_file}")
    else:
        print(f"Data tidak cocok untuk {n} cluster!")


Jumlah pesan: 6
Jumlah label cluster: 3
Data tidak cocok untuk 3 cluster!


In [33]:
# Analisis hasil clustering
for n, cluster_data in clusters.items():
    print(f"Cluster {n}:")
    print(f"Top terms: {cluster_data['top_terms']}\n")

Cluster 3:
Top terms: ['untuk', 'metode', 'angka', 'kosong', 'tidak', 'anda', 'selamat', 'datang', 'di']

