In [8]:
import nltk
nltk.download('punkt_tab')
from nltk.tokenize import sent_tokenize
# Teks panjang biografi Gus Dur
text = """
Abdurrahman Wahid, yang lebih dikenal sebagai Gus Dur, adalah salah satu tokoh besar Indonesia. Ia lahir pada 7 September 1940 di Jombang, Jawa Timur. Gus Dur adalah putra dari pasangan Wahid Hasyim dan Solichah, dan ia berasal dari keluarga yang sangat berpengaruh di Nahdlatul Ulama (NU), salah satu organisasi Islam terbesar di Indonesia. Sejak kecil, Gus Dur sudah menunjukkan kecerdasan luar biasa. Ia menghabiskan sebagian besar masa kecilnya di lingkungan pesantren.

Setelah menyelesaikan pendidikan dasar, Gus Dur melanjutkan studi ke berbagai institusi pendidikan, termasuk Universitas Al Azhar di Mesir dan Universitas Baghdad di Irak. Di sana, ia memperluas wawasannya tentang Islam, politik, dan kebudayaan global. Gus Dur dikenal sebagai pembaca yang rakus, dan minatnya terhadap sastra serta seni membuatnya menjadi seorang intelektual yang multidimensional.

Gus Dur memulai kariernya di NU sebagai seorang pemikir muda. Ia membawa banyak perubahan progresif dalam organisasi tersebut. Pada 1984, ia terpilih sebagai Ketua Umum PBNU dan berhasil mereformasi NU dengan memisahkannya dari politik praktis. Langkah ini dianggap sebagai upaya untuk mengembalikan NU ke khitahnya sebagai organisasi sosial keagamaan.

Puncak karier Gus Dur terjadi ketika ia menjabat sebagai Presiden Indonesia ke-4 pada tahun 1999. Selama masa kepemimpinannya, Gus Dur dikenal sebagai tokoh yang memperjuangkan pluralisme dan demokrasi. Meski masa pemerintahannya singkat, hanya berlangsung hingga 2001, Gus Dur meninggalkan warisan yang kuat dalam bidang toleransi beragama, hak asasi manusia, dan keberagaman.

Selain sebagai seorang politisi, Gus Dur juga dikenal sebagai penulis dan pengamat budaya. Ia sering menulis artikel tentang isu-isu sosial, politik, dan keagamaan. Humor khasnya membuat banyak orang merasa dekat dengannya, meskipun ia kerap mengutarakan kritik yang tajam terhadap berbagai pihak.

Gus Dur wafat pada 30 Desember 2009, meninggalkan duka mendalam bagi bangsa Indonesia. Ia dikenang sebagai seorang tokoh yang penuh cinta kasih dan keberanian untuk membela kebenaran. Hingga kini, warisan pemikiran dan perjuangannya terus menjadi inspirasi bagi banyak orang.
"""

# Tokenisasi kalimat menggunakan NLTK
sentences = sent_tokenize(text)

# Chunking menggunakan metode Overlap + Boundary-Aware
chunk_size = 2  # Jumlah kalimat per chunk, diubah menjadi 2 agar ada perbedaan dengan overlap_size
overlap_size = 1  # Jumlah kalimat overlap antar chunk
chunks = []

# Perbaikan: chunk_size - overlap_size sekarang tidak lagi 0
for i in range(0, len(sentences), chunk_size - overlap_size):
    chunk = sentences[i:i + chunk_size]
    chunks.append(" ".join(chunk))

# Tampilkan hasil chunk
for i, chunk in enumerate(chunks):
    print(f"Chunk {i + 1}:\n{chunk}\n")

Chunk 1:

Abdurrahman Wahid, yang lebih dikenal sebagai Gus Dur, adalah salah satu tokoh besar Indonesia. Ia lahir pada 7 September 1940 di Jombang, Jawa Timur.

Chunk 2:
Ia lahir pada 7 September 1940 di Jombang, Jawa Timur. Gus Dur adalah putra dari pasangan Wahid Hasyim dan Solichah, dan ia berasal dari keluarga yang sangat berpengaruh di Nahdlatul Ulama (NU), salah satu organisasi Islam terbesar di Indonesia.

Chunk 3:
Gus Dur adalah putra dari pasangan Wahid Hasyim dan Solichah, dan ia berasal dari keluarga yang sangat berpengaruh di Nahdlatul Ulama (NU), salah satu organisasi Islam terbesar di Indonesia. Sejak kecil, Gus Dur sudah menunjukkan kecerdasan luar biasa.

Chunk 4:
Sejak kecil, Gus Dur sudah menunjukkan kecerdasan luar biasa. Ia menghabiskan sebagian besar masa kecilnya di lingkungan pesantren.

Chunk 5:
Ia menghabiskan sebagian besar masa kecilnya di lingkungan pesantren. Setelah menyelesaikan pendidikan dasar, Gus Dur melanjutkan studi ke berbagai institusi pendidikan

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [9]:
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

# Fungsi chatbot
def chatbot(question, chunks):
    # Gabungkan chunks untuk pencocokan dengan pertanyaan
    all_texts = chunks + [question]
    vectorizer = TfidfVectorizer().fit_transform(all_texts)
    vectors = vectorizer.toarray()

    # Hitung kemiripan cosine
    similarities = cosine_similarity([vectors[-1]], vectors[:-1])
    best_match_idx = similarities[0].argmax()
    best_chunk = chunks[best_match_idx]

    return best_chunk

# Simulasi interaksi chatbot
print("Chatbot Gus Dur - Tanya Apa Saja!")
while True:
    question = input("Kamu: ")
    if question.lower() in ["exit", "keluar"]:
        print("Chatbot: Terima kasih sudah bertanya! 😊")
        break
    response = chatbot(question, chunks)
    print(f"Chatbot: {response}")


Chatbot Gus Dur - Tanya Apa Saja!
Kamu: kapan gus dur wafat
Chatbot: Gus Dur wafat pada 30 Desember 2009, meninggalkan duka mendalam bagi bangsa Indonesia. Ia dikenang sebagai seorang tokoh yang penuh cinta kasih dan keberanian untuk membela kebenaran.
Kamu: siapa itu gus dur?
Chatbot: Puncak karier Gus Dur terjadi ketika ia menjabat sebagai Presiden Indonesia ke-4 pada tahun 1999. Selama masa kepemimpinannya, Gus Dur dikenal sebagai tokoh yang memperjuangkan pluralisme dan demokrasi.
Kamu: dimana gus dur lahir?
Chatbot: 
Abdurrahman Wahid, yang lebih dikenal sebagai Gus Dur, adalah salah satu tokoh besar Indonesia. Ia lahir pada 7 September 1940 di Jombang, Jawa Timur.
Kamu: exit
Chatbot: Terima kasih sudah bertanya! 😊
