<a href="https://colab.research.google.com/github/fendy07/chatbot-AI/blob/master/DL_Chatbot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Preprocessing Chatbot**

<b>Chatbot</b> merupakan bagian dari Natural Language Processing yang digunakan untuk percakapan dengan pengguna melalui teks dan ucapan. Pada praktik hari ini kita akan membuat sebuah chat otomatis atau chatbot tentang program Kampus Merdeka dari Kementerian Pendidikan Kebudayaan Riset dan Teknologi (KEMENDIKBUDRISTEK).

Dalam tahapan Chatbot ini ada tahapan yang harus kita perhatikan yaitu,

1. Import Library
2. Load Dataset
3. Preprocessing Data
4. Input Length, Output Length and Vocabulary
5. Long Short Term Memory Model
6. Evaluation Model Analysis
7. Testing Chatbot
8. Save The Model

Dalam proyek ini, kita akan membuat chatbot tentang program Kampus Merdeka!

Sumber code: [Medium - Going Merry With Tensorflow 2.0](https://medium.com/analytics-vidhya/chatbot-with-tensorflow-2-0-going-merry-2f79284a6104)

## **Download Dataset From GitHub**

Setelah kita mengetahui apa saja alur yang digunakan untuk membuat proyek AI Chatbot maka tahapan selanjutnya adalah mengunduh atau download dataset dari GitHub milik Fendy Hendriyanto pada bagian repository AI Chatbot. Link: [Chatbot-AI](https://github.com/fendy07/chatbot-AI)

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv("train_new.csv")
df.head(40)

Unnamed: 0,question,answer
0,Apa itu Bidikmisi?,Bidikmisi adalah bantuan biaya pendidikan yang...
1,Apa tujuan Bidikmisi?,meningkatkan akses dan kesempatan belajar di p...
2,Bagaimana pembayaran untuk mahasiswa yang berb...,Mahasiswa berbeasiswa Bidik Misi dibebaskan me...
3,"Saya sudah melakukan pembayaran SPP/UKT, Ikoma...","Tidak, Anda harus login ke laman http://online..."
4,Kenapa ketika mencoba membayar ONLINE melalui ...,Perhatikan jadwal pembayaran karena pembayaran...
5,Berapakah jumlah harus dibayarkan untuk UKT/SP...,Karena jumlah yang dibayarkan tiap mahasiswa d...
6,Pembayaran melalui ATM bersama apakah bisa?,Tidak Bisa
7,Bagaimana cara untuk mendaftar beasiswa Adaro ?,Untuk mendaftar beasiswa adaro dari PENS dapat...
8,Bagaimana cara mendaftar beasiwa Djarum Plus?,Untuk mendaftar beasiswa djarum plus dapat mel...
9,Beasiswa apa saja yang bekerja sama dengan PENS?,"beasiswa yang terdaftar adalah astra, PPA, pem..."


# **Case Folding**

In [3]:
data = pd.read_csv("train_new.csv")

data['question'] = data['question'].str.lower()
data['answer'] = data['answer'].str.lower()

pertanyaan = data.iloc[22]['question']
jawaban = data.iloc[22]['answer']

print(pertanyaan)
print(jawaban)

apa itu politeknik elektronika negeri surabaya?
politeknik elektronika negeri surabaya atau yang biasa dikenal dengan pens merupakan salah satu perguruan tinggi negeri terbaik yang menyelenggarakan pendidikan vokasi pada bidang elektronik dan industri. perguruan tinggi yang berkedudukan di surabaya ini resmi berdiri pada tahun 1988.


# **Remove Punctuation**

In [4]:
import re
data['question'] = data['question'].str.lower()
data['answer'] = data['answer'].str.lower()

pertanyaan = data.iloc[22]['question']
jawaban = data.iloc[22]['answer']

pertanyaan_bersih = re.sub(r'[^\w\s]', '', pertanyaan)
jawaban_bersih = re.sub(r'[^\w\s]', '', jawaban)

print(pertanyaan_bersih)
print(jawaban_bersih)

apa itu politeknik elektronika negeri surabaya
politeknik elektronika negeri surabaya atau yang biasa dikenal dengan pens merupakan salah satu perguruan tinggi negeri terbaik yang menyelenggarakan pendidikan vokasi pada bidang elektronik dan industri perguruan tinggi yang berkedudukan di surabaya ini resmi berdiri pada tahun 1988


# **STRIPPING**


In [5]:
import re
data['question'] = data['question'].str.lower()
data['answer'] = data['answer'].str.lower()

pertanyaan = data.iloc[22]['question']
jawaban = data.iloc[22]['answer']

pertanyaan_bersih = re.sub(r'[^\w\s]', '', pertanyaan)
jawaban_bersih = re.sub(r'[^\w\s]', '', jawaban)

# Melakukan stripping untuk menghapus spasi di awal dan akhir string
pertanyaan_bersih = pertanyaan_bersih.strip()
jawaban_bersih = jawaban_bersih.strip()

print(pertanyaan_bersih)
print(jawaban_bersih)

apa itu politeknik elektronika negeri surabaya
politeknik elektronika negeri surabaya atau yang biasa dikenal dengan pens merupakan salah satu perguruan tinggi negeri terbaik yang menyelenggarakan pendidikan vokasi pada bidang elektronik dan industri perguruan tinggi yang berkedudukan di surabaya ini resmi berdiri pada tahun 1988


In [6]:
tokens_pertanyaan = pertanyaan_bersih.split()
tokens_jawaban = jawaban_bersih.split()

print("Tokens Pertanyaan:", tokens_pertanyaan)
print("Tokens Jawaban:", tokens_jawaban)

Tokens Pertanyaan: ['apa', 'itu', 'politeknik', 'elektronika', 'negeri', 'surabaya']
Tokens Jawaban: ['politeknik', 'elektronika', 'negeri', 'surabaya', 'atau', 'yang', 'biasa', 'dikenal', 'dengan', 'pens', 'merupakan', 'salah', 'satu', 'perguruan', 'tinggi', 'negeri', 'terbaik', 'yang', 'menyelenggarakan', 'pendidikan', 'vokasi', 'pada', 'bidang', 'elektronik', 'dan', 'industri', 'perguruan', 'tinggi', 'yang', 'berkedudukan', 'di', 'surabaya', 'ini', 'resmi', 'berdiri', 'pada', 'tahun', '1988']


# **TF-IDF**

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Gabungkan token pertanyaan dan jawaban menjadi satu dokumen
dokumen_pertanyaan = ' '.join(tokens_pertanyaan)
dokumen_jawaban = ' '.join(tokens_jawaban)

# Inisialisasi objek TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# Membangun matriks TF-IDF dari dokumen gabungan
dokumen_gabungan = [dokumen_pertanyaan, dokumen_jawaban]
tfidf_matrix = tfidf_vectorizer.fit_transform(dokumen_gabungan)

# Mendapatkan vektor TF-IDF untuk pertanyaan dan jawaban
vektor_tfidf_pertanyaan = tfidf_matrix[0].toarray()
vektor_tfidf_jawaban = tfidf_matrix[0].toarray()

# Menampilkan vektor TF-IDF untuk pertanyaan dan jawaban
print("Vektor TF-IDF untuk Pertanyaan:")
print(vektor_tfidf_pertanyaan)
print("\nVektor TF-IDF untuk Jawaban:")
print(vektor_tfidf_jawaban)


Vektor TF-IDF untuk Pertanyaan:
[[0.         0.49844628 0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.35464863 0.         0.         0.49844628 0.         0.
  0.35464863 0.         0.         0.         0.         0.35464863
  0.         0.         0.         0.35464863 0.         0.
  0.         0.         0.        ]]

Vektor TF-IDF untuk Jawaban:
[[0.         0.49844628 0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.35464863 0.         0.         0.49844628 0.         0.
  0.35464863 0.         0.         0.         0.         0.35464863
  0.         0.         0.         0.35464863 0.         0.
  0.         0.         0.        ]]


In [8]:
from sklearn.metrics.pairwise import cosine_similarity

# Menghitung cosine similarity antara vektor TF-IDF pertanyaan dan jawaban
cosine_sim = cosine_similarity(vektor_tfidf_pertanyaan, vektor_tfidf_jawaban)

# Menampilkan hasil cosine similarity
print("Cosine Similarity antara Pertanyaan dan Jawaban:", cosine_sim[0][0])



Cosine Similarity antara Pertanyaan dan Jawaban: 1.0


In [9]:
# Indeks pertanyaan yang ingin digunakan sebagai referensi
indeks_pertanyaan = 0  # Misalnya, indeks pertanyaan pertama

# Dapatkan nilai cosine similarity untuk perta
# nyaan tersebut terhadap semua jawaban
cosine_sim_pertanyaan = cosine_sim[indeks_pertanyaan]

# Urutkan nilai cosine similarity secara menurun
sorted_indices = np.argsort(cosine_sim_pertanyaan)[::-1]

# Ambil 5 nilai cosine similarity tertinggi
top_5_indices = sorted_indices[:5]
top_5_cosine_similarities = cosine_sim_pertanyaan[top_5_indices]

# Tampilkan nilai cosine similarity dan jawaban yang sesuai
print("Top 5 Cosine Similarities for Question", indeks_pertanyaan)
for i, similarity in zip(top_5_indices, top_5_cosine_similarities):
    jawaban_top = data['answer'][i]  # Mengambil jawaban dari dataset (sesuaikan dengan struktur data Anda)
    print(f"Index: {i}, Similarity: {similarity}, Jawaban: {jawaban_top}")


Top 5 Cosine Similarities for Question 0
Index: 0, Similarity: 1.0, Jawaban: bidikmisi adalah bantuan biaya pendidikan yang diberikan pemerintah dan ditujukan bagi lulusan sekolah menengah atas (sma) atau sederajat yang memiliki potensi akademik baik, tetapi memiliki keterbatasan ekonomi untuk menempuh pendidikan di perguruan tinggi pada program studi/jurusan unggulan.


In [42]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Baca dataset
df = pd.read_csv("train_new.csv")

# Preprocessing data
corpus_pertanyaan = df["question"].values.astype("U")
corpus_jawaban = df["answer"].values.astype("U")

# Inisialisasi TF-IDF Vectorizer
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus_pertanyaan)

# Hitung vektor TF-IDF dari semua pertanyaan dan jawaban
vektor_tfidf_pertanyaan = vectorizer.transform(corpus_pertanyaan)
vektor_tfidf_jawaban = vectorizer.transform(corpus_jawaban)

# Pilih pertanyaan pertama dari dataset
pertanyaan_terpilih = vektor_tfidf_pertanyaan[34]

# Hitung cosine similarity antara pertanyaan terpilih dan semua jawaban
cosine_sims = cosine_similarity(pertanyaan_terpilih, vektor_tfidf_jawaban)

# Ambil 5 indeks dengan cosine similarity tertinggi
top_5_indices = cosine_sims.argsort()[0][-6:-1][::-1]

# Tampilkan pertanyaan terpilih
print("Pertanyaan Terpilih:")
print(df.loc[35, "question"])
print()

# Tampilkan 5 jawaban dengan cosine similarity tertinggi beserta skornya
print("5 Jawaban dengan Cosine Similarity Tertinggi:")
for i, idx in enumerate(top_5_indices, 1):
    jawaban = df.loc[idx, 'answer']
    skor = cosine_sims[0][idx]
    print(f"{i}. {jawaban} (Skor: {skor:.4f})")


Pertanyaan Terpilih:
Apa itu BEM PENS?

5 Jawaban dengan Cosine Similarity Tertinggi:
1. Kampus Merdeka merupakan kebijakan Menteri Pendidikan dan Kebudayaan Nadiem Makarim yang membebaskan mahasiswa untuk mengikuti kegiatan di luar program studinya selama 1 semester atau setara 20 sks dan paling lama 2 semester atau setara 40 sks. (Skor: 0.4701)
2. Program Mahasiswa Wirausaha PMW merupakan program yang diperuntukkan bagi mahasiswa dalam menciptakan aktivitas usaha. (Skor: 0.4023)
3. Program Pembinaan Mahasiswa Wirausaha P2MW adalah program pengembangan usaha mahasiswa yang telah memiliki usaha. Program ini memberikan bantuan dana pengembangan dan pembinaan dengan melakukan pendampingan serta pelatihan (coaching) usaha kepada mahasiswa peserta P2MW. (Skor: 0.3825)
4. Badan Eksekutif Mahasiswa BEM adalah organisasi mahasiswa intra kampus yang merupakan lembaga eksekutif di tingkat Universitas atau Institusi. Dalam melaksanakan program � programnya, BEM memiliki beberapa kementrian. (Sko