<a href="https://colab.research.google.com/github/fendy07/chatbot-AI/blob/master/DL_Chatbot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Preprocessing Chatbot**

<b>Chatbot</b> merupakan bagian dari Natural Language Processing yang digunakan untuk percakapan dengan pengguna melalui teks dan ucapan. Pada praktik hari ini kita akan membuat sebuah chat otomatis atau chatbot tentang program Kampus Merdeka dari Kementerian Pendidikan Kebudayaan Riset dan Teknologi (KEMENDIKBUDRISTEK).

Dalam tahapan Chatbot ini ada tahapan yang harus kita perhatikan yaitu,

1. Import Library
2. Load Dataset
3. Preprocessing Data
4. Input Length, Output Length and Vocabulary
5. Long Short Term Memory Model
6. Evaluation Model Analysis
7. Testing Chatbot
8. Save The Model

Dalam proyek ini, kita akan membuat chatbot tentang program Kampus Merdeka!

Sumber code: [Medium - Going Merry With Tensorflow 2.0](https://medium.com/analytics-vidhya/chatbot-with-tensorflow-2-0-going-merry-2f79284a6104)

## **Download Dataset From GitHub**

Setelah kita mengetahui apa saja alur yang digunakan untuk membuat proyek AI Chatbot maka tahapan selanjutnya adalah mengunduh atau download dataset dari GitHub milik Fendy Hendriyanto pada bagian repository AI Chatbot. Link: [Chatbot-AI](https://github.com/fendy07/chatbot-AI)

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv("finalDataset.csv")
df.head(40)

Unnamed: 0,question,answer
0,Apa itu Bidikmisi?,Bidikmisi adalah bantuan biaya pendidikan yang...
1,Apa tujuan Bidikmisi?,meningkatkan akses dan kesempatan belajar di p...
2,Bagaimana pembayaran untuk mahasiswa yang berb...,Mahasiswa berbeasiswa Bidik Misi dibebaskan me...
3,"Saya sudah melakukan pembayaran SPP/UKT, Ikoma...","Tidak, Anda harus login ke laman http://online..."
4,Kenapa ketika mencoba membayar ONLINE melalui ...,Perhatikan jadwal pembayaran karena pembayaran...
5,Berapakah jumlah harus dibayarkan untuk UKT/SP...,Karena jumlah yang dibayarkan tiap mahasiswa d...
6,Pembayaran melalui ATM bersama apakah bisa?,Tidak Bisa
7,Bagaimana cara untuk mendaftar beasiswa Adaro ?,Untuk mendaftar beasiswa adaro dari PENS dapat...
8,Bagaimana cara mendaftar beasiwa Djarum Plus?,Untuk mendaftar beasiswa djarum plus dapat mel...
9,Beasiswa apa saja yang bekerja sama dengan PENS?,"beasiswa yang terdaftar adalah astra, PPA, pem..."


# **Case Folding**

In [3]:
data = pd.read_csv("finalDataset.csv")

data['question'] = data['question'].str.lower()
data['answer'] = data['answer'].str.lower()

pertanyaan = data.iloc[22]['question']
jawaban = data.iloc[22]['answer']

print(pertanyaan)
print(jawaban)

apa itu politeknik elektronika negeri surabaya?
politeknik elektronika negeri surabaya atau yang biasa dikenal dengan pens merupakan salah satu perguruan tinggi negeri terbaik yang menyelenggarakan pendidikan vokasi pada bidang elektronik dan industri. perguruan tinggi yang berkedudukan di surabaya ini resmi berdiri pada tahun 1988.


# **Remove Punctuation**

In [4]:
import re
data['question'] = data['question'].str.lower()
data['answer'] = data['answer'].str.lower()

pertanyaan = data.iloc[22]['question']
jawaban = data.iloc[22]['answer']

pertanyaan_bersih = re.sub(r'[^\w\s]', '', pertanyaan)
jawaban_bersih = re.sub(r'[^\w\s]', '', jawaban)

print(pertanyaan_bersih)
print(jawaban_bersih)

apa itu politeknik elektronika negeri surabaya
politeknik elektronika negeri surabaya atau yang biasa dikenal dengan pens merupakan salah satu perguruan tinggi negeri terbaik yang menyelenggarakan pendidikan vokasi pada bidang elektronik dan industri perguruan tinggi yang berkedudukan di surabaya ini resmi berdiri pada tahun 1988


# **STRIPPING**


In [5]:
import re
data['question'] = data['question'].str.lower()
data['answer'] = data['answer'].str.lower()

pertanyaan = data.iloc[22]['question']
jawaban = data.iloc[22]['answer']

pertanyaan_bersih = re.sub(r'[^\w\s]', '', pertanyaan)
jawaban_bersih = re.sub(r'[^\w\s]', '', jawaban)

# Melakukan stripping untuk menghapus spasi di awal dan akhir string
pertanyaan_bersih = pertanyaan_bersih.strip()
jawaban_bersih = jawaban_bersih.strip()

print(pertanyaan_bersih)
print(jawaban_bersih)

apa itu politeknik elektronika negeri surabaya
politeknik elektronika negeri surabaya atau yang biasa dikenal dengan pens merupakan salah satu perguruan tinggi negeri terbaik yang menyelenggarakan pendidikan vokasi pada bidang elektronik dan industri perguruan tinggi yang berkedudukan di surabaya ini resmi berdiri pada tahun 1988


In [6]:
tokens_pertanyaan = pertanyaan_bersih.split()
tokens_jawaban = jawaban_bersih.split()

print("Tokens Pertanyaan:", tokens_pertanyaan)
print("Tokens Jawaban:", tokens_jawaban)

Tokens Pertanyaan: ['apa', 'itu', 'politeknik', 'elektronika', 'negeri', 'surabaya']
Tokens Jawaban: ['politeknik', 'elektronika', 'negeri', 'surabaya', 'atau', 'yang', 'biasa', 'dikenal', 'dengan', 'pens', 'merupakan', 'salah', 'satu', 'perguruan', 'tinggi', 'negeri', 'terbaik', 'yang', 'menyelenggarakan', 'pendidikan', 'vokasi', 'pada', 'bidang', 'elektronik', 'dan', 'industri', 'perguruan', 'tinggi', 'yang', 'berkedudukan', 'di', 'surabaya', 'ini', 'resmi', 'berdiri', 'pada', 'tahun', '1988']


# **TF-IDF**

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Gabungkan token pertanyaan dan jawaban menjadi satu dokumen
dokumen_pertanyaan = ' '.join(tokens_pertanyaan)
dokumen_jawaban = ' '.join(tokens_jawaban)

# Inisialisasi objek TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# Membangun matriks TF-IDF dari dokumen gabungan
dokumen_gabungan = [dokumen_pertanyaan, dokumen_jawaban]
tfidf_matrix = tfidf_vectorizer.fit_transform(dokumen_gabungan)

# Mendapatkan vektor TF-IDF untuk pertanyaan dan jawaban
vektor_tfidf_pertanyaan = tfidf_matrix[0].toarray()
vektor_tfidf_jawaban = tfidf_matrix[0].toarray()

# Menampilkan vektor TF-IDF untuk pertanyaan dan jawaban
print("Vektor TF-IDF untuk Pertanyaan:")
print(vektor_tfidf_pertanyaan)
print("\nVektor TF-IDF untuk Jawaban:")
print(vektor_tfidf_jawaban)


Vektor TF-IDF untuk Pertanyaan:
[[0.         0.49844628 0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.35464863 0.         0.         0.49844628 0.         0.
  0.35464863 0.         0.         0.         0.         0.35464863
  0.         0.         0.         0.35464863 0.         0.
  0.         0.         0.        ]]

Vektor TF-IDF untuk Jawaban:
[[0.         0.49844628 0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.35464863 0.         0.         0.49844628 0.         0.
  0.35464863 0.         0.         0.         0.         0.35464863
  0.         0.         0.         0.35464863 0.         0.
  0.         0.         0.        ]]


In [8]:
from sklearn.metrics.pairwise import cosine_similarity

# Menghitung cosine similarity antara vektor TF-IDF pertanyaan dan jawaban
cosine_sim = cosine_similarity(vektor_tfidf_pertanyaan, vektor_tfidf_jawaban)

# Menampilkan hasil cosine similarity dalam bentuk vektor
print("Vektor Cosine Similarity antara Pertanyaan dan Jawaban:")
print(cosine_sim)


Vektor Cosine Similarity antara Pertanyaan dan Jawaban:
[[1.]]


In [9]:
from sklearn.metrics.pairwise import cosine_similarity

# Menghitung cosine similarity antara vektor TF-IDF pertanyaan dan jawaban
cosine_sim = cosine_similarity(vektor_tfidf_pertanyaan, vektor_tfidf_jawaban)

# Menampilkan hasil cosine similarity
print("Cosine Similarity antara Pertanyaan dan Jawaban:", cosine_sim[0][0])



Cosine Similarity antara Pertanyaan dan Jawaban: 1.0


# **Mengurutkan Pertanyaan Tertinggi**


In [10]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Baca dataset dari file CSV
df = pd.read_csv("finalDataset.csv")

# Pilih pertanyaan nomor 2 sebagai pertanyaan yang ingin Anda bandingkan
pertanyaan_yang_ingin_dibandingkan = df["question"].values.astype("U")[30]
print(pertanyaan_yang_ingin_dibandingkan)

# Pisahkan kolom pertanyaan dari dataset
dokumen_pertanyaan = df["question"].values.astype("U")

# Inisialisasi TF-IDF Vectorizer
vectorizer = TfidfVectorizer()

# Membangun matriks TF-IDF dari dokumen pertanyaan
vektor_tfidf_pertanyaan = vectorizer.fit_transform(dokumen_pertanyaan)

# Misal vektor cosine similarity untuk pertanyaan yang ingin Anda bandingkan
vektor_cosine_input = vektor_tfidf_pertanyaan[30].toarray()

# Hitung cosine similarity antara vektor cosine input dan vektor cosine pertanyaan
similarities = cosine_similarity(vektor_cosine_input, vektor_tfidf_pertanyaan)

import numpy as np

# Dapatkan indeks similarity terurut secara menurun
sorted_indices = np.argsort(similarities[0])[::-1]

print("Pertanyaan dengan Similarity Tertinggi:")
for i, idx in enumerate(sorted_indices):
    similarity = similarities[0][idx]
    question = df.loc[idx, "question"]
    print(f"Pertanyaan ke-{idx + 1}: Similarity = {similarity}, Pertanyaan: {question}")



Kapan Periode PMW dilakukan?
Pertanyaan dengan Similarity Tertinggi:
Pertanyaan ke-31: Similarity = 1.0000000000000002, Pertanyaan: Kapan Periode PMW dilakukan?
Pertanyaan ke-32: Similarity = 0.5483598247032392, Pertanyaan: Kapan Pendaftaran PMW?
Pertanyaan ke-30: Similarity = 0.4644260280077648, Pertanyaan: Kapan  Periode Gemastik dilaksanakan?
Pertanyaan ke-27: Similarity = 0.38565877890551165, Pertanyaan: Apa itu PMW?
Pertanyaan ke-29: Similarity = 0.22480633817722204, Pertanyaan: Kapan KMIPN dilaksanakan?
Pertanyaan ke-17: Similarity = 0.1434859504161519, Pertanyaan: Kapan Pendaftaran Beasiswa Djarum beasiswa Plus dibuka?
Pertanyaan ke-5: Similarity = 0.13415333203174565, Pertanyaan: Kenapa ketika mencoba membayar ONLINE melalui ATM/Internet Banking/TELLER pembayaran tidak dapat dilakukan?
Pertanyaan ke-50: Similarity = 0.0, Pertanyaan: Bagaimana Kegiatan Belajar di PENS?
Pertanyaan ke-14: Similarity = 0.0, Pertanyaan: PENS berlokasi dimana?
Pertanyaan ke-20: Similarity = 0.0, Pert

# **Convert Input Cosine Ke Array**


In [11]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Baca dataset dari file CSV
df = pd.read_csv("finalDataset.csv")

# Pertanyaan yang Anda ingin bandingkan (misalnya)
pertanyaan_input = "Fasilitas PENS"

# Preprocessing pada pertanyaan yang Anda masukkan
# Lakukan preprocessing teks sesuai dengan preprocessing yang dilakukan pada dataset
# Misalnya, lowercasing, tokenization, dan menghilangkan stopwords

# Inisialisasi TF-IDF Vectorizer
vectorizer = TfidfVectorizer()

# Membangun matriks TF-IDF dari dokumen pertanyaan dalam dataset
dokumen_pertanyaan = df["question"].values.astype("U")
vektor_tfidf_pertanyaan = vectorizer.fit_transform(dokumen_pertanyaan)

# Ubah pertanyaan yang Anda masukkan menjadi vektor TF-IDF
vektor_tfidf_input = vectorizer.transform([pertanyaan_input])

# Hitung cosine similarity antara vektor TF-IDF pertanyaan input dan setiap vektor TF-IDF pertanyaan dalam dataset
similarities = cosine_similarity(vektor_tfidf_input, vektor_tfidf_pertanyaan)

# Tampilkan similarity antara pertanyaan yang Anda masukkan dan setiap pertanyaan dalam dataset dalam bentuk array
print("Similarity antara Pertanyaan yang Anda Masukkan dan Pertanyaan dalam Dataset:")
print(similarities)


Similarity antara Pertanyaan yang Anda Masukkan dan Pertanyaan dalam Dataset:
[[0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.08793614 0.         0.1564865
  0.08682234 0.12755374 0.         0.         0.         0.09480281
  0.09480281 0.09682536 0.09597152 0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.07343423
  0.         0.         0.13140678 0.10381011 0.         0.09634273
  0.07471041 0.22642319 0.16545254 1.         0.12117097 0.1165138
  0.09928026 0.11099287]]


In [12]:
import numpy as np

# Array similarity yang Anda miliki
similarity_array = np.array([[0.20027504, 0.0530882, 0., 0., 0., 0., 0., 0., 0., 0.03504655, 0.14915431, 0.18486088, 0., 0., 0.03752827, 0., 0., 0.03778323, 0.03778323, 0.0385893, 0.03824901, 0.22622859, 1., 0.15910842, 0.20027504, 0.19064931, 0.20027504, 0.1781967, 0., 0., 0., 0., 0.03263786, 0.14844788, 0.04054495, 0.02926688, 0.19064931, 0.04707026, 0., 0.04137305, 0.14736254, 0.03839695, 0., 0.2674786, 0., 0., 0., 0., 0., 0.]])

# Hilangkan elemen-elemen nol yang tidak perlu
trimmed_similarity_array = np.trim_zeros(similarities[0])

# Tampilkan array similarity setelah di-trim
print(trimmed_similarity_array)


[0.08793614 0.         0.1564865  0.08682234 0.12755374 0.
 0.         0.         0.09480281 0.09480281 0.09682536 0.09597152
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.07343423 0.         0.         0.13140678
 0.10381011 0.         0.09634273 0.07471041 0.22642319 0.16545254
 1.         0.12117097 0.1165138  0.09928026 0.11099287]


# **FIlter CSV**


In [19]:
import pandas as pd

# Load the CSV file
file_path = "model_trained.csv"
data = pd.read_csv
print('data')
# Extract only the required columns
filtered_data = data[['jawaban', 'cosine', 'score']]

# Rename 'pertanyaanId' to 'pertanyaan'
filtered_data = filtered_data.rename(columns={'pertanyaanId': 'pertanyaan'})

# Display the first few rows of the filtered DataFrame
print(filtered_data.head())



TypeError: 'function' object is not subscriptable