In [None]:
# Library
import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
# load dataset
df = pd.read_csv('/content/bloodconnect_faq_dataset.csv')
df.head()

Unnamed: 0,question,answer
0,Apa itu aplikasi BloodConnect?,BloodConnect adalah platform digital yang meng...
1,Bagaimana cara mendaftar di BloodConnect?,Anda bisa mendaftar dengan mmengunjungi web ap...
2,Fitur apa saja yang ada di BloodConnect?,BloodConnect memiliki fitur pendaftaran pendon...
3,Apakah aplikasi ini gratis?,"Ya, aplikasi BloodConnect dapat diunduh dan di..."
4,Dimana saya bisa mengunduh BloodConnect?,Aplikasi BloodConnect tersedia di Google Play ...


In [None]:
# Memisahkan question dan answer
faq_questions = df['question'].tolist()
faq_answers = df['answer'].tolist()

In [None]:
# TF-IDF vectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(faq_questions)

In [None]:
# Fungsi pencocokan
def retrieve_answer_tfidf(user_input, top_k=1):
    q_vec = vectorizer.transform([user_input])
    sim = cosine_similarity(q_vec, X)[0]
    top_indices = sim.argsort()[-top_k:][::-1]
    results = []
    for idx in top_indices:
        results.append((sim[idx], faq_questions[idx], faq_answers[idx]))
    return results

In [None]:
# Testing
hasil = retrieve_answer_tfidf("Apa itu fitur lokasi donor?")
for skor, q, a in hasil:
    print(f"\nPertanyaan cocok: {q}\nJawaban: {a}\nSkor: {skor:.2f}")


Pertanyaan cocok: Apa itu donor darah sukarela?
Jawaban: Donor darah sukarela adalah individu yang mendonorkan darahnya secara sukarela tanpa paksaan atau imbalan.
Skor: 0.50


In [None]:
# Testing
hasil = retrieve_answer_tfidf("Apa itu fitur bloodconnect?")
for skor, q, a in hasil:
    print(f"\nPertanyaan cocok: {q}\nJawaban: {a}\nSkor: {skor:.2f}")


Pertanyaan cocok: Apa itu aplikasi BloodConnect?
Jawaban: BloodConnect adalah platform digital yang mengintegrasikan layanan donor darah dan transfusi darah secara real-time, memudahkan pencarian pendonor dan informasi stok darah.
Skor: 0.65


In [None]:
# Simpan vectorizer dan list QnA
with open("tfidf_vectorizer.pkl", "wb") as f:
    pickle.dump(vectorizer, f)

with open("faq_data.pkl", "wb") as f:
    pickle.dump({"questions": questions, "answers": answers}, f)