In [1]:
import wikipediaapi
from haystack import Pipeline
from haystack import Document
from nltk.corpus import stopwords
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer
from haystack.components.embedders import SentenceTransformersTextEmbedder
from haystack.components.builders import PromptBuilder
from haystack.components.preprocessors import DocumentCleaner
from haystack.components.preprocessors import DocumentSplitter
from haystack.components.embedders import SentenceTransformersDocumentEmbedder
from haystack.components.writers import DocumentWriter
from haystack.document_stores.types import DuplicatePolicy
from haystack_integrations.document_stores.mongodb_atlas import MongoDBAtlasDocumentStore
from haystack_integrations.components.retrievers.mongodb_atlas import MongoDBAtlasEmbeddingRetriever
from haystack_integrations.components.generators.ollama import OllamaGenerator

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
stop_words_id = stopwords.words('indonesian')
model = SentenceTransformer('all-MiniLM-L6-v2')

# Fungsi untuk ekstraksi kata kunci
def extract_keywords(question):
    count = CountVectorizer(ngram_range=(1, 2), stop_words=stop_words_id).fit([question])
    candidates = count.get_feature_names_out()

    doc_embedding = model.encode([question])
    candidate_embeddings = model.encode(candidates)
    
    top_n = 5
    distances = cosine_similarity(doc_embedding, candidate_embeddings)
    keywords = [candidates[index] for index in distances.argsort()[0][-top_n:]]
    return keywords

# Fungsi untuk mengambil artikel dari Wikipedia berdasarkan kata kunci
def fetch_wikipedia_articles(question):
    wikipedia = wikipediaapi.Wikipedia(user_agent='final_project', language='id')
    keywords = extract_keywords(question)
    
    documents = []
    try:
        for keyword in keywords:
            page = wikipedia.page(keyword)
            if page.exists():
                documents.append({"content": page.text, "meta": {"title": keyword}})
    except wikipedia.exceptions.DisambiguationError as e:
        documents.append({"content": e.options[0], "meta": {"title": keyword}})
    except wikipedia.exceptions.HTTPTimeoutError:
        documents.append([])
        
    return documents


# def fetch_biology_articles(question):
#     wikipedia = wikipediaapi.Wikipedia(user_agent='Final_Project', language='en')

#     # Mengambil halaman kategori Biologi
#     category_page = wikipedia.page("Category:Biology")

#     # Mendapatkan kata kunci dari pertanyaan
#     keywords = extract_keywords(question)

#     # Mengambil artikel dalam kategori Biologi yang relevan dengan kata kunci
#     biology_articles = []
#     for page in category_page.categorymembers.values():  # Menggunakan categorymembers, bukan categories
#         if any(keyword.lower() in page.title.lower() for keyword in keywords):
#             biology_articles.append({
#                 "content": page.text,
#                 "meta": {"title": page.title}
#             })
    
#     return biology_articles


In [3]:
# question = "apa itu DNA?"

# # Get wikipedia documents
# wikipedia_documents = fetch_wikipedia_articles(question)
# wikipedia_documents

In [4]:
# %env MONGO_CONNECTION_STRING=mongodb+srv://andhikaputrab:finalProjectQA@cluster0.yypyg.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0

In [5]:
import os
from dotenv import load_dotenv

load_dotenv()

print(os.getenv('MONGO_CONNECTION_STRING'))

mongodb+srv://andhikaputrab:finalProjectQA@cluster0.yypyg.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0


In [6]:
# Fungsi untuk koneksi ke MongoDB
def mongodb_connection():
    database_name = "question_answering"
    collection_name = "wikipedia_documents"

    document_store = MongoDBAtlasDocumentStore(
        database_name=database_name, 
        collection_name=collection_name, 
        vector_search_index="vector_index"
    )
    
    return document_store

document_store = mongodb_connection()

In [7]:
# Pipeline untuk menyimpan dokumen ke MongoDB
def document_pipeline(document_store):
    pipeline_storing_mongodb = Pipeline()

    pipeline_storing_mongodb.add_component("cleaner", DocumentCleaner())
    pipeline_storing_mongodb.add_component("splitter", DocumentSplitter(split_by="word", split_length=256, split_overlap=100))
    pipeline_storing_mongodb.add_component("embedder", SentenceTransformersDocumentEmbedder())
    pipeline_storing_mongodb.add_component("writer", DocumentWriter(document_store=document_store, policy=DuplicatePolicy.SKIP))

    pipeline_storing_mongodb.connect("cleaner", "splitter")
    pipeline_storing_mongodb.connect("splitter", "embedder")
    pipeline_storing_mongodb.connect("embedder", "writer")

    return pipeline_storing_mongodb

In [8]:
# documents = [Document(content=doc["content"], meta=doc["meta"]) for doc in wikipedia_documents]

# pipeline_storing_mongodb = preprocess_documents(document_store=document_store)

# pipeline_storing_mongodb.run({"documents": documents})

In [15]:
# Pipeline untuk menghasilkan jawaban dari pertanyaan
def answer_generator_pipeline(document_store):
    template = """
        given these documents, answer the question based on these documents in a sentence. Documents:
        {% for document in documents %}
            {{ document.content }}
        {% endfor %}
        Question: {{query}}
    """

    generator = OllamaGenerator(
        model="llama3.2",
        url="http://localhost:11434/api/generate",
        # generation_kwargs={
        #     "num_predict": 100,
        #     "temperature": 0.5
        # }
    )
    
    pipeline_generate_answers = Pipeline()
    pipeline_generate_answers.add_component('embedder', SentenceTransformersTextEmbedder())
    pipeline_generate_answers.add_component('retriever', MongoDBAtlasEmbeddingRetriever(document_store=document_store))
    pipeline_generate_answers.add_component('builder', PromptBuilder(template=template))
    pipeline_generate_answers.add_component('generator', generator)

    pipeline_generate_answers.connect("embedder", "retriever")
    pipeline_generate_answers.connect("retriever", "builder")
    pipeline_generate_answers.connect("builder", "generator")
    
    return pipeline_generate_answers

In [16]:
# Fungsi untuk menyimpan dokumen ke dalam pipeline
def save_documents(documents, document_store):
    if not documents:
        raise ValueError("No documents to store.")
    # Proceed to store documents
    pipeline_storing_mongodb = document_pipeline(document_store=document_store)
    pipeline_storing_mongodb.run({"documents": documents})

In [17]:
# Fungsi untuk menjawab pertanyaan dengan menggunakan dokumen Wikipedia
def ask_question(query, document_store):
    # Ambil dokumen Wikipedia berdasarkan kata kunci yang diekstraksi dari pertanyaan
    wikipedia_documents = fetch_wikipedia_articles(query)
    
    # Konversi dokumen menjadi format pada Haystack
    document_objects = [Document(content=doc["content"], meta=doc["meta"]) for doc in wikipedia_documents]
    
    # Simpan dokumen ke MongoDB
    save_documents(document_objects, document_store)
    
    # Buat pipeline untuk menghasilkan jawaban
    pipeline_generate_answers = answer_generator_pipeline(document_store)
    
    # Jalankan pipeline untuk mendapatkan jawaban
    response = pipeline_generate_answers.run({
        "embedder": {"text": query},
        "builder": {"query": query}
    })
    
    return response['generator']['replies'][0]

In [18]:
query = "Jelaskan apa yang dimaksud dengan photosynthesis"  # Bahasa Indonesia
answer_id = ask_question(query, document_store)
print("Jawaban:", answer_id)

Batches: 100%|██████████| 2/2 [01:02<00:00, 31.45s/it]
Batches: 100%|██████████| 1/1 [00:00<00:00,  5.56it/s]


Jawaban: Photosynthesis adalah proses biologis oleh mana tumbuhan dan beberapa organisme lainnya mengubah sinar matahari, air, dan karbon dioksida menjadi energi kimia dalam bentuk glukosa dan oksigen. Proses ini memungkinkan tanaman untuk berkembang dan tumbuh serta menyediakan energi bagi organisme lain yang mengkonsumsinya.

Dalam proses photosynthesis, sinar matahari digunakan sebagai sumber energi, sedangkan air diubah menjadi oksigen dan karbon dioksida. Glukosa hasil dari fotosintesis kemudian dapat digunakan oleh tanaman untuk pertumbuhan dan perkembangannya, sementara oksigen dihasilkan sebagai produk sampingan yang berfungsi sebagai udara yang diperlukan bagi kehidupan.

Fotosintesis terdiri atas dua tahap utama: fotosintesis intensif (light-dependent reaction) dan fotosintesis spesifik (light-independent reaction). Fotosintesis intensif terjadi di chloroplast dan memerlukan sinar matahari sebagai sumber energi, sedangkan fotosintesis spesifik terjadi di miselium tanaman dan 

In [None]:
from haystack.components.evaluators import DocumentMRREvaluator
MRR_evaluator = DocumentMRREvaluator()
MRR_result = MRR_evaluator.run(
    ground_truth_documents=[[s] for s in selected_contexts],
    retrieved_documents=results
)