# Question Answering Challenge

### Using a Wikipedia dump for offline retrieval

As specified in https://en.wikipedia.org/wiki/Wikipedia:Database_download, we download the Polish Wikipedia dump from https://dumps.wikimedia.org/.

In [None]:
import requests
from tqdm import tqdm

url = 'https://dumps.wikimedia.org/plwiki/latest/plwiki-latest-pages-articles.xml.bz2'

response = requests.get(url, stream=True)
if response.status_code == 200:
    file_name = 'plwiki-latest-pages-articles.xml.bz2'
    total_size = int(response.headers.get('content-length', 0))
    chunk_size = 1024  # 1 KB
    with open(file_name, 'wb') as file, tqdm(
        desc=file_name,
        total=total_size,
        unit='B',
        unit_scale=True,
        unit_divisor=1024,
    ) as bar:
        for chunk in response.iter_content(chunk_size=chunk_size):
            if chunk:
                file.write(chunk)
                bar.update(len(chunk))
    print(f'Wikipedia dump downloaded successfully: {file_name}')
else:
    print(f"Failed to download the Wikipedia dump. HTTP Status Code: {response.status_code}")


### Extracting data from the Wikipedia dump using WikiExtractor

Run the following command to extract articles from the dump into an `extracted/` folder:
```bash
wikiextractor --json plwiki-latest-pages-articles.xml.bz2 -o extracted
```

### Processing the extracted data and indexing it into Elasticsearch

In [None]:
import os
import json
import logging
from elasticsearch import Elasticsearch
from elasticsearch.helpers import parallel_bulk

# -------------------------------------------
# KONFIGURACJA
# -------------------------------------------
INDEX_NAME = "wiki_index"

# Mappings (uwaga: "paragraph_number" to "integer", nie "number")
INDEX_BODY = {
    "mappings": {
        "properties": {
            "title": {"type": "text"},
            "paragraph_number": {"type": "integer"},
            "content": {"type": "text"}
        }
    }
}

# Adres Elasticsearch (zakładamy, że działa na http://localhost:9200)
es = Elasticsearch("http://localhost:9200")

# -------------------------------------------
# UTWORZENIE INDEKSU (jeśli nie istnieje)
# -------------------------------------------
if not es.indices.exists(index=INDEX_NAME):
    es.indices.create(index=INDEX_NAME, body=INDEX_BODY)
    # Wyłączamy odświeżanie i replikę na czas indeksowania (przyspieszy to import)
    es.indices.put_settings(
        index=INDEX_NAME,
        body={
            "index": {
                "refresh_interval": "-1",
                "number_of_replicas": 0
            }
        }
    )
    print(f"Created index '{INDEX_NAME}' with temporary settings (no refresh, 0 replicas).")

# -------------------------------------------
# DEFINICJA GENERATORA DOKUMENTÓW
# -------------------------------------------
def generate_actions(dump_dir, index_name):
    """
    Generator dla parallel_bulk. Dla każdego pliku wiki_... wyciąga artykuły,
    dzieli je na paragrafy i yielduje dokumenty do zindeksowania.
    """
    for root, _, files in os.walk(dump_dir):
        for file in files:
            if file.startswith('wiki_'):
                file_path = os.path.join(root, file)
                print(f"Processing file: {file_path}")

                with open(file_path, 'r', encoding='utf-8') as f:
                    for line in f:
                        article = json.loads(line)
                        title = article.get('title', '')
                        content = article.get('text', '')

                        paragraphs = content.split("\n\n")
                        for i, paragraph in enumerate(paragraphs):
                            paragraph = paragraph.strip()
                            if paragraph:
                                yield {
                                    "_index": index_name,
                                    "_source": {
                                        "title": title,
                                        "paragraph_number": i,
                                        "content": paragraph
                                    }
                                }

# -------------------------------------------
# WYWOŁANIE parallel_bulk DO MASOWEGO INDEKSOWANIA
# -------------------------------------------
actions = generate_actions("extracted", INDEX_NAME)

successes = 0
for ok, resp in parallel_bulk(
    client=es,
    actions=actions,
    thread_count=4,      # liczba wątków
    chunk_size=500,      # wielkość jednej paczki dokumentów
    max_chunk_bytes=10 * 1024 * 1024  # ~10 MB na paczkę
):
    if not ok:
        logging.error(f"Error indexing chunk: {resp}")
    else:
        successes += 1

print(f"Successfully processed {successes} chunks of data.")

# -------------------------------------------
# PRZYWRACANIE NORMALNYCH USTAWIEŃ
# -------------------------------------------
es.indices.put_settings(
    index=INDEX_NAME,
    body={
        "index": {
            "refresh_interval": "1s",
            "number_of_replicas": 1
        }
    }
)
print(f"Indexing complete. Restored normal settings for '{INDEX_NAME}'.")


Processing file: extracted\AA\wiki_00
Processing file: extracted\AA\wiki_01
Processing file: extracted\AA\wiki_02
Processing file: extracted\AA\wiki_03
Processing file: extracted\AA\wiki_04
Processing file: extracted\AA\wiki_05
Processing file: extracted\AA\wiki_06
Processing file: extracted\AA\wiki_07
Processing file: extracted\AA\wiki_08
Processing file: extracted\AA\wiki_09
Processing file: extracted\AA\wiki_10
Processing file: extracted\AA\wiki_11
Processing file: extracted\AA\wiki_12
Processing file: extracted\AA\wiki_13
Processing file: extracted\AA\wiki_14
Processing file: extracted\AA\wiki_15
Processing file: extracted\AA\wiki_16
Processing file: extracted\AA\wiki_17
Processing file: extracted\AA\wiki_18
Processing file: extracted\AA\wiki_19
Processing file: extracted\AA\wiki_20
Processing file: extracted\AA\wiki_21
Processing file: extracted\AA\wiki_22
Processing file: extracted\AA\wiki_23
Processing file: extracted\AA\wiki_24
Processing file: extracted\AA\wiki_25
Processing f

### Retrieve keywords from question

In [6]:
import spacy

nlp = spacy.load('pl_core_news_sm')
def get_keywords(question):
    doc = nlp(question)
    keywords = [token.text for token in doc if not token.is_stop]
    return " ".join(keywords)

### Searching and answer extraction

In [18]:
from transformers import pipeline
from elasticsearch import Elasticsearch

# Inicjalizacja Elasticsearch i pipeline QA
es = Elasticsearch("http://localhost:9200")
#qa_pipeline = pipeline("question-answering", model="radlab/polish-qa-v2")
qa_pipeline = pipeline("question-answering", model="henryk/bert-base-multilingual-cased-finetuned-polish-squad2", device=0)
# qa_pipeline = pipeline("question-answering", model="sdadas/polish-roberta-large-v2") <- super bad
# qa_pipeline = pipeline("question-answering", model="sdadas/polish-gpt2-xl") <- super bad as well

Some weights of the model checkpoint at henryk/bert-base-multilingual-cased-finetuned-polish-squad2 were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cuda:0


In [1]:
INDEX_NAME = "wiki_index"

# 2. Funkcja pobierająca akapity z ES
def retrieve_paragraphs(question, es_client, index_name, size=10):
    """
    Wyszukuje w indeksie 'index_name' paragrafy z fields: ['title', 'content'] pasujące do 'question'.
    Zwraca listę (max 'size') tekstów - każdy to pojedynczy paragraf.
    """
    print(get_keywords(question))
    query = {
        "query": {
            "multi_match": {
                "query": question,
                "fields": ["title", "content"],
                "operator": "or",
                "minimum_should_match": "60%"
            }
        },
        "size": size
    }
    response = es_client.search(index=index_name, body=query)

    paragraphs = []
    for hit in response["hits"]["hits"]:
        # Zakładamy, że w _source mamy klucz 'content' z tekstem paragrafu
        paragraphs.append(hit["_source"]["content"])
    return paragraphs

# 3. Funkcja, która spośród pobranych paragrafów wybiera najlepszą odpowiedź
def get_best_answer(question, paragraphs):
    """
    Dla każdego paragrafu wywołuje pipeline QA. 
    Zwraca (best_answer, best_score).
    """
    best_answer = None
    best_score = float("-inf")

    for paragraph in paragraphs:
        if paragraph.strip():
            print(paragraph)
            result = qa_pipeline(question=question, context=paragraph)
            print(result["score"])
            print(result["answer"])
            print('\n-------------------\n')
            if result["score"] > best_score:
                best_score = result["score"]
                best_answer = result["answer"]

    return best_answer, best_score

In [36]:
# 4. Przykładowe wywołanie

def answer_question(question, es, index_name):
    paragraphs = retrieve_paragraphs(question, es, index_name, size=10)
    best_answer, best_score = get_best_answer(question, paragraphs)
    
    print(f"Pytanie: {question}")
    print(f"Najlepsza odpowiedź: {best_answer}")
    print(f"Score: {best_score}")

In [37]:
question = "Kto stworzył Tomb Raider?"
answer_question(question, es, INDEX_NAME)

stworzył Tomb Raider ?
Tomb Raider – seria komiksów opartych na serii gier komputerowych "Tomb Raider". Oryginalna seria komiksów z lat 1999-2005 została opublikowana przez wydawnictwo Top Cow i była oparta na grach wydanych przez Core Design. W 2014 wydawanie komiksów zostało wznowione przez Dark Horse Comics i seria ta jest oparta na reboocie marki dokonanym przez Crystal Dynamics.
Historia.
Wydawnictwo Top Cow w grudniu 1997 roku wydało pierwszy komiks z Larą Croft pt. "Tomb Raider/Witchblade" będący crossoverem z seria komiksową "Witchblade". Jego scenarzystą i rysownikiem był Michael Turner, zaś komiks przedstawiał przygody Lary i Sary Pezzini z "Witchblade". Zdobył sporą popularność, więc rok później pojawiła się jego kontynuacja pt. "Witchblade/Tomb Raider". Gdy i on dobrze się sprzedał, wydawnictwo postanowiło co miesiąc wydawać komiks poświęcony przygodom samej Lary. Wydany w grudniu 1999 "Tomb Raider" #1 roku był najlepiej sprzedającym się komiksem w Stanach Zjednoczonych w r

In [22]:
question = "Jak nazywa się bohaterka gier komputerowych z serii Tomb Raider?"
answer_question(question, es, INDEX_NAME)

question = "Czy w państwach starożytnych powoływani byli posłowie i poselstwa?"
paragraphs = retrieve_paragraphs(question, es, INDEX_NAME, size=10)
question_tuned = "Czy w starożytności powoływani byli posłowie i poselstwa? Odpowiedz jednym słowem, tak lub nie."
best_answer, best_score = get_best_answer(question_tuned, paragraphs)

print(f"Pytanie: {question}")
print(f"Najlepsza odpowiedź: {best_answer}")
print(f"Score: {best_score}")

nazywa bohaterka gier komputerowych serii Tomb Raider ?
Pytanie: Jak nazywa się bohaterka gier komputerowych z serii Tomb Raider?
Najlepsza odpowiedź: Lara Croft
Score: 0.9864362478256226
państwach starożytnych powoływani posłowie poselstwa ?
Pytanie: Czy w państwach starożytnych powoływani byli posłowie i poselstwa?
Najlepsza odpowiedź: Przez cały okres międzywojenny w Estonii
Score: 0.04615214839577675


In [38]:
question = "Ile pełnych tygodni ma rok kalendarzowy?"
answer_question(question, es, INDEX_NAME)

pełnych tygodni rok kalendarzowy ?
Rok podatkowy, rok obrotowy – w prawie podatkowym, okres rozliczeniowy składający się zwykle z dwunastu kolejno następujących po sobie miesięcy, najczęściej pokrywających się z rokiem kalendarzowym. Przykładowo jednak w Wielkiej Brytanii rok podatkowy zaczyna się 6 kwietnia, zaś w Stanach Zjednoczonych 1 października.
W rachunkowości stosowana jest nazwa roku obrotowego, przez który rozumie się zwykle rok kalendarzowy lub inny okres trwający 12 kolejnych pełnych miesięcy kalendarzowych, stosowany również do celów podatkowych. Rok obrotowy lub jego zmiany określa statut lub umowa, na podstawie której utworzono jednostkę. W przypadku, gdy jednostka rozpoczęła działalność w drugiej połowie przyjętego roku obrotowego, to można księgi rachunkowe i sprawozdanie finansowe za ten okres połączyć z księgami rachunkowymi i sprawozdaniem finansowym za rok następny. Natomiast w przypadku zmiany roku obrotowego pierwszy po zmianie rok obrotowy powinien być dłuższy 

### Evaluation

In [24]:
from difflib import SequenceMatcher
import re

def levenshtein_distance(s1, s2):
    return SequenceMatcher(None, s1, s2).ratio()

def is_textual_match(pred, gold, threshold=0.5):
    return levenshtein_distance(pred.lower(), gold.lower()) >= threshold

def is_numerical_match(pred, gold):
    pred_num = re.search(r"\d+", pred)
    gold_num = re.search(r"\d+", gold)
    if pred_num and gold_num:
        return pred_num.group() == gold_num.group()
    return False

def evaluate(in_file, expected_file):
    with open(in_file, 'r', encoding='utf-8') as file_in, open(expected_file, 'r', encoding='utf-8') as file_expected:
        questions = [line.strip() for line in file_in]
        gold_answers = [line.strip() for line in file_expected]
    
    total = len(questions)
    correct = 0

    for index, (question, gold) in enumerate(zip(questions, gold_answers)):
        if index >= 20:
            # My machine cannot handle more
            break
        paragraphs = retrieve_paragraphs(question, es, INDEX_NAME, size=10)
        best_answer, best_score = get_best_answer(question, paragraphs)
        print(f"Q: {question}\nA: {best_answer}\nExpected: {gold}\n\n")
        print(f"Score: {best_score}\n\n")
        if is_numerical_match(best_answer, gold) or is_textual_match(best_answer, gold):
            correct += 1

    accuracy = correct / total * 100
    print(f"Accuracy: {accuracy:.2%}")

DEV_0_IN = "data/dev-0/in.tsv"
DEV_0_EXPECTED = "data/dev-0/expected.tsv"
evaluate(DEV_0_IN, DEV_0_EXPECTED)

nazywa pierwsza litera alfabetu greckiego ?
Q: Jak nazywa się pierwsza litera alfabetu greckiego?
A: Alfa
Expected: alfa


Score: 0.8029091954231262


nazywa dowolny odcinek łączący punkty okręgu ?
Q: Jak nazywa się dowolny odcinek łączący dwa punkty okręgu?
A: Cięciwa
Expected: cięciwa


Score: 0.32624757289886475


państwie rozpoczyna akcja powieści „ pustyni puszczy ” ?
Q: W którym państwie rozpoczyna się akcja powieści „W pustyni i w puszczy”?
A: Port Said
Expected: w Egipcie


Score: 0.9021444916725159


państwach starożytnych powoływani posłowie poselstwa ?
Q: Czy w państwach starożytnych powoływani byli posłowie i poselstwa?
A: Przez cały okres międzywojenny w Estonii
Expected: tak


Score: 0.1981833428144455


jakim zespole występowała Hanka filmie „ Żona Australijczyka ” ?
Q: W jakim zespole występowała Hanka w filmie „Żona dla Australijczyka”?
A: Radio Sarajewo
Expected: Mazowsze


Score: 0.33754268288612366


państwie leży Bombaj ?
Q: W którym państwie leży Bombaj?
A: Nation