In [1]:
from datasets import load_dataset
import pandas as pd
import random

# Data preparation

In [2]:
texts = load_dataset("clarin-knext/fiqa-pl", "corpus")
df_texts = texts['corpus']
df_texts = pd.DataFrame.from_dict(df_texts)
df_texts.head(2)

Unnamed: 0,_id,title,text
0,3,,"Nie mówię, że nie podoba mi się też pomysł szk..."
1,31,,Tak więc nic nie zapobiega fałszywym ocenom po...


In [3]:

ds_qa = load_dataset("clarin-knext/fiqa-pl-qrels")
data_qa = ds_qa['test']
df_qa = pd.DataFrame(data_qa)
df_qa.head(2)

Unnamed: 0,query-id,corpus-id,score
0,8,566392,1
1,8,65404,1


In [119]:
# Load Questions dataset 
data_queries = load_dataset("clarin-knext/fiqa-pl", "queries")
df_q = pd.DataFrame(data_queries['queries'])
df_q.head(10)

Unnamed: 0,_id,title,text
0,0,,Co jest uważane za wydatek służbowy w podróży ...
1,4,,Wydatki służbowe - ubezpieczenie samochodu pod...
2,5,,Rozpoczęcie nowego biznesu online
3,6,,„Dzień roboczy” i „termin płatności” rachunków
4,7,,Nowy właściciel firmy – Jak działają podatki d...
5,9,,Hobby kontra biznes
6,11,,Czeki osobiste zamiast firmowych
7,12,,"Czy amerykański kodeks podatkowy wymaga, aby w..."
8,13,,Jak mogę zarejestrować firmę w Wielkiej Brytan...
9,14,,Czym są „podstawy biznesowe”?


In [5]:
df_qa['corpus-id'] = df_qa['corpus-id'].astype(int)
df_texts['_id'] = df_texts['_id'].astype(int)
df_q['_id'] = df_q['_id'].astype(int)

In [6]:
# Positive class creation
df = df_qa.merge(df_texts[['_id', 'text']], left_on='corpus-id', right_on='_id', how='left')
df = df.rename(columns={'text': 'answear'})
df = df.drop(columns=['_id', 'score'])
df = df.merge(df_q[['_id', 'text']], left_on='query-id', right_on='_id', how='left')
df['class'] = 1
df = df.drop(columns=['query-id', 'corpus-id', '_id'])
df = df.rename(columns={'text': 'question'})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1706 entries, 0 to 1705
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   answear   1706 non-null   object
 1   question  1706 non-null   object
 2   class     1706 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 40.1+ KB


In [7]:
# Negative class creation
questions = df['question']
answears = df['answear']

new_rows = []

for question in questions:
    used_answers = set(df[df['question'] == question]['answear'])
    available_answers = list(set(answears) - used_answers)
    if available_answers:
        new_answer = random.choice(available_answers)
        new_rows.append({'question': question, 'answear': new_answer, 'class': 0})
        
for question in questions[:int(len(questions) / 2)]:
    used_answers = set(df[df['question'] == question]['answear'])
    available_answers = list(set(answears) - used_answers)
    if available_answers:
        new_answer = random.choice(available_answers)
        new_rows.append({'question': question, 'answear': new_answer, 'class': 0})
        
new_df = pd.DataFrame(new_rows)
df = pd.concat([df, new_df], ignore_index=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4265 entries, 0 to 4264
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   answear   4265 non-null   object
 1   question  4265 non-null   object
 2   class     4265 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 100.1+ KB


In [8]:
df['data_row'] = df['question'] + "</s>" + df['answear']
df.iloc[0]['data_row']

'Jak zdeponować czek wystawiony na współpracownika w mojej firmie na moje konto firmowe?</s>Poproś o ponowne wystawienie czeku właściwemu odbiorcy.'

In [9]:
df.drop_duplicates(['data_row'], inplace=True)
df.drop(['question', 'answear'], axis=1, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4260 entries, 0 to 4264
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   class     4260 non-null   int64 
 1   data_row  4260 non-null   object
dtypes: int64(1), object(1)
memory usage: 99.8+ KB


In [10]:
df.groupby('class').count()

Unnamed: 0_level_0,data_row
class,Unnamed: 1_level_1
0,2554
1,1706


In [11]:
df.head(3)

Unnamed: 0,class,data_row
0,1,Jak zdeponować czek wystawiony na współpracown...
1,1,Jak zdeponować czek wystawiony na współpracown...
2,1,Czy mogę wysłać przekaz pieniężny z USPS jako ...


In [12]:
df.rename(columns={'data_row' : 'text', 'class' : 'label'}, inplace=True)


# Ważne! 
Z całą pewnościa wiele zalezy od utworzenia datasetu. W moim przypadku ze zbioru q-a wziąłem wszystkie pary (q sie powtarzają ale z innymi a). I tak powstało 1706 rekordów klasy '1' pozytywnej. Klase negatywną utworzyłem biorąc 1.5x wszystkie q i losując do nich a które nie było przy zadnym wystapieniu tego konkretnego 'q'. Tak tworze zlą odpowiedz na pytanie, z pewnosci ma to ogrmony wplyw na dalsze wyniki. Mozna by pokusić sie o inne stworzenie datsetu i wyniki beda mocno sie roznic, jednak poki co zostaje przy takim rozwiazaniu.

1.5x bo klasa negatywna zgodnie z poleceniam ma byc wieksza niz klasa pozytywna. 

# Train classifier 

In [13]:
from transformers import AutoTokenizer, AutoModel
from transformers import AutoModelForSequenceClassification

In [14]:

tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-base-cased")
tokenizer.sep_token = "</s>" # unecessary but to make it clear!
model = AutoModelForSequenceClassification.from_pretrained(
    'allegro/herbert-base-cased',
    num_labels=2
)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at allegro/herbert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [15]:
encoded = tokenizer(df['text'].iloc[1],  return_tensors="pt")
decoded = tokenizer.decode(encoded["input_ids"][0])
print(decoded)

<s>Jak zdeponować czek wystawiony na współpracownika w mojej firmie na moje konto firmowe? </s>Po prostu poproś współpracownika o podpisanie odwrotu, a następnie zdeponowanie go. Nazywa się to czekiem strony trzeciej i jest całkowicie legalne. Nie zdziwiłbym się, gdyby czek był dłuższy i, jak zawsze, nie dostaniesz pieniędzy, jeśli czek nie zostanie zrealizowany. Teraz możesz mieć problemy, jeśli jest to duża kwota lub nie jesteś zbyt dobrze znany w banku. W takim przypadku możesz poprosić współpracownika o udanie się do banku i zatwierdzenie go przed kasjerem za pomocą dowodu tożsamości. Technicznie nawet nie musisz tam być. Każdy może wpłacić pieniądze na Twoje konto, jeśli ma numer konta. Mógł też po prostu wpłacić go na swoje konto i wypisać czek na firmę. </s>


In [16]:
tokenized_data = tokenizer(df['text'].iloc[1],  truncation=True, padding="max_length")
print(tokenized_data)

{'input_ids': [0, 2912, 5019, 3400, 2284, 3825, 43923, 1998, 3008, 10986, 1019, 6892, 9425, 1998, 6403, 10747, 2771, 8090, 1550, 2, 2620, 4388, 9037, 1062, 3008, 10986, 1007, 26991, 11708, 2213, 1947, 1011, 5822, 5019, 3400, 2429, 2010, 1899, 29130, 2106, 2022, 2063, 2052, 2369, 3441, 9102, 1009, 2092, 7576, 41915, 1899, 2351, 19806, 13405, 2022, 1947, 4839, 3825, 2430, 16206, 1009, 1947, 2217, 3589, 1947, 1997, 5132, 17773, 3929, 1947, 3346, 3825, 1997, 3392, 32439, 1899, 4004, 11814, 3889, 5865, 1947, 3346, 2092, 2063, 9269, 10523, 2491, 1997, 10724, 4489, 3394, 6847, 1019, 8324, 1899, 1049, 4975, 3714, 11814, 28961, 3008, 10986, 1007, 39455, 2022, 2041, 8324, 1009, 11713, 3021, 2010, 2534, 42611, 2695, 2163, 6555, 23661, 16282, 1899, 8550, 12004, 2697, 1997, 20054, 2731, 2458, 1899, 6179, 2402, 37988, 3638, 1998, 20819, 10747, 1947, 3346, 2185, 7440, 13870, 1899, 40372, 2375, 2184, 4388, 37988, 2010, 1998, 3413, 10747, 1009, 2017, 5774, 3825, 1998, 9569, 1899, 2, 1, 1, 1, 1, 1, 1, 1

In [17]:
from datasets import Dataset, DatasetDict
from sklearn.model_selection import train_test_split

def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

train_df, temp_df = train_test_split(df, test_size=0.2, random_state=42)
val_df, test_df = train_test_split(temp_df, test_size=0.5, random_state=42)

train_dataset = Dataset.from_pandas(train_df)
val_dataset = Dataset.from_pandas(val_df)
test_dataset = Dataset.from_pandas(test_df)

dataset = DatasetDict({
    'train': train_dataset,
    'val': val_dataset,
    'test': test_dataset
})
dataset['train'] = dataset['train'].remove_columns(['__index_level_0__'])
dataset['test'] = dataset['test'].remove_columns(['__index_level_0__'])
dataset['val'] = dataset['val'].remove_columns(['__index_level_0__'])
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['label', 'text'],
        num_rows: 3408
    })
    val: Dataset({
        features: ['label', 'text'],
        num_rows: 426
    })
    test: Dataset({
        features: ['label', 'text'],
        num_rows: 426
    })
})


In [18]:
tokenized_datasets = dataset.map(tokenize_function, batched=True)
tokenized_datasets["train"]

Map:   0%|          | 0/3408 [00:00<?, ? examples/s]

Map:   0%|          | 0/426 [00:00<?, ? examples/s]

Map:   0%|          | 0/426 [00:00<?, ? examples/s]

Dataset({
    features: ['label', 'text', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 3408
})

In [25]:
from transformers import TrainingArguments
import numpy as np

arguments = TrainingArguments(
    output_dir= "./output/",
    do_train=True,
    do_eval=True,
    evaluation_strategy="steps",
    eval_steps=400,
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    learning_rate=2e-05,
    num_train_epochs=1,
    logging_first_step=True,
    logging_strategy="steps",
    logging_steps=300,
    save_strategy="steps",
    save_steps=50
    #use_mps_device=True,
    #fp16=True,
)

In [26]:
import evaluate

metric = evaluate.load("accuracy")


def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=1)
    return metric.compute(predictions=predictions, references=labels)

In [27]:
from transformers import Trainer

trainer = Trainer(
    model=model,
    args=arguments,
    train_dataset=tokenized_datasets["train"].shuffle(seed=2137),
    eval_dataset=tokenized_datasets["val"].shuffle(seed=2137),
    compute_metrics=compute_metrics,
)

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False)


In [30]:
# if model is not trained : 
#trainer.train() 

#if model trained
model = AutoModelForSequenceClassification.from_pretrained("./output/checkpoint-3408/")

In [90]:
# Inferencja modelu:
import torch
import torch.nn.functional as F
test_dataset = tokenized_datasets['test']

model.eval()

with torch.no_grad():
    predictions = []
    labels = []
    for example in test_dataset:
        input_ids = torch.tensor(example['input_ids']).unsqueeze(0)  # Dodaj batch dimension
        attention_mask = torch.tensor(example['attention_mask']).unsqueeze(0)
        outputs = model(input_ids=input_ids, attention_mask=attention_mask)
        logits = outputs.logits
        probabilities = F.softmax(logits, dim=-1)
        predicted_class = torch.argmax(probabilities, dim=-1).item()
        predictions.append(predicted_class)
        labels.append(example['label'])


In [91]:
y_pred = predictions

In [92]:
y_true = tokenized_datasets['test']['label']

In [93]:
from sklearn.metrics import  accuracy_score, f1_score
print("Dokładność modelu:", accuracy_score(y_true, y_pred))
print("F1 modelu:", f1_score(y_true, y_pred))

Dokładność modelu: 0.8896713615023474
F1 modelu: 0.8772845953002611


In [77]:
import torch.nn.functional as F

def get_pred(model, data_row):
    input_ids = torch.tensor(data_row['input_ids']).unsqueeze(0)  # Dodaj batch dimension
    attention_mask = torch.tensor(data_row['attention_mask']).unsqueeze(0)
    
    outputs = model(input_ids=input_ids, attention_mask=attention_mask)
    logits = outputs.logits
    probabilities = F.softmax(logits, dim=-1)
    predicted_class = torch.argmax(logits, dim=-1).item()
    label = data_row['label']
    return label, predicted_class

def visualize_pred(model, data_row):
    print("tekst:")
    print(data_row['text'])
    print("Prawda" if data_row['label'] == 1 else "Fałsz")
    print("Predykcja modelu:")
    label, pred = get_pred(model, data_row)
    print("Prawda" if label == 1 else "Fałsz")

In [81]:
visualize_pred(model, test_dataset[0])

tekst:
Jaką wewnętrzną, niepieniężną wartość ma złoto jako towar?</s>Musisz uruchomić skanowanie antywirusowe na swoich komputerach, aby upewnić się, że nie masz uruchomionego programu keyloggera. Pomyślałbym również o wyznaczeniu jednego starego komputera, aby miał dostęp tylko do twoich kont bankowych i nie robił nic poza tym. Jeśli Twój komputer jest zainfekowany, za każdym razem, gdy się logujesz, Twoje karty kredytowe mogą być zagrożone.
Fałsz
Predykcja modelu:
tensor([[0.9986, 0.0014]], grad_fn=<SoftmaxBackward0>)
Fałsz


In [67]:
visualize_pred(model, test_dataset[5])

tekst:
Czy zawsze powinieneś maksymalizować składki na swoje 401k?</s>Dopóki znajdujesz się w niższym przedziale podatkowym – prawdopodobnie lepiej byłoby teraz zapłacić podatki i zainwestować w Roth IRA/401K. Jednak powinieneś inwestować na swoją emeryturę teraz, a nie później, ze względu na efekt łączenia, a także zyskasz dopasowanie pracodawcy (jeśli jest dostępne).
Prawda
Predykcja modelu:
Prawda


In [71]:
visualize_pred(model, test_dataset[9])

tekst:
Czy istnieje bardziej elastyczna usługa wykresów giełdowych, np. pozwalając na wybór kolorów przy porównywaniu wielu zapasów?</s>Nie sądzę, aby istniały jakiekolwiek narzędzia internetowe, które pozwoliłyby ci to zrobić. Wysiłek wymagany do zbudowania w porównaniu z postrzeganymi korzyściami dla użytkowników jest mniejszy. Wszyscy dostawcy sieci chcą, aby wyświetlanie danych było jak najprostsze; udostępnianie większej liczby funkcji czasami dezorientuje przeciętnego użytkownika.
Prawda
Predykcja modelu:
Prawda


# Wnioski (część 1)
Bardzo dobre wyniki, nie spodziewałem się aż tak dobrych, gdy zauważyłem acc na poziomie 0.88 myślałem, że to błąd i będzie trzeba poprawiać jednak pow eryfikacji wielu przykładów wynik zdaje się być poprawny. Oczywiście przykłady to odpowiedzi na pytania, więc część pozostaje do interpretacji własnej jednak moim zdaniem działa to bardzo dobrze. Wyniki z pewnością zawdzięczamy pre-trenowanemu modelowi który jest duży i bez tego prwnie dość dobrze by sobie poradził, jednak fine-tuning na pewno pomógł. Bardzo ciekawe ćwiczenia póki co, praktycznie dostrajanie LLM, to zdaje się czymś bardzo praktycznym co można w zasadzie w ten sam sposób zaimplementować do dużego komercyjnego pomysłu. Pierwsze doświadczenie z biblioteką hugging face i treningiem w niej, dość intuicyjna, powiedziałbym, że pomiędzy kerasem a pytorchem. Pozytywnie. Bardzo ciekawy proces, obróbka datasetu, finetuning gotowego LLM polskiego po czym test na naszych danych. Początkowo dataset wydawał mi się zbyt mały i te 5k przykładów niewystarczające, jednak do finetuningu wystarczyło jak widać.

# Re ranking

In [96]:
import numpy as np
from elasticsearch import Elasticsearch, helpers
es = Elasticsearch(["http://elastics:password@localhost:9200"], verify_certs=False)
try:
    resp = es.info()
    print(resp)
except Exception as e:
    print(f"Error: {e}")

{'name': 'node-1', 'cluster_name': 'my-application-cluster', 'cluster_uuid': 'gBI4PdSoQuCa8sMPxLY-yQ', 'version': {'number': '8.15.2', 'build_flavor': 'default', 'build_type': 'docker', 'build_hash': '98adf7bf6bb69b66ab95b761c9e5aadb0bb059a3', 'build_date': '2024-09-19T10:06:03.564235954Z', 'build_snapshot': False, 'lucene_version': '9.11.1', 'minimum_wire_compatibility_version': '7.17.0', 'minimum_index_compatibility_version': '7.0.0'}, 'tagline': 'You Know, for Search'}


In [126]:
def compute_dcg(scores):
    return sum(score / np.log(idx + 2) for idx, score in enumerate(scores))


def compute_ndcg(relevant_scores, retrieved_scores, k=5):
    dcg = compute_dcg(retrieved_scores[:k])  # to sa te ktore zwrocil nasz 'model'
    ideal_dcg = compute_dcg(
        sorted(relevant_scores, reverse=True)[:k])  # relevant uzywamy do idealnego dcg (idealne ulozenie odpowiedzi)
    return dcg / ideal_dcg if ideal_dcg > 0 else 0


NDCG_SIZE = 10


def search_and_compute_ndcg(index_name, analyzator_content, test_data, ndcg_size, query_column_name):
    ndcg_scores = []

    # obliczamy dla kazdej query dostepnej w testowym zbiorze danych
    for index, row in test_data.iterrows():
        # query id
        query_id = row["query-id"]
        # query text
        query = df_q[df_q['_id'] == str(query_id)][query_column_name].values[0]
        # Wykonanie zapytania do Elasticsearch
        search_query = {
                "query": {
                    "match": {
                        analyzator_content: query,
                    }
                }
            }
        # bierzemy 5 pierwszych dopasowań od Elastic search (dostał query) zwraca nam 5 dokumentów
        response = es.search(index=index_name, body=search_query, size=ndcg_size)
        retrieved_docs = [hit["_id"] for hit in response["hits"]["hits"]]  # id 5 dokumentow zwrocone przez ES
        # Wszysktie A które pasuja do Q (z labelowanego dataset)
        good_answers = df_qa[df_qa['query-id'] == int(query_id)]
        # sortuje je po ich 'score', one i tak mają 1 ale na przyszlosc z lepszym datasetem zeby gralo bo tak sie realizuje IDCG
        good_answers = good_answers.sort_values(by='score', ascending=False)
        # Biore posortowane kolejne elementy z dobrymyim odpowiedziami, jesli nie ma ich (5) to uzupelniam 0 ami aby było zawsze 5 elementów - prawidlowe ndcg tak działa
        relenvant_answears = list(good_answers['score'][:ndcg_size]) + [0] * (
                    ndcg_size - len(good_answers))  # idealne odpowiedzi
        # print(relenvant_answears) -> cos w stylu [1,1,0,0,0]

        retrived_answears = [0 for _ in range(ndcg_size)]  #otrzymane odpowiedzi
        for idx, doc_found in enumerate(retrieved_docs):
            if int(doc_found) in good_answers['corpus-id'].values:
                retrived_answears[idx] = good_answers[good_answers['corpus-id'] == int(doc_found)]['score'].iloc[0]

        #print(retrived_answears) # -> cos w stylu [0,1,0,0,0]
        ndcg = compute_ndcg(relenvant_answears, retrived_answears, k=5)
        ndcg_scores.append(ndcg)  # ndcg dla kazdego query sumujemy

    # Zwracamy średnie NDCG dla wszystkich zapytań
    return np.mean(ndcg_scores)


In [240]:
qa_no_duplicates = df_qa.drop_duplicates(subset='query-id')
index_name = "fiqa_index"

In [282]:
def re_rank_answears(model, tokenizer, retrieved_docs_text, query, retrived_answears):
    """
    przyklad:
    retrived_answears -> [0,0,1,0,1]
    re_ranked ---------> [1,0,0,1,0] 
    """
    #data w takim formacie jak model byl trenowany: question<sep>answear
    data = [query + "</s>" + text[:512] for text in retrieved_docs_text]
    # tokenizujemy zeby zrobic inferencje, tokenizer oczywiscie ten sam
    tokenized_data = [tokenizer(docs, padding="max_length", truncation=True) for docs in data]
    probs = []
    for text in tokenized_data:
        input_ids = torch.tensor(text['input_ids']).unsqueeze(0)  # Dodaj batch dimension
        attention_mask = torch.tensor(text['attention_mask']).unsqueeze(0)
        outputs = model(input_ids=input_ids, attention_mask=attention_mask)
        logits = outputs.logits
        probabilities = F.softmax(logits, dim=-1)
        # patrzymy na prawdopodobienstwo tylko klasy '1' co oznacza ze zdanie jest prawdzie, czyli Q-A dobrze dopasowane -> to chcemy ustawiac wyzej w rankingu
        probs.append(float(probabilities[0][1]))
    # probs i odpowiedzi (odpowiedzi jako wartosci punktowe, jak dobra to odpowiedz)
    probs_and_retrived_answears = [(prob, ans) for prob, ans in zip(probs, retrived_answears)]
    # sortujemy je po wyzej wyliczonych probs
    probs_and_retrived_answears_sorted = sorted(probs_and_retrived_answears, key=lambda x: x[0], reverse=True)
    # i bierzemy tylko odpowiedzi cos w stylu: [1, 0,0,1,0]
    re_rankeswear = [ans[1] for ans in probs_and_retrived_answears_sorted]
    return re_rankeswear
    

In [283]:
def search_and_compute_ndcg_reranked(index_name, analyzator_content, test_data, ndcg_size, query_column_name, tokenizer, model):
    ndcg_scores = []

    # obliczamy dla kazdej query dostepnej w testowym zbiorze danych
    for index, row in test_data.iterrows():
        # query id
        query_id = row["query-id"]
        # query text
        query = df_q[df_q['_id'] == str(query_id)][query_column_name].values[0]
        # Wykonanie zapytania do Elasticsearch
        search_query = {
                "query": {
                    "match": {
                        analyzator_content: query,
                    }
                }
            }
        # bierzemy 5 pierwszych dopasowań od Elastic search (dostał query) zwraca nam 5 dokumentów
        response = es.search(index=index_name, body=search_query, size=ndcg_size)
        #print(response)
        retrieved_docs = [hit["_id"] for hit in response["hits"]["hits"]]  # id 5 dokumentow zwrocone przez ES
        retrieved_docs_text = df_texts[df_texts['_id'].isin([int(elem) for elem in retrieved_docs])]['text'].tolist()
        # Wszysktie A które pasuja do Q (z labelowanego dataset)
        good_answers = df_qa[df_qa['query-id'] == int(query_id)]
        # sortuje je po ich 'score', one i tak mają 1 ale na przyszlosc z lepszym datasetem zeby gralo bo tak sie realizuje IDCG
        good_answers = good_answers.sort_values(by='score', ascending=False)
        # Biore posortowane kolejne elementy z dobrymyim odpowiedziami, jesli nie ma ich (5) to uzupelniam 0 ami aby było zawsze 5 elementów - prawidlowe ndcg tak działa
        relenvant_answears = list(good_answers['score'][:ndcg_size]) + [0] * (
                    ndcg_size - len(good_answers))  # idealne odpowiedzi
        # print(relenvant_answears) -> cos w stylu [1,1,0,0,0]

        retrived_answears = [0 for _ in range(ndcg_size)]  #otrzymane odpowiedzi
        for idx, doc_found in enumerate(retrieved_docs):
            if int(doc_found) in good_answers['corpus-id'].values:
                retrived_answears[idx] = good_answers[good_answers['corpus-id'] == int(doc_found)]['score'].iloc[0]

        #print(retrived_answears) # -> cos w stylu [0,1,0,0,0]
        # rerankujemy odpowiedzi zgodnie z tym jakie proba przewidzi model:
        reranked_answears = re_rank_answears(model, tokenizer, retrieved_docs_text, query, retrived_answears)
        ndcg = compute_ndcg(relenvant_answears, reranked_answears, k=5)
        ndcg_scores.append(ndcg)  # ndcg dla kazdego query sumujemy

    # Zwracamy średnie NDCG dla wszystkich zapytań
    return np.mean(ndcg_scores)

In [286]:
mean_ndcg_query = search_and_compute_ndcg(index_name, 'content_synon', qa_no_duplicates[:100], NDCG_SIZE, query_column_name='text')
mean_ndcg_query_re_ranked = search_and_compute_ndcg_reranked(index_name, 'content_synon', qa_no_duplicates[:100], NDCG_SIZE, query_column_name='text', tokenizer=tokenizer, model=model)

In [285]:
print("Średnie NDCG dla FTS Elastic search:",mean_ndcg_query)
print("Średnie NDCG dla FTS Elastic search (Reranked):",mean_ndcg_query_re_ranked)

Średnie NDCG dla FTS Elastic search: 0.14124358264284925
Średnie NDCG dla FTS Elastic search (Reranked): 0.061823324533972775


# Wnioski (część 2)

Wyniki po rearankigu (testowane na 100 przykładach żeby był to rozsądny czas) o dziwo spadły, może to wynikać wprost ze specyfiki modelu, datasetu, trzeba by również poeksperymentować z róźnymi wartościami top-n i parametrami ES, z pewnością można to podciągnąć. Outputy modelu są bardzo duże >0.99 lub bardzo małe <0.01 stąd sortujemy liczby po bardzo małych różnicach, praktycznie niezauważalnych różnicach, zatem nie przynosi to poprawy a wręcz psuje wynik. 
Idea rearankigu na pierwszy rzut oka nieintuicyjna, jednak po kolejnym przeczytaniu i zastanowieniu się logiczna. Ciekawe połączenie, czy praktyczne? Ciężko powiedzieć - nie wiem. Na pewno duuuużo wolniejsze rozwiązanie, wręcz bardzo wolne, stąd domyślam się, że nie robi się tak w praktyce. Ponownie pozwoliło popracować z modelami, z inferencją i trzbea pilnować wielu rzeczy, takich jak chociażby używanie tego samego tokenizera itd. Wyniki dla NDCG jak i klasyfikacji można z pewnościa poprawić i to dużo, dużo z pewnościa zależało od tego jak stowrzyłem dataset do treningu. Jednak wydaje mi się, że chodzi tutaj o zrozumienie i załapanie bibliotek i co jak działa niż maksowanie wyniku.Cwiczenie czasochłonne, jednak solida porcja wiedzy i praktyki. Zapoznałem się z API hugging face do NLP, finetuning, używanie gotowych dużych modeli, robienie datasetu, ocena modelu, próba zastosowania LLM do uspranwienia FTS. Bardzo ciekawe.

Pytania:
Do you think simpler methods, like Bayesian bag-of-words model, would work for sentence-pair classification? Justify your answer.
Myśle, że nie. Są to zbyt złożone teksty, prostsze modele sprawdizły by się do zadania typu klasyfikacja spam/nie spam, gdzie tak jak bayesowski model może sie nauczyć po prostu, że są pewne słowa które mocno świadczą o spamie i tak podejmować decyzje. DO klasyfikacji par, trzeba mocno uwzględniać obie pary stąd proste modele wydają się być złym wyborem.
What hyper-parameters you have selected for the training? What resources (papers, tutorial) you have consulted to select these hyper-parameters?
Poradniki z hugging face
Think about pros and cons of the neural-network models with respect to natural language processing. Provide at least 2 pros and 2 cons.
+Większa pojemność modelu
+Bardziej przypominają 'ludzkie' decyzje
-Czas treningu/inferencji
-implementacje, wersje bibliotek 