In [1]:
import numpy as np
import pandas as pd
from spacy.tokenizer import Tokenizer
from spacy.lang.pl import Polish
from collections import Counter
from collections import defaultdict
from Levenshtein import distance as lv_distance
from elasticsearch import Elasticsearch, helpers
import random
import string
import time

from datasets import load_dataset

# Load text corpus
texts = load_dataset("clarin-knext/fiqa-pl", "corpus")
df_texts = texts['corpus']
df_texts = pd.DataFrame.from_dict(df_texts)
df_texts.head(2)

Unnamed: 0,_id,title,text
0,3,,"Nie mówię, że nie podoba mi się też pomysł szk..."
1,31,,Tak więc nic nie zapobiega fałszywym ocenom po...


In [2]:
# Load QA dataset 
ds_qa = load_dataset("clarin-knext/fiqa-pl-qrels")
data_qa = ds_qa['test']
df_qa = pd.DataFrame(data_qa)
df_qa.head(2)

Using the latest cached version of the dataset since clarin-knext/fiqa-pl-qrels couldn't be found on the Hugging Face Hub
Found the latest cached dataset configuration 'default' at /Users/dtomal/.cache/huggingface/datasets/clarin-knext___fiqa-pl-qrels/default/0.0.0/11adceb9cbc24a6462532316290250b0afe91c4b (last modified on Fri Nov  1 13:47:36 2024).


Unnamed: 0,query-id,corpus-id,score
0,8,566392,1
1,8,65404,1


In [3]:
# Load Questions dataset 
data_queries = load_dataset("clarin-knext/fiqa-pl", "queries")
df_q = pd.DataFrame(data_queries['queries'])
df_q.head(2)

Unnamed: 0,_id,title,text
0,0,,Co jest uważane za wydatek służbowy w podróży ...
1,4,,Wydatki służbowe - ubezpieczenie samochodu pod...


In [4]:
# Tokenizer
nlp = Polish()
tokenizer = Tokenizer(nlp.vocab)

In [5]:
# tokenize
all_tokens = []
# tokenize and count words in corpus['texts'
for doc in df_texts['text']:
    doc_tokens = tokenizer(doc)
    doc_tokens = [token.text for token in doc_tokens]
    all_tokens.extend(doc_tokens)
# Count
token_counts = Counter(all_tokens)

In [6]:
# 5 most common tokens
top_5 = token_counts.most_common(5)
print(top_5)

[('w', 156232), ('i', 120930), ('na', 113615), ('nie', 107751), ('z', 92365)]


In [7]:
token_counts = dict(token_counts)

In [8]:
# distortion funtion
def distort_word(word):
    if len(word) == 0:
        return word
    
    operation = random.choice(['remove', 'add', 'change']) 

    if operation == 'remove':
        if len(word) > 1:  # remove one letter
            char_index = random.randint(0, len(word) - 1)
            word = word[:char_index] + word[char_index + 1:]

    elif operation == 'add':
        char_index = random.randint(0, len(word))
        random_char = random.choice(string.ascii_lowercase)  # Add a random lowercase one letter
        word = word[:char_index] + random_char + word[char_index:]

    elif operation == 'change':
        char_index = random.randint(0, len(word) - 1)
        random_char = random.choice(string.ascii_lowercase)  # Change one letter to a random lowercase letter
        word = word[:char_index] + random_char + word[char_index + 1:]

    return word

def distort_query(query):
    words = query.split()  # Split the query into words
    if not words:
        return query

    word_index = random.randint(0, len(words) - 1)
    words[word_index] = distort_word(words[word_index])
    return ' '.join(words)

# Example usage:
#queries = ["This is a sample query", "Another test case", "Distortion function example"]
#distorted_queries = distort_corpus(queries)
#print(distorted_queries)


In [9]:
df_q['distorted_query'] = df_q['text'].apply(distort_query)

In [10]:
df_q.head(3)

Unnamed: 0,_id,title,text,distorted_query
0,0,,Co jest uważane za wydatek służbowy w podróży ...,Co jest uważane za wydatek służbowy w odróży s...
1,4,,Wydatki służbowe - ubezpieczenie samochodu pod...,Wydatki służbowe - ubezpieczenie samochodu pod...
2,5,,Rozpoczęcie nowego biznesu online,Rozpoczęcie nowego biznhsu online


In [11]:
# NDCG
# es:
es = Elasticsearch(["http://elastics:password@localhost:9200"], verify_certs=False)
try:
    resp = es.info()
    print(resp)
except Exception as e:
    print(f"Error: {e}")

{'name': 'node-1', 'cluster_name': 'my-application-cluster', 'cluster_uuid': 'gBI4PdSoQuCa8sMPxLY-yQ', 'version': {'number': '8.15.2', 'build_flavor': 'default', 'build_type': 'docker', 'build_hash': '98adf7bf6bb69b66ab95b761c9e5aadb0bb059a3', 'build_date': '2024-09-19T10:06:03.564235954Z', 'build_snapshot': False, 'lucene_version': '9.11.1', 'minimum_wire_compatibility_version': '7.17.0', 'minimum_index_compatibility_version': '7.0.0'}, 'tagline': 'You Know, for Search'}


In [12]:
# index from previous lab:
index_name = "fiqa_index"

In [13]:
if es.count(index=index_name)['count'] == len(df_texts['text']):
    print("Data successfully uploaded.")

Data successfully uploaded.


In [14]:
def compute_dcg(scores):
    return sum(score / np.log(idx + 2) for idx, score in enumerate(scores))


def compute_ndcg(relevant_scores, retrieved_scores, k=5):
    dcg = compute_dcg(retrieved_scores[:k]) # to sa te ktore zwrocil nasz 'model'
    ideal_dcg = compute_dcg(sorted(relevant_scores, reverse=True)[:k]) # relevant uzywamy do idealnego dcg (idealne ulozenie odpowiedzi)
    return dcg / ideal_dcg if ideal_dcg > 0 else 0

NDCG_SIZE = 10


def search_and_compute_ndcg(index_name, analyzator_content, test_data, ndcg_size, query_column_name, fuzzy=False):
    ndcg_scores = []
    
    # obliczamy dla kazdej query dostepnej w testowym zbiorze danych
    for index, row in test_data.iterrows():
        # query id
        query_id = row["query-id"]
        # query text
        query = df_q[df_q['_id'] == str(query_id)][query_column_name].values[0]
        # Wykonanie zapytania do Elasticsearch
        if fuzzy is False:
            search_query = {
                "query": {
                    "match": {
                        analyzator_content: query,
                    }
                }
            }
        else:
            search_query = {
            "query": {
                "match": {
                    analyzator_content: {
                        "query": query,
                        "fuzziness": "AUTO"  # "AUTO", "1", "2", itp.
                    }
                }
            }
        }
            
        # bierzemy 5 pierwszych dopasowań od Elastic search (dostał query) zwraca nam 5 dokumentów
        response = es.search(index=index_name, body=search_query, size=ndcg_size)
        retrieved_docs = [hit["_id"] for hit in response["hits"]["hits"]] # id 5 dokumentow zwrocone przez ES
        # Wszysktie A które pasuja do Q (z labelowanego dataset)
        good_answers = df_qa[df_qa['query-id'] == int(query_id)]
        # sortuje je po ich 'score', one i tak mają 1 ale na przyszlosc z lepszym datasetem zeby gralo bo tak sie realizuje IDCG
        good_answers = good_answers.sort_values(by='score', ascending=False)
        # Biore posortowane kolejne elementy z dobrymyim odpowiedziami, jesli nie ma ich (5) to uzupelniam 0 ami aby było zawsze 5 elementów - prawidlowe ndcg tak działa
        relenvant_answears = list(good_answers['score'][:ndcg_size]) + [0] * (ndcg_size - len(good_answers)) # idealne odpowiedzi
        # print(relenvant_answears) -> cos w stylu [1,1,0,0,0]
        
        
        retrived_answears = [0 for _ in range(ndcg_size)] #otrzymane odpowiedzi
        for idx, doc_found in enumerate(retrieved_docs):
            if int(doc_found) in good_answers['corpus-id'].values:
                retrived_answears[idx] = good_answers[good_answers['corpus-id'] == int(doc_found)]['score'].iloc[0]
        
        #print(retrived_answears) # -> cos w stylu [0,1,0,0,0]
        ndcg = compute_ndcg(relenvant_answears, retrived_answears, k=5)
        ndcg_scores.append(ndcg) # ndcg dla kazdego query sumujemy

    # Zwracamy średnie NDCG dla wszystkich zapytań
    return np.mean(ndcg_scores)

In [15]:
qa_no_duplicates = df_qa.drop_duplicates(subset='query-id')

In [16]:
time_start_query = time.time()
mean_ndcg_query = search_and_compute_ndcg(index_name, 'content_synon', qa_no_duplicates, NDCG_SIZE, query_column_name='text')
time_end_query = time.time()
execution_time_query = time_end_query - time_start_query
print("Średnie NDCG dla QA NIE zaszumione query (synonimy + lematyzacja):",mean_ndcg_query)

Średnie NDCG dla QA NIE zaszumione query (synonimy + lematyzacja): 0.1851291130797741


In [17]:
time_start_query_disto = time.time()
mean_ndcg_distorted = search_and_compute_ndcg(index_name, 'content_synon', qa_no_duplicates, NDCG_SIZE, query_column_name='distorted_query')
time_end_query_disto = time.time()
execution_time_query_disto = time_end_query_disto - time_start_query_disto
print("Średnie NDCG dla QA zaszumione query (synonimy + lematyzacja):",mean_ndcg_distorted)

Średnie NDCG dla QA zaszumione query (synonimy + lematyzacja): 0.16211935492018717


In [18]:
# Pierwszy wniosek - dla zaszumionych query (zaszumienie zgodnie z instrukcja - jedno slowo jedna litera) odrazu widzimy spadek sredniego NDCG z 0.18 na 0.16. W zasadzie zgodne jest to z intuicją. Zaszumiamy dane -> gorsze rezultaty, spodziewany wynik.

In [19]:
#Morfeusz
# Niestety notebook jest wykonywany na komputerze Mac M3 i nie ma wsprcia morfeusza dla tej architektury procesora. Dlatego pobieram plik sgjp i z niego będę brać słowa
#plik pobrany z oficjalnej storny morfeusza
df_morfeusz = pd.read_csv(
    "sgjp-morfeusz.tab",
    sep="\t",           
    encoding="utf-8",    
    comment="#",
    skiprows=30,
    header=None      
)

correct_words = df_morfeusz[0]#
correct_words.head(3)

0    a
1    a
2    a
Name: 0, dtype: object

In [20]:
def find_incorrect_word_in_query(query, correct_words_list = correct_words.values):
    for idx, word in enumerate(query.split()):
        if word not in correct_words_list:
            return idx, word
def get_candidates_for_wrong_word(word):
    letters = 'aąbcćdeęfghijklłmnńoópqrsśtuvwxyzźż'
    splits = [(word[:i], word[i:]) for i in range(len(word) + 1)]
    deletes = [L + R[1:] for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R) > 1]
    replaces = [L + c + R[1:] for L, R in splits if R for c in letters]
    inserts = [L + c + R for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

def get_best_candidate(candidate_words, global_list=token_counts):
    N = sum(global_list.values())
    candidates_proba = []
    for word in candidate_words:
        candidates_proba.append([word, global_list.get(word, 0) / N])
    return max(candidates_proba, key=lambda x: x[1])[0] # Here we take only word from (word, highest_proba)

def correct_query(query):
    out_word = find_incorrect_word_in_query(query)
    if out_word is None:
        return query
    else:
        idx, wrong_word = out_word[0], out_word[1]
    candidates = get_candidates_for_wrong_word(wrong_word)
    best_cand = get_best_candidate(candidates)
    
    query_words = query.split()
    if 0 <= idx < len(query_words):
        query_words[idx] = best_cand
    corrected_query = ' '.join(query_words)
    return corrected_query
    

In [21]:
print("## Query:")
query = df_q['distorted_query'].iloc[0]
print(query)
print("## Wrong word:")
wrong_word = find_incorrect_word_in_query(query)[1]
print(wrong_word)
print("## 5 candidates:")
cands = get_candidates_for_wrong_word(wrong_word)
print(list(cands)[:5])
print("## najlepszy kandydat")
best_word = get_best_candidate(cands, token_counts)
print(best_word)
print("## poprawiona query")
print(correct_query(query))

## Query:
Co jest uważane za wydatek służbowy w odróży służbowej?
## Wrong word:
odróży
## 5 candidates:
['odhróży', 'odróżyś', 'odróżyp', 'oderóży', 'lodróży']
## najlepszy kandydat
podróży
## poprawiona query
Co jest uważane za wydatek służbowy w podróży służbowej?


In [22]:
# Spelling Correction with my method:
df_q['corrected_query'] = df_q['distorted_query'].apply(correct_query)

In [23]:
time_start_query_corrected_leven = time.time()
mean_ndcg_corrected_leven = search_and_compute_ndcg(index_name, 'content_synon', qa_no_duplicates, NDCG_SIZE, query_column_name='corrected_query')
time_end_query_corrected_leven = time.time()
execution_time_query_corrected_leven = time_end_query_corrected_leven - time_start_query_corrected_leven
print("Średnie NDCG dla QA zaszumione + poprawione (synonimy + lematyzacja):",mean_ndcg_corrected_leven)

Średnie NDCG dla QA zaszumione + poprawione (synonimy + lematyzacja): 0.16453810883289954


Wyniki lepsze niż z zaszumionym query, gorsze niz przed zaszumieniem. Chyba tak to powinno wyglądać.

In [24]:
time_start_query_corrected_fuzzy = time.time()
mean_ndcg_corrected_fuzzy = search_and_compute_ndcg(index_name, 'content_synon', qa_no_duplicates, NDCG_SIZE, query_column_name='distorted_query', fuzzy=True)
time_end_query_corrected_fuzzy = time.time()
execution_time_query_corrected_fuzzy = time_end_query_corrected_fuzzy - time_start_query_corrected_fuzzy
print("Średnie NDCG dla QA zaszumione + poprawione (synonimy + lematyzacja):",mean_ndcg_corrected_fuzzy)

Średnie NDCG dla QA zaszumione + poprawione (synonimy + lematyzacja): 0.1381718913929553


In [25]:
print("NDCG i performance metod:")
print(f"Query -----------------------> {execution_time_query} [s] {mean_ndcg_query} NDCG@10")
print(f"Distorted Query -------------> {execution_time_query_disto} [s] {mean_ndcg_distorted} NDCG@10")
print(f"Levensthein corrected Query -> {execution_time_query_corrected_leven} [s] {mean_ndcg_corrected_leven} NDCG@10")
print(f"Fuzzy match corrected Query -> {execution_time_query_corrected_fuzzy} [s] {mean_ndcg_corrected_fuzzy} NDCG@10")

NDCG i performance metod:
Query -----------------------> 8.070882081985474 [s] 0.1851291130797741 NDCG@10
Distorted Query -------------> 7.503586769104004 [s] 0.16211935492018717 NDCG@10
Levensthein corrected Query -> 5.251115798950195 [s] 0.16453810883289954 NDCG@10
Fuzzy match corrected Query -> 20.454473972320557 [s] 0.1381718913929553 NDCG@10


In [26]:
first_30_query = qa_no_duplicates['query-id'].iloc[:30]
first_30_query = first_30_query.astype(str)
first_30_query

0       8
2      15
3      18
4      26
6      34
7      42
10     56
11     68
12     89
18     90
19     94
20     98
22    104
24    106
25    109
26    475
27    503
28    504
31    515
32    529
33    547
35    549
36    559
37    570
38    585
40    588
42    594
44    603
45    604
48    620
Name: query-id, dtype: object

In [27]:
df_q['_id'] = df_q['_id'].astype(str)  
df_q30 = df_q[df_q['_id'].isin(first_30_query)]
#

In [28]:
# Query do bielika to było:
# Dla kazdego z tych 30 pytan, popraw je i zwroc poprawiona wersje: 
# Bielki zwrócił:

In [29]:
bielik_q = [
"Jakie są opcje pracodawcy przy zakładaniu planu 401(k) dla pracowników?",
"Czy sprzedawca detaliczny powinien czytać dokumenty SEC?",
"Czy brak odcinka wypłaty jako zabezpieczenia może spowodować odrzucenie wniosku o pożyczkę edukacyjną?",
"Czy mądre jest posiadanie wielu rachunków bieżących w różnych bankach?",
"Jakie są identyfikacje dotyczące kwoty podlegającej odliczeniu dla małych firm?",
"Jak dokonać przelewu 401(k) po zamknięciu firmy?",
"Czy jeden EIN może prowadzić działalność pod wieloma nazwami firm?",
"Jak rozliczyć zarobione i wydane pieniądze przed założeniem firmowych kont bankowych?",
"Czy podążanie za guru inwestycyjnym jest dobrym pomysłem?",
"Czy przedsiębiorca może zatrudnić samozatrudnionego właściciela firmy?",
"Jakie są różnice między składaniem osobistego zeznania 1099 a NS-Corp biznesowym?",
"Czy jest powód, aby inwestować w obligacje o rentowności 0%?",
"Jakie są podejścia do wyceny małej firmy?",
"Czy warto założyć firmę jednoosobową czy LLC?",
"Jak ubiegać się o kredyt biznesowy i go otrzymać?",
"Czy potrzebuję nowego numeru EIN, jeśli zatrudniam pracowników do mojej LLC?",
"Jak mogę wpłacić czek wystawiony na moją firmę na moje konto osobiste?",
"Jak mogę zarobić 250 000 $ z handlu, inwestowania lub biznesu w ciągu 5 lat?",
"Jakie są preferencje dotyczące prywatności danych kredytowych?",
"Gdzie mogę poprosić ACH Direct Debit o środki z mojego osobistego konta bankowego?",
"Co się dzieje po zakwestionowaniu pozornie fałszywego obciążenia karty kredytowej?",
"Jakie są tajniki zakupu sprzętu do pisania jako wydatki biznesowe w firmie domowej?",
"Co zrobić, gdy mam dużo przepływów pieniężnych, ale zły kredyt?",
"Czy instytucja finansowa może wymagać podziału członka LLC na jednego członka?",
"Czy istnieje kwota w dolarach, która po dodaniu podatku od sprzedaży w stanie Massachusetts wynosi dokładnie 200 USD?",
"Jak działa inwestowanie/biznes z cudzymi pieniędzmi?",
"Czy mogę wysłać przekaz pieniężny z USPS jako firma?",
"Jak zdeponować czek wystawiony na współpracownika w mojej firmie na moje konto firmowe?",
"Jaki procent mojej firmy powinienem mieć, jeśli tylko odkładam pieniądze?",
"Czy mogę wykorzystać punkty kart kredytowych do opłacania kosztów prowadzenia działalności, które można odliczyć od podatku?",
]

In [33]:
df_q30.loc[:, "bielik_q"] = bielik_q
df_q30.head(3)

Unnamed: 0,_id,title,text,distorted_query,corrected_query,bielik_q
6024,570,,Opcje pracodawcy przy zakładaniu 401k dla prac...,Opcje pracodawcy przy zakładani 401k dla praco...,opcje pracodawcy przy zakładani 401k dla praco...,Jakie są opcje pracodawcy przy zakładaniu plan...
6026,594,,Czy sprzedawca detaliczny powinien zawracać so...,Czy sparzedawca detaliczny powinien zawracać s...,czy sparzedawca detaliczny powinien zawracać s...,Czy sprzedawca detaliczny powinien czytać doku...
6049,603,,Czy wniosek o pożyczkę edukacyjną zostanie odr...,Czy wniosek o pożyczkę edukacyjną zostanie odr...,czy wniosek o pożyczkę edukacyjną zostanie odr...,Czy brak odcinka wypłaty jako zabezpieczenia m...


In [34]:
mean_ndcg_30corrected_query = search_and_compute_ndcg(index_name, 'content_synon', qa_no_duplicates[:30], NDCG_SIZE, query_column_name='corrected_query')
print("Średnie NDCG dla 30 QA zaszumione + poprawione levenstheinem:",mean_ndcg_30corrected_query)

Średnie NDCG dla 30 QA zaszumione + poprawione levenstheinem: 0.11058431217693115


In [35]:
df_q = df_q30
mean_ndcg_30corrected_llm = search_and_compute_ndcg(index_name, 'content_synon', qa_no_duplicates[:30], NDCG_SIZE, query_column_name='bielik_q')
print("Średnie NDCG dla 30 QA zaszumione + poprawione LLM:",mean_ndcg_30corrected_llm)

Średnie NDCG dla 30 QA zaszumione + poprawione LLM: 0.1672594186935333


## Wnioski
Bardzo ciekawe i fajne ćwiczenie. 
'The distribution of word in the corpus' - Niestety nie rozumiem co to znaczy? Co tutaj powinniśmy zrobić? Wypisać liste które słowo jak często występuje? Nie rozumiem.
Dalsze wnioski:
Opłacało sie przesiedzieć cały wieczór nad popdzenim i dobrze zaimplementować NDCG bo teraz można było je ponownie użyć. Początkowo zaimplementowałem word correction jako obliczanie odleglosci levenstheina: oblicz odleglosc blednego slowa od calego slownika, wybierz te slowa ktore maja najmniejsze i wybierz to które ma najwieksze prawdopodobieństwo (wystąpiło najczęściej w korpusie) - Działało ok. Jednak jest to bardzo nieefektywne rozwiązanie bo trwa bardzo długo i pewnie nie zdążyło by się to obliczyć do terminu oddania. Następnie znalazłem podejście któ®ego używa się w praktyce, szukamy 'kandydatów' w odległości 1 i bierzemy tego któ®y najczęściej wystepował w korpusie. Tutaj już ok. Zdążyło się poprawić w rozsądnym czasie.


Podsumowanie Performance:
dla całego korpusu:
najlepszy wynik (najwyzsze NDCG@10) dla nie zaszumionych query - dość oczywiste. Co ciekaw dla mnie, z moich badań wynikneło, że koreka levenstheina działała lepiej i dała lepsze wyniki niż fuzzy match z ElasticSearch. Dużo szybciej (tutaj trzeba mieć na uwadze ze jednak poprawienie datasetu trwało długo jednak już wyszukiwanie szybko) i dokładniej niż gotowe rozwiązanie fuzzy. Najgorsze wyniki dla distorted query - też dośc oczywiste, jeśli mamy większy szum -> gorsze wyniki.
Fuzzy match, nie wymagało jednak implementacji praktycznie niczego, wykonywało się dłużej  , jednak bez preprocessingu. Moim zdaniem jesli zbiór danych nie będzie się zmieniał warto zaimplementować korekcję z wykorzystaniem metryki levenshteina i 'poprawic' zbior danych raz, zeby pozniej wnioskowac szybciej i dokladnie, jesli jednak zbior danych zmienia sie lub nie mamy czasu to fuzzy match powinno byc wystarczające.

NDCG@10 na 30 pierwszych query:
Tutaj LLM (bielik) znacznie lepiej poprawił query niz metoda z levenshteinem i uzyskał wyższe NDCG. Jest to bardzo ciekawy wynik, bo darmy LLM dobrze sobie radzi z takim zadaniem i wyniki są dobre. Jednak mimo 'prośby' bielika o zmiane jedynie jednego słowa, zmieniał on nieraz więcej słów. Może to być wada i zaleta, zaleta bo lepiej 'rozumie' kontekst i może poprawić dokładniej. Wada bo zmieniamy orgyinalne Query.
ćwiczenie ciekawe, pozwoliło zrozumieć metryke levenstheina, jak działa 'did you mean?' 'spell correction' oraz utrwalić wiedzę o NDCG i jak można ewaluować zadania typu - Question - Answear. Przy dobrze zaimplementowanym poprzednim ćwiczeniu nie wymagało aż tak wielkiego nakładu czasu.