# 1) Loading all required datasets

In [186]:
    from datasets import load_dataset

ds = load_dataset("clarin-knext/fiqa-pl", "corpus")
corpus = ds['corpus']
corpus

Dataset({
    features: ['_id', 'title', 'text'],
    num_rows: 57638
})

In [187]:
ds = load_dataset("clarin-knext/fiqa-pl", "queries")
queries = ds['queries']
queries

Dataset({
    features: ['_id', 'title', 'text'],
    num_rows: 6648
})

In [188]:
ds = load_dataset("clarin-knext/fiqa-pl-qrels")
train = ds['train']
validation = ds['validation']
test = ds['test']
ds

DatasetDict({
    train: Dataset({
        features: ['query-id', 'corpus-id', 'score'],
        num_rows: 14166
    })
    validation: Dataset({
        features: ['query-id', 'corpus-id', 'score'],
        num_rows: 1238
    })
    test: Dataset({
        features: ['query-id', 'corpus-id', 'score'],
        num_rows: 1706
    })
})

# 2) Use SpaCy tokenizer API to tokenize the text in the documents.

First let's import the nlp model

In [189]:
import spacy

nlp = spacy.load("pl_core_news_sm")
nlp

<spacy.lang.pl.Polish at 0x170f9433a10>

Now let's tokenize all documents and count occurances of all tokens per dataset

In [190]:
from collections import Counter

datasets = [corpus, queries]
frequency = [Counter(), Counter()]
index = 0

for ds in datasets:
  for item in ds:
    tokened_word = nlp(item['text'])
    for token in tokened_word:
      if not token.is_punct and not token.is_space:
        frequency[index][str(token.text.lower())] +=1
  index+=1
frequency[0]

Counter({'w': 175366,
         'nie': 131482,
         'i': 126839,
         'na': 119047,
         'to': 116468,
         'z': 96953,
         'jest': 93246,
         'że': 90021,
         'się': 85843,
         'do': 66601,
         'jeśli': 52003,
         'ale': 41308,
         'a': 41264,
         'o': 38203,
         'są': 35435,
         'jak': 33672,
         'lub': 33216,
         'za': 32317,
         'aby': 31053,
         'od': 29829,
         'co': 29702,
         'może': 26370,
         'po': 25715,
         'tak': 25634,
         'dla': 25462,
         'które': 23983,
         'możesz': 23280,
         'tego': 21938,
         'tym': 21608,
         'czy': 20285,
         'ma': 20284,
         'być': 19267,
         'ponieważ': 18957,
         'przez': 17833,
         'usd': 17524,
         'tylko': 17262,
         'więc': 17177,
         'niż': 16827,
         'ich': 14570,
         'pieniądze': 13969,
         'więcej': 13838,
         'gdy': 13534,
         'jako': 129

Now for the queries

In [191]:
frequency[1]

Counter({'czy': 1963,
         'w': 1850,
         'na': 1462,
         'jak': 1155,
         'z': 1152,
         'i': 844,
         'jest': 837,
         'do': 618,
         'się': 561,
         'akcji': 553,
         'dla': 485,
         'co': 478,
         'dlaczego': 469,
         'są': 456,
         'nie': 416,
         'akcje': 407,
         'mogę': 406,
         'za': 384,
         'od': 350,
         'to': 326,
         'o': 321,
         'lub': 307,
         'jakie': 294,
         'jeśli': 294,
         'powinienem': 283,
         'a': 232,
         'jaki': 222,
         'po': 219,
         'usa': 218,
         'może': 211,
         'aby': 209,
         'firmy': 200,
         'jako': 187,
         'pieniądze': 180,
         'sposób': 176,
         'sprzedaży': 153,
         'jaka': 148,
         'etf': 148,
         'pieniędzy': 145,
         'gdy': 141,
         'mam': 140,
         'opcji': 140,
         'podatki': 138,
         'domu': 138,
         'że': 131,
         'kre

In [192]:
merged_frequency = frequency[0] + frequency[1]
merged_frequency

Counter({'w': 177216,
         'nie': 131898,
         'i': 127683,
         'na': 120509,
         'to': 116794,
         'z': 98105,
         'jest': 94083,
         'że': 90152,
         'się': 86404,
         'do': 67219,
         'jeśli': 52297,
         'a': 41496,
         'ale': 41387,
         'o': 38524,
         'są': 35891,
         'jak': 34827,
         'lub': 33523,
         'za': 32701,
         'aby': 31262,
         'co': 30180,
         'od': 30179,
         'może': 26581,
         'dla': 25947,
         'po': 25934,
         'tak': 25711,
         'które': 24104,
         'możesz': 23314,
         'czy': 22248,
         'tego': 21981,
         'tym': 21667,
         'ma': 20395,
         'być': 19356,
         'ponieważ': 18963,
         'przez': 17949,
         'usd': 17614,
         'tylko': 17346,
         'więc': 17179,
         'niż': 16949,
         'ich': 14620,
         'pieniądze': 14149,
         'więcej': 13888,
         'gdy': 13675,
         'jako': 131

In [193]:
import json
from collections import Counter

with open('counter.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

merged_frequency = Counter(data)
merged_frequency

Counter({'w': 177216,
         'nie': 131898,
         'i': 127683,
         'na': 120509,
         'to': 116794,
         'z': 98105,
         'jest': 94083,
         'że': 90152,
         'się': 86404,
         'do': 67219,
         'jeśli': 52297,
         'a': 41496,
         'ale': 41387,
         'o': 38524,
         'są': 35891,
         'jak': 34827,
         'lub': 33523,
         'za': 32701,
         'aby': 31262,
         'co': 30180,
         'od': 30179,
         'może': 26581,
         'dla': 25947,
         'po': 25934,
         'tak': 25711,
         'które': 24104,
         'możesz': 23314,
         'czy': 22248,
         'tego': 21981,
         'tym': 21667,
         'ma': 20395,
         'być': 19356,
         'ponieważ': 18963,
         'przez': 17949,
         'usd': 17614,
         'tylko': 17346,
         'więc': 17179,
         'niż': 16949,
         'ich': 14620,
         'pieniądze': 14149,
         'więcej': 13888,
         'gdy': 13675,
         'jako': 131

In [194]:
import json

with open('./counter.json', 'w') as f:
    json.dump(merged_frequency, f)

# 3) Applying distortion to queries

In [195]:
polish_letters = [
    'a', 'ą', 'b', 'c', 'ć', 'd', 'e', 'ę', 'f', 'g', 'h', 'i', 'j', 'k',
    'l', 'ł', 'm', 'n', 'ń', 'o', 'ó', 'p', 'q', 'r', 's', 'ś', 't', 'u',
    'v', 'w', 'x', 'y', 'z', 'ź', 'ż'
]

In [196]:
import random

def distortion(word):

  choice= random.randint(0, 2)

  n = len(word)
  random_id = random.randint(0, n-1)

  random_letter = random.choice(polish_letters)

  if choice == 0:
    ##remove random letter
    return word[:random_id] + word[random_id + 1:]
  if choice == 1:
    #add random letter
    return word[:random_id] + random_letter + word[random_id:]

  if choice == 2:
    #replace random letter
    return word[:random_id] + random_letter + word[random_id + 1:]


In [197]:
random.seed(2137)

In [198]:
distort_counter = Counter()
distort_list = []
indexes_list = []
correct_list = []

for sentence in queries:
  tokens = nlp(sentence["text"])
  tokens = [token.text.lower() for token in tokens if not token.is_punct and not token.is_space]
  n = len(tokens)
  random_id = random.randint(0, n-1)
  empty_list = []
  for i in range(n):
    if i == random_id:
      word = distortion(tokens[i])
      correct_list.append(tokens[i])
    else:
      word = tokens[i]
    distort_counter[word] += 1
    empty_list.append(word)
  indexes_list.append(sentence['_id'])

  distort_list.append(empty_list)

In [199]:
print(distort_list[2137])
print(correct_list[2137])
print(indexes_list[2137])

['dlaczego', 'domy', 'rausch', 'colemana', 'są', 'tak', 'tanie', 'czy', 'to', 'dlatego', 'e', 'nie', 'mają', 'gazu']
że
4002


# 4) Baseline ndcg

#### Preparing elastic search client

In [200]:
from elasticsearch import Elasticsearch

link = 'http://localhost:9200/'

es = Elasticsearch(link)
es

<Elasticsearch(['http://localhost:9200'])>

#### Elastic search index

In [201]:
index_config_lamentizer = {
  "settings": {
    "analysis": {
      "analyzer": {
        "polish_with_synonyms_with_lam": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "morfologik_stem",
            "lowercase"
          ]
        },
        "polish_with_synonyms_without_lam": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "morfologik_stem",
          ]
        },
        "polish_without_synonyms_with_lam": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "lowercase",
          ]
        },
        "polish_without_synonyms_without_lam": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
          ]
        }
      },
    }
  },
  "mappings": {
    "properties": {
      "answer_with_synonyms_with_lam": {
        "type": "text",
        "analyzer": "polish_with_synonyms_with_lam"
      },
      "answer_with_synonyms_without_lam": {
        "type": "text",
        "analyzer": "polish_with_synonyms_without_lam"
      },
      "answer_without_synonyms_with_lam": {
        "type": "text",
        "analyzer": "polish_without_synonyms_with_lam"
      },
      "answer_without_synonyms_without_lam": {
        "type": "text",
        "analyzer": "polish_without_synonyms_without_lam"
      }
    }
  }
}

#### Indexing dataset

In [202]:
index_name = 'biore_sie_do_roboty'

In [203]:
def generate_docs(ds):
    for doc in ds:
        yield {
            "_index": index_name,
            "_id": doc["_id"],
            "_source": {
                "answer_with_synonyms_with_lam": doc["text"],
                "answer_with_synonyms_without_lam": doc["text"],
                "answer_without_synonyms_with_lam": doc['text'],
                "answer_without_synonyms_without_lam": doc['text']
            }
        }


In [204]:
from elasticsearch import helpers

es.options(ignore_status=[400, 404]).indices.delete(index=index_name)
es.indices.create(index=index_name, body=index_config_lamentizer)

try:
    success, errors = helpers.bulk(es, generate_docs(corpus))
    
    print(f"Successfully indexed {success} documents")
    if errors:
        print(f"Errors during indexing: {errors}")
        
except Exception as e:
    print(f"Error during bulk indexing: {e}")

Successfully indexed 57638 documents


#### Preparing queries to corpus relation dictionary

In [205]:
from collections import defaultdict

corpus_list = []
queries_list = []
query_to_corpus = defaultdict(list)

for query_id, corpus_id in zip(train["query-id"], train["corpus-id"]):
    query_to_corpus[query_id].append(corpus_id)
    queries_list.append(query_id)
    corpus_list.append(corpus_id)
print("Done train")

for query_id, corpus_id in zip(test["query-id"], test["corpus-id"]):
    query_to_corpus[query_id].append(corpus_id)
    queries_list.append(query_id)
    corpus_list.append(corpus_id)
print("Done test")

for query_id, corpus_id in zip(validation["query-id"], validation["corpus-id"]):
    query_to_corpus[query_id].append(corpus_id)
    queries_list.append(query_id)
    corpus_list.append(corpus_id)
print("Done validation")

query_to_corpus = dict(query_to_corpus)

Done train
Done test
Done validation


In [206]:
corpus_dict = defaultdict(list)

for item in corpus:
  if int(item['_id']) in corpus_list:
    corpus_dict[int(item['_id'])].append(item['text'])

corpus_dict = dict(corpus_dict)

In [207]:
queries_dict = defaultdict(list)

for item in queries:
  if int(item['_id']) in queries_list:
    queries_dict[int(item['_id'])].append(item['text'])

queries_dict = dict(queries_dict)

In [208]:
index = 4002
print(queries_dict[index])
for i in query_to_corpus[index]:
  print(corpus_dict[i])

['Dlaczego domy Rausch Colemana są tak tanie? Czy to dlatego, że nie mają gazu?']
['„W północno-zachodnim Arkansas większość domów oferowanych przez tę firmę kosztuje około 90-110 dolarów za stopę kwadratową. Wyjątkiem jest plan Whitney, który ma następujące cechy konstrukcyjne (i/lub problemy), które znacznie oszczędzają budowniczemu pieniędzy: Jedną z bardzo fajnych funkcji są schody w kształcie litery U pośrodku domu. Łatwo je znaleźć i ma podest. Może być jednak nieco wąski. Czy budowniczy zadaje sobie trud, aby umieścić pręt zbrojeniowy w cegła? Arkansas znajduje się w kraju trzęsienia ziemi. Jakie są podłogi? Czy pierwsze piętro jest płytą betonową posadzką z winylową podłogą (i/lub dywanem na cienkiej podkładce) bezpośrednio nad betonem? Czy drugie piętro jest sprężyste z powodu span legary o minimalnym rozmiarze kodu? Czy konstruktor zadaje sobie trud, aby tylne okna wyglądały tak ładnie jak przednie? Jak wspomniano wcześniej, budowniczy zadaje sobie trud, aby mieć tylko jedno 

#### Getting responses from elastic

In [209]:
def distort_list_to_question(distort_list_item):
  space = ' '
  full_question = ''
  for i in range(len(distort_list_item)):
    if i != len(distort_list_item) - 1:
      full_question += distort_list_item[i] + space
    else:
      full_question += distort_list_item[i]
  return full_question

In [210]:
distort_list_to_question(['co', 'jest', 'uważane', 'za', 'wydaotek', 'służbowy', 'w', 'podróży', 'służbowej'])

'co jest uważane za wydaotek służbowy w podróży służbowej'

In [211]:
results_lam_syn = {}

indexes_types = [
  "answer_with_synonyms_with_lam",
  "answer_with_synonyms_without_lam",
  "answer_without_synonyms_with_lam",
  "answer_without_synonyms_without_lam"
]
for i in indexes_types:
  results_lam_syn[i] = {}

results_lam_syn

{'answer_with_synonyms_with_lam': {},
 'answer_with_synonyms_without_lam': {},
 'answer_without_synonyms_with_lam': {},
 'answer_without_synonyms_without_lam': {}}

In [212]:
for index in range(len(distort_list)):
    question = distort_list_to_question(distort_list_item=distort_list[index])
    query_with_synonyms_with_lam = {
        "query": {
            "match": {
                "answer_with_synonyms_with_lam": question
            }
        },
        "size": 10
    }
    query_with_synonyms_without_lam = {
        "query": {
            "match": {
                "answer_with_synonyms_without_lam": question
            }
        },
        "size": 10
    }
    query_without_synonyms_with_lam = {
        "query": {
            "match": {
                "answer_without_synonyms_with_lam": question
            }
        },
        "size": 10
    }
    query_without_synonyms_without_lam = {
        "query": {
            "match": {
                "answer_without_synonyms_without_lam": question
            }
        },
        "size": 10
    }

    queries_temp_list = [query_with_synonyms_with_lam,
                         query_with_synonyms_without_lam,
                         query_without_synonyms_with_lam,
                         query_without_synonyms_without_lam]


    for j in range(len(queries_temp_list)):
        response = es.search(index=index_name, body=queries_temp_list[j])
        response = response['hits']['hits']
        temp_list = []
        for i in response:
            temp_list.append(int(i['_id']))
        if len(temp_list) != 0: 
            results_lam_syn[indexes_types[j]][int(indexes_list[index])] = temp_list


In [213]:
import numpy as np

def calculate_dcg(documents_relevance, k):
  sum = 0
  for index in range(k):
    #need to add another + 1 because python lists starts from 0
    sum += documents_relevance[index] / np.log2(index + 1 + 1)

  return sum

def calculate_ndcg(results, query_to_corpus, k):
  ndcg_list = []
  for key, items in results.items():
    true_relevance = [1 if i in query_to_corpus[key] else 0 for i in items]
    dcg = calculate_dcg(true_relevance, len(true_relevance))
    idcg = calculate_dcg(sorted(true_relevance, reverse=True), len(true_relevance))

    ndcg_list.append(0 if dcg == 0 else dcg / idcg)
  return np.mean(ndcg_list)

In [214]:
for j in range(len(results_lam_syn)):
  result = calculate_ndcg(results_lam_syn[indexes_types[j]],query_to_corpus, 10)
  print(f"NDCG@10 for {indexes_types[j]}: {result}")

NDCG@10 for answer_with_synonyms_with_lam: 0.26056267798681115
NDCG@10 for answer_with_synonyms_without_lam: 0.26056267798681115
NDCG@10 for answer_without_synonyms_with_lam: 0.19147566890177467
NDCG@10 for answer_without_synonyms_without_lam: 0.19147566890177467


# 5) Morefeus binding

Testing morfeusz

In [215]:
import morfeusz2

morfeusz = morfeusz2.Morfeusz()
morfeusz

<morfeusz2.Morfeusz at 0x1710c8f9e50>

In [216]:
analysis = morfeusz.analyse("próbk")
analysis
#analysis[0][2][2]

[(0, 1, ('próbk', 'próbk', 'ign', [], []))]

In [217]:
morf_results = {}

for s_i,sentence in enumerate(distort_list):
  for w_i,word in enumerate(sentence):
    try:
        result = morfeusz.analyse(word)
        if len(result) < 1 or result[0][2][2] == 'ign':
            morf_results[s_i] = (word, s_i, w_i)
    except IndexError as e:
        pass

In [218]:
len(morf_results)

5884

In [219]:
#word, sentence_id, word_id
morf_results[8]

('jaq', 8, 0)

# 6) Calculating Levenshtein distance

levenshtein from geeks for geeks

In [220]:
import math

In [221]:
# Python program for the above approach
def levenshtein_two_matrix_rows(str1, str2):
    # Get the lengths of the input strings
    m = len(str1)
    n = len(str2)
 
    # Initialize two rows for dynamic programming
    prev_row = [j for j in range(n + 1)]
    curr_row = [0] * (n + 1)
 
    # Dynamic programming to fill the matrix
    for i in range(1, m + 1):
        # Initialize the first element of the current row
        curr_row[0] = i
 
        for j in range(1, n + 1):
            if str1[i - 1] == str2[j - 1]:
                # Characters match, no operation needed
                curr_row[j] = prev_row[j - 1]
            else:
                # Choose the minimum cost operation
                curr_row[j] = 1 + min(
                    curr_row[j - 1],  # Insert
                    prev_row[j],      # Remove
                    prev_row[j - 1]    # Replace
                )
 
        # Update the previous row with the current row
        prev_row = curr_row.copy()
 
    # The final element in the last row contains the Levenshtein distance
    return curr_row[n]

In [222]:
return_list_laven = {}

for key, word in morf_results.items():
  min_ = math.inf
  word_ = ''
  for prop_word in merged_frequency.most_common(50):
    variable = levenshtein_two_matrix_rows(word[0], prop_word[0])
    if min_ > variable:
      min_ = variable
      word_ = prop_word[0]
  return_list_laven[key] = (word[0],word_,correct_list[word[1]],word[1])

#wrong, proposed, correct, #word_id
return_list_laven[8]

('jaq', 'jak', 'jak', 8)

In [223]:
morf_results[8]

('jaq', 8, 0)

#### Calculating ndcg for lavenstein

In [224]:
results_lam_syn_laven = {}

indexes_types = [
  "answer_with_synonyms_with_lam",
  "answer_with_synonyms_without_lam",
  "answer_without_synonyms_with_lam",
  "answer_without_synonyms_without_lam"
]
for i in indexes_types:
  results_lam_syn_laven[i] = {}


for index in range(len(distort_list)):
    #If lavenstein changed word
    if index in return_list_laven:
        wrong, proposed, correct, _ = return_list_laven[index]
        _ ,_ , word_index = morf_results[index]
        distort_list[index][word_index] = proposed
    question = distort_list_to_question(distort_list_item=distort_list[index])
    query_with_synonyms_with_lam = {
        "query": {
            "match": {
                "answer_with_synonyms_with_lam": question
            }
        },
        "size": 10
    }
    query_with_synonyms_without_lam = {
        "query": {
            "match": {
                "answer_with_synonyms_without_lam": question
            }
        },
        "size": 10
    }
    query_without_synonyms_with_lam = {
        "query": {
            "match": {
                "answer_without_synonyms_with_lam": question
            }
        },
        "size": 10
    }
    query_without_synonyms_without_lam = {
        "query": {
            "match": {
                "answer_without_synonyms_without_lam": question
            }
        },
        "size": 10
    }

    queries_temp_list = [query_with_synonyms_with_lam,
                         query_with_synonyms_without_lam,
                         query_without_synonyms_with_lam,
                         query_without_synonyms_without_lam]


    for j in range(len(queries_temp_list)):
        response = es.search(index=index_name, body=queries_temp_list[j])
        response = response['hits']['hits']
        temp_list = []
        for i in response:
            temp_list.append(int(i['_id']))
        if len(temp_list) != 0: 
            results_lam_syn_laven[indexes_types[j]][int(indexes_list[index])] = temp_list

In [176]:
print("NDCG for lavenstein")
for j in range(len(results_lam_syn_laven)):
  result = calculate_ndcg(results_lam_syn_laven[indexes_types[j]],query_to_corpus, 10)
  print(f"NDCG@10 for {indexes_types[j]}: {result}")

NDCG for lavenstein
NDCG@10 for answer_with_synonyms_with_lam: 0.2313633181296635
NDCG@10 for answer_with_synonyms_without_lam: 0.2313633181296635
NDCG@10 for answer_without_synonyms_with_lam: 0.17158514249007845
NDCG@10 for answer_without_synonyms_without_lam: 0.17158514249007845


# 6) Elastic fuzzy search

In [180]:
results_lam_syn_fuzzy = {}

indexes_types = [
  "answer_with_synonyms_with_lam",
  "answer_with_synonyms_without_lam",
  "answer_without_synonyms_with_lam",
  "answer_without_synonyms_without_lam"
]
for i in indexes_types:
  results_lam_syn_fuzzy[i] = {}


for index in range(len(distort_list)):  
    question = distort_list_to_question(distort_list_item=distort_list[index])
    query_with_synonyms_with_lam = {
        "query": {
            "match": {
                "answer_with_synonyms_with_lam": {
                "query": question,
                "fuzziness": "AUTO"
            }
            }
        },
        "size": 10
    }
    query_with_synonyms_without_lam = {
        "query": {
            "match": {
                "answer_with_synonyms_without_lam": {
                "query": question,
                "fuzziness": "AUTO"
            }
            }
        },
        "size": 10
    }
    query_without_synonyms_with_lam = {
        "query": {
            "match": {
                "answer_without_synonyms_with_lam": {
                "query": question,
                "fuzziness": "AUTO"
            }
            }
        },
        "size": 10
    }
    query_without_synonyms_without_lam = {
        "query": {
            "match": {
                "answer_without_synonyms_without_lam": {
                "query": question,
                "fuzziness": "AUTO"
            }
            }
        },
        "size": 10
    }

    queries_temp_list = [query_with_synonyms_with_lam,
                         query_with_synonyms_without_lam,
                         query_without_synonyms_with_lam,
                         query_without_synonyms_without_lam]


    for j in range(len(queries_temp_list)):
        response = es.search(index=index_name, body=queries_temp_list[j])
        response = response['hits']['hits']
        temp_list = []
        for i in response:
            temp_list.append(int(i['_id']))
        if len(temp_list) != 0: 
            results_lam_syn_fuzzy[indexes_types[j]][int(indexes_list[index])] = temp_list

In [182]:
print("NDCG for fuzzy")
for j in range(len(results_lam_syn_fuzzy)):
  result = calculate_ndcg(results_lam_syn_fuzzy[indexes_types[j]],query_to_corpus, 10)
  print(f"NDCG@10 for {indexes_types[j]}: {result}")

NDCG for fuzzy
NDCG@10 for answer_with_synonyms_with_lam: 0.20526584646555857
NDCG@10 for answer_with_synonyms_without_lam: 0.20540305584428833
NDCG@10 for answer_without_synonyms_with_lam: 0.16876960250137804
NDCG@10 for answer_without_synonyms_without_lam: 0.1688763937821283


# 7) LLM

Chat gpt (free use)

In [63]:
sentences_llm = []

for list_ in distort_list[:30]:
  sentence = ''
  for word in list_:
    sentence = sentence + word + ' '
  sentences_llm.append(sentence)

for sentence in sentences_llm:
  print(sentence)

co jest uważane za wydatek służbowy ó podróży służbowej 
wydatki służbowe ubezpieczenie samochodu podlegające odliczeniu za wypadek który wydarzył się pvodczas podróży służbowej 
rozpoczęcie noweęo biznesu online 
dzień roboczy i termin płatności rachyunków 
nowy właśczciel firmy jak działają podatki dla firmy i osoby fizycznej 
hbby kontra biznes 
czeki osobiste zamiąast firmowych 
zy amerykański kodeks podatkowy wymaga aby właściciele małych firm liczyli zakupy biznesowe jako dochód osobisty 
jak mogę zarejestrować firmę w wielkiej brytanii bez podafwania adresu firmy 
czym są podsitawy biznesowe 
strata na inwestycjach biznesowych  poprzedniego roku 
jak mogę oszacować podatki biznesowe opłaty źza zgłoszenie dla firmy która ma 0 usd dochodu 
czy zakup samochodu dla firmy za pomocą kredytu biznesowego zostałby uoznany za wydatek biznesowy 
odliczanie strat biznesowych z ostatnich lhat nieudokumentowanych 
c0 udziału w biznesie 
odbieranie wydatków służbowych z osobistej krty kredytow

1) Co jest uważane za wydatek służbowy w podróży służbowej?  
2) Wydatki służbowe, takie jak ubezpieczenie samochodu, podlegają odliczeniu w przypadku wypadku, który wydarzył się podczas podróży służbowej. (wypadek, wypadku)  
3) Rozpoczęcie nowego biznesu online.  
4) Dzień roboczy i termin płatności rachunków.  
5) Nowy właściciel firmy — jak działają podatki dla firmy i osoby fizycznej.  
6) Hobby kontra biznes.  
7) Czeki osobiste zamiast firmowych.  
8) Czy amerykański kodeks podatkowy wymaga, aby właściciele małych firm traktowali zakupy biznesowe jako dochód osobisty?  
9) Jak mogę zarejestrować firmę w Wielkiej Brytanii bez podawania adresu firmy?  
10) Czym są podstawy biznesowe?  
11) Strata na inwestycjach biznesowych z poprzedniego roku. (strata, straty)  
12) Jak mogę oszacować podatki biznesowe i opłaty za zgłoszenie firmy, która ma 0 USD dochodu?  
13) Czy zakup samochodu dla firmy za pomocą kredytu biznesowego zostałby uznany za wydatek biznesowy?  
14) Odliczanie strat biznesowych z ostatnich lat, nieudokumentowanych.  
15) Co to jest udział w biznesie?  
16) Odbieranie wydatków służbowych z osobistej karty kredytowej.  
17) Używanie czeku biznesowego do płatności w handlu detalicznym.  
18) Podatek przy zakładaniu firmy w pełnym wymiarze czasu pracy.  
19) Czy mogę spłacić saldo karty kredytowej, aby zwolnić dostępny kredyt?  
20) Powolne rozpoczynanie działalności pobocznej.  
21) Dlaczego spieniężanie czeków jest legalną działalnością?  
22) Czy biznes to jedyny sposób na zostanie milionerem?  
23) Wycena małej firmy, w którą warto zainwestować.  
24) Rozpoczęcie dużego biznesu z niezbyt dużymi dochodami. (niezbyt, niezbyt dużymi)  
25) Wymagania dotyczące rozliczania podatków biznesowych.  
26) IRA, ADO pracy i mojej firmy.  
27) Doradztwo w zakresie transferu pieniędzy.  
28) Jak przenieść leasing samochodu osobistego do leasingu samochodu biznesowego?  
29) Korepetycje z zarządzania płacami biznesowymi.  
30) Czy jako właściciel małej firmy powinienem płacić podatki z mojego osobistego czy firmowego konta czekowego?


# 7) Anwsers

Draw conclusions regarding:

#### The distribution of words in the corpus:

From what we have seen most common words are (`przyimek`, `partykuła`, `spójnik`, `zaimek` etc.). This is really reasonable as these are functional words that perform a certain role in sentences.

#### The performance of your method compared to ElasticSearch

Comparing all 3 methods results below

In [225]:
print("NDCG for baseline")
for j in range(len(results_lam_syn)):
  result = calculate_ndcg(results_lam_syn[indexes_types[j]],query_to_corpus, 10)
  print(f"NDCG@10 for {indexes_types[j]}: {result}")


print("NDCG for fuzzy")
for j in range(len(results_lam_syn_fuzzy)):
  result = calculate_ndcg(results_lam_syn_fuzzy[indexes_types[j]],query_to_corpus, 10)
  print(f"NDCG@10 for {indexes_types[j]}: {result}")

print("NDCG for lavenstein")
for j in range(len(results_lam_syn_laven)):
  result = calculate_ndcg(results_lam_syn_laven[indexes_types[j]],query_to_corpus, 10)
  print(f"NDCG@10 for {indexes_types[j]}: {result}")

NDCG for baseline
NDCG@10 for answer_with_synonyms_with_lam: 0.26056267798681115
NDCG@10 for answer_with_synonyms_without_lam: 0.26056267798681115
NDCG@10 for answer_without_synonyms_with_lam: 0.19147566890177467
NDCG@10 for answer_without_synonyms_without_lam: 0.19147566890177467
NDCG for fuzzy
NDCG@10 for answer_with_synonyms_with_lam: 0.20526584646555857
NDCG@10 for answer_with_synonyms_without_lam: 0.20540305584428833
NDCG@10 for answer_without_synonyms_with_lam: 0.16876960250137804
NDCG@10 for answer_without_synonyms_without_lam: 0.1688763937821283
NDCG for lavenstein
NDCG@10 for answer_with_synonyms_with_lam: 0.2385672312581576
NDCG@10 for answer_with_synonyms_without_lam: 0.2385672312581576
NDCG@10 for answer_without_synonyms_with_lam: 0.17616065180207388
NDCG@10 for answer_without_synonyms_without_lam: 0.17616065180207388


As we can see the baseline result were the best, second was lavenstein ad last elastic fuzzy. The reason for lavenstain second place can be the word change, while changing the words we onlu accounted top 500 most common words so there is a possibility that a long word with one letter taken could be replace by a short word like `sużbowy` for `że`. The fuzziness third place is quite shocking, especially that it is based on lavenstein distance. I think that because we set the value for AUTO we were not able to find proper responses.

#### The results provided by your method compared to ElasticSearch,

Comparing the result of my lavenstein method both with baseline and elastic search from lab2 we cane see a small drawback compared to lab2 with baseline results. While we compared the lavenstein with baseline comparing it with lab2 we can see a bigger drawback about 0.06.

#### The validity of the obtained corrections,

It is easy to say that our corrections were not valid, not only the score got worse compared to baseline but while implementig the method i saw changes like `sużbowy` to `że` maybe if we had operated on a larger set of words the results could be better.

#### Ability of an LLM to fix invalid queries

LLM successfully fixed all the words in sentences, although costly it is a better aprroach than using laventstein and most common words in corpus.