In [1]:
import numpy as np
import pandas as pd
from elasticsearch import Elasticsearch, helpers
from datasets import load_dataset

ds = load_dataset("clarin-knext/fiqa-pl", "corpus")
ds_dict = ds['corpus']
ds_dict = pd.DataFrame.from_dict(ds_dict)

In [2]:
# Wyjatkowo nie trzeba sie autoryzowav bo w  config.yml jest to zwolnione
es = Elasticsearch(["http://elastics:password@localhost:9200"], verify_certs=False)
try:
    resp = es.info()
    print(resp)
except Exception as e:
    print(f"Error: {e}")

{'name': 'node-1', 'cluster_name': 'my-application-cluster', 'cluster_uuid': 'gBI4PdSoQuCa8sMPxLY-yQ', 'version': {'number': '8.15.2', 'build_flavor': 'default', 'build_type': 'docker', 'build_hash': '98adf7bf6bb69b66ab95b761c9e5aadb0bb059a3', 'build_date': '2024-09-19T10:06:03.564235954Z', 'build_snapshot': False, 'lucene_version': '9.11.1', 'minimum_wire_compatibility_version': '7.17.0', 'minimum_index_compatibility_version': '7.0.0'}, 'tagline': 'You Know, for Search'}


In [3]:
index_name = "fiqa_index"
# analysis to zbior regul dla indeksu
# analyzer to juz kolejnosc i zastosowanie ich. Elementy juz wrzcuone do maszynki ktora bedzie analizowac.
analyzer_definition = {
    "settings": {
        "analysis": {
            "filter": {
                "polish_month_synonyms": {
                    "type": "synonym",
                    "synonyms": [
                        "styczeń, sty, I",
                        "luty, lut, II",
                        "marzec, mar, III",
                        "kwiecień, kwi, IV",
                        "maj, V",
                        "czerwiec, cze, VI",
                        "lipiec, lip, VII",
                        "sierpień, sie, VIII",
                        "wrzesień, wrz, IX",
                        "październik, paź, X",
                        "listopad, lis, XI",
                        "grudzień, gru, XII"
                    ]
                },
                "lowercase_filter": {
                    "type": "lowercase"
                },
                "polish_morfologik_stemmer": {
                    "type": "morfologik_stem",
                    "language": "pl"
                }
            },
            "analyzer": {
                "synonyms_analyzer": { # analyzer z synonimami + lematyzacja
                    "type": "custom",
                    "tokenizer": "standard",
                    "filter": [
                        "polish_month_synonyms",      # synonimy 
                        "lowercase_filter",           # lowercase
                        "polish_morfologik_stemmer",  # lematyzajca
                        "lowercase_filter"            # lowercase
                    ]
                },
                "non_synonyms_analyzer": { # analyzer bez synonimów + lematyzacja
                   "type": "custom",
                    "tokenizer": "standard",
                    "filter": [
                        "lowercase_filter",
                       "polish_morfologik_stemmer",    # Stemmer ale w rzeczywistosci on robi lematyzacje (allgero dziwnie nazwało) 
                        "lowercase_filter"              # Lowercase jeszcze raz bo morfologik zwraca w wielkich literach (dziwne ale tak dziala)
                    ] 
                },
                "non_synonyms_analyzer_no_lemma": { # analyzer bez synonimów i bez lematuzacji
                   "type": "custom",
                    "tokenizer": "standard",
                    "filter": [
                        "lowercase_filter",
                        "lowercase_filter"             
                    ] 
                },
                "non_synonyms_analyzer_non_lema": { # analyzer z synonimów i bez lematyzacji
                   "type": "custom",
                    "tokenizer": "standard",
                    "filter": [
                        "lowercase_filter",
                       "polish_month_synonyms",    
                    ] 
                }

            }
        }
    },
        "mappings": {
        "properties": {
            # Pole które przechowuje rekord  analizowane przez analyzer ze synonimami i z lemtyzacha
            "content_synon": {
                "type": "text",
                "analyzer": "synonyms_analyzer"
            },
            # Pole które przechowuje rekord  analizowane przez analyzer bez synonimów i z lematyzacja
            "content_non_synon_lema": {
                "type": "text",
                "analyzer": "non_synonyms_analyzer"
            },
            # Pole które przechowuje rekord  analizowane przez analyzer bez synonimów i bez lematyzacji
            "content_non_synon_non_lema": {
                "type": "text",
                "analyzer": "non_synonyms_analyzer_no_lemma"
            },
            # Pole które przechowuje rekord  analizowane przez analyzer ze synoniami i bez lematyzacji
            "content_synon_non_lema": {
                "type": "text",
                "analyzer": "non_synonyms_analyzer_non_lema"
            },
        }
    }
}
#Stworzenie indexu, jesli istnieje to od nowa go
if es.indices.exists(index=index_name):
    es.indices.delete(index=index_name)
    es.indices.create(index=index_name, body=analyzer_definition)


In [4]:
# I pakujemy dane do indexu:
def load_data_to_es(index_name, dataset, es):
    data = dataset['text'] # kontent dokumentu
    ids = dataset['_id']  # id dokumentu

    # bulk wrzucenie datasetu do indeksu ES
    actions = [
        {
            "_index": index_name,
            "_id": doc_id,  
            "_source": {
                "content_synon": record,
                "content_non_synon_non_lema": record,
                "content_non_synon_lema": record,
                "content_synon_non_lema" :record
                
            }
        }
        for doc_id, record in zip(ids, data)
    ]

    helpers.bulk(es, actions)
    print(f"Data loaded into index '{index_name}'.")

In [5]:
# ładowanie bulka danych do indexu
load_data_to_es(index_name, ds_dict, es)

Data loaded into index 'fiqa_index'.


In [6]:
# szablon query do ES, odowłujemy się do 'content_synon' co jesz zwiazane z jednym analyzorem, ktory ma reguly wybrane z 'analysis'
query_synon = {
    "query": {
        "match": {
            "content_synon": "kwiecień",
        }
    }
}
resp_synon = es.search(index=index_name, body=query_synon)
print("Liczba znalezionych kwietni z synonimami:", resp_synon['hits']['total']['value'])

Liczba znalezionych kwietni z synonimami: 306


In [7]:
query_non_synon = {
    "query": {
        "match": {
            "content_non_synon": "kwiecień"
        }
    }
}
resp_non_synon = es.search(index=index_name, body=query_non_synon)
print("Liczba znalezionych kwietni bez synonimów:", resp_non_synon['hits']['total']['value'])

Liczba znalezionych kwietni bez synonimów: 0


In [8]:
# powtórka eksperymentu ale dla miesiąca listopad:
query_synon = {
    "query": {
        "match": {
            "content_synon": "listopad",
        }
    }
}
resp_synon = es.search(index=index_name, body=query_synon)
print("Liczba znalezionych listopadów z synonimami:", resp_synon['hits']['total']['value'])

Liczba znalezionych listopadów z synonimami: 158


In [9]:
query_non_synon = {
    "query": {
        "match": {
            "content_non_synon": "listopad"
        }
    }
}
resp_non_synon = es.search(index=index_name, body=query_non_synon)
print("Liczba znalezionych kwietni bez synonimów:", resp_non_synon['hits']['total']['value'])

Liczba znalezionych kwietni bez synonimów: 0


ES działa, zarówna dla kwietnia jak i listopada w przypadku z synonimami znalazł więcej rekordów - zgodnie z intuicją.

# NDCG@5

In [10]:
# QA dataset 
ds_qa = load_dataset("clarin-knext/fiqa-pl-qrels")
data_qa = ds_qa['test']
data_qa[0]
data_qa = pd.DataFrame(data_qa)
data_qa

Unnamed: 0,query-id,corpus-id,score
0,8,566392,1
1,8,65404,1
2,15,325273,1
3,18,88124,1
4,26,285255,1
...,...,...,...
1701,11039,330058,1
1702,11039,91183,1
1703,11054,155053,1
1704,11054,321015,1


In [11]:
set(data_qa['score'])

{1}

Warto zauwazyc ze dla kazdje pary q-a w datasecie jest wartosc score = 1. Wiec wyniki moga wyjsc dosc dziwne bo w tym przypadku mamy binarne dopasowanie pasuje/nie pasuje. Nie wykorzystujemy tutaj pelnego potencjalu ndcg gdzie mozna wrzucac wazone odpowiedzi ktore pasuja lepiej lub gorzej do query.

In [12]:
# queries data set zawiera query
data_queries = load_dataset("clarin-knext/fiqa-pl", "queries")
df_queries = pd.DataFrame(data_queries['queries'])

In [13]:
df_queries.iloc[420]

_id                                                    915
title                                                     
text     Maksymalizacja HSA po maksymalnym wykorzystani...
Name: 420, dtype: object

In [14]:
def compute_dcg(scores):
    return sum(score / np.log(idx + 2) for idx, score in enumerate(scores))


def compute_ndcg(relevant_scores, retrieved_scores, k=5):
    dcg = compute_dcg(retrieved_scores[:k]) # to sa te ktore zwrocil nasz 'model'
    ideal_dcg = compute_dcg(sorted(relevant_scores, reverse=True)[:k]) # relevant uzywamy do idealnego dcg (idealne ulozenie odpowiedzi)
    return dcg / ideal_dcg if ideal_dcg > 0 else 0

NDCG_SIZE = 5


def search_and_compute_ndcg(index_name, analyzator_content, test_data, ndcg_size):
    ndcg_scores = []
    
    # obliczamy dla kazdej query dostepnej w testowym zbiorze danych
    for index, row in test_data.iterrows():
        # query id
        query_id = row["query-id"]
        # query text
        query = df_queries[df_queries['_id'] == str(query_id)]['text'].values[0]
        # Wykonanie zapytania do Elasticsearch
        search_query = {
            "query": {
                "match": {
                    analyzator_content: query,
                }
            }
        }
        # bierzemy 5 pierwszych dopasowań od Elastic search (dostał query) zwraca nam 5 dokumentów
        response = es.search(index=index_name, body=search_query, size=ndcg_size)
        retrieved_docs = [hit["_id"] for hit in response["hits"]["hits"]] # id 5 dokumentow zwrocone przez ES
        # Wszysktie A które pasuja do Q (z labelowanego dataset)
        good_answers = data_qa[data_qa['query-id'] == int(query_id)]
        # sortuje je po ich 'score', one i tak mają 1 ale na przyszlosc z lepszym datasetem zeby gralo bo tak sie realizuje IDCG
        good_answers = good_answers.sort_values(by='score', ascending=False)
        # Biore posortowane kolejne elementy z dobrymyim odpowiedziami, jesli nie ma ich (5) to uzupelniam 0 ami aby było zawsze 5 elementów - prawidlowe ndcg tak działa
        relenvant_answears = list(good_answers['score'][:ndcg_size]) + [0] * (ndcg_size - len(good_answers)) # idealne odpowiedzi
        # print(relenvant_answears) -> cos w stylu [1,1,0,0,0]
        
        
        retrived_answears = [0 for _ in range(ndcg_size)] #otrzymane odpowiedzi
        for idx, doc_found in enumerate(retrieved_docs):
            if int(doc_found) in good_answers['corpus-id'].values:
                retrived_answears[idx] = good_answers[good_answers['corpus-id'] == int(doc_found)]['score'].iloc[0]
        
        #print(retrived_answears) # -> cos w stylu [0,1,0,0,0]
        ndcg = compute_ndcg(relenvant_answears, retrived_answears, k=5)
        ndcg_scores.append(ndcg) # ndcg dla kazdego query sumujemy

    # Zwracamy średnie NDCG dla wszystkich zapytań
    return np.mean(ndcg_scores)


In [15]:
qa_no_duplicates = data_qa.drop_duplicates(subset='query-id')

In [16]:
mean_no_synonyms = search_and_compute_ndcg(index_name, 'content_synon', qa_no_duplicates, NDCG_SIZE)
print("Średnie NDCG dla QA (synonimy + lematyzacja):",mean_no_synonyms)

Średnie NDCG dla QA (synonimy + lematyzacja): 0.1851291130797741


In [17]:
mean_no_synonyms = search_and_compute_ndcg(index_name, 'content_non_synon_lema', qa_no_duplicates, NDCG_SIZE)
print("Średnie NDCG dla QA (brak synonimy + lematyzacja):",mean_no_synonyms)

Średnie NDCG dla QA (brak synonimy + lematyzacja): 0.1851291130797741


In [18]:
mean_no_synonyms = search_and_compute_ndcg(index_name, 'content_non_synon_non_lema', qa_no_duplicates, NDCG_SIZE)
print("Średnie NDCG dla QA (brak synonimy + brak lematyzacja):",mean_no_synonyms)

Średnie NDCG dla QA (brak synonimy + brak lematyzacja): 0.13854570378524392


In [19]:
mean_no_synonyms = search_and_compute_ndcg(index_name, 'content_synon_non_lema', qa_no_duplicates, NDCG_SIZE)
print("Średnie NDCG dla QA (synonimy + brak lematyzacja):",mean_no_synonyms)

Średnie NDCG dla QA (synonimy + brak lematyzacja): 0.13839287982649878


# Odpowiedzi na pytania

1 - regex vs ES:
Generalnie uważam, że dużo większe pole do popisu daje ES, jednak poziom wejscia jest zancznie wiekszy. Rgexy to import biblioteki w jednej linijce i mozna dzialac, jest masa gotowych regexow, GPT dobrze w miare sobie z nimi radzi. Zestawienie ES silnika, ogarniecie w dokumentacji itd to roboty znacznie wiecej. Tutaj bylo na dockerze to poszlo szybko, bez tego to kolejne kilka gdozin. Jednak ES daje znacznie bardziej 'flexible' mozliwosci. Jeli zalezy nam na zakodzeniu czegos na szybko (prototpowaniu) i cos co ma sztywno okreslona struktue - na przykald kod pcoztowy -> ja bym wybieral RE. Jednak bardziej skomplikowane zastosowania typu dopasowanie produktu do wyszukiwania jak robi to Allego - ES warto. Proste problemy -> RE, skomplikowane -> ES. Oba bardzo fajne.

2 - LLM z pewnoscia moze byc stosowany (w sumie to do czego akutalnie nie moze byc :) ). Jendak tutaj operujemy na prawdopodobienstwie co za tym idzie wydaje mi sie ze wieksza szansa ze wyprowadzi nas w maliny niz RE czy ES. Ponadto moze halucynowac i zwracac kompletnie oderwane dokumenty. Intuicyjnie bedize on zwracal wiecej False positive jednak moze zrozumiec nieraz lepiej kontekst niz klasyczne ES. Watyo jednak rozwazyc te opcje i dopasowac ja na potrzeby taska. Mozna kombinowac z jakimis pdosumowaniami i szukac w tym, no LLM daja wielkie pole manewru, jednal nei zdawalbym sie w pelni na nie w 100%. Nieraz klasyczne metody sa wsytarczajace i latwiejsze w kontrolowaniu.

# Wnioski

ćwiczenie - fajne. Pierwsz okazja do zapozaniani się z Elastic Search, kiedyś cos się obiło o uszy jednak nic szczególne. Tutaj bardzo ciekawa opcja na przetestowanie na cyzmś praktycznym. Dobrze można zobaczyć róźnice w wykorzystaniu regexów a ES. Tutaj poziom skomplikowania znacznie przebija, jednak ES dopasuje nam dużo więcęj różnych odmian, fleksji i przypadków. Zestawienie różnych opcji co do tokenizera lematyzacji itd daje odrazu różnice we wyniku i uświadamia o jak wielu rzexZch trzeba pamiętać robiąc NLP. Zadanie z pozoru bardzo proste, bo wyszukanie słowa kwiecień w tekscie, brzmi jak 1 rok studiów. W prktyce zabiera cały dzień pracy na ostantim roku. Jednak oceniam dobrze doświadczenie. Można było zrobić coś ciekawego zobaczyć jak działa na dobrze dobranym przykladzie
NDCG - metryka dla mnie nowa, zapoznałem się dopiero z nią na wykładzie. Ciekawiło mnie zawsze jak bardziej skomplikowane taski niz klasyfikacja sa walidowane tutaj QA - już wiem. Metryka dość intuicyjna prosta do zrozumeinai, łatwo implementuje się widząc przed oczami slajd z wykładu z obrazkime gdzie jest przykład. moze by stosowana do wielu zadan, jak sie okazuje nawet do metod QA bez trenowania modeli. Czy wynik na poziomie 0.18 jest dobry? Ciezko powiedziec, penwie nie, trzbea by porownac  zinnymi bardziej zaawansowanymi technikami. Dobry punkt wyjściowy to może być.

Wyniki w ćwiczeniu - dośc imtuicyjne dodawanie synonimów/lematyzacji poprawia dopasowania miesięcy i poprawia wynik NDCG. Dobry obrazowy przykład.