# Przetwarzanie języka naturalnego – lab8
## Mateusz Kocot

In [1]:
import os
import regex as re
import time
import json
from pprint import pprint

import pandas as pd

from haystack.document_stores import ElasticsearchDocumentStore, FAISSDocumentStore
from haystack.nodes import DensePassageRetriever
from haystack.nodes import ElasticsearchRetriever

from IPython.display import display, HTML



In [2]:
DATA_DIR = '../ustawy'

# Task 3

In [3]:
elastic_store = ElasticsearchDocumentStore()
elastic_retriever = ElasticsearchRetriever(elastic_store)

Creating the store and retriever for the first time

In [4]:
# faiss_store = FAISSDocumentStore(faiss_index_factory_str="Flat")
# faiss_retriever = DensePassageRetriever(
#     document_store=faiss_store,
#     query_embedding_model="enelpol/czywiesz-question",
#     passage_embedding_model="enelpol/czywiesz-context",
# )

Loading the store and retriever with saved and processed documents

In [5]:
faiss_store = FAISSDocumentStore.load(index_path='faiss/documents.faiss')
faiss_retriever = DensePassageRetriever.load('faiss/retriever.pt', document_store=faiss_store)

INFO - haystack.modeling.utils -  Using devices: CUDA:0
INFO - haystack.modeling.utils -  Number of GPUs: 1
INFO - haystack.modeling.model.language_model -  LOADING MODEL
INFO - haystack.modeling.model.language_model -  Model found locally at faiss\retriever.pt\query_encoder
INFO - haystack.modeling.model.language_model -  Loaded faiss\retriever.pt\query_encoder
INFO - haystack.modeling.model.language_model -  LOADING MODEL
INFO - haystack.modeling.model.language_model -  Model found locally at faiss\retriever.pt\passage_encoder
INFO - haystack.modeling.model.language_model -  Loaded faiss\retriever.pt\passage_encoder
INFO - haystack.nodes.retriever.dense -  DPR model loaded from faiss\retriever.pt


# Task 4

In [6]:
original_dataset = {}

for file_name in os.listdir(DATA_DIR):
    with open(f'{DATA_DIR}/{file_name}', 'r', encoding='utf-8') as file:
        bill = file.read()
    original_dataset[file_name[:-4]] = bill

In [7]:
def produce_passages(text):
    passages = {}
    matches = list(re.finditer(r'\s*Art.\s*(\d+).?\s*', text))
    for i, m in enumerate(matches):
        art_number = m.group(1)
        art_start = m.span()[1]
        art_end = matches[i + 1].span()[0] if i + 1 < len(matches) else len(text)
        art_text = text[art_start:art_end]
        passages[art_number] = art_text
    return passages

articles = []
for act_id, act_text in original_dataset.items():
    for art_number, content in produce_passages(act_text).items():
        articles.append({
            'content': content,
            'meta': {
                'act_id': act_id,
                'art_number': art_number
            }
        })

# Task 5
- Elastic store: 64 s
- Faiss store: 48 s (writing documents) + 226 s (updating embeddings) = 274 s

In [8]:
# start = time.time()
# elastic_store.write_documents(articles)
# print(f'Elapsed {time.time() - start:0.2f} s')

In [9]:
# start = time.time()
# faiss_store.write_documents(articles)
# print(f'Writing. Elapsed {time.time() - start:0.2f} s')

# start = time.time()
# faiss_store.update_embeddings(faiss_retriever)
# print(f'Updating embeddings. Elapsed {time.time() - start:0.2f} s')

# faiss_store.save('faiss/documents.faiss')
# faiss_retriever.save('faiss/retriever.pt')

# Task 6

In [10]:
questions = {}
with open('questions.jl', encoding='utf-8') as file:
    for line in file:
        data = json.loads(line)
        q_id = int(data['_id'])
        questions[q_id] = {}
        questions[q_id]['question'] = data['text']
        
with open('context_mappings.jl', encoding='utf-8') as file:
    for line in file:
        data = json.loads(line)
        q_id = int(data['question-id'])
        m = re.match(r'([^_]*_[^_]*)_(.*)', data['passage-id'])
        questions[q_id]['act_id'] = m.group(1)
        questions[q_id]['art_number'] = m.group(2)
        
pprint(questions, width=160)

{1345: {'act_id': '1997_604', 'art_number': '39', 'question': 'Czy źródła finansowania partii politycznych mogą być niejawne?'},
 1346: {'act_id': '1998_1118', 'art_number': '69', 'question': 'Czy wnuki przyjęte na wychowanie mają prawo do renty po zmarłych rodzicach?'},
 1347: {'act_id': '1997_769', 'art_number': '30', 'question': 'Kiedy kurator składa wniosek o ogłoszenie upadłości osoby prawnej?'},
 1348: {'act_id': '1996_110',
        'art_number': '223',
        'question': 'Czy dawka promieniowania jonizującego pochodzącego ze źródeł naturalnych może przekroczyć dawkę graniczną?'},
 1349: {'act_id': '2001_18',
        'art_number': '14',
        'question': 'Czy dawka promieniowania jonizującego pochodzącego ze źródeł naturalnych może przekroczyć dawkę graniczną?'},
 1350: {'act_id': '1996_463', 'art_number': '1', 'question': 'Jaki tytuł ma obecnie Wyższa Szkoła Inżynierska w Koszalinie?'},
 1351: {'act_id': '2001_1207',
        'art_number': '20',
        'question': 'Czy wydani

In [11]:
# Check if the expected passages are available in the dataset
available_passages = [(a['meta']['act_id'], a['meta']['art_number']) for a in articles]
for q in questions.values():
    assert (q['act_id'], q['art_number']) in available_passages

# Task 6

In [12]:
for q_id, q in list(questions.items()):
    display(HTML(f"<h2>{q_id}: {q['question']} ({q['act_id']}, {q['art_number']})</h2>"))
    for retriever, retriever_name in [(elastic_retriever, 'Elastic'), (faiss_retriever, 'Faiss')]:
        display(HTML(f"<h4>{retriever_name} retriever</h4>"))
        
        possible_passages = retriever.retrieve(query=q['question'], top_k=1)
        for p in possible_passages:
            print(f"Document {p.meta['act_id']}, Art. {p.meta['art_number']}:")
            print(p.content)
            print('---------------------------------------------------------------------------------------------')

Document 2001_499, Art. 23:
. Źródła finansowania partii politycznych są jawne.";
4) art. 24 i 25 otrzymują brzmienie:
      "
---------------------------------------------------------------------------------------------


Document 1997_604, Art. 41:
Partie polityczne prowadzą rachunkowość na zasadach określonych odrębnymi 
przepisami z uwzględnieniem przepisów niniejszej ustawy.
                               Rozdział 5
     Postępowanie w sprawie stwierdzenia sprzeczności z Konstytucją
               celów lub działalności partii politycznych
---------------------------------------------------------------------------------------------


Document 1998_1118, Art. 69:
.
Przyjęte na wychowanie i utrzymanie wnuki, rodzeństwo i inne dzieci, o których
mowa w art. 67 ust. 1 pkt 2, mają prawo do renty rodzinnej, jeżeli spełniają
warunki określone w art. 68, a ponadto:
   1) zostały przyjęte na wychowanie i utrzymanie co najmniej na rok przed
     śmiercią ubezpieczonego (emeryta lub rencisty), chyba że śmierć była
     następstwem wypadku, oraz
   2) nie mają prawa do renty po zmarłych rodzicach, a gdy rodzice żyją,
     jeżeli:
     a) nie mogą zapewnić im utrzymania albo
     b) ubezpieczony (emeryt lub rencista) lub jego małżonek był ich
       opiekunem ustanowionym przez sąd.
---------------------------------------------------------------------------------------------


Document 1998_1118, Art. 71:
Rodzice mają prawo do renty rodzinnej, jeżeli:
   1) ubezpieczony (emeryt lub rencista) bezpośrednio przed śmiercią
     przyczyniał się do ich utrzymania,
   2) spełniają odpowiednio warunki określone dla wdowy i wdowca w art. 70
     ust. 1 i 2 oraz, co do wieku, również w art. 70 ust. 5.
---------------------------------------------------------------------------------------------


Document 1997_769, Art. 30:
.
Kurator składa wniosek o ogłoszenie upadłości osoby prawnej, dla której został
ustanowiony, jeżeli stwierdzi, że istnieją podstawy do ogłoszenia upadłości.
---------------------------------------------------------------------------------------------


Document 1997_769, Art. 30:
Kurator składa wniosek o ogłoszenie upadłości osoby prawnej, dla której został
ustanowiony, jeżeli stwierdzi, że istnieją podstawy do ogłoszenia upadłości.
---------------------------------------------------------------------------------------------


Document 1996_110, Art. 223:
.   §1.Pracodawca jest obowiązany chronić pracowników przed
                promieniowaniem jonizującym, pochodzącym ze źródeł 
                sztucznych i naturalnych, występujących w środowisku 
                pracy.
             §2. Dawka promieniowania jonizującego pochodzącego ze 
                źródeł naturalnych, otrzymywana przez pracownika przy 
                pracy w warunkach narażenia na to promieniowanie, nie 
                może przekraczać dawek granicznych, określonych w 
                odrębnych przepisach dla sztucznych źródeł promieniowania
                jonizującego.
---------------------------------------------------------------------------------------------


Document 2001_18, Art. 13:
1. Dawki graniczne obejmują sumę dawek pochodzących od narażenia zewnętrznego
  i wewnętrznego.
2. Dawki graniczne nie obejmują narażenia na promieniowanie naturalne, jeżeli
  narażenie to nie zostało zwiększone w wyniku działalności człowieka, w
  szczególności nie obejmują narażenia pochodzącego od radonu w budynkach
  mieszkalnych, od naturalnych nuklidów promieniotwórczych wchodzących w skład
  ciała ludzkiego, od promieniowania kosmicznego na poziomie ziemi, jak również
  narażenia nad powierzchnią ziemi od nuklidów promieniotwórczych znajdujących
  się w nienaruszonej skorupie ziemskiej.
---------------------------------------------------------------------------------------------


Document 1996_110, Art. 223:
.   §1.Pracodawca jest obowiązany chronić pracowników przed
                promieniowaniem jonizującym, pochodzącym ze źródeł 
                sztucznych i naturalnych, występujących w środowisku 
                pracy.
             §2. Dawka promieniowania jonizującego pochodzącego ze 
                źródeł naturalnych, otrzymywana przez pracownika przy 
                pracy w warunkach narażenia na to promieniowanie, nie 
                może przekraczać dawek granicznych, określonych w 
                odrębnych przepisach dla sztucznych źródeł promieniowania
                jonizującego.
---------------------------------------------------------------------------------------------


Document 2001_18, Art. 13:
1. Dawki graniczne obejmują sumę dawek pochodzących od narażenia zewnętrznego
  i wewnętrznego.
2. Dawki graniczne nie obejmują narażenia na promieniowanie naturalne, jeżeli
  narażenie to nie zostało zwiększone w wyniku działalności człowieka, w
  szczególności nie obejmują narażenia pochodzącego od radonu w budynkach
  mieszkalnych, od naturalnych nuklidów promieniotwórczych wchodzących w skład
  ciała ludzkiego, od promieniowania kosmicznego na poziomie ziemi, jak również
  narażenia nad powierzchnią ziemi od nuklidów promieniotwórczych znajdujących
  się w nienaruszonej skorupie ziemskiej.
---------------------------------------------------------------------------------------------


Document 2003_1029, Art. 3:
.
1. Szkoła wyższa, w tym wyższa szkoła zawodowa, począwszy od roku akademickiego
  2003/2004, może prowadzić wyższe studia zawodowe na kierunku pielęgniarstwo
  lub położnictwo, obejmujące co najmniej 4 semestry, przeznaczone dla
  pielęgniarek, położnych, które posiadają świadectwo dojrzałości i ukończyły
  liceum medyczne lub szkołę policealną albo szkołę pomaturalną, kształcącą w
  zawodzie pielęgniarki, położnej.
2. Studia, o których mowa w ust. 1, są prowadzone w systemie dziennym, zaocznym
  lub wieczorowym.
3. Szkoła wyższa, w tym wyższa szkoła zawodowa, może określić warunki
  zaliczania studentom praktyki, biorąc pod uwagę miejsce zatrudnienia i staż
  pracy w zawodzie pielęgniarki, położnej.
4. Absolwent studiów, o których mowa w ust. 1, na kierunku pielęgniarstwo
  uzyskuje tytuł zawodowy licencjata pielęgniarstwa, a studiów na kierunku
  położnictwo - tytuł zawodowy licencjata położnictwa.
5. Uchwała senatu określająca zasady i tryb przyjmowania

Document 1996_463, Art. 1:
Wyższej Szkole Inżynierskiej w Koszalinie nadaje się nazwę "Politechnika Koszalińska".
---------------------------------------------------------------------------------------------


Document 2001_1207, Art. 20:
.
1. Do zadań centrum powiadamiania ratunkowego należy w szczególności:
   1) przyjmowanie powiadomień o stanach nagłego zagrożenia życia lub zdrowia,
     ustalanie priorytetów i niezwłoczne dysponowanie jednostek systemu,
     z uwzględnieniem ust. 2,
   2) przekazywanie niezbędnych informacji osobom udzielającym pierwszej
     pomocy, w szczególności przed przybyciem zespołu ratownictwa medycznego na
     miejsce zdarzenia,
   3) przekazywanie kierującemu działaniami ratowniczymi niezbędnych informacji
     ułatwiających podejmowanie rozstrzygnięć na miejscu zdarzenia,
   4) przekazywanie niezbędnych informacji o stanach zagrożenia życia lub
     zdrowia innym jednostkom wykonującym zadania w zakresie ratownictwa
     medycznego,
   5) koordynacja medycznych działań ratowniczych podejmowanych przez
     poszczególne jednostki systemu, a także działań podejmowanych przez inne
     jednostki uczestniczące w działaniach ratowniczych, w szczególności przez
 

Document 2000_1191, Art. 9:
Decyzję o odmowie udzielenia zezwolenia wydaje się w przypadku gdy wnioskodawca
nie daje rękojmi należytego prowadzenia przedsiębiorstwa składowego, a w
szczególności:
   1) osoby kierujące działalnością wnioskodawcy były skazane prawomocnym
     wyrokiem za przestępstwo, o którym mowa w przepisie art. 6 ust. 1 pkt 6,
   2) przeciwko wnioskodawcy lub podmiotowi dominującemu wobec wnioskodawcy
     został złożony wniosek o wszczęcie postępowania upadłościowego albo
     wnioskodawca lub podmiot wobec niego dominujący złożył wniosek o wszczęcie
     postępowania układowego,
   3) wnioskodawca zalega z wypełnianiem zobowiązań wobec Skarbu Państwa lub
     instytucji ubezpieczenia społecznego,
   4) posiadane przez wnioskodawcę urządzenia techniczne, mające służyć do
     wykonywania usług składu nie zapewniają odpowiedniej jakości świadczonych
     usług.
---------------------------------------------------------------------------------------------


Document 1997_593, Art. 23:
.
Okręgowa komisja rewizyjna:
   1) kontroluje działalność statutową, finansową i gospodarczą okręgowej izby,
   2) składa sprawozdania  okręgowemu zjazdowi izby  i Krajowej Komisji
     Rewizyjnej,
   3) występuje z wnioskiem o udzielenie absolutorium okręgowej radzie izby.
---------------------------------------------------------------------------------------------


Document 1997_593, Art. 23:
Okręgowa komisja rewizyjna:
   1) kontroluje działalność statutową, finansową i gospodarczą okręgowej izby,
   2) składa sprawozdania  okręgowemu zjazdowi izby  i Krajowej Komisji
     Rewizyjnej,
   3) występuje z wnioskiem o udzielenie absolutorium okręgowej radzie izby.
---------------------------------------------------------------------------------------------


Document 1997_553, Art. 184:
.
 § 1. Kto przewozi, gromadzi, składuje, porzuca lub pozostawia bez właściwego
     zabezpieczenia materiał jądrowy albo inne źródło promieniowania 
     jonizującego, jeżeli może to zagrozić życiu lub zdrowiu człowieka lub 
     spowodować zniszczenie w świecie roślinnym lub zwierzęcym w znacznych
     rozmiarach,
        podlega karze pozbawienia wolności od 3 miesięcy do lat 5.
 § 2. Tej samej karze podlega, kto wbrew obowiązkowi dopuszcza do popełnienia
     czynu określonego w § 1.
 § 3. Jeżeli sprawca czynu określonego w § 1 lub 2 działa nieumyślnie,
        podlega grzywnie, karze ograniczenia wolności albo pozbawienia 
         wolności do lat 2.
---------------------------------------------------------------------------------------------


Document 2001_18, Art. 101:
1. Osoba eksploatująca ponosi wyłączną odpowiedzialność za szkodę jądrową
  spowodowaną wypadkiem jądrowym w urządzeniu jądrowym lub związaną z tym
  urządzeniem, chyba że szkoda nastąpiła bezpośrednio wskutek działań wojennych
  lub konfliktu zbrojnego.
2. W czasie transportu materiałów jądrowych odpowiedzialność ponosi osoba
  eksploatująca urządzenie jądrowe, z którego ten materiał został wysłany,
  chyba że umowa z odbiorcą stanowi inaczej.
3. Jeżeli poszkodowany, na skutek umyślnego zachowania, przyczynił się do
  powstania lub zwiększenia szkody, sąd może zwolnić całkowicie lub częściowo
  osobę eksploatującą z obowiązku naprawienia szkody w odniesieniu do szkody
  doznanej przez poszkodowanego.
---------------------------------------------------------------------------------------------


Document 2001_1409, Art. 27:
.
1. Producent butelek miarowych jest odpowiedzialny za zorganizowanie i
  przeprowadzanie kontroli wewnętrznej butelek miarowych. Kontrola ta może być
  przeprowadzana wyłącznie przy pomocy zalegalizowanych przyrządów pomiarowych,
  odpowiednich do wykonywania niezbędnych czynności.
2. Stosowany przez producenta system kontroli wewnętrznej butelek miarowych
  powinien zapewniać skuteczność porównywalną do skuteczności metody
  referencyjnej. Opis metody referencyjnej kontroli butelek miarowych zawiera
  załącznik nr 6 do ustawy.
3. Producent, w terminie co najmniej 60 dni przed rozpoczęciem produkcji
  butelek miarowych jest obowiązany przekazać dyrektorowi właściwego
  terytorialnie okręgowego urzędu miar opis przyjętego przez siebie systemu
  kontroli wewnętrznej butelek miarowych. Przepisy art. 16 ust. 2 i 3 stosuje
  się odpowiednio.
4. Producent może wprowadzać do obrotu partię butelek miarowych po
  przeprowadzeniu kontroli wewnętrznej, o której mowa

Document 2001_1409, Art. 27:
1. Producent butelek miarowych jest odpowiedzialny za zorganizowanie i
  przeprowadzanie kontroli wewnętrznej butelek miarowych. Kontrola ta może być
  przeprowadzana wyłącznie przy pomocy zalegalizowanych przyrządów pomiarowych,
  odpowiednich do wykonywania niezbędnych czynności.
2. Stosowany przez producenta system kontroli wewnętrznej butelek miarowych
  powinien zapewniać skuteczność porównywalną do skuteczności metody
  referencyjnej. Opis metody referencyjnej kontroli butelek miarowych zawiera
  załącznik nr 6 do ustawy.
3. Producent, w terminie co najmniej 60 dni przed rozpoczęciem produkcji
  butelek miarowych jest obowiązany przekazać dyrektorowi właściwego
  terytorialnie okręgowego urzędu miar opis przyjętego przez siebie systemu
  kontroli wewnętrznej butelek miarowych. Przepisy art. 16 ust. 2 i 3 stosuje
  się odpowiednio.
4. Producent może wprowadzać do obrotu partię butelek miarowych po
  przeprowadzeniu kontroli wewnętrznej, o której mowa w

Document 2001_499, Art. 18:
.
1. Wyborca niepełnosprawny, na jego wniosek wniesiony do urzędu gminy
  najpóźniej w 10 dniu przed dniem wyborów, jest dopisywany do spisu wyborców
  w wybranym przez siebie obwodzie głosowania spośród obwodów głosowania, w
  których znajdują się lokale, o których mowa w art. 53 ust. 1, na obszarze
  gminy właściwej ze względu na miejsce jego stałego zamieszkania.
2. We wniosku, o którym mowa w ust. 1, podaje się dane wymienione w art. 11
  ust. 4.
---------------------------------------------------------------------------------------------


Document 2001_499, Art. 18:
1. Wyborca niepełnosprawny, na jego wniosek wniesiony do urzędu gminy
  najpóźniej w 10 dniu przed dniem wyborów, jest dopisywany do spisu wyborców
  w wybranym przez siebie obwodzie głosowania spośród obwodów głosowania, w
  których znajdują się lokale, o których mowa w art. 53 ust. 1, na obszarze
  gminy właściwej ze względu na miejsce jego stałego zamieszkania.
2. We wniosku, o którym mowa w ust. 1, podaje się dane wymienione w art. 11
  ust. 4.
---------------------------------------------------------------------------------------------


Document 1997_739, Art. 86:
.
Decyzje w sprawach udzielania i pozbawiania azylu w Rzeczypospolitej Polskiej
wydaje Minister Spraw Wewnętrznych i Administracji w porozumieniu z 
Ministrem Spraw Zagranicznych.
---------------------------------------------------------------------------------------------


Document 1997_739, Art. 86:
Decyzje w sprawach udzielania i pozbawiania azylu w Rzeczypospolitej Polskiej
wydaje Minister Spraw Wewnętrznych i Administracji w porozumieniu z 
Ministrem Spraw Zagranicznych.
---------------------------------------------------------------------------------------------


Document 1997_739, Art. 86:
.
Decyzje w sprawach udzielania i pozbawiania azylu w Rzeczypospolitej Polskiej
wydaje Minister Spraw Wewnętrznych i Administracji w porozumieniu z 
Ministrem Spraw Zagranicznych.
---------------------------------------------------------------------------------------------


Document 1997_739, Art. 86:
Decyzje w sprawach udzielania i pozbawiania azylu w Rzeczypospolitej Polskiej
wydaje Minister Spraw Wewnętrznych i Administracji w porozumieniu z 
Ministrem Spraw Zagranicznych.
---------------------------------------------------------------------------------------------


Document 2001_298, Art. 24:
.
1. Osobę zgłaszającą się do podjęcia służby w BOR mianuje się
  funkcjonariuszem w służbie przygotowawczej na okres 3 lat.
2. Po upływie okresu służby przygotowawczej i uzyskaniu pozytywnej
  opinii służbowej funkcjonariusza mianuje się na stałe.
3. W przypadkach uzasadnionych szczególnymi kwalifikacjami
  funkcjonariusza, Szef BOR może skrócić okres służby przygotowawczej
  funkcjonariusza albo zwolnić go od odbywania tej służby.
4. Szef BOR może przedłużyć okres służby przygotowawczej o okres przerwy
  w wykonywaniu przez funkcjonariusza obowiązków służbowych w przypadku
  przerwy trwającej ponad 3 miesiące.
---------------------------------------------------------------------------------------------


Document 2001_298, Art. 120:
1. Za wykroczenia funkcjonariusz ponosi wyłącznie odpowiedzialność
  dyscyplinarną, jeżeli dalsze przepisy nie stanowią inaczej.
2. Organy powołane do orzekania w sprawach o wykroczenia, a także inne
  właściwe organy lub instytucje kierują wnioski o ukaranie
  funkcjonariusza do Szefa BOR.
3. Za wykroczenia, za które stosownie do przepisów Kodeksu postępowania
  w sprawach o wykroczenia lub innych przepisów szczególnych, właściwe
  organy określone w tych przepisach mogą nakładać grzywny w drodze
  mandatu karnego, funkcjonariusze podlegają odpowiedzialności w trybie
  postępowania mandatowego. Kary grzywny w drodze mandatu karnego
  wymierzają funkcjonariuszom te organy.
4. W razie odmowy uiszczenia lub nieuiszczenia w terminie grzywny
  wymierzonej w drodze mandatu karnego organ upoważniony do jej
  nałożenia kieruje wniosek o ukaranie funkcjonariusza do Szefa BOR.
5. Wniosek, o którym mowa w ust 2 i 4, dotyczący Szefa BOR lub jego
  zastępców kierowany 

Document 1997_554, Art. 3:
.
1. Kościół jako całość oraz poszczególne parafie mają osobowość prawną.
2. Inne kościelne jednostki organizacyjne, na wniosek Konsystorza, mogą uzyskać
  osobowość prawną w drodze rozporządzenia Ministra - Szefa Urzędu 
  Rady Ministrów.
---------------------------------------------------------------------------------------------


Document 2003_1939, Art. 140:
Spółdzielnie przejęte wskutek połączenia dokonanego na podstawie dotychczasowych
przepisów, które nie zostały wykreślone z Krajowego Rejestru Sądowego, podlegają
wykreśleniu z urzędu.
---------------------------------------------------------------------------------------------


Document 1997_926, Art. 232:
.
Strona może cofnąć odwołanie przed wydaniem decyzji przez organ odwoławczy.
Organ odwoławczy nie uwzględni jednak cofnięcia odwołania, jeżeli prowadziłoby
to do utrzymania w mocy decyzji wydanej z naruszeniem przepisów 
uzasadniających jej uchylenie lub z innych przyczyn wadliwej.
---------------------------------------------------------------------------------------------


Document 1997_926, Art. 232:
Strona może cofnąć odwołanie przed wydaniem decyzji przez organ odwoławczy.
Organ odwoławczy nie uwzględni jednak cofnięcia odwołania, jeżeli prowadziłoby
to do utrzymania w mocy decyzji wydanej z naruszeniem przepisów 
uzasadniających jej uchylenie lub z innych przyczyn wadliwej.
---------------------------------------------------------------------------------------------


Document 2002_1802, Art. 3:
.
Minister
właściwy do spraw finansów publicznych może określić, w drodze rozporządzenia,
dodatkowe kryteria akredytacyjne, które powinna spełniać agencja płatnicza,
inne niż określone w załączniku nr 1 do rozporządzenia nr 885/2006, mając na
względzie zapewnienie prawidłowego wydatkowania środków pochodzących z EFRG i
EFRROW.
---------------------------------------------------------------------------------------------


Document 2000_489, Art. 21:
1. W przypadku stwierdzenia naruszenia wymagań lub zakresu akredytacji,
  Centrum Akredytacji może ograniczyć zakres akredytacji, zawiesić akredytację
  lub dokonać jej cofnięcia.
2. Ograniczenie zakresu akredytacji następuje, jeżeli jednostka akredytowana
  lub laboratorium akredytowane nie spełnia niektórych wymagań określonych w
  certyfikacie akredytacji, natomiast jest w stanie wykonywać inne czynności
  objęte akredytacją.
3. Zawieszenie akredytacji następuje, jeżeli jednostka akredytowana lub
  laboratorium akredytowane nie jest w stanie okresowo prowadzić działalności
  w zakresie udzielonej akredytacji.
4. Cofnięcie akredytacji następuje w przypadku rażącego naruszenia przez
  jednostkę akredytowaną lub laboratorium akredytowane wymagań określonych w
  certyfikacie akredytacji.
                                       
                                  Rozdział 4
                                   Odwołania
--------------------------------------------

Document 2001_18, Art. 43:
.
1. Źródła promieniowania jonizującego podlegają kontroli, a źródła
  promieniotwórcze podlegają także ewidencji.
2. Obowiązek prowadzenia kontroli źródeł promieniowania jonizującego oraz
  ewidencji stanu i ruchu źródeł promieniotwórczych spoczywa na kierowniku
  jednostki organizacyjnej wykonującej działalność związaną z tymi źródłami.
---------------------------------------------------------------------------------------------


Document 2001_18, Art. 43:
1. Źródła promieniowania jonizującego podlegają kontroli, a źródła
  promieniotwórcze podlegają także ewidencji.
2. Obowiązek prowadzenia kontroli źródeł promieniowania jonizującego oraz
  ewidencji stanu i ruchu źródeł promieniotwórczych spoczywa na kierowniku
  jednostki organizacyjnej wykonującej działalność związaną z tymi źródłami.
---------------------------------------------------------------------------------------------


Document 2001_627, Art. 154:
.
1. Organ ochrony środowiska może ustalić, w drodze decyzji, wymagania w
  zakresie ochrony środowiska dotyczące eksploatacji instalacji, z której
  emisja nie wymaga pozwolenia, o ile jest to uzasadnione koniecznością ochrony
  środowiska.
2. Do decyzji, o której mowa w ust. 1, przepis art. 188 ust. 2 stosuje się
  odpowiednio.
3. Postępowanie w przedmiocie wydania decyzji, o której mowa w ust. 1, wszczyna
  się z urzędu.
---------------------------------------------------------------------------------------------


Document 2001_627, Art. 1:
Ustawa określa zasady ochrony środowiska oraz warunki korzystania z jego
zasobów, z uwzględnieniem wymagań zrównoważonego rozwoju, a w szczególności:
   1) zasady ustalania:
     a) warunków ochrony zasobów środowiska,
     b) warunków wprowadzania substancji lub energii do środowiska,
     c) kosztów korzystania ze środowiska,
   2) udostępnianie informacji o środowisku i jego ochronie,
   3) udział społeczeństwa w postępowaniu w sprawie ochrony środowiska,
   4) obowiązki organów administracji,
   5) odpowiedzialność i sankcje.
---------------------------------------------------------------------------------------------


Document 1997_468, Art. 29:
.
 1. Preparaty zawierające środki odurzające grup I-N, II-N i III-N lub substancje
   psychotropowe grup II-P, III-P i IV-P, które zostały dopuszczone 
   do obrotu jako środki farmaceutyczne na podstawie przepisów, o których 
   mowa w art. 2 pkt 1, może posiadać, w celach medycznych, zakład opieki 
   zdrowotnej nie mający apteki zakładowej, zakład leczniczy dla zwierząt 
   oraz lekarz, lekarz stomatolog lub lekarz weterynarii, prowadzący indywidualną
   praktykę lekarską, oraz inne podmioty.
 2. Minister Zdrowia i Opieki Społecznej określi, w drodze rozporządzenia, 
   rodzaje preparatów i ich ilości, jakie mogą posiadać podmioty, o których 
   mowa w ust. 1 oraz inne podmioty, szczegółowe warunki przechowywania 
   tych preparatów oraz prowadzenia dokumentacji w zakresie ich posiadania
   i stosowania.
---------------------------------------------------------------------------------------------


Document 1997_153, Art. 42:
Minister Zdrowia i Opieki Społecznej po porozumieniu z Radą Krajowego 
Związku Kas oraz po zasięgnięciu opinii Naczelnej Rady Lekarskiej i Naczelnej
Rady Aptekarskiej określa, w drodze rozporządzenia, leki i artykuły medyczne,
które nie mogą być przepisywane na recepcie uprawniającej do nabycia 
leku lub artykułu sanitarnego na zasadach określonych w art. 40 i 41.
---------------------------------------------------------------------------------------------


Document 2004_880, Art. 94:
.
Zadania wojewody w zakresie ochrony przyrody na terenie parku narodowego
wykonuje dyrektor tego parku.
---------------------------------------------------------------------------------------------


Document 2004_880, Art. 94:
Zadania wojewody w zakresie ochrony przyrody na terenie parku narodowego
wykonuje dyrektor tego parku.
---------------------------------------------------------------------------------------------


# Task 7
- Calculating Pr@3 doesn't make a lot of sense, since none of the questions in my dataset have three correct answers... However, we can still use it compare the two methods.
- I'm using the exact formulas from the assignment, so, e.g. if among 3 retrieved documents there are 2 valid documents (one document twice) out of 1, the Rc@3 is getting bigger than 1.0...

In [13]:
# retrieved from questions.jl and relevant.jl. If the question is present more than once, 
# I assume that it has more than one correct answer. 
ground_truth = {
    1345: [('2001_499', '238'), ('1997_604', '39')],
    1346: [('1998_1118', '69')],
    1347: [('1997_769', '30')],
    1348: [('1996_110', '223'), ('2001_18', '14')],
    1349: [('1996_110', '223'), ('2001_18', '14')],
    1350: [('1996_463', '1')],
    1351: [('2001_1207', '20')],
    1352: [('1997_593', '23')],
    1353: [('1997_553', '184')],
    1354: [('2001_1409', '27')],
    1355: [('2001_499', '18')],
    1356: [('1997_739', '86'), ('1997_739', '109')],
    1357: [('1997_739', '86'), ('1997_739', '109')],
    1358: [('2001_298', '126')],
    1359: [('1997_251', '6')],
    1360: [('1997_926', '232')],
    1361: [('2002_1802', '3')],
    1362: [('2001_18', '42')],
    1363: [('2001_627', '154')],
    1364: [('1997_468', '29')],
    1365: [('2004_880', '94')],
}

In [14]:
def calculate_stats(question_id, question, retriever, at=1):
    start = time.time()
    possible_passages = retriever.retrieve(query=question['question'], top_k=at)
    elapsed_time = time.time() - start
    possible_articles = [(p.meta['act_id'], p.meta['art_number']) for p in possible_passages]
    
    n_valid_answers = sum([a in ground_truth[question_id] for a in possible_articles])
    n_all_correct = len(ground_truth[question_id])
    
    pr = n_valid_answers / at
    rc = n_valid_answers / n_all_correct
    return pr, rc, elapsed_time

In [15]:
stats = {}
for q_id, q in list(questions.items()):
    stats[q_id] = []
    for retriever, retriever_name in [(elastic_retriever, 'Elastic'), (faiss_retriever, 'Faiss')]:
        pr1, rc1, t1 = calculate_stats(q_id, q, retriever, 1)
        pr3, rc3, t3 = calculate_stats(q_id, q, retriever, 3)
        stats[q_id] += [round(a, 2) for a in [pr1, rc1, pr3, rc3]] + [round(t1 + t3, 3)]

In [16]:
df = pd.DataFrame.from_dict(stats, orient='index', columns=['Pr@1 Elastic', 'Rc@1 Elastic', 'Pr@3 Elastic', 'Rc@3 Elastic', 'time Elastic', 'Pr@1 Faiss', 'Rc@1 Faiss', 'Pr@3 Faiss', 'Rc@3 Faiss', 'time Faiss'])
df = df.iloc[:, [0, 5, 1, 6, 2, 7, 3, 8, 4, 9]]
df

Unnamed: 0,Pr@1 Elastic,Pr@1 Faiss,Rc@1 Elastic,Rc@1 Faiss,Pr@3 Elastic,Pr@3 Faiss,Rc@3 Elastic,Rc@3 Faiss,time Elastic,time Faiss
1345,0.0,0.0,0.0,0.0,0.33,0.0,0.5,0.0,0.01,0.066
1346,1.0,0.0,1.0,0.0,0.67,0.33,2.0,1.0,0.008,0.066
1347,1.0,1.0,1.0,1.0,0.67,0.33,2.0,1.0,0.007,0.075
1348,1.0,0.0,0.5,0.0,0.67,0.33,1.0,0.5,0.007,0.069
1349,1.0,0.0,0.5,0.0,0.67,0.33,1.0,0.5,0.007,0.065
1350,0.0,1.0,0.0,1.0,0.0,0.33,0.0,1.0,0.006,0.065
1351,1.0,0.0,1.0,0.0,0.67,0.0,2.0,0.0,0.008,0.065
1352,1.0,1.0,1.0,1.0,0.67,0.33,2.0,1.0,0.005,0.065
1353,1.0,0.0,1.0,0.0,0.67,0.0,2.0,0.0,0.007,0.065
1354,1.0,1.0,1.0,1.0,0.67,0.33,2.0,1.0,0.007,0.065


# Task 9
#### Which of the document stores performs better? Take into account the different metrics enumerated in the previous point.
ElasticSearch document store is better considering the metrics.

#### Which of the document stores is faster?
Elastic is faster in processing documents and answering questions.

#### Try to determine the other pros and cons of using sparse and dense document retrieval models.
- Elastic (sparse) is often returning two same answers (that's why its Rc@3 is often 2.0)
- The advantage of dense models is the fact that they can be easily adjusted for a specific dataset.