In [1]:
import requests
from elasticsearch import Elasticsearch
import os

In [2]:
es = Elasticsearch()

In [5]:
es.indices.create(
    index='es_pl_bills',
    body={
      'settings': {
        'analysis': {
            'analyzer': {
                'default': {
                    'type': 'custom',
                    'tokenizer': 'standard',
                    'filter': ['my_synonyms', 'lowercase', 'morfologik_stem']
                }
            },
            'filter': {
                'my_synonyms': {
                    'type': 'synonym',
                    'synonyms':[
                        'kpk, kodeks postępowania karnego',
                        'kpc, kodeks postępowania cywilnego',
                        'kk, kodeks karny',
                        'kc, kodeks cywilny'
                    ]
                }
            }
        }
    }
})

{'acknowledged': True, 'shards_acknowledged': True, 'index': 'es_pl_bills'}

In [4]:
#es.indices.delete(index="es_pl_bills")

{'acknowledged': True}

In [6]:
file_names = []

for file in os.listdir("../../ustawy"):
    if file.endswith(".txt"):
        file_names.append(os.path.join("../../ustawy", file))

In [7]:
for file_name in file_names:
    with open(file_name) as file:
        bill = {
            "filename": file_name[10:],
            "content": file.read()
        }
        es.index(index="es_pl_bills", body=bill)

Determine the number of legislative acts containing the word ustawa (in any form)

In [8]:
ustawa_rep = es.search(index="es_pl_bills", body={"query": {"match": {"content": "ustawa"}}})
ustawa_rep['hits']['total']

{'value': 1179, 'relation': 'eq'}

Determine the number of legislative acts containing the words kodeks postępowania cywilnego in the specified order, but in an any inflection form.

In [15]:
kodeks_rep = es.search(index="es_pl_bills", body={"query": {"match_phrase": {"content": "kodeks postępowania cywilnego"}}})
kodeks_rep['hits']['total']

{'value': 100, 'relation': 'eq'}

Determine the number of legislative acts containing the words wchodzi w życie (in any form) allowing for up to 2 additional words in the searched phrase.

In [17]:
wchodzi_rep = es.search(index="es_pl_bills", body={"query": {"match_phrase": {"content": {"query": "wchodzi w życie", "slop": 2}}}})
wchodzi_rep['hits']['total']

{'value': 1175, 'relation': 'eq'}

Determine the 10 documents that are the most relevant for the phrase konstytucja.

In [22]:
konst_rep = es.search(index="es_pl_bills", body={"query": {"match": {"content": "konstytucja"}}})
for rep in konst_rep['hits']['hits'][:10]:
    print(rep['_source']['filename'], rep['_score'])

wy/1997_629.txt 6.8715763
wy/2000_443.txt 6.667747
wy/1997_604.txt 6.637779
wy/1996_350.txt 6.631979
wy/1997_642.txt 6.256356
wy/2001_23.txt 6.0651193
wy/1996_199.txt 5.9354324
wy/1999_688.txt 5.8562775
wy/2001_1082.txt 5.4733624
wy/1997_681.txt 5.4733624


Print the excerpts containing the word konstytucja (up to three excerpts per document) from the previous task.

In [33]:
query_konst = {
    'query': {
        'match': {
            'content': {
                'query': 'konstytucja'
            }
        }
    },
    'size': 10,
    '_source': [ 'filename' ],
    'highlight': {
        'number_of_fragments': 3,
        'fragment_size': 100,
        'fields': {
            'content': {} 
        }
    }
}

results = es.search(index="es_pl_bills", body=query_konst)
for result in results['hits']['hits']:
    print(result['_source']['filename'])
    for cont in result['highlight']['content']:
        print(cont)
    print('\n')

wy/1997_629.txt
o zmianie ustawy konstytucyjnej o trybie przygotowania
           i uchwalenia <em>Konstytucji</em> Rzeczypospolitej
W ustawie  konstytucyjnej z  dnia 23 kwietnia 1992 r. o trybie przygotowania i 
uchwalenia <em>Konstytucji</em>
Do zgłoszenia projektu <em>Konstytucji</em> załącza się wykaz 
                obywateli popierających zgłoszenie


wy/2000_443.txt
umowy międzynarodowej i nie wypełnia przesłanek określonych w art. 89
     ust. 1 lub art. 90 <em>Konstytucji</em>
międzynarodowej lub załącznika nie
     wypełnia przesłanek określonych w art. 89 ust. 1 lub art. 90 <em>Konstytucji</em>
co do zasadności wyboru
  trybu ratyfikacji umowy międzynarodowej, o którym mowa w art. 89 ust. 2
  <em>Konstytucji</em>


wy/1997_604.txt
Jeżeli Trybunał Konstytucyjny wyda orzeczenie o sprzeczności celów partii 
   politycznej z <em>Konstytucją</em>
Jeżeli Trybunał Konstytucyjny wyda orzeczenie o sprzeczności z <em>Konstytucją</em>
   celów lub działalności
Ciężar udowodnienia niez