# Using [`python-korp`](https://github.com/mikahama/python-korp)

Import and instantiate the `Korp` class:

In [15]:
from korp.korp import Korp # funny import
korp = Korp(service_name='språkbanken')

Select relevant corpora:

In [16]:
corpora = korp.list_corpora("SUC") # all corpora whose name starts with "SUC"
print(corpora)

['SUC2', 'SUC3']


Define a query using the [CQP language](https://cwb.sourceforge.io/files/CQP_Tutorial.pdf):

In [17]:
query = '[pos = "AB"]' 

Run the query and get the first 10 matching sentences or _concordances_:

In [18]:
params = {
    "default_context": "1 sentence", # to get full sentences as results
    "show": ["ref", "word", "pos", "dephead"] # listing the information we are interested in
    }

(_, concordances) = korp.concordance(query, corpora, start=0, end=9, additional_parameters=params)

print(len(concordances), "concordances")

10 concordances


Note that, by default, `.concordance()` returns 1000 concordances.

A concordance is a nested dictionary with tree keys `corpus`, `match` (the portion of the sentence matching the query) and `tokens` (the list of tokens that make up the sentence):

In [19]:
concordances[0]

{'corpus': 'SUC2',
 'match': {'position': 13, 'start': 13, 'end': 14},
 'tokens': [{'word': 'Genom', 'pos': 'PP', 'ref': '01', 'dephead': '06'},
  {'word': 'förvärv', 'pos': 'NN', 'ref': '02', 'dephead': '01'},
  {'word': 'under', 'pos': 'PP', 'ref': '03', 'dephead': '02'},
  {'word': 'perioden', 'pos': 'NN', 'ref': '04', 'dephead': '05'},
  {'word': 'juni', 'pos': 'NN', 'ref': '05', 'dephead': '03'},
  {'word': '-', 'pos': 'MID', 'ref': '06', 'dephead': '08'},
  {'word': 'september', 'pos': 'NN', 'ref': '07', 'dephead': '06'},
  {'word': 'ökade', 'pos': 'VB', 'ref': '08', 'dephead': None},
  {'word': 'aktieinnehavet', 'pos': 'NN', 'ref': '09', 'dephead': '08'},
  {'word': 'i', 'pos': 'PP', 'ref': '10', 'dephead': '08'},
  {'word': 'Gota', 'pos': 'PM', 'ref': '11', 'dephead': '10'},
  {'word': 'AB', 'pos': 'PM', 'ref': '12', 'dephead': '11'},
  {'word': 'till', 'pos': 'PP', 'ref': '13', 'dephead': '08'},
  {'word': 'totalt', 'pos': 'AB', 'ref': '14', 'dephead': '15'},
  {'word': '98', 

Print all 10 retrieved sentences, highlighting the matches:

In [20]:
from IPython.display import display, Markdown

for concordance in concordances: 
    match = concordance["match"]
    (start,end) = (match["start"],match["end"])
    
    words = []
    for token in concordance["tokens"]:
        if int(token["ref"]) in range(start + 1,end + 1):
            words.append("**{}**".format(token["word"])) 
        else:
            words.append(token["word"])
    display(Markdown("- " + " ".join(words)))

- Genom förvärv under perioden juni - september ökade aktieinnehavet i Gota AB till **totalt** 98 procent .

- Home Insurance är bland de tio största bolagen i USA inom sina marknadsområden , **dvs** egendoms- och ansvarsförsäkring för stora och komplexa risker .

- Målgruppen är större kunder , **ofta** med behov som kräver individuell premiesättning , komplexa och i många fall internationella försäkringslösningar .

- Fastighetsmarknaden fortsatte **nedåt** och även utvecklingen på obligations- och aktiemarknaderna var svag , varför övrig kapitalavkastning minskade till 133 ( 284 ) miljoner kronor .

- Fastighetsmarknaden fortsatte nedåt och **även** utvecklingen på obligations- och aktiemarknaderna var svag , varför övrig kapitalavkastning minskade till 133 ( 284 ) miljoner kronor .

- Premieinkomsterna uppgick **brutto** till 2424 ( 2398 ) miljoner dollar motsvarande 17089 ( 13303 ) miljoner kronor , trots beslutet 1991 att upphöra med all nyteckning för personförsäkring .

- Kapitalavkastningen kan **kortsiktigt** svänga kraftigt och bör därför betraktas i ett långsiktigt perspektiv .

- Kapitalavkastningen kan kortsiktigt svänga **kraftigt** och bör därför betraktas i ett långsiktigt perspektiv .

- Kapitalavkastningen kan kortsiktigt svänga kraftigt och bör **därför** betraktas i ett långsiktigt perspektiv .

- Minskningen jämfört med föregående år beror i huvudsak på att storföretagen i **allt** högre utsträckning ökar sin självrisk .