## Kohasõnade verbi kaupa otsimine

Siin notebookis otsitakse [koondkorpuse põhjal loodud andmebaasifailist](https://github.com/estnltk/syntax_experiments/tree/verb_templates/verb_transactions/v33) verbide kohakäänetes obliikvalisi alluvaid ja pannakse need koos oma esinemissagedusega tabelisse. Hüpotees on, et kuna metafoorsed väljendid on tihti verbispetsiifilised, siis kui vaadata mitme verbi alluvate ühisosa kukuvad metafoorsed alluvad välja. Siin kirjutatud koodi tulemusel saaks edaspidi kohakäändes sõnu kasutusjuhtude ja -sageduse alusel grupeerida, et neist välja visata sõnad, mis pole füüsilised kohad. 

Kohakäändes alluvate seast filtreeritakse koodis välja [Ekilexi andmebaasist](https://ekilex.ee/) saadud väljendverbide osised (nt *ummikusse jooksma* kohakäändes osis *ummikusse*), ja [Heiki-Jaan Kaalepi koostatud andmestiku](http://kodu.ut.ee/~hkaalep/kertule/kogutöö.zip) põhjal leitud sagedased ajasõnad. Nende kogumist vaata failist *timetest_v01.ipynb*. Tabelis on ka iga alluva konkreetsuse mõõdik, mis on saadud [Eleri Aedmaa doktoritöö raames koostatud andmestikust](https://github.com/eleriaedmaa/compositionality/tree/master/datasets/abstractness_ET). 

### Tulemused

Koodi tulemusena sain csv-faili, kus on kokku 6 verbi 19865 kohakäändes obliikvat koos nende konkreetsushinnanguga. Kui vaadata neid obliikvaid, mis esinesid vähemalt korra kõigi kuue verbiga, on tulemuseks 101 sõna, mis on: 
* tavaliselt üpris ilusad konkreetsed kohasõnad nagu kohvik, köök, stuudio, maja, saal, magamistuba, Tallinn jne. 
* natuke abstraktsemad kohtad, nt erinevad sõidukid (*istub rongis, autos*), *laud* (*istume lauda*), *vesi* (*astub vette*), *politsei* (*jookseb politseisse*), *taust* (*programm jookseb taustal*), *jutt* (*käib psühholoogi jutul*) jne 
* Mingid üldlevinud kohakäändes väljendid, nt *sõna* (*jookseb oma sõnul kiiresti*), *käsk* (*istus ülemuse käsul toolile*), *lootus* (*jooksis lootuses armsamale järele jõuda*), *riie* (*käib eksentriliselt riides*), erinevad isikud nagu *mees*, *naine*, *inimene* (*käib naisel külas*)


### Edasine töö
Saadud tulemusi kasutatakse kohakäändes obliikvate märgendamiseks ilusateks konkreetseteks kohtadeks, abstraktsemateks kohtadeks ja muuks. Selle peal rakendatakse sõnade grupeerimiseks Naive Bayesi mudelit, et leida, mis verbidega mis tüüpi kohakäändes sõnad kui sagedasti esinevad.

In [19]:
#impordid
import pandas as pd
from pandas import *
import sqlite3
import numpy as np
import csv
from collections import Counter

# andmebaasi failinimi, kust andmeid loetake
filename = "C:\\Users\\kertu.saul\\OneDrive - Eesti Keele Instituut\\Dokumendid\\doktoritoo\\ressurssid\\rektsioonid\\katrin\\andmebaasifailid\\v33_koondkorpus_transaktsioonid.db"

# andmebaasiga ühenduse loomine
conn = sqlite3.connect(filename)
cursor = conn.cursor()

In [1]:
#leiab kõik verbiga moodustuvad väljendverbide osad, et need pärast andmebaasipäringus kohakäändes obliikvate seast välja võtta
def valjendverbid(verb):
    #väljendverbide sisse lugemine
    valjendverb_file = "C:\\Users\\kertu.saul\\OneDrive - Eesti Keele Instituut\\Dokumendid\\doktoritoo\\fyysilised_kohad\\valjendverbid.csv"
    valjendverb_df = read_csv(valjendverb_file)
    valjendverbid = valjendverb_df['value'].tolist()
    #hetkel üks string, tükeldame tühiku pealt osadeks
    valjend_tykeldatud = []
    for valjendverb in valjendverbid:
        valjend_tykeldatud.append(valjendverb.split())
    #leiame väljendverbi osad, mille ülemus on etteantud verb
    #pärast võtame need võimalikest kohasõnadest välja
    verbivaljend = set()
    for valjend in valjend_tykeldatud:
        if valjend[-1] == verb:
            for osa in valjend[:-1]:
                verbivaljend.add(osa)
    valjend_tuple = tuple(verbivaljend)
    return valjend_tuple

In [21]:
#tabelist transaction_head verbi järgi id-de välja võtmine, et pärast verbi alluvaid otsida. Tagastab verbi id-de tuplei
def verb_id(verb, yhend=''):
    query = ("SELECT id FROM transaction_head WHERE verb == '" + verb + "' and verb_compound == '" + yhend + "'")
    cursor.execute(query)
    verb_id = list(cursor.fetchall())
    verb_id_int = tuple(row[0] for row in verb_id) #teeme id-d integerideks (enne kahtlased tupleid (15, ))
    return verb_id_int

In [22]:
#otsib verbi id-de järgi selle obliikvalisi kohakäändes alluvaid, tagastab listina
def possible_kohad(ided, valjendid, ajad):
    query = (f"SELECT lemma FROM `transaction_row` WHERE head_id IN ({','.join('?' for _ in ided)}) "
             f"AND form NOT IN ({','.join('?' for _ in valjendid)}) AND lemma NOT IN ({','.join('?' for _ in ajad)}) AND deprel = 'obl' "
             f"AND (feats LIKE ? OR feats LIKE ? OR feats LIKE ? OR feats LIKE ? OR feats LIKE ? OR feats LIKE ? OR feats LIKE ?) ")
    cursor.execute(query, ided + valjendid + ajad + ('%adit%', '%ill%', '%in%', '%el%', '%all%', '%ad%', '%abl%'))
    kohad = list(cursor.fetchall())
    kohad_str = list(row[0] for row in kohad)
    return kohad_str

In [2]:
#Leiab possible_kohad funktsioonist leitud obliikvaliste kohakäändes alluvate sagedused ühe verbi lõikes
#tagastab listi kahest listist: esimene list on verbiga esinenud unikaalsed obliikvad ja teine nende sagedus
def sagedus(kohasonad):
    #leiame sõnade sagedused
    sagedused = Counter(kohasonad)
    #filtreerime highest -> lowest
    filt_sagedus = sorted(sagedused.items(), key=lambda x: x[1], reverse=True)
    #paneme sageduse ja sõnad eraldi listidesse
    uniq_sonad = [sona for sona, sagedus in filt_sagedus]
    liht_sagedus = [sagedus for sona, sagedus in filt_sagedus]
    #muudame lihtsageduse suhteliseks sageduseks et neid verbide väärtusi oleks parem võrrelda
    #kokku_sagedus = len(kohasonad)
    #suht_sagedus = []
    #for s in liht_sagedus:
        #suht = s/kokku_sagedus*100
        #suht_sagedus.append(suht)
    return [uniq_sonad, liht_sagedus]

In [24]:
#paneb funktsioonist sagedus saadud info tabeliks, kus veerg on verb, rida on selle obliikvast alluv ja väärtus on obliikva sagedus selle verbiga
def tabeliks(verb):
    #saame verbi id-d
    verbi_id = verb_id(verb)
    #saame verbi moodustavate väljendverbide osad
    valjendid = valjendverbid(verb)
    #võtame failist ajamäärused, et need kohtadest eemaldada
    ajad = []
    with open('ajalemmad_sage.txt', 'r') as f:
        for line in f:
            line = line.replace('\n', '')
            ajad.append(line) 
    ajad_tup = tuple(ajad)
    #saame id-de kaudu verbi obliikvalised kohakäändes alluvad, mis pole väljendverbi osad
    kohad = possible_kohad(verbi_id, valjendid, ajad_tup)
    #saame sagedused
    sonad_sagedus = sagedus(kohad)
    #teeme tabeliks
    df = pd.DataFrame({verb: sonad_sagedus[1]}, index=sonad_sagedus[0])
    return df

In [25]:
#leiame eri verbide võimalikud kohasõnad ja paneme üheks tabeliks kokku. Verbe võib vabalt muuta/lisada/vähendada
alg_df = tabeliks('jooksma')
verbid = ['kõndima', 'tõttama', 'istuma', 'käima', 'astuma']

for verb in verbid:
    verb_df = tabeliks(verb)
    alg_df = pd.concat([alg_df, verb_df], axis=1)

In [26]:
#lisame tabelile konkreetsuse mõõdiku veeru, andmed eleri aedmaa doktoritööst
#mida kõrgem väärtus, seda konkreetsem sõna, skaala 0-10
konkreetsus_file = "C:\\Users\\kertu.saul\\OneDrive - Eesti Keele Instituut\\Dokumendid\\doktoritoo\\ressurssid\\abstraktsus\\eleri\\abstractness_ET.csv"
konkreetsus_df = read_csv(konkreetsus_file, sep='\t')
konkreetsus_df.loc[166229, 'WORD'] = 'null' #see oligi algses andmestikus null, aga sisselugemise tulemusel muutus 'nan'-iks
konkreetsus_df.set_index('WORD', inplace=True)
konkreetsus_df.rename(columns={"Rating": "konkreetsus"}, inplace=True)
lopp_df = alg_df.merge(konkreetsus_df, how='left', left_index=True, right_index=True)
lopp_df

Unnamed: 0,jooksma,kõndima,tõttama,istuma,käima,astuma,konkreetsus
m,306.0,1.0,,1.0,9.0,1.0,5.873
plats,217.0,12.0,8.0,26.0,276.0,89.0,5.599
väljak,197.0,5.0,6.0,10.0,180.0,60.0,6.366
sõidutee,160.0,48.0,2.0,3.0,3.0,113.0,7.992
kino,152.0,1.0,,21.0,410.0,1.0,7.935
...,...,...,...,...,...,...,...
gghghbb,,,,,,1.0,
kele,,,,,,1.0,4.672
kodar,,,,,,1.0,6.338
koletate,,,,,,1.0,


In [27]:
#salvestame csv faili 
lopp_df.to_csv('kohasonad_test_aegadeta.csv')

### Väike boonus: mis potentsiaalsed ajasõnad reaalselt andmestikust välja filtreeriti. 
Selle jaoks võrdlen koodi vana, ilma ajasõnade filtreerimiseta versiooni tekitatud csv-faili *kohasonad_test.csv* ja koodi uue versiooni tekitatud faili *kohasonad_test_aegadeta.csv*.

In [39]:
#näita, mis 'ajasõnad' reaalselt välja filteeriti
koht1_f = "C:\\Users\\kertu.saul\\OneDrive - Eesti Keele Instituut\\Dokumendid\\doktoritoo\\fyysilised_kohad\\kohasonad_test.csv"
koht1_df = read_csv(koht1_f)
koht1 = koht1_df['Unnamed: 0'].tolist()
koht2 = lopp_df.index.values.tolist()
for sona in koht1:
    if sona not in koht2:
        print(sona)

mina
aasta
tema
aeg
teine
päev
hommik
mis
õhtu
hetk
võistlus
algus
nädal
suvi
maa
lõpp
see
pool
laupäev
mäng
juuni
pühapäev
ise
kool
reede
sügis
kord
teisipäev
finaal
töö
august
hooaeg
minut
MM
september
nädalavahetus
kolmapäev
kohtumine
olümpia
talv
klass
vaheaeg
esmaspäev
juuli
neljapäev
kevad
tali
november
kevade
öö
jaanuar
kuu
olümpiamängud
etapp
oktoober
pärastlõuna
märts
teade
aprill
detsember
veebruar
poolaeg
mai
üks
tänapäev
õhtupoolik
paik
võit
eilne
laps
vahetus
elu
tund
kontsert
rünnak
saade
varahommik
viimane
vahetund
operatsioon
matš
juhtimine
esinemine
intervjuu
torm
tulevik
puudumine
sündmus
sünnipäev
kellaaeg
nüüdne
jõululaupäev
lähitulevik
olek
tegemine
kell
puhkus
periood
jõulud
esimene
nädalalõpp
avapäev
maikuu
eluaasta
üritus
lähipäev
keskpaik
nõudmine
sekund
aastavahetus
valgus
keskaeg
valitsus
katse
keskpäev
kaasaeg
kuupäev
nan
a
kampaania
puhkepäev
ajavahemik
varakevad
kriis
minevik
moment
visiit
tutvustamine
80.
start
jaanuarikuu
homne
kasutamine
kolm
hüpe
etend