# e-magyar elemzés

---

(2021. 04. 16.)

Mittelholcz Iván

## 1. Az e-magyar használata

Az elemzendő szöveg:

In [None]:
!cat orkeny.txt

Az e-magyar legfrissebb verziójának letöltése:

In [None]:
!docker pull mtaril/emtsv:latest

Az *orkeny.txt* elemzése, az eredmény kiírása az *orkény.tsv* fájlba:

In [None]:
!docker run --rm -i mtaril/emtsv:latest tok,morph,pos,ner <orkeny.txt >orkeny.tsv

Magyarázatok:

- `!docker run --rm -i mtaril/emtsv:latest`: Az *e-magyar* futtatása
- `tok,morph,pos,ner`: a használt modulok felsorolása
    - `tok`: tokenizálás
    - `morph`: morfológiai elemzés
    - `pos`: szófaji egyértelműsítés
    - `ner`: névelem felismerés
- `<orkeny.txt`: Az elemzendő szöveg beolvasása az *orkeny.txt* fájlból.
- `>orkeny.tsv`: Az elemzés kiírása az *orkeny.tsv* fájlba.

## 2. Az elemzés beolvasása *pandas DataFrame*-be

In [None]:
import pandas as pd

df = pd.read_csv('orkeny.tsv', sep='\t')
df

Oszlopok:

- *form*: A tokenizáló modul (*tok*) kimenete. A szövegben található tokeneket (szóalakokat, írásjeleket) tartalmazza.
- *wsafter*: Szintén a tokenizáló kimenete. A tokenek után található *whitespace* karaktereket tartalmazza.
- *anas*: A morfológiai elemző kimenete (*morph*). Szögletes zárójelpáron belül tartalmazza a lehetséges morfológiai elemzések listáját. Használt morfológiai kódok leírása [itt](https://e-magyar.hu/hu/textmodules/emmorph_codelist).
- *lemma*: A szófaji egyértelműsítő kimenete (*pos*). A legvalószínűbb morfológiai elemzéshez tartozó lemmát tartalmazza. 
- *xpostag*: Szintén a szófaji egyértelműsítő kimenete (*pos*). A legvalószínűbb morfológiai elemzést tartalmazza. 
- *NER-BIO*: A tulajdonnév felismerő modul kimenete (*ner*). Leírása [itt](https://e-magyar.hu/hu/textmodules/emner).

## 3. Elemzesek


### Felhasználási esetek

- szűrni bizonyos pos-tagekre, pl. keressük a múltidejű igéket
- adott lemmahalmaz múltidejű előfordulásai
- több morfológiai jegy figyelembevétele: pl adott lemmahalmaz múltidejű előfordulásai egyeszám elsőszemélyben ill. többesszám elsőszemélyben
- a végén számolni kéne ezeket: az összes tokenszámhoz vagy az összes igéhez képest milyen arányban fordulnak elő ezek az alakok
- van-e személyen névmás az ige mellett? "éldegéltem" vs. "én éldegéltem"
- főnévnek van-e mellékneve
- igének van-e határozószava
- ezeket megint arányítani kell: az összes fn-ből mennyinek van jelzője, az összes igéből mennyinek van határozója
- potenciálisan többszavas kifejezések keresése (emterm!)
- Szövegbe visszaírni elemzések eredményét, pl. <érzelmi kifejezés>
- Tagmondat szintű elemzés: keressük azon tagmondatokat, amikben van kötőszó, de nincs múltidejű igealak.

In [None]:
# multideju igek aranya

def is_not_punct(row):
    pos = row['xpostag']
    return not pos.startswith('[Punct]')

def is_verb(row):
    pos = row['xpostag']
    return pos.startswith('[/V]')

def is_past_verb(row):
    pos = row['xpostag']
    return pos.startswith('[/V][Pst.')

mask0 = df.apply(is_not_punct, axis=1)
mask1 = df.apply(is_verb, axis=1)
mask2 = df.apply(is_past_verb, axis=1)

count_word = len(df[mask0])
count_verb = len(df[mask1])
count_past_verb = len(df[mask2])

print('multideju igek / osszes token: ', count_past_verb/len(df))
print('multideju igek / osszes szo: ', count_past_verb/count_word)
print('multideju igek / osszes ige: ', count_past_verb/count_verb)
df[mask2]

In [None]:
# egyesszam 3. szemelyu igek

def is_3sg_verb(row):
    pos = str(row['xpostag'])
    return pos.startswith('[/V]') and '3Sg' in pos

mask3 = df.apply(is_3sg_verb, axis=1)

count_3sg_verb = len(df[mask3])

print('3sg igek / osszes token: ', count_3sg_verb/len(df))
print('3sg igek / osszes szo: ', count_3sg_verb/count_word)
print('3sg igek / osszes ige: ', count_3sg_verb/count_verb)
df[mask3]