# e-magyar elemzés

---

(2021. 04. 16.)

Mittelholcz Iván

## 1. Az e-magyar használata

Az elemzendő szöveg:

In [None]:
!cat orkeny.txt

Az e-magyar legfrissebb verziójának letöltése:

In [None]:
!docker pull mtaril/emtsv:latest

Az *orkeny.txt* elemzése, az eredmény kiírása az *orkény.tsv* fájlba:

In [None]:
!docker run --rm -i mtaril/emtsv:latest tok,morph,pos,ner,conv-morph,dep <orkeny.txt >orkeny.tsv

Magyarázatok:

- `!docker run --rm -i mtaril/emtsv:latest`: Az *e-magyar* futtatása
- `tok,morph,pos,ner`: a használt modulok felsorolása
    - `tok`: tokenizálás
    - `morph`: morfológiai elemzés
    - `pos`: szófaji egyértelműsítés
    - `ner`: névelem felismerés
- `<orkeny.txt`: Az elemzendő szöveg beolvasása az *orkeny.txt* fájlból.
- `>orkeny.tsv`: Az elemzés kiírása az *orkeny.tsv* fájlba.

## 2. Az elemzés beolvasása *pandas DataFrame*-be

In [None]:
import pandas as pd

df = pd.read_csv('orkeny.tsv', sep='\t', dtype=str, keep_default_na=False)
df.head(50)

Oszlopok:

- *form*: A tokenizáló modul (*tok*) kimenete. A szövegben található tokeneket (szóalakokat, írásjeleket) tartalmazza.
- *wsafter*: Szintén a tokenizáló kimenete. A tokenek után található *whitespace* karaktereket tartalmazza.
- *anas*: A morfológiai elemző kimenete (*morph*). Szögletes zárójelpáron belül tartalmazza a lehetséges morfológiai elemzések listáját. Használt morfológiai kódok leírása [itt](https://e-magyar.hu/hu/textmodules/emmorph_codelist).
- *lemma*: A szófaji egyértelműsítő kimenete (*pos*). A legvalószínűbb morfológiai elemzéshez tartozó lemmát tartalmazza. 
- *xpostag*: Szintén a szófaji egyértelműsítő kimenete (*pos*). A legvalószínűbb morfológiai elemzést tartalmazza. 
- *NER-BIO*: A tulajdonnév felismerő modul kimenete (*ner*). Leírása [itt](https://e-magyar.hu/hu/textmodules/emner).

## 3. Elemzesek


### 3.1. Felhasználási esetek

#### Feladatok, amikhez egyszerre elég egy sort (*row*) figyelembe venni

- Szűrni bizonyos pos-tagekre, pl. keressük a múltidejű igéket.
- Adott lemmahalmaz múltidejű előfordulásai.
- Több morfológiai jegy figyelembevétele: pl. adott lemmahalmaz múltidejű előfordulásai egyeszám elsőszemélyben ill. többesszám elsőszemélyben.

A végén számolni kéne ezeket: az összes tokenszámhoz, vagy szószámhoz, vagy az összes igéhez képest milyen arányban fordulnak elő ezek az alakok.

#### Feladatok, amikhez több sort kell figyelembe venni

- Van-e személyes névmás az ige mellett? Pl. "éldegéltem" vs. "én éldegéltem".
- Főnévnek van-e jelzője?
- Igének van-e határozószava?
- Tagmondat szintű elemzés: keressük azon tagmondatokat, amikben van kötőszó, de nincs múltidejű igealak.

Ezeket megint arányítani kell: az összes főnévből mennyinek van jelzője, az összes igéből mennyinek van határozója.

#### Feladatok, amikhez az eredeti szöveget kell módosítani

- Potenciálisan többszavas kifejezések keresése ([emterm](https://github.com/dlt-rilmta/emterm)!).
- Szövegbe visszaírni elemzések eredményét XML-szerűen, pl. <érzelmi_kifejezés>...</érzelmi_kifejezés>

### 3.2. Egy soros feladatok megoldása

In [None]:
# multideju igek aranya

def is_not_punct(row):
    pos = row['xpostag']
    return not pos.startswith('[Punct]')

def is_verb(row):
    pos = row['xpostag']
    return pos.startswith('[/V]')

def is_past_verb(row):
    pos = row['xpostag']
    return pos.startswith('[/V][Pst.')

mask0 = df.apply(is_not_punct, axis=1)
mask1 = df.apply(is_verb, axis=1)
mask2 = df.apply(is_past_verb, axis=1)

count_word = len(df[mask0])
count_verb = len(df[mask1])
count_past_verb = len(df[mask2])

print('multideju igek / osszes token: ', count_past_verb/len(df))
print('multideju igek / osszes szo: ', count_past_verb/count_word)
print('multideju igek / osszes ige: ', count_past_verb/count_verb)
df[mask1]

In [None]:
# egyesszam 3. szemelyu igek

def is_3sg_verb(row):
    pos = row['xpostag']
    return pos.startswith('[/V]') and '3Sg' in pos

mask3 = df.apply(is_3sg_verb, axis=1)

count_3sg_verb = len(df[mask3])

print('3sg igek / osszes token: ', count_3sg_verb/len(df))
print('3sg igek / osszes szo: ', count_3sg_verb/count_word)
print('3sg igek / osszes ige: ', count_3sg_verb/count_verb)
df[mask3]

In [None]:
# adott lemmahalmaz keresése

def is_lemma_in_set(row):
    lemma = row['lemma']
    lemmaset = {'iszik', 'van'}
    return lemma in lemmaset

mask4 = df.apply(is_lemma_in_set, axis=1)

count_lemmaset = len(df[mask4])

print('halmazban levo igek / osszes token: ', count_lemmaset/len(df))
print('halmazban levo igek / osszes szo: ', count_lemmaset/count_word)
print('halmazban levo igek / osszes ige: ', count_lemmaset/count_verb)

df[mask4]

### 3.3. Több soros feladatok megoldása

Egy *DataFrame* sorain az [`.iterrows()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iterrows.html) metódust használva iterálhatunk. A metódus minden sort egy *tuple*-ként ad vissza, aminek az első eleme az *index* (sorszám), a második a sor maga, mint [*Series*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series).

In [None]:
# Van-e névelő a főnév előtt?

def is_noun(row):
    return row['xpostag'].startswith('[/N')

mask5 = df.apply(is_noun, axis=1)

mask6 = []
is_prev_article = False
for index, row in df.iterrows():
    is_noun = row['xpostag'].startswith('[/N')
    mask6.append(is_noun and is_prev_article)
    is_prev_article = row['xpostag'] in {'[/Det|Art.Def]', '[/Det|Art.NDef]'}

print('névelős főnév / összes főnév: ', len(df[mask6])/len(df[mask5]))
    
#df['noun_with_article'] = mask5
#df.head(50)
df[mask5]

### 3.4. Elemzés visszaírása az eredeti szövegbe

In [None]:
# eredeti szöveg kiírása
text = []
for index, row in df.iterrows():
    text.append(row['form'] + row['wsafter'])
text = ''.join(text)
text = text.replace('\\n', '\n')
print(text)

In [None]:
# NER-BIO oszlop xml-esítése
text = []
for index, row in df.iterrows():
    form = row['form']
    ws = row['wsafter']
    ner = row['NER-BIO']
    if ner.startswith('B'):
        # named entity kezdodik, xml tag-et nyitunk:
        form = f'<{ner[2:]}>{form}'
    elif ner.startswith('E'):
        # named entity vegzodik, xml tag-et zarunk:
        form = f'{form}</{ner[2:]}>'
    elif ner.startswith('1'):
        # egy elemu named entity, xml tag-ebe tesszuk:
        form = f'<{ner[2:]}>{form}</{ner[2:]}>'
    text.append(form+ws)
text = ''.join(text)
text = text.replace('\\n', '\n')
print(text)
