# TSV Transformer

*e-magyar*-ral elemzett fájlok átalakítása NOOJ kompatibilis formára.

Formátum:
- *Egy sor = egy szó*, elemzéssel együtt, egybe írva
- Az *e-magyar* üres sorai (a mondathatárok) megőrződnek.
- Az *e-magyar* elemzéseiből megőrződnek a következők:
    - tokenizákló (*form* oszlop)
    - szófaji egyértelműsítő (*lemma* és *xpostag* oszlopok)
    - ~a függőségi elemző (*id*, *deprel* és *head* oszlopok)~
        - TODO: A függőségi elemzés további egyeztetésig kikommentezve!
- Az elemzésekből a következő karakterek törlésre kerülnek: `/ | [ ] . ( ) * _`
- Az `1`, a `2` és a `3` rendre `E`, `K` és `H`-ra cserélve.

Használat:
- Az 1. pont (*Input és output*) alatt ítjuk át a fájlneveket (és elérési utakat) a megfelelőre.
- Futtassuk az 1-2-3 pontok alatti kódblokkokat.

## 1. Input és output

Itt lehet megadni a bemeneti fájlt, és az átalakított fájl nevét.

In [None]:
# az emagyarral elemzett fájl
input_ = 'orkeny.tsv'

# a nooj-kompatibilisre átalakított fájl
output = 'nooj_orkeny.tsv'

## 2. Átalakítás

Az átalakítást végző függvény és a hozzá tartozó "táblázat" (l. [`str.maketrans()`](https://docs.python.org/3/library/stdtypes.html#str.maketrans)), ami a karaktercseréket tárolja.

In [None]:
# karaktercserék
table = str.maketrans({
    '1': 'E',
    '2': 'K',
    '3': 'H',
    '/': '',
    '|': '',
    '[': '',
    ']': '',
    '.': '',
    '(': '',
    ')': '',
    '*': '',
    '_': '',
})


# átalakító függvény
def transform(row):
    form = 'W' + row['form']
    lemma = 'L' + row['lemma']
    pos = 'P' + row['xpostag']
    # dependencia elemzés egyelőre kikommentelve:
    # dep = 'D' + row['id'] + row['deprel'] + row['head']
    res = form + lemma + pos #+ dep
    res = res.translate(table)
    # üres sorok (mondatharárok) kezelése:
    if not any(row):
        res = ''
    return res


## 3. Beolvasás, kiírás

In [None]:
# input / output

import pandas as pd


df = pd.read_csv(input_, sep='\t', dtype=str, keep_default_na=False, skip_blank_lines=False)

with open(output, 'w') as out:
    df.apply(transform, axis=1).to_csv(out, sep='\t', header=False, index=False)