# 5. Formális nyelvek és automaták

>Számítógépes nyelvészet, 2018 tavasz

>Simon Eszter, Mittelholcz Iván

>MTA, Nyelvtudományi Intézet

## 1. Automata kézzel

In [None]:
def fsa(transitions, start, accepts, text):
    state = start
    for char in text:
        state = transitions[state].get(char)
        if state == None:
            return False
    return state in accepts

# állapotátmenetek
d = {
    0:{'b':1},
    1:{'e':2},
    2:{'e':3},
    3:{'e':3, '!':4},
    4:{}
}


tests = ['beee!', 'be!', 'beee!!', 'xxx']

for test in tests:
    print(
        test,
        fsa(d, 0, {4}, test),
    sep='\t')


## 2. NLTK

*NLTK*: Natural Language Toolkit, NLP eszközöket és erőforrások pythonos gyűjteménye. Elsősorban tanítási és prototípuskészítési célra.

Erőforrások kezelése

In [None]:
import nltk

nltk.download();

### 2.1. Elemzés RegexpTagger-rel

In [None]:
patterns = [
    (r'.*k$', 'Pl'),
    (r'.*t$', 'Acc'),
    (r'.*', 'Nom')
]

from nltk import RegexpTagger

re_tagger = RegexpTagger(patterns)
s = ['kutya', 'kutyát', 'kutyák']

# tsv-sítés
for i in re_tagger.tag(s):
    print(i[0], i[1], sep='\t')

### 2.2. Elemzés CFG nyelvtannal

#### Nyelvtan megadása

* Terminális: python-stringek
* Nemterminális: idézőjel nélkül
* Szabály: egy sor, `->` választja el a szabály két oldalát

In [None]:
%%bash
cat np.cfg

#### Nyelvtan tesztelése

In [None]:
from nltk.parse import TestGrammar

test1 = {}
test1['doc'] = 'határozatlan névelő'
test1['accept'] = ['egy macska', 'egy kutya']
test1['reject'] = ['macska egy']

test2 = {}
test2['doc'] = 'határozott névelő'
test2['accept'] = ['a macska', 'a kutya']
test2['reject'] = ['macska a']

testsuite = [test1, test2]
tester = TestGrammar('np.cfg', testsuite)
tester.run()

#### Környezetfüggetlen nyelvtan (CFG)

In [None]:
from nltk import CFG

npgram = CFG.fromstring(open('np.cfg').read())

#### Elemző létrehozása nyelvtanhoz

Egy szöveg elemzésére sok több módszer van. Az NLTK is tartalmaz jópárat. Az egyik legegyszerűbb, *top-down* elemző a *Recursive Descent Parser*.

In [None]:
from nltk.parse import RecursiveDescentParser

rdp = RecursiveDescentParser(npgram)

#### Elemzés

In [None]:
t1 = list(rdp.parse('a macska'.split()))
t2 = list(rdp.parse('a egy'.split()))

print(t1)
print(t2)

#### Fák

In [None]:
t = t1[0]

In [None]:
# típus
print(type(t))

In [None]:
# ágrajz
t.pretty_print()

In [None]:
# alfák
for tree in list(t.subtrees()):
    print(tree)

In [None]:
# levelek címkéi
print(t.pos())

In [None]:
# tsv-sítés
for i in t.pos():
    print(i[0], i[1], sep='\t')

## 3. Irodalom

* [NLTK book](http://www.nltk.org/book/)
    * CFG: 8.4
    * Tegger-ek: 5.4
* [NLTK HOWTOs](http://www.nltk.org/howto/)
    * [Parsing](http://www.nltk.org/howto/parse.html)