-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Tok skilgreiningar #2
Comments
Þetta er aðallega "allur er varinn góður" forritun (defensive programming); undir venjulegum kringumstæðum endar tókalistinn alltaf á tóka sem er í Tok.kind svæðið inniheldur ekki stafi heldur heiltölu (integer) sem gefur til kynna hvers konar tóka um er að ræða. Gildin eru m.a. TOK.WORD (=6) og TOK.S_END (=11002). Þessar tölur eru valdar nánast af handahófi og hafa enga sérstaka merkingu. Sjálfur textinn sem tókinn inniheldur er í Tok.txt. Þetta er nánar útskýrt í README í Tokenizer pakkanum. |
Sæll, Já einmitt. Ég var aðeins búinn að skoða kóðann í tokenizer. Þannig þetta er einskonar möppun frá tölu í tóka? Þú nefndir Tok.txt, ég er ekki að finna það á git. Er það í tokenizer pakkanum? |
Tjah, strangt til tekið er GreynirCorrect að beita smá Python trixi: Hann tekur inn |
Hæ,
Ég var að spá í hvaða tilfellum er þessi listi ekki tómur:
GreynirCorrect/src/reynir_correct/main.py
Line 191 in deec51e
Ég er reyndar að vinna með þetta án þess að nota gen fallið heldur vinnur bara með textan beint sem streng.
Ég var líka að prenta út TOK.END og fæ frozenset({10000, 12001, 10002, 11002}), í hvaða charactera er verið að vísa hérna?
Ef ég geri t.d.
print(chr(10000))
fæ ég bara mjög skrítin tákn.The text was updated successfully, but these errors were encountered: