Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

fst doesn't analyze "§51" and "6,8x5,5" #37

Open
lynnda-hill opened this issue Jan 13, 2022 · 10 comments
Open

fst doesn't analyze "§51" and "6,8x5,5" #37

lynnda-hill opened this issue Jan 13, 2022 · 10 comments
Assignees
Labels
bug Something isn't working gramcheck Issues restricted to the grammar checker

Comments

@lynnda-hill
Copy link
Contributor

lynnda-hill commented Jan 13, 2022

I have noticed a couple of formula our fsts seem to have trouble analyzing.
I used tools/grammarcheckers/modes/trace-smegramrelease-dev.mode.
I'm wondering if we should do something about it or if there is a solution for that already:

§51
5x55

Below the example sentences:

Juovlamánu 14. b. 1951 bivdolága §51 viiddiduvvui eanaeaiggáda vuoigatvuohta ráfáiduhtton sajiin maiddái siskkildit iežas adnui hávdavarrása, hálkka, čohkánjunhálkka ja bovttáža moniide.

Bissu mainna eanáš báhččit gilvalit, lea «Sauer» 6, 5x55 kaliber.

"<§51>"
        "§51" ? &typo #6->6 ADD:10123:uncorrected-typos
typo
@lynnda-hill lynnda-hill added the bug Something isn't working label Jan 13, 2022
@snomos
Copy link
Member

snomos commented Jan 13, 2022

Det ser ut til at §55 blir filtrert ut i kompileringa, av ein eller annan grunn:

echo "§51" | hfst-tokenise -g tools/tokenisers/tokeniser-gramcheck-gt-desc.pmhfst 
"<§51>"
	"§51" ?
:\n
echo "§51" | hfst-lookup -q src/analyser-gt-desc.hfstol 
§51	§51+Num	0,000000

echo "§51" | hfst-lookup -q src/analyser-gramcheck-gt-desc.hfstol 
§51	§51+?	inf

Eg skal sjå på det.

Når det gjeld 5x55 så har slike uttrykk aldri vorte analyserte, så det må leggjast til. Eg skal sjå på det òg.

@snomos
Copy link
Member

snomos commented Jan 13, 2022

Problemet med §51 er at han er tagga +Use/-Spell:

echo '§51' | hfst-flookup -q src/generator-raw-gt-desc.hfst 
§51	+Use/-Spell+Use/Circ§51+Num+Sem/ID	0,000000

Og alle slike blir fjerna frå gramsjekk-analysatoren.

@lynnda-hill
Copy link
Contributor Author

lynnda-hill commented Jan 20, 2022

I found another example that does not get an analysis "8x5":

Girku lei dušše 6, 8x5, 5 mehtera stuoris ja gili olbmot eai čahkan buohkat sisa.

@snomos snomos added the gramcheck Issues restricted to the grammar checker label Mar 16, 2022
@snomos
Copy link
Member

snomos commented Mar 28, 2022

Og alle slike blir fjerna frå gramsjekk-analysatoren.

Dvs. Use/-Spell-tagga ord. Med tanke på det vi sa på møtet om denne taggen førre veka, så kanskje ikkje vi skal fjerna dei frå grammatikkontrollanalysatoren ?

Når det gjeld §51 så er den rette taggen kanskje Err/Orth, eg meiner det skal vera mellomrom der.

Kva seier de, @lynnda-hill og @duomdaamaendra ?

@duomdaamaendra
Copy link
Contributor

duomdaamaendra commented Mar 28, 2022 via email

@snomos
Copy link
Member

snomos commented Mar 28, 2022

Kommentar frå @leneantonsen (i Zulip), limt inn her for å få han inn i diskusjonen på GitHub:

6,8x5,5. betyr 6,8 ganger 5,5 dvs at det 8x5 ikke skal analyseres sammen. Er det mellomrom på feil sted?

@snomos
Copy link
Member

snomos commented Mar 28, 2022

Nej, use/-spell kan vel inte fjernes...

Slik det er no er det eit problem at alle Use/-Spell-ord blir fjerna frå analysatoren i grammatikkontrollen. Så du er samd, og meiner at dei ikkje bør bli det, at dei bør vera ein del av analysatoren i grammatikkontrollen?

Vi hadde eit møte om m.a. Use/-Spell førre veka, og Lene går gjennom bruken av han i nordsamisk no, Inga gjer det same med lulesamisk. Det er uavhengig av diskusjonen her, men kan vera bra å ha i mente 🙂

@duomdaamaendra
Copy link
Contributor

duomdaamaendra commented Mar 28, 2022 via email

@snomos
Copy link
Member

snomos commented Mar 28, 2022

Ja, de bør vare ein del av analysatorn

👍

@snomos
Copy link
Member

snomos commented Jun 24, 2022

Når det gjeld §51 så er den rette taggen kanskje Err/Orth, eg meiner det skal vera mellomrom der.

Kva seier de, @lynnda-hill og @duomdaamaendra ?

Det skal vera mellomrom, jf 1.12.5 i Čállinrávagirji (t.d. her). Men aller helst bør det skrivast 51. § på samisk, i fylgje den same teksten.

@snomos snomos changed the title fst doesn't analyze "§51" and "5x55" fst doesn't analyze "§51" and "6,8x5,5" Oct 11, 2022
flammie added a commit to giellalt/shared-smi that referenced this issue Oct 13, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working gramcheck Issues restricted to the grammar checker
Projects
None yet
Development

No branches or pull requests

4 participants