Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

WordSimilarity doesn't make any connection between many pairs of near-synonyms #70

Open
recski opened this issue Mar 17, 2016 · 4 comments
Assignees
Labels

Comments

@recski
Copy link
Collaborator

recski commented Mar 17, 2016

E.g.:

crazy   insane  0       0       0       0.066666667     0       0.035714286     4.10155766      9.57    5.46844234
rare    scarce  0       0       0       0       0       0       3.787751129     9.17    5.382248871
inform  notify  0       0       0       0       0       0       3.870539425     9.25    5.379460575
bizarre strange 0       0       0       0       0       0       4.0345673       9.37    5.3354327
defend  protect 0       0       0       0       0       0       3.870539425     9.13    5.259460575

@Eszti FYI

@recski recski added the bug label Mar 17, 2016
@recski recski self-assigned this Mar 17, 2016
@kornai
Copy link
Owner

kornai commented Mar 17, 2016

This is very strange. Debugging should begin with the definitions, not the software.

On Mar 17, 2016, at 9:51 AM, Gábor Recski notifications@github.com wrote:

E.g.:

crazy insane 0 0 0 0.066666667 0 0.035714286 4.10155766 9.57 5.46844234
rare scarce 0 0 0 0 0 0 3.787751129 9.17 5.382248871
inform notify 0 0 0 0 0 0 3.870539425 9.25 5.379460575
bizarre strange 0 0 0 0 0 0 4.0345673 9.37 5.3354327
defend protect 0 0 0 0 0 0 3.870539425 9.13 5.259460575

@Eszti FYI


You are receiving this because you are subscribed to this thread.
Reply to this email directly or view it on GitHub

@recski
Copy link
Collaborator Author

recski commented Mar 17, 2016

Of course, we don't think this is a software issue. We collect all
4lang-related issues here, not just software-related ones.

On Thu, Mar 17, 2016 at 11:12 AM, Andras Kornai notifications@github.com
wrote:

This is very strange. Debugging should begin with the definitions, not the
software.

On Mar 17, 2016, at 9:51 AM, Gábor Recski notifications@github.com
wrote:

E.g.:

crazy insane 0 0 0 0.066666667 0 0.035714286 4.10155766 9.57 5.46844234
rare scarce 0 0 0 0 0 0 3.787751129 9.17 5.382248871
inform notify 0 0 0 0 0 0 3.870539425 9.25 5.379460575
bizarre strange 0 0 0 0 0 0 4.0345673 9.37 5.3354327
defend protect 0 0 0 0 0 0 3.870539425 9.13 5.259460575

@Eszti FYI


You are receiving this because you are subscribed to this thread.
Reply to this email directly or view it on GitHub


You are receiving this because you were assigned.
Reply to this email directly or view it on GitHub
#70 (comment)

@recski
Copy link
Collaborator Author

recski commented Mar 17, 2016

Itt válaszolok @kornai email-jére, hogy meglegyen.

A =mad rész valóban nincs kiparszolva, általában a pointerek sincsenek,
pedig ez egy alacsonyan lógó gyümölcs (erről szól a #6 issue). Felvet
néhány kérdést, de valamikor valakinek néhány napi munkájával megoldható.

A very azért van az insane-hez kötve, mert jelenleg úgy készülnek a
definíciós gráfok, hogy mivel minden definíciónak van egy ROOT-ja, ezért az
abból futó éleket már eleve a definiendumhoz kötjük be.
Így ha a "BFG" szónak az a definíciója, hogy "big friendly giant", akkor a
definíciós gráfban a BFG -0-> giant, BFG -0-> big és BFG -0-> friendly élek
lesznek. Ez korábban nem így volt, hanem amit várnál, (BFG -0-> giant,
giant -0-> big és giant -0-> friendly), de annakidején ez a módosítás egy
csomó "ingyenes" inference-t hozott. Kis munka visszacsinálni, csak akkor
minden gráf teljesen megváltozik, semmi nem úgy lesz, mint eddig.

Általában a köztes állapotot (Stanford kimenete) ebben a fájlban szoktam
nézni grep-pel:
/home/recski/projects/4lang/data/dict/longman_firsts_readable.json
Itt a "hw": "crazy"-re greppelve látható a definíció és a stanford kimenete

Ha a nyers Longman adat érdekel, akkor így szoktam greppelni:
cat
/mnt/store/home/hlt/Language/English/Dict/ldoce4/ldoce4_one_entry_per_line.xml
| grep ' *crazy *'

Az or-os koordináció most azért nincs kezelve, mert a korábbi módszert
kikapcsoltuk: az vakon összefésüli a koordinált elemek összes éleit
(mindkettő megkapja a másik összes élének másolatát), ez rengeteg false
positive-ot hozott. Így most nem csinálunk a koordinált elemekkel semmit.

Végül pedig hiába kezeltük volna, a negációt egyelőre nem kezeljük. Ez a
#42 issue, most ezt látjuk az összes közül a legégetőbbnek, ezzel akarok is
a következő napokban foglalkozni. @Eszti ezzel párhuzamosan pedig azzal,
hogy a word similarity modul figyelembevegye a tagadást (ez a #69 issue),
mivel a 4langban már van egy csomó LACK-es tagadás, és a legnagyobb
hülyeségeket akkor mondja a wordsim modul, amikor egy ellentétpár egyike a
másik tagadásaként van definiálva, és úgy kezeljük, mintha szinonímák
lennének.

2016-03-17 13:15 GMT+01:00 Andras Kornai kornai@mokk.bme.hu:

Jó, akkor itt a bug hunt a crazy-nél kezdődik: ez ugyanis nem isa very,
hanem isa strange, és a strange isa very
vagy valahogy így (nem hiszem, hogy a stanford parzer nem ismeri fel a
very adadjektívum jellegét, de persze ez
is lehet). A baj az, hogy a crazy nem azt jelenti hogy very strange,
hanem ahogy a Longmanben van:

very strange or not sensible [= mad]

tehát vagy az or-os rész vagy a szinoníma nincs kiparszolva, esetleg
egyik sem.

a helyes entry, amit a fenti alapján generálni kéne, az

very strange, not sensible, mad

(tehát az or-t és a szinonímát egyaránt konjunkciónak fordítjuk)

Hol van a szöveges fájl amiből kiindulunk? Ez a saját degug folyamatomat
segítené
csak ezért kérdezem. Nem tartom kizártnak, hogy a longman xml ->
sztenford fázisban
is vannak még hibák.

A

UI. Írjam ezeket angolul a gitbe inkább?

On Mar 17, 2016, at 12:38 PM, Gábor Recski recski@mokk.bme.hu wrote:

Kurrens angol definíciók:
http://people.mokk.bme.hu/~recski/4lang_graphs/longman_firsts_160205/

2016-03-17 11:23 GMT+01:00 Gábor Recski recski@mokk.bme.hu:

Magyarra itt, ezek tényleg kurrensek:
people.mokk.bme.hu/~recski/4lang_graphs/eksz_firsts_160211/

Angolra nagyon nem kurrens, ami kint van, mindjárt teszek ki frissebbet.

2016-03-17 11:18 GMT+01:00 Andras Kornai kornai@mokk.bme.hu:

Tudom, hogy nemrég tetted ki őket valahova, felfrissítenéd a memóriám?

Köszönöm,
A

On Thu, Mar 17, 2016 at 11:16 AM, Gábor Recski gabor.recski@gmail.com
wrote:

Of course, we don't think this is a software issue. We collect all
4lang-related issues here, not just software-related ones.

On Thu, Mar 17, 2016 at 11:12 AM, Andras Kornai notifications@github.com
wrote:

This is very strange. Debugging should begin with the definitions, not
the software.

On Mar 17, 2016, at 9:51 AM, Gábor Recski notifications@github.com
wrote:

E.g.:

crazy insane 0 0 0 0.066666667 0 0.035714286 4.10155766 9.57 5.46844234
rare scarce 0 0 0 0 0 0 3.787751129 9.17 5.382248871
inform notify 0 0 0 0 0 0 3.870539425 9.25 5.379460575
bizarre strange 0 0 0 0 0 0 4.0345673 9.37 5.3354327
defend protect 0 0 0 0 0 0 3.870539425 9.13 5.259460575

@Eszti FYI


You are receiving this because you are subscribed to this thread.
Reply to this email directly or view it on GitHub


You are receiving this because you were assigned.
Reply to this email directly or view it on GitHub
#70 (comment)

@makrai
Copy link
Collaborator

makrai commented Mar 17, 2016

Csak a BFG-es bekezdésre. Nem olvastam András levelét; remélem, azért releváns, amit írok. Épp amiatt, hogy nálunk a reprezentáció nem hivatott lekövetni a szófaji különbségeket, a BGF definíciójában lehet a giant-tel egy szinten a big és a friendly. (Vannak csúnya hackek a rendszerben, már abban a részben is, amit én ismerek, de ez pont nem az.)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants