In [1]:
import pandas as pd
from collections import Counter
from nltk.tokenize import word_tokenize
from ricerca import get_ordered_words
from def_overlap_funcs import filter_words

## Ricerca onomasiologica
Questo tipo di ricerca va a trovare una parola partendo dalle sue definizioni. Per fare l'esercizio viene usato il file definito in aula, nella tabella sotto sono riportate tutte le definizioni tokenizzate e pulite da stop words e punteggiatura.

In [2]:
data = pd.read_csv('TLN-definitions-23.csv', sep=';')
data = data.applymap(lambda s: filter_words(set(word_tokenize(s))))

data

Unnamed: 0,door,ladybug,pain,blurriness
0,"{temporarily, construction, two, closing, room...","{insect, flying, legs, spots, typically, black...","{physical, distress, mental, feeling}","{focus, sight}"
1,"{closed, opened, opening}","{cultures, symbol, insect, good, luck, wings, ...","{bad, physical, emotional, hurt, feeling}","{borders, definite, shapelessness, absence}"
2,"{two, closing, get, hole, room, enter, let, di...","{insect, color, black, red, fly, dots, orange}","{experience, suffer, conscious, beings, felling}","{see, ca, felt, something, sensation, clearly,..."
3,"{access, usable, one, another, area}","{insect, back, red, small}","{living, suffering, describes, concept}","{sharpness, lack}"
4,"{access, structure, delimits, allows, area}","{insect, small, flying, round}","{feeling, physical, discomfort}","{characteristic, lack, precision, clarity}"
5,"{block, object, moved, pass, used, passage}","{insect, family, flying, colored, tendentially...","{unpleasant, sensation, burning}","{see, everything, eyes, sensation, blurred, bl..."
6,"{main, iron, made, rooms, used, pushed, assemb...","{insectivore, used, small, control, insect, br...","{creatures, felt, sensation, damaged, psycholo...","{perceive, whether, physical, certain, accurat..."
7,"{separate, object, wall, closed, opened, rooms...","{insect, dots, luck, culture, black, red, smal...","{physical, emotional, feeling, caused, injury,...","{eye, bad, unfocused, lack, vision, image, mem..."
8,"{access, order, something, opened, another, pl...","{insect, black, red, small, dots}","{sorrow, sentiment, expresses}","{condition, totally, seeing, bright, clear, ma..."
9,"{access, room}","{insect, dotted, yellow, red, coat, small}","{physical, emotional, resulting, exertion, sen...","{confusion, physical, resulting, drugs, exerti..."


### Lista genus
Vado a calcolare una lista di parole comuni per ognuno dei quattro termini. Questo mi permette di adottare la **strategia del genus**, ovvero far partire la ricerca del target da una parola molto usata nella sua definizione.

In [3]:
r = data.apply(lambda column: Counter(p for i in column for p in i).most_common())

### Estrazione definizioni
Creo una lista con tutte le parole delle definizioni per un dato target che voglio trovare. La lista delle parole è già pulita da punteggiatura e stop words e tutte le parole compaiono una sola volta.

In [4]:
words_list_door = list(set().union(*data['door']))
words_list_bug = list(set().union(*data['ladybug']))
words_list_pain = list(set().union(*data['pain']))
words_list_blur = list(set().union(*data['blurriness']))

### Ricerca
Il metodo prende la lista di parole e il punteggio di similarità con la lista delle definizioni.
Il metodo prende tutti i synset di un genus e cicla su di essi, andando a calcolare e salvare la similarità tra il contesto del senso e il contesto delle definizioni. Ripete questa operazione su tutti i genus della lista in input.
Alla fine ordina la lista risultato in modo *non crescente* per valore di similarità

In [5]:
get_ordered_words(r['door'], words_list_door)[0:10]

[('doorway', 9),
 ('wall', 8),
 ('cabin', 6),
 ('screen_door', 6),
 ('door', 6),
 ('saltbox', 5),
 ('solar_house', 5),
 ('leak', 5),
 ('strap_hinge', 5),
 ('compartment', 4)]

In [6]:
get_ordered_words(r['ladybug'], words_list_bug)[0:10]

[('reddish_orange', 4),
 ('calendula', 4),
 ('dipterous_insect', 3),
 ('leaf_miner', 3),
 ('lepidopterous_insect', 3),
 ('psocopterous_insect', 3),
 ('thorax', 3),
 ('scarlet', 3),
 ('horn_fly', 3),
 ('housefly', 3)]

In [7]:
get_ordered_words(r['pain'], words_list_pain)[0:10]

[('constriction', 5),
 ('pinch', 4),
 ('concussion', 4),
 ('wrong', 4),
 ('photalgia', 4),
 ('referred_pain', 4),
 ('sting', 4),
 ('vision', 3),
 ('brain_damage', 3),
 ('strain', 3)]

In [8]:
get_ordered_words(r['blurriness'], words_list_blur)[0:10]

[('vision', 5),
 ('look', 5),
 ('like', 5),
 ('register', 5),
 ('acuity', 4),
 ('collage', 4),
 ('naked_eye', 4),
 ('quality', 4),
 ('bifocals', 4),
 ('binocular_vision', 3)]