Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[priorita nel ranking risultati] migliorare ricerca #3

Open
lucatastrophe opened this issue Apr 17, 2020 · 4 comments
Open

[priorita nel ranking risultati] migliorare ricerca #3

lucatastrophe opened this issue Apr 17, 2020 · 4 comments
Labels
[python/flask] implementation related to python/flask
Milestone

Comments

@lucatastrophe
Copy link
Collaborator

No description provided.

@freerafiki freerafiki added this to Needs triage in Ricerca Indirizzo via automation Apr 18, 2020
@freerafiki freerafiki moved this from Needs triage to High priority in Ricerca Indirizzo Apr 18, 2020
@freerafiki freerafiki added the help wanted Extra attention is needed label May 21, 2020
@freerafiki
Copy link
Member

scriviamo una funzione vera che funzioni sul database!

@freerafiki freerafiki added this to the Avere una ricerca sul database sul sito funzionante milestone May 23, 2020
@lucatastrophe lucatastrophe removed the help wanted Extra attention is needed label Jun 4, 2020
@lucatastrophe
Copy link
Collaborator Author

Quello che manca adesso è aggiungere le keywords (quando cerchiamo nei poi e nelle streets prefiltriamo in base a parole chiave contenute nella ricerca - ponte, campo, bar, chiesa, pontile, ecc...) che dovrebbero essere un notevole boost delle performance, ma anche della precisione. Tolgo "help wanted" perché penso non sia urgente, magari già sul server girerà più veloce.

@freerafiki freerafiki removed this from the Avere una ricerca sul database sul sito funzionante milestone Jun 16, 2020
@freerafiki freerafiki changed the title migliorare ricerca [priorita nel ranking risultati] migliorare ricerca Jun 23, 2020
@freerafiki freerafiki added this to the Alpha Version milestone Jun 23, 2020
@freerafiki freerafiki added the [python/flask] implementation related to python/flask label Jun 28, 2020
@Lychfindel
Copy link
Member

La ricerca ora difficilmente restituisce risultati sbagliati perché abbiamo criteri molto stretti per dare un risultato unico. Sposto quindi la issue alla versione beta.

@freerafiki freerafiki added this to To do in Beta Oct 8, 2020
@freerafiki
Copy link
Member

Stavo leggendo (per il corso di NLP) alcune cose su testo/ricerche/matching, e poi sono entrato nel vortice e trovato alcune cose che potrebbero esserci utili per la ricerca - lascio qui un paio di rifereimenti:

  • rapidfuzz / repo - un'implementazione di fuzzywuzzy in C++ che sembra essere piu rapida, potrebbe aiutarci per ridurre i tempi, qui una benchmark
  • articolo scritto in maniera terribile, ma con contenuti interessanti, su matching con machine learning
  • articolo scritto meglio con un approccio piu solido, pero molto puntato su nomi simile (es. Al o Alan). Relativa repo. Molto interessante, soprattutto se si potesse ritrainare o fine-tuning sul nostro database per avere piu precisione sui nomi veneziani.
  • FastText un sistema creato da facebook per efficient learning of word representations and sentence classification. Non e proprio per quello che vogliamo noi, ma sembra avere una sezione interessante per le OOV words. Se questo e incomprensibile: il modello impara usando il nostro dizionario (tutte le stringhe) e una ricerca di una parola che non esiste gia da noi (sia un typo o qualcosa di simile ma non uguale) viene considerata OOV (out of vocabulary). Usando RNN (recurrent neural networks) o per la maggior parte delle applicazioni, le OOV vengono buttate via perche in un contesto di una frase o di un testo non servono, ma a noi servono eccome. Quindi ci serve la creazione di un vettore per una OOV - che e un problema interessante ma complesso. FastText sembra essere una soluzione perche usa parti delle parole (es. canna in cannaregio come canna in cannareggio e dovrebbe trovarle), qui una discussione e un'articolo.
  • un articolo che sembra interessante sull'uso di vettori per correggere il missspelling - non l'ho finito, ma sembra una cosa che potrebbe fare al caso nostro.
  • articolo gensim vs fasttext gensim e molto popolare, ma e per frasi, non per singole parole, quindi ha il problema descritto sopra
  • paper sulla rappresentazione delle parole in uno spazio vettoriale non l'ho ancora letto
  • paper sulle subword tipo frammenti di parola, che e un po anche quello che fa fuzzywuzzy, non l'ho letto am sono curioso

Li lascio qui per non perderli (avevo troppe finestre aperte sul browser), per ora mi manca il tempo per testarli/implementarli, ma magari un giorno lo faccio/facciamo

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
[python/flask] implementation related to python/flask
Projects
Beta
  
To do
Ricerca Indirizzo
  
High priority
Development

No branches or pull requests

3 participants