-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Umlaut search not working with ?name parameter in /subject endpoint #254
Comments
Betrifft nur den ?q-Parameter und meine Verwirrung vorhin: Das Gemeine ist, dass der Browser beides nach http://lobid.org/person?q="Böldl, Klaus" auflöst. Deshalb war ich vorhin auch so verwirrt ... |
Wir könnten schauen, inwiefern API-seitig verschiedene Codierungen unterstützt werden können. Allerdings wüsste ich vorher gerne, ob das überhaupt nötig ist. @Phu2 Meinst du, die API sollte verschiedene Codierungen unterstützen? Oder ist das derzeitige Verhalten für dich als API-Nutzer in Ordnung? |
Nein, für mich ist das ok so. Ich habe die API einer Kollegin über den Browser gezeigt, deshalb ist mir die unterschiedliche Codierung erst gar nicht aufgefallen. |
Ok. Dann schließe ich das Ticket. |
Aber mit dem ?name-Parameter stimmt doch was nicht ... |
Achja. Diesmal war ich verwirrt. @fsteeg wird sich darum kümmern, wenn er wieder da ist. |
Scheint ein Problem auf Datenebene zu sein, denn grundsätzlich klappts, z.B.: http://lobid.org/person?name=böll Der konkrete Eintrag für den Böldl scheint komisch zu sein, siehe RDF-Serialisierungen hier: http://lobid.org/person?q=Böldl Statt normale Umlaute hat der offenbar Diakritika (die zudem bei uns in den RDF-Serialisierungen auf den falschen Buchstaben bezogen werden). Die Anfrage oben funktioniert auch nur wie sie da steht, mit diakritischem Zeichen, nicht mit normal getipptem Das Ganze erinnert mich an die Geschichte wegen der @jschnasse auch neulich eine Diskussion auf der DNB-Datenformate-Liste angestoßen hatte. Was das für uns heißt weiß ich nicht. Mich erstaunt speziell dass nur speziell der Datensatz das so macht. @dr0i: Sind die GND-Updates inkrementell? |
Die GND wird in ES einmal wöchentlich komplett neuindexiert, das ist der alte hadoop workflow. |
I do this java.text.Normalizer.normalize(rdfObject,Normalizer.Form.NFKC)) . How do you handle diacritics. |
Thanks Jan. We're currently not handling diacritics at all. Do you normalize before storing in the index? |
Normalization is done directly after receiving the data from dnb - before indexing, yes. I'm a bit surprised that you do not handle diacritics at all. You must do it elsewhere since the bibliographic titles under lobid/resource look pretty normalized. |
The |
@dr0i That sounds like you'd know where and how to tackle this issue. Want to assign to yourself? |
See also #255, which is probably related. |
@fsteeg, sound slike we should keep an eye on this problem also for 2.0... |
Corresponding issue for 2.0 is fixed (hbz/lobid-gnd#33), closing. |
Reported by @Phu2 on twitter: https://twitter.com/herr_tu/status/656453267631665153:
The text was updated successfully, but these errors were encountered: