Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Umlaut search not working with ?name parameter in /subject endpoint #254

Closed
acka47 opened this issue Oct 20, 2015 · 16 comments
Closed

Umlaut search not working with ?name parameter in /subject endpoint #254

acka47 opened this issue Oct 20, 2015 · 16 comments
Assignees
Labels

Comments

@acka47
Copy link
Contributor

acka47 commented Oct 20, 2015

Reported by @Phu2 on twitter: https://twitter.com/herr_tu/status/656453267631665153:

Kann es sein, dass es Probleme mit Umlauten gibt? Mit ID ok http://lobid.org/person?id=121096262 mit Namen kein Treffer http://lobid.org/person?name=böldl.

@Phu2
Copy link
Contributor

Phu2 commented Oct 20, 2015

Betrifft nur den ?q-Parameter und meine Verwirrung vorhin:
Das hat anscheinend etwas mit den Codierungen zu tun.
http://lobid.org/person?q=%22B%C3%B6ldl,%20Klaus%22 funktioniert nicht
http://lobid.org/person?q=%22Bo%CC%88ldl,%20Klaus%22 funktioniert

Das Gemeine ist, dass der Browser beides nach http://lobid.org/person?q="Böldl, Klaus" auflöst. Deshalb war ich vorhin auch so verwirrt ...

@acka47
Copy link
Contributor Author

acka47 commented Oct 22, 2015

Wir könnten schauen, inwiefern API-seitig verschiedene Codierungen unterstützt werden können. Allerdings wüsste ich vorher gerne, ob das überhaupt nötig ist.

@Phu2 Meinst du, die API sollte verschiedene Codierungen unterstützen? Oder ist das derzeitige Verhalten für dich als API-Nutzer in Ordnung?

@Phu2
Copy link
Contributor

Phu2 commented Oct 22, 2015

Nein, für mich ist das ok so. Ich habe die API einer Kollegin über den Browser gezeigt, deshalb ist mir die unterschiedliche Codierung erst gar nicht aufgefallen.

@acka47
Copy link
Contributor Author

acka47 commented Oct 22, 2015

Ok. Dann schließe ich das Ticket.

@acka47 acka47 closed this as completed Oct 22, 2015
@Phu2
Copy link
Contributor

Phu2 commented Oct 22, 2015

Aber mit dem ?name-Parameter stimmt doch was nicht ...
http://lobid.org/person?name=%22Bo%CC%88ldl,%20Klaus%22 funktioniert nicht
http://lobid.org/person?q=%22Bo%CC%88ldl,%20Klaus%22 funktioniert

@acka47 acka47 reopened this Oct 22, 2015
@acka47
Copy link
Contributor Author

acka47 commented Oct 22, 2015

Achja. Diesmal war ich verwirrt. @fsteeg wird sich darum kümmern, wenn er wieder da ist.

@fsteeg
Copy link
Member

fsteeg commented Oct 26, 2015

Scheint ein Problem auf Datenebene zu sein, denn grundsätzlich klappts, z.B.:

http://lobid.org/person?name=böll
http://lobid.org/person?q=böll

Der konkrete Eintrag für den Böldl scheint komisch zu sein, siehe RDF-Serialisierungen hier:

http://lobid.org/person?q=Böldl

Statt normale Umlaute hat der offenbar Diakritika (die zudem bei uns in den RDF-Serialisierungen auf den falschen Buchstaben bezogen werden). Die Anfrage oben funktioniert auch nur wie sie da steht, mit diakritischem Zeichen, nicht mit normal getipptem ö (vgl. auch die URL-encodeten Varianten).

Das Ganze erinnert mich an die Geschichte wegen der @jschnasse auch neulich eine Diskussion auf der DNB-Datenformate-Liste angestoßen hatte. Was das für uns heißt weiß ich nicht. Mich erstaunt speziell dass nur speziell der Datensatz das so macht. @dr0i: Sind die GND-Updates inkrementell?

@fsteeg fsteeg removed their assignment Oct 26, 2015
@dr0i
Copy link
Member

dr0i commented Oct 26, 2015

Die GND wird in ES einmal wöchentlich komplett neuindexiert, das ist der alte hadoop workflow.

@jschnasse
Copy link

I do this java.text.Normalizer.normalize(rdfObject,Normalizer.Form.NFKC)) . How do you handle diacritics.

@fsteeg
Copy link
Member

fsteeg commented Oct 26, 2015

Thanks Jan. We're currently not handling diacritics at all. Do you normalize before storing in the index?

@jschnasse
Copy link

Normalization is done directly after receiving the data from dnb - before indexing, yes. I'm a bit surprised that you do not handle diacritics at all. You must do it elsewhere since the bibliographic titles under lobid/resource look pretty normalized.

@dr0i
Copy link
Member

dr0i commented Oct 26, 2015

The subject endpoint is not specifically processed, in contrast to the resource endpoint.

@fsteeg
Copy link
Member

fsteeg commented Oct 26, 2015

@dr0i That sounds like you'd know where and how to tackle this issue. Want to assign to yourself?

@fsteeg
Copy link
Member

fsteeg commented Nov 10, 2015

See also #255, which is probably related.

@acka47 acka47 removed the ready label Feb 26, 2016
@acka47
Copy link
Contributor Author

acka47 commented Jul 12, 2017

@fsteeg, sound slike we should keep an eye on this problem also for 2.0...

@fsteeg
Copy link
Member

fsteeg commented Mar 29, 2018

Corresponding issue for 2.0 is fixed (hbz/lobid-gnd#33), closing.

@fsteeg fsteeg closed this as completed Mar 29, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

5 participants