Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Search it kann nicht mit Silbentrennung ­ umgehen #130

Closed
greatif opened this issue Sep 19, 2017 · 8 comments
Closed

Search it kann nicht mit Silbentrennung ­ umgehen #130

greatif opened this issue Sep 19, 2017 · 8 comments

Comments

@greatif
Copy link

greatif commented Sep 19, 2017

Beispiel:
Das FOR-AddOn Hyphenator (https://github.com/FriendsOfREDAXO/hyphenator) nimmt in Texten durch Einfügen des Trenn-Symbols &shy eine Silbentrennung vor:
echo hyphenator::hyphenate(REX_VALUE[id=1]);

Dadurch werden dann im Frontend silbengetrennte Wörter ausgegeben.

Da Search it (Version 6.4.1) nur noch über das Frontend indexiert, landen dann durch &shy die Silben (anstatt der ganzen Wörter) im Suchindex.

Fazit:
Search it kann allgemein nicht mit &shy umgehen.

Evtl. wäre dies ein Argument, um wieder eine DB-Indexierung zuzulassen...

@tyrant88
Copy link
Member

Nee das ist nur ein Argument die Worttrenung von search it zu überprüfen.

@greatif greatif changed the title Nur Silben im Index bei Verwendung d. FOR-AddOns Hyphenator Search it kann nicht mit Silbentrennung ­ umgehen Sep 19, 2017
@greatif
Copy link
Author

greatif commented Sep 19, 2017

Ok, oder so. Das bedeutet grds. dann allerdings, dass keine weiteren Frontend-Ersetzungen denkbar sind, die aus der Indexierung herausgehalten werden sollen.

@tyrant88
Copy link
Member

Genau. Ich gehe davon aus, dass das was im Frontend erscheint (Endergebnis aller Ersetzungen), das ist was gesucht und gezeigt werden soll.

@xong
Copy link
Member

xong commented Sep 19, 2017

Siehe Issue #108. RexSearch war noch als reines Indexierungs-Addon gedacht. Das man damit auch eine Fulltextsuche durchführen konnte, war für mich nur ein bestimmter Anwendungsfall.
Ich hatte früher oft den Fall, dass ich nicht nur (Frontend-)Artikel durchsuchen wollte, sondern alle möglichen Datenquellen. Das ist im Moment so leider nicht mehr möglich.

Zum Problem hier: Eventuell kann das Plaintext-Plugin ­ vor dem Indexieren mittels Regex filtern.

@tyrant88
Copy link
Member

Worttrennung ging nicht zu ändern, da die die RegEx Klasse [:punc:] (punctation) auf das Semikolon von "­" anspringt...
Xongs Vorschlag macht ja noch mehr Sinn, da eine HTML-Entity eigentlich eh nichts im plaintext zu suchen hat.
Nur wollte ich nicht, dass ein Normalo erst das plaintext plugin anwerfen muss, weil er Hyphenator benutzt... deshalb wende ich auf den plaintext ein html_entity_decode an...
Die Spezialisten wiederum können mit dem plaintext plugin das Standard-Verhalten umgehen.

@greatif
Copy link
Author

greatif commented Sep 23, 2017

Der Normalo hat sich sogar zuerst mit dem Plaintext-Plugin beschäftigt. Leider führt die Hilfe-Seite für das Plugin /index.php?page=packages&subpage=help&package=search_it/plaintext, die auf die Doku im "alten Wiki" verweist, auf einen toten Link. Sprich: Keine Doku verfügbar.
Also wurde "auf gut Glück" versucht, beim Plaintext-Plugin unter "Reguläre Ausdrücke" 1. Zeile '­' durch 2. Zeile '' zu ersetzen. Allein dies zeigte keinen Effekt bei der Indexierung.
Wenn die Hilfestellung für eine korrekte Verwendung hier etwas besser wäre, dann wäre es m.E. auch dem Normalo zuzumuten, das Plugin zu nutzen.
Praktikabelste Lösung im Moment: Auf d. Addon Hyphenator verzichten u. via CSS hyphens: auto; die Silbentrennung machen.
Konsequenz: Die Frage, ob ein FOR-Hyphenator-Addon Sinn macht?
Fazit: Eine zumindest rudimentäre Doku zum Plaintext-Plugin wäre für den Normalo jedenfalls interessant.

@tyrant88
Copy link
Member

Du bist doch gar nicht gemeint! :-)
Genau das Gleiche hab ich auch probiert, die Lösung ist: die zweite Zeile muss eine Leerzeile sein.
Deshalb hab ich auch die Doku angepasst.
Und es ist aber auch nicht mehr nötig, weil ich das ­ durch html_entity_decode umwandele.

@tyrant88 tyrant88 mentioned this issue Sep 24, 2017
@alxndr-w
Copy link
Member

Fazit: Eine zumindest rudimentäre Doku zum Plaintext-Plugin wäre für den Normalo jedenfalls interessant.

@greatif was sollte da deines Erachtens drinstehen? Hast du dich in soweit damit beschäftigt, dass du was dazu schreiben kannst?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants