Skip to content
This repository has been archived by the owner on Nov 3, 2023. It is now read-only.

interne Suchfunktion / Suchindex #6942

Closed
quintacom opened this issue May 2, 2014 · 13 comments
Closed

interne Suchfunktion / Suchindex #6942

quintacom opened this issue May 2, 2014 · 13 comments

Comments

@quintacom
Copy link

Der Suchindex für die interne Suchmaschine von Contao wird leider nur mit den Inhalten von regulären Seiten aus der Seitenstruktur aufgebaut. Inhalte, die sich auf weiteren Seiten befinden und nur über die Pagination aufgerufen werden, werden nicht indiziert.

Das ist ziemlich schade bzw. unschön, denn somit bietet eine Website im Prinzip bestimmte Inhalte. Diese kann der Besucher dann aber nicht über die Suche finden.
Mir ist es ehrlich gesagt auch nur bekannt geworden, weil ein Kunde mich darauf angesprochen hat. War mir ziemlich peinlich, denn ich konnte keine Antwort geben. Er hat ja recht. Wenn es bestimmte Inhalte auf einer Website gibt, sollte man diese auch über die Suche finden können.

Siehe auch hier der Thread: https://community.contao.org/de/showthread.php?49916-Suchmaschine-generell

Kann man das irgendwie ändern, damit alle Inhalte indiziert werden und der Besucher einer Website auch alle vorhandenen Inhalte finden kann?

@Zeromax
Copy link

Zeromax commented May 2, 2014

+1

@leofeyer
Copy link
Member

leofeyer commented May 3, 2014

Inhalte, die nur über die Pagination aufgerufen werden, werden nicht indiziert

Das betrifft aber nur das manuelle Aufbauen des Suchindexes im Backend, oder? Wenn die Seite im Frontend aufgerufen wird, sollten auch die Folgeseiten mit dem Parameter page=2 etc. indiziert werden.

@quintacom
Copy link
Author

Nein, leider nicht!
Wenn es so wäre hätte ich dieses Problem nicht als solches gemeldet.

Der Parameter am Ende der URL ist auch nicht mehr page=2, page=3 oder so, sondern page_g502=2, page_g502=3, etc. Vielleicht ist das ein Grund, warum das mit der Indizierung nicht funktioniert? Kann nicht sagen, wie das in älteren Contao-Versionen gelaufen ist.

@leofeyer
Copy link
Member

leofeyer commented May 3, 2014

Stimmt, der "page"-Parameter wird ignoriert. Allerdings aus gutem Grund, denn eigentlich sind alle Inhalte im Frontend über einen Permalink erreichbar; das gilt sowohl für Artikel als auch für News/Events/FAQs etc.

Sprechen wir hier über eine Live-Webseite, die man sich irgendwo anschauen kann? Wofür genau setzt ihr das Pagination-Menü ein?

@quintacom
Copy link
Author

Es geht in diesem Fall um Bildergalerien, die aufgrund der Menge an Bildern in mehrere Seiten aufgeteilt werden müssten. Die Namen der Bilddateien enthalten Begriffe, die auch über die interne Suchmaschine von Contao indiziert werden und dadurch vom Besucher über die Suche gefunden werden können. Wie gesagt wird aber immer nur die erste Seite einer Bildergalerie für den Suchindex indiziert.

Inoffiziell kann man sich die Website natürlich schon anschauen. Da es aber nicht meine Website ist und diese eben auch noch nicht offiziell online ist, möchte ich die URL ungern hier posten. Das wird doch sicherlich auch alles hier von Google indiziert, oder? Gibt es hier eine PN-Funktion? Dann könnte ich Dir die Adresse an die Hand geben.

@Zeromax
Copy link

Zeromax commented May 3, 2014

Hm. Anfangs dachte ich auch, dass das mitindiziert werden muss, aber ich verstehe auch was @leofeyer meint.

Es ist so eine Grauzone ;). Bei News und Co. macht es zum Beispiel keinen Sinn die Pagination Seiten zu Indizieren, bei der Galerie schon irgendwie. Nur wo zieht man da die Linie ;)

@quintacom
Copy link
Author

Es ist so eine Grauzone ;). Bei News und Co. macht es zum Beispiel keinen Sinn die Pagination Seiten zu Indizieren, bei der Galerie schon irgendwie. Nur wo zieht man da die Linie ;)

Stimmt, da ist was dran. Doch sollte es aber vielleicht eine Möglichkeit geben, wie man die Indizierung der weiteren Seiten in einer Bildergalerie durch eine Anpassung ermöglichen könnte. Ich bin leider kein Programmierer, der so etwas bewerkstelligen könnte.

@tabcontao
Copy link

Ich hänge mich da mal einfach mit dran, da ich soeben auf ein Problem in diesem Zusammenhang gestoßen bin, was News & Co betrifft. Hier mal meine konkrete Anwendung, wo es eben nicht ohne Indizierung der Pagination Seiten zu funktionieren scheint und ich erst einmal nicht weiterkomme.

Ich habe ein Nachrichtenarchiv, in dem eine große Zahl von Nachrichten enthalten sind, die teilweise nur Teaser enthalten, weil sie zum Weiterlesen extern verlinkt sind. Diese Teaser tauchen aber auf einer Seite auf, wo über ein Nachrichtenarchiv-Modul alle Nachrichten mit dem Template news_latest ausgegeben werden. Allerdings mit einer Pagination, denn einige hundert Teaser brauchen auch Platz.

Damit diese Teaser generell überhaupt indiziert werden, habe ich im Template - nur für extern verlinkte Nachrichten - das indizieren des Teasers und der Metadaten aktiviert. Das funktioniert auch, aber eben nicht für Teaser, die nur über die Pagination erreichbar sind. Einen Permalink gibt es für diese Teaser wohl nicht(?), da die Komplettansicht der Nachricht (inklusive Teaser) nur extern verfügbar ist und somit für diese Nachricht auch keine (Nachrichtenleser-)Seite erzeugt wird.

@fritzmg
Copy link
Contributor

fritzmg commented Nov 11, 2014

Es ist so eine Grauzone ;). Bei News und Co. macht es zum Beispiel keinen Sinn die Pagination Seiten zu Indizieren, bei der Galerie schon irgendwie. Nur wo zieht man da die Linie ;)

Auch bei News macht es Sinn, denn sonst werden die Teaser der Newseinträge die als source irgend etwas anderes als default haben unter Umständen überhaupt nicht indiziert. Und das ist aktuell der Fall, da weder die einzelnen Pages einer Seite mit einem entsprechenden Modul indziert werden, noch geschieht es über den Indexer.

Über den Indexer könnte man dennoch die Detailseite solcher Newseinträge indexieren lassen. Dies geschieht momentan nicht, weil die Funktion News::getSearchablePages die Funktion News::getLink benutzt um den Indexer mit der entsprechenden URL zu füttern. Diese Funktion gibt für derartige Newseinträge aber nicht die Reader URL zurück, sondern ggf. den externen Link, Artikel Link oder internen Seitenlink. Für den Indexer sind externe URLs bspw. aber überhaupt nicht relevant (die Artikel- oder Seitenlinks aber unter Umständen schon).

@leofeyer
Copy link
Member

Wir haben das am 21. Mai auf Mumble besprochen und der Fall mit der mehrseitigen Bildergalerie ist tatsächlich nicht abgedeckt. Allerdings gäbe es auch keine Möglichkeit, diesen Fall beim Aufbau des Suchindexes im Backend zu berücksichtigen, weil der Indexer nicht weiß, ob und wie viele Seiten es gibt und mit welchem Parameter diese angesprochen werden.

Eine echte Lösung ist uns dazu leider nicht eingefallen.

@leofeyer
Copy link
Member

Eventuell wäre es eine Möglichkeit, die getSearchablePages()-Logik mit einem echten Crawler zu ersetzen. @Toflar wollte diesbezüglich recherchieren, wenn er dazu Gelegenheit hat.

@quintacom
Copy link
Author

Vielen Dank auf jeden Fall erst einmal für die weitere Verfolgung dieses Problems, auch wenn im Moment keine Lösung dabei herausgekommen ist.

@Toflar
Copy link
Member

Toflar commented May 21, 2015

Ich werde mich der Problematik zusammen mit dem ganzen Search-Indexing in einer zukünftigen Version von Contao annehmen. Die Crawler-Thematik habe ich mir notiert. Es ist insofern ein neues Feature (contao/contao#6359) und kann hier geschlossen werden.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Projects
None yet
Development

No branches or pull requests

6 participants