Suchindex Crawler funktioniert bei geschützten Seite nur bei "index, follow" #1395

contaoacademy · 2020-02-25T13:55:46Z

Affected version(s)
Contao 4.9

Description
Bei meiner Website habe ich einen umfangreichen Mitgliederbereich und stelle eine Suche bereit. Bisher konnte ich die Seiten problemlos indexieren lassen.

Wenn ich die Seite jetzt indexieren will, dann muss ich das Robots-Tag auf index stellen, sonst findet der crawler die Seiten nicht.

Allerdings möchte ich die Seiten nicht auf index haben, da diese sonst in der sitemap.xml sind und Google die Seiten ebenfalls indexieren will, was allerdings nicht funktioniert, weil diese ja geschützt sind.

Der crawler sollte geschützte Seiten indexieren können, ohne das diese in der sitemap auftauschen. Bzw. wie könnte das Problem sinnvoll gelöst werden?

How to reproduce

Geschützte Seiten anlagen
Robots-Tag auf "noindex, nofollow" stellen
Crawlvorgang über das Backend starten

Anmerkung
Ich habe sowohl einen User ausgewählt, als auch in der config.yml die geschützten Seiten erlaubt.

Toflar · 2020-02-25T14:41:44Z

Was sagt denn das Debug-Log? Weil es ist eigentlich explizit nicht so :)

contaoacademy · 2020-02-25T19:38:34Z

@Toflar Welches Log willst du? Das Standard-Crawling Log vom Backend?

Toflar · 2020-02-26T08:05:15Z

Das Debug-Log. Neben dem Fortschrittsbalken. Müsste deutlich mehr Informationen enthalten :)

contaoacademy · 2020-02-26T10:20:12Z

Anbei folgendes:

Screenshot Einstellungen Backend (Robots-Tag)
sitemap.xml
Logfile Crawler

contaoacademy · 2020-02-26T11:17:55Z

Wie mit @Toflar besprochen funktioniert der Crawler korrekt. Es werden alle Seiten mit "follow" indexiert.

Diskutiert werden sollte die Generierung der sitemap.xml bei geschützten Seiten. Hierfür wird ein eigenes Ticket erstellt.

aschempp · 2020-02-26T13:52:37Z

kann man dieses Ticket dann vielleicht schliessen?

christophbach · 2020-02-27T13:50:51Z

Eventuell sollte das in die Dokumenation aufgenommen werden. Das hat mich gerade einiges an Nerven gekostet. Oder habe ich die Stelle nicht gefunden/falsch verstanden?

Wir haben ein öffentlich zugängliches Handbuch für unsere Software, wollen aber kein Indexing in Suchmaschinen. Da war die alte Einstellung immer "noindex,nofollow", was ja wunderbar funktioniert hat.

Es müssen alle Seiten auf "noindex,follow" umgestellt werden. Im Nachgang betrachtet ist das ja auch logisch, wenn man's kapiert hat. :)

fritzmg · 2020-02-27T13:57:26Z

Ist das wirklich für dich logisch? Also dass eine Seite in der sitemap.xml aufscheint und vom Crawler indexiert wird, wenn die Seite auf noindex steht?

christophbach · 2020-02-27T14:17:39Z

Die Sitemap ist bei uns deaktiviert, aus den genannten Gründen. Ich persönlich finde die aktuelle Funktionsweise nicht optimal, daher der Wunsch nach einer Dokumentation, damit das Verhalten des Indexing-Prozesses nachvollzogen werden kann. Der Crawler agiert ja im Prinzip als "Frontend-Nutzer" und durch den Prozess wird die Seite indiziert. Eine Seite würde auch indiziert, wenn ich mich selber aktiv durch die Seiten klicke, obwohl sie auf noindex, nofollow stehen. Nur dazu ist der Crawler bei noindex, nofollow nicht in der Lage.

leofeyer · 2020-03-12T14:12:43Z

Siehe #1407.

contaoacademy mentioned this issue Feb 26, 2020

Geschützte Seiten aus sitemap.xml ausschließen #1407

Closed

leofeyer added the up for discussion Issues and PRs which will be discussed in our monthly Mumble calls. label Mar 9, 2020

leofeyer closed this as completed Mar 12, 2020

leofeyer removed the up for discussion Issues and PRs which will be discussed in our monthly Mumble calls. label Mar 12, 2020

github-actions bot locked as resolved and limited conversation to collaborators Mar 18, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Suchindex Crawler funktioniert bei geschützten Seite nur bei "index, follow" #1395

Suchindex Crawler funktioniert bei geschützten Seite nur bei "index, follow" #1395

contaoacademy commented Feb 25, 2020

Toflar commented Feb 25, 2020

contaoacademy commented Feb 25, 2020

Toflar commented Feb 26, 2020

contaoacademy commented Feb 26, 2020 •

edited

contaoacademy commented Feb 26, 2020

aschempp commented Feb 26, 2020

christophbach commented Feb 27, 2020

fritzmg commented Feb 27, 2020

christophbach commented Feb 27, 2020 •

edited

leofeyer commented Mar 12, 2020

Suchindex Crawler funktioniert bei geschützten Seite nur bei "index, follow" #1395

Suchindex Crawler funktioniert bei geschützten Seite nur bei "index, follow" #1395

Comments

contaoacademy commented Feb 25, 2020

Toflar commented Feb 25, 2020

contaoacademy commented Feb 25, 2020

Toflar commented Feb 26, 2020

contaoacademy commented Feb 26, 2020 • edited

contaoacademy commented Feb 26, 2020

aschempp commented Feb 26, 2020

christophbach commented Feb 27, 2020

fritzmg commented Feb 27, 2020

christophbach commented Feb 27, 2020 • edited

leofeyer commented Mar 12, 2020

contaoacademy commented Feb 26, 2020 •

edited

christophbach commented Feb 27, 2020 •

edited