Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Suchindex Crawler funktioniert bei geschützten Seite nur bei "index, follow" #1395

Closed
contaoacademy opened this issue Feb 25, 2020 · 10 comments

Comments

@contaoacademy
Copy link

Affected version(s)
Contao 4.9

Description
Bei meiner Website habe ich einen umfangreichen Mitgliederbereich und stelle eine Suche bereit. Bisher konnte ich die Seiten problemlos indexieren lassen.

Wenn ich die Seite jetzt indexieren will, dann muss ich das Robots-Tag auf index stellen, sonst findet der crawler die Seiten nicht.

Allerdings möchte ich die Seiten nicht auf index haben, da diese sonst in der sitemap.xml sind und Google die Seiten ebenfalls indexieren will, was allerdings nicht funktioniert, weil diese ja geschützt sind.

Der crawler sollte geschützte Seiten indexieren können, ohne das diese in der sitemap auftauschen. Bzw. wie könnte das Problem sinnvoll gelöst werden?

How to reproduce

  • Geschützte Seiten anlagen
  • Robots-Tag auf "noindex, nofollow" stellen
  • Crawlvorgang über das Backend starten

Anmerkung
Ich habe sowohl einen User ausgewählt, als auch in der config.yml die geschützten Seiten erlaubt.

@Toflar
Copy link
Member

Toflar commented Feb 25, 2020

Was sagt denn das Debug-Log? Weil es ist eigentlich explizit nicht so :)

@contaoacademy
Copy link
Author

@Toflar Welches Log willst du? Das Standard-Crawling Log vom Backend?

@Toflar
Copy link
Member

Toflar commented Feb 26, 2020

Das Debug-Log. Neben dem Fortschrittsbalken. Müsste deutlich mehr Informationen enthalten :)

@contaoacademy
Copy link
Author

contaoacademy commented Feb 26, 2020

Anbei folgendes:

  • Screenshot Einstellungen Backend (Robots-Tag)
  • sitemap.xml
  • Logfile Crawler

@contaoacademy
Copy link
Author

Wie mit @Toflar besprochen funktioniert der Crawler korrekt. Es werden alle Seiten mit "follow" indexiert.

Diskutiert werden sollte die Generierung der sitemap.xml bei geschützten Seiten. Hierfür wird ein eigenes Ticket erstellt.

@aschempp
Copy link
Member

kann man dieses Ticket dann vielleicht schliessen?

@christophbach
Copy link

Eventuell sollte das in die Dokumenation aufgenommen werden. Das hat mich gerade einiges an Nerven gekostet. Oder habe ich die Stelle nicht gefunden/falsch verstanden?

Wir haben ein öffentlich zugängliches Handbuch für unsere Software, wollen aber kein Indexing in Suchmaschinen. Da war die alte Einstellung immer "noindex,nofollow", was ja wunderbar funktioniert hat.

Es müssen alle Seiten auf "noindex,follow" umgestellt werden. Im Nachgang betrachtet ist das ja auch logisch, wenn man's kapiert hat. :)

@fritzmg
Copy link
Contributor

fritzmg commented Feb 27, 2020

Ist das wirklich für dich logisch? Also dass eine Seite in der sitemap.xml aufscheint und vom Crawler indexiert wird, wenn die Seite auf noindex steht?

@christophbach
Copy link

christophbach commented Feb 27, 2020

Die Sitemap ist bei uns deaktiviert, aus den genannten Gründen. Ich persönlich finde die aktuelle Funktionsweise nicht optimal, daher der Wunsch nach einer Dokumentation, damit das Verhalten des Indexing-Prozesses nachvollzogen werden kann. Der Crawler agiert ja im Prinzip als "Frontend-Nutzer" und durch den Prozess wird die Seite indiziert. Eine Seite würde auch indiziert, wenn ich mich selber aktiv durch die Seiten klicke, obwohl sie auf noindex, nofollow stehen. Nur dazu ist der Crawler bei noindex, nofollow nicht in der Lage.

@leofeyer leofeyer added the up for discussion Issues and PRs which will be discussed in our monthly Mumble calls. label Mar 9, 2020
@leofeyer
Copy link
Member

Siehe #1407.

@leofeyer leofeyer removed the up for discussion Issues and PRs which will be discussed in our monthly Mumble calls. label Mar 12, 2020
@github-actions github-actions bot locked as resolved and limited conversation to collaborators Mar 18, 2024
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants