Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Page visibility in XML-Sitemap and frontend module should be separate settings #501

Closed
tabcontao opened this issue May 31, 2019 · 54 comments
Assignees
Labels
Milestone

Comments

@tabcontao
Copy link

If I decide not to include a page in "the" XML sitemap used for search engines, it will not appear in the frontend module sitemap either. There should be a possibility to choose the visibility in both sitemaps separately, because XML sitemap and sitemap frontend module are different matters IMHO.

In a project we decided to set the Robots-Tag for the privacy statement page to "noindex, nofollow", but at the same time we chose to include the page in the sitemap, because we want to show it in the sitemap page which uses the sitemap frontend module. Now, Google sends me mails complaining about the page being included in the XML sitemap while being set to noindex in the Robots-Tag. Therefor, I need to exclude the page from XML sitemap but keeping it included in the frontend module.

@leofeyer
Copy link
Member

leofeyer commented Jun 5, 2019

If I decide not to include a page in "the" XML sitemap

How exactly did you do this?

@tabcontao
Copy link
Author

tabcontao commented Jun 5, 2019

Actually, I didn't. If I would do it, then I would do it in the properties of the page by setting "In der Sitemap anzeigen" to "Nie anzeigen" or "Standard". But then it wouldn't show up any more in the frontend module as well.

My settings at the moment are:
Im Menü verstecken: Activated/Checked
In der Sitemap anzeigen: Immer anzeigen

The privacy statement page is not to be included in the main navigation ("Navigationsmenü"), only in a modul "Individuelle Navigation" which is shown in the footer. It should also be included in the sitemap frontend module. So I think my settings are pretty much forced. If I set the page to "Standard" or "Nie anzeigen" it is not shown in the frontend module.

@leofeyer leofeyer added the up for discussion Issues and PRs which will be discussed in our monthly Mumble calls. label Jul 23, 2019
@leofeyer leofeyer removed the up for discussion Issues and PRs which will be discussed in our monthly Mumble calls. label Aug 29, 2019
@leofeyer
Copy link
Member

How exactly do I reproduce this?

@tabcontao
Copy link
Author

I'm not sure, if the "Google Search Console Team" still sees this as a problem. I haven't got another mail about this "problem" since. I also didn't get one during the years before. So my case may be a purely academic problem at the moment.
Still I think, that the sitemap module and the XML-Sitemap are separate things and pages should have separate settings for both. Anyway, here goes ...

  1. Login to the backend of the official demo
  2. Go to the root page in the site structure and enable the XML-sitemap, save.
  3. Select another page, e.g. the text elements page, edit its properties, set noindex, nofollow for robots, hide it in navigation, always show in sitemap and save it.
  4. Go to the system maintenance, purge the page cache and recreate the XML-Sitemap.

Now, the text elements page is not visible anymore in the navigation, but is still shown on the sitemap page and, unfortunately, also contained in the XML-Sitemap while its head section shows
<meta name="robots" content="noindex,nofollow">

And this was the reason for the email I received from Google in May 2019. The best thing would be just like we got it now, but the text elements page should not appear in the XML-Sitemap. And I couldn't find a combination of settings which does the trick (Page is not shown in navigation module and XML-Sitemap, page is shown in sitemap frontend module.)

@leofeyer leofeyer added the up for discussion Issues and PRs which will be discussed in our monthly Mumble calls. label Aug 30, 2019
@leofeyer
Copy link
Member

As discussed in Mumble on September 26th, the XML sitemap should not contain pages that have the noindex,nofollow attribute but it should ignore the "Show in sitemap" setting, which is meant for the HTML sitemap module only.

@leofeyer leofeyer added bug and removed up for discussion Issues and PRs which will be discussed in our monthly Mumble calls. labels Sep 26, 2019
@leofeyer leofeyer added this to the 4.4 milestone Sep 26, 2019
@leofeyer leofeyer self-assigned this Sep 30, 2019
@leofeyer
Copy link
Member

Fixed in a67301f.

@fritzmg
Copy link
Contributor

fritzmg commented Oct 20, 2019

We are currently checking for noindex,nofollow. Shouldn't it just check for noindex instead?

if (strpos($objParent->robots, 'noindex') === 0)

Otherwise the page will still be in the sitemap.xml if you are using noindex,follow - and then Google will complain that you have pages in your sitemap.xml that should not be indexed.

@xchs
Copy link
Contributor

xchs commented Oct 20, 2019

Otherwise the page will still be in the sitemap.xml if you are using noindex,follow - and then Google will complain that you have pages in your sitemap.xml that should not be indexed.

I had that, too.

@leofeyer
Copy link
Member

I don't think so. After all, we want Google to follow the links on the site, so it has to be in the sitemap, hasn't it? @ausi /cc

@fritzmg
Copy link
Contributor

fritzmg commented Oct 20, 2019

Well the Google Search Console lists it as an error. Also I don't know of any use case where you would want to actually set noindex,nofollow.

@tabcontao
Copy link
Author

Privacy statement pages are often good candidates for "noindex,nofollow" IMHO. To include them in the Google Index is - at least - not nexessary. And there are rarely any links on such pages to other internal pages. To guide the Google-Bot to follow the external links doesn't make much sense as well. Anyway, "nofollow" is irrelevant IMHO when we decide if it should be in the XML-Sitemap. The setting "index" or "noindex" ist obviously the only relevant one here.

@fritzmg
Copy link
Contributor

fritzmg commented Oct 20, 2019

Privacy statement pages are often good candidates for "noindex,nofollow" IMHO. To include them in the Google Index is - at least - not nexessary. And there are rarely any links on such pages to other internal pages.

Not sure I agree with that. Even your privacy statement page is part of your regular web site (usually) and thus most links on that page are still relevant for indexing. As long as there is any link on a page, which in turn does not contain noindex, using nofollow would be wrong.

To guide the Google-Bot to follow the external links doesn't make much sense as well.

Outbound links should be qualified with the rel attribute on the link itself anyway.

Anyway, "nofollow" is irrelevant IMHO when we decide if it should be in the XML-Sitemap. The setting "index" or "noindex" ist obviously the only relevant one here.

Agreed.

@BugBuster1701
Copy link
Contributor

Die Einstellung "Nie anzeigen " wird unterschiedlich verwendet bezogen auf Modul und sitemap.xml?
Das mag zwar technisch alles richtig sein, aber das versteht doch wieder keiner.

Dann ändert das Label "In der Sitemap zeigen" in "Im Sitemap Modul zeigen" oder so, damit das eindeutiger wird.

@ausi
Copy link
Member

ausi commented Oct 22, 2019

If you set a page to noindex,follow it has to be in the sitemap.xml IMO, otherwise the search engine might not find the page and thus cannot follow the links on the page.

If Google has a problem with that we could change it I think, but does the Google Search Console show this as an error which makes the whole sitemap invalid? Or is it just a notice that the submitted URL cannot be added to the index because of the noindex meta tag?

@fritzmg
Copy link
Contributor

fritzmg commented Oct 22, 2019

The latter.

@ausi
Copy link
Member

ausi commented Oct 22, 2019

From my understanding it is technically correct then as it is implemented now.

From sitemaps.org:

Sitemaps are an easy way for webmasters to inform search engines about pages on their sites that are available for crawling.

And crawling of a noindex,follow page is desired, only indexing is not.

I’d recommend to set the robots meta tag to noindex,nofollow if you want to get rid of the Google Search Console error.

@fritzmg
Copy link
Contributor

fritzmg commented Oct 22, 2019

I’d recommend to set the robots meta tag to noindex,nofollow if you want to get rid of the Google Search Console error.

But that would be incorrect as well. You only use nofollow if you are sure, that none of the links on that page can be indexed. Which is usually not the case. As I said, I don't know of a real world use-case (within the site structure of a Contao installation) where you would ever want to set noindex,nofollow.

@ausi
Copy link
Member

ausi commented Oct 22, 2019

I agree. But I think we have to live with either the “correct” warning in the Google Search Console or the “incorrect” meta robots tag.

@fritzmg
Copy link
Contributor

fritzmg commented Oct 22, 2019

Or we introduce a separate setting for the Sitemap ;)

@leofeyer leofeyer added the up for discussion Issues and PRs which will be discussed in our monthly Mumble calls. label Oct 22, 2019
@leofeyer leofeyer reopened this Oct 22, 2019
@Aybee
Copy link
Contributor

Aybee commented Sep 15, 2020

You should set it to noindex,follow in that case.

Did I get something wrong? I thought I had to use the combination noindex, nofollow so that a page does not appear in the sitemap.xml.

Can you link to the article where you read that?

Oops, that was years ago, I no longer have the source. But I found a post about it.
https://moz.com/blog/nofollow-sponsored-ugc
https://webmasters.googleblog.com/2019/09/evolving-nofollow-new-ways-to-identify.html

If I interpret that correctly, then the nofollow has nothing to do with an instruction that concerns the indexing of a page. This means that noindex is the only value that is responsible for this and if this is set, this should result in Contao in the fact that the page does not come into the sitemap.xml.

The word noindex already expresses this. So why use nofollow at the same time?

The more I think about it, the more I feel like not using this Metatag Robots at all.

My sitemap.xml submitted to the search engine declares the pages that should be indexed. And if I have links where I would like to recommend the search engines not to follow them, I have to make sure that they get the attribute rel="nofollow".

@ausi
Copy link
Member

ausi commented Sep 15, 2020

I thought I had to use the combination noindex, nofollow so that a page does not appear in the sitemap.xml.

If Google (or any search engine) should not index your page you should use noindex. If you want that the page is not included in your sitemap.xml you have to use noindex, nofollow. With noindex,follow the page will still show up in the sitemap.xml because it has to in order to be able to “follow” the links on that page.

nofollow is only intended for the case when you present links to "bad" sites.

I was not able to find something that would suggest this on the linked articles.

@Aybee
Copy link
Contributor

Aybee commented Sep 15, 2020

I was not able to find something that would suggest this on the linked articles.

Das war nur das, was ich seit Jahren im Hinterkopf behalten habe. Auf der ersten verlinkten Seite finde ich z.B.

rel=nofollow - Catch-all for all non-trusted links

Aus diesem Grund habe ich noch nie eine Seite auf nofollow gesetzt. @fritzmg kennt ja auch keinen Usecase dafür.

Aber ich habe da wohl einen Denkfehler, was die sitemap.xml betrifft. Ich dachte, diese wäre für die Indexierung verantwortlich. Aber nachdem ich jetzt nochmal alle eure Beiträge intensiv gelesen habe, sieht es wohl so aus, als wäre die sitemap.xml nur eine Liste der Seiten, welche gecrawlt werden sollen. Die eigentliche Anweisung eine Seite nicht zu indexieren steht dann im Metatag Robots der Seite selbst. Also kann ich eine Formular-Danke-Seite auf noindex,follow setzen und sie erscheint dann in der sitemap.xml, wird aber nicht indexiert.

@fritzmg
Copy link
Contributor

fritzmg commented Sep 15, 2020

Also kann ich eine Formular-Danke-Seite auf noindex,follow setzen und sie erscheint dann in der sitemap.xml, wird aber nicht indexiert.

It won't be indexed by Google, but it will be indexed by Contao, if not disabled.

@Aybee
Copy link
Contributor

Aybee commented Sep 16, 2020

What does that mean? Indexed for the Contao search engine? If so, does that mean I additionally have to exclude the page from search?

@Aybee
Copy link
Contributor

Aybee commented Oct 22, 2020

Current status:

At the moment it is so that you can no longer exclude a page from the xml without using the attribute "nofollow".

For me this means that I now always have to have all pages in the xml, since I definitely don't want to give any of my pages the "nofollow" attribute.

Do I have a link on my pages that the search engines shouldn't follow, e.g. 3p domains, then I use rel="nofollow" for these links but not the "nofollow" attribute for the page.

@Total-Reality
Copy link

Das ist doch total unlogisch. Es kann nicht sein, dass die Seite in die XML-Sitemap aufgenommen wird, obwohl sie im Backend auf noindex steht. Bitte keine noindex in die Sitemap aufnehmen!

Google stresst die ganze Zeit, dass die Seiten auf noindex stehen, aber übermittelt werden. Fehler in der Search Console sind nie gut.

@ausi
Copy link
Member

ausi commented Dec 14, 2021

@Total-Reality wie soll denn ein Crawler den Links auf der Seite folgen können wenn diese nicht in der Sitemap steht?

@Total-Reality
Copy link

Wir wären sehr froh, wenn das so wäre.

Status Quo bei Contao 4.9:
Seiten, die auf noindex,follow im Backend gesetzt sind, werden in die XML-Sitemap übernommen. Und das ist nicht gut.

@fritzmg
Copy link
Contributor

fritzmg commented Dec 14, 2021

You need to set the page to noindex,nofollow.

@Total-Reality
Copy link

Total-Reality commented Dec 14, 2021

noindex,nofollow ist für Seiten wie Datenschutz und Impressum keine korrekte Einstellung. Ich habe darüber mit einer renommierten SEO Agentur gesprochen, die sehr viele große Shops und Plattformen betreut. nofollow sollte man bei internen Seiten nicht einsetzen, da dies dem Crawling massiv schadet. Die Seiten müssen definitiv auf noindex,follow stehen.
Daher bitte die XML-Sitemaps nicht mit noindex,follow Seiten bestücken oder im Backend eine Einstellung für die XML-Sitemap schaffen.

P.S. Ich verstehe die Logik nicht warum die Einstellung in der Seitenstruktur seit Contao (4.9?) hinsichtlich der Auswirkungen auf das Sitemap-Modul gegenüber der XML-Sitemap anders interpretiert wird. Wer will denn das unterschiedlich handhaben?

@m-vo
Copy link
Member

m-vo commented Dec 14, 2021

Die Seiten müssen definitiv auf noindex,follow stehen.
Daher bitte die XML-Sitemaps nicht mit noindex,follow Seiten bestücken

Das ergibt keinen Sinn. Dir ist bewusst, dass die XML Sitemap für Crawler gedacht ist und das Sitemap Modul für Nutzer? Du willst dem Crawler (ob extern oder über eigener) alle Links in der XML Sitemap auflisten, denen er folgen (follow) soll.

@ausi
Copy link
Member

ausi commented Dec 15, 2021

noindex,nofollow ist für Seiten wie Datenschutz und Impressum keine korrekte Einstellung. Ich habe darüber mit einer renommierten SEO Agentur gesprochen, die sehr viele große Shops und Plattformen betreut. nofollow sollte man bei internen Seiten nicht einsetzen, da dies dem Crawling massiv schadet. Die Seiten müssen definitiv auf noindex,follow stehen.

Die renommierte SEO-Agentur liegt falsch, noindex,nofollow schadet nicht dem „Crawling“.

@Total-Reality hast du eine Antwort auf meine Frage?

wie soll denn ein Crawler den Links auf der Seite folgen können wenn diese nicht in der Sitemap steht?

@ausi
Copy link
Member

ausi commented Dec 15, 2021

See also: #2450 (comment)

@Total-Reality
Copy link

Total-Reality commented Jan 22, 2022

Die renommierte SEO-Agentur liegt falsch, noindex,nofollow schadet nicht dem „Crawling“.

Persönliche Meinungen sind hier nicht angebracht. Wenn du so "argumentierst", dann würde mich gerne deine Quelle dazu interessieren.
Selbst Google Mitarbeiter sagen, dass man interne Links niemals auf nofollow setzen sollte.
Siehe u.a. auch hier: https://wolf-of-seo.de/blog/nofollow-fuer-interne-links-ist-das-sinnvoll/

Die Folge sieht man logischerweise auch in der Search-Console von Google: Impressum und Datenschutz u.a. werden als fehlerhafte Seiten deklariert, da diese in der XML-Sitemap stehen, aber auf noindex,follow gesetzt sind.

Dann kommt jetzt wahrscheinlich als Argument von ausi, dass wir die Einstellung "noindex,follow" aus der Robots-Tag-Einstellung von Contao entfernen müssen :D Denn es bedeutet im Umkehrschluss ja, dass ich in Contao niemals noindex,follow verwenden dürfte! Denn das führt ja zu einem Fehler in der Search-Console.

Ich habe hier noch kein Argument gehört was dagegen spricht Seiten aus der XML-Sitemap rauszuwerfen, die auf noindex.follow stehen. Seiten, die auf noindex stehen, sollen nicht indexiert werden, sagt ja schon der Name! Also warum nehmt ihr das in die XML-Sitemap auf? Absolut unlogisch. Wenn noindex,nofollow nicht in die Sitemap aufgenommen wird, dann sollte es auch noindex,follow nicht.

Vorschlag:
Möglichkeit A) Am simpelsten: Seiten, die auf noindex,follow stehen, dürfen nicht in die XML-Sitemap aufgenommen werden.
Möglichkeit B) Völlig ausreichend: Einstellung wieder auf die ursprüngliche Logik zurückstellen, dass XML- und HTML-Sitemap gleichermaßen mit einer einzigen Einstellung manipuliert werden können.
Möglichkeit C) Für Kompromiss-Süchtige: Neue Einstellung für XML-Sitemap einführen, unabhängig von der HTML-Sitemap.
Dann kann einfach jeder die Kombination von Robots-Tag und XML-Sitemap vs. HTML-Sitemap einstellen, die er/sie/es für richtig hält.
Möglichkeit D) Für die Sparsamen (weniger Datenbankfelder): Einstellung für die Sitemap ("In der HTML-Sitemap zeigen") umbenennen in "In der Sitemap zeigen" & mit weiteren Select-Optionen ausstatten um z.B. zu sagen, dass die Seite in HTML + XML Sitemap erscheinen soll oder nur in einer von beiden.
Also stattt "nie" und "immer" einfach:

  • XML + HTML Sitemap
  • Nur in XML Sitemap
  • Nur in HTML Sitemap
  • Nie anzeigen (Also In keiner Sitemap)

Egal welche Möglichkeit (A bis D) gewählt wird, ich könnte mit allen leben. Aber der derzeitige willkürliche Zustand ist massiv unbefriedigend.

@Total-Reality hast du eine Antwort auf meine Frage?

wie soll denn ein Crawler den Links auf der Seite folgen können wenn diese nicht in der Sitemap steht?

Ich hatte dir bereits geantwortet... "Seiten, die auf noindex,follow im Backend gesetzt sind, werden in die XML-Sitemap übernommen. Und das ist nicht gut."

@ausi
Copy link
Member

ausi commented Jan 22, 2022

Die renommierte SEO-Agentur liegt falsch, noindex,nofollow schadet nicht dem „Crawling“.

Persönliche Meinungen sind hier nicht angebracht. Wenn du so "argumentierst", dann würde mich gerne deine Quelle dazu interessieren.

Siehe #501 (comment) TLDR: noindex,nofollow ist für Google „essentially“ dasselbe wie noindex,follow. Exakte Quelle: John Mueller (Search Advocate bei Google) am 15.12.2017: https://youtu.be/9GNg8R-X8LQ?t=3329

@Total-Reality
Copy link

Total-Reality commented Jan 23, 2022

Verdreh doch bitte nicht die Tatsachen.

"noindex and follow is essentially kind of the same as noindex nofollow. There is no really big difference."

Es wurde gesagt es ist im wesentlichen dasselbe. Es wurde nicht gesagt, dass es exakt dasselbe ist.
Es gibt keinen großen Unterschied. Das bedeutet im Umkehrschluss also es gibt zumindest einen kleinen Unterschied. Wenn es gar keinen Unterschied machen würde, dann könnte man ja auch eins von beiden global in HTML5.5 abschaffen.

Mal davon abgesehen, dass das eine Aussage ist, die knapp 4 Jahre alt ist. Stellt also nicht unbedingt die aktuelle Lage dar. SEO ist sehr kurzlebig...

Und selbst wenn es sogar exakt dasselbe wäre, dann ist das Argument ja genau auf meiner Seite. Dann würde es ja euch erst recht nicht weh tun wenn ihr noindex,follow ebenfalls nicht in die XML-Sitemap aufnehmt, Siehe von mir genannte Möglichkeit A.
Also ich weiß nicht was dein Problem ist?

@leofeyer
Copy link
Member

Das Problem ist, dass es nicht nur Google gibt.

Google sagt klar, dass noindex,follow für sie keine eindeutige Anweisung ist (siehe twitter.com/JohnMu) und gibt daher eine Warnung in der Search Console aus. Das ist Googles eigene Interpretation, die nicht allgemeingültig ist!

Andere Crawler, wie z.B. Escargot, interpretieren noindex,follow einfach so wie im robots.txt-Standard definiert. Sie indizieren die Seite nicht, folgend aber den Links. Dieser Anwendungsfall ist im Standard so vorgesehen und wird nicht dadurch falsch, dass Google ihn abweichend interpretiert!

Richtige Schlussfolgerung: Wenn Du Deine Sitemap für Google optimieren möchtest, verwende niemals noindex,follow, sondern immer nur noindex,nofollow für Seiten, die nicht indiziert werden sollen. Und akzeptiere, dass Du den Anwendungsfall noindex,follow bei Google eben nicht ohne Warnung nutzen kannst.

Falsche Schlussfolgerung: Contao sollte Seiten, die auf noindex stehen, niemals in der Sitemap anzeigen. Denn es gibt auch Crawler, die den noindex,follow-Anwendungsfall unterstützen und die URLs zu diesen Seiten gerne in der Sitemap hätten.

@fritzmg
Copy link
Contributor

fritzmg commented Jan 24, 2022

Also keep in mind that <meta name="robots" content="…,nofollow"> has a completely different meaning to the rel="nofollow" attribute on individual links: http://www.robotstxt.org/faq/relnofollow.html

It could be that this is at least one source of confusion within so called "SEO agencies" and why they tell you to set pages to noindex,follow because they are wrongly afraid of down-ranking your site's own pages.

@Total-Reality
Copy link

Danke für deine Antwort Leo, ich respektiere deine Meinung dazu.

Das Problem ist, dass es nicht nur Google gibt.

Das ist richtig, allerdings spielt es hinsichtlich der Marktanteile so gut wie keine Rolle was die anderen machen. Wir können deswegen alle in Geiselhaft nehmen, weil es die anderen Suchmaschinen ggf. anders handhaben. Die Basic Einstellungen von Contao sind hier einfach unzureichend.

Google sagt klar, dass noindex,follow für sie keine eindeutige Anweisung ist (siehe twitter.com/JohnMu) und gibt daher eine Warnung in der Search Console aus. Das ist Googles eigene Interpretation, die nicht allgemeingültig ist!

Danke für das Argument mit dem Twitter Eintrag von John https://twitter.com/JohnMu/status/1466666064935374851
"If there's nothing to index, you don't need to put them into the sitemap file."

Damit ist es also amtlich bestätigt, dass es hinsichtlich Google grundfalsch ist, dass Contao Seiten mit noindex,follow in die XML aufnimmt.

Richtige Schlussfolgerung: Wenn Du Deine Sitemap für Google optimieren möchtest, verwende niemals noindex,follow, sondern immer nur noindex,nofollow für Seiten, die nicht indiziert werden sollen. Und akzeptiere, dass Du den Anwendungsfall noindex,follow bei Google eben nicht ohne Warnung nutzen kannst.

Falsche Schlussfolgerung: Contao sollte Seiten, die auf noindex stehen, niemals in der Sitemap anzeigen. Denn es gibt auch Crawler, die den noindex,follow-Anwendungsfall unterstützen und die URLs zu diesen Seiten gerne in der Sitemap hätten.

noindex,follow hat definitiv seine Daseinsberechtigung, sonst würden es wohl kaum viele große Seiten und Shops so machen.
Sieh dir doch mal z.B. diese Seite an: https://www.otto.de/damen/mode/kleider/
Die steht auf index,follow. Sobald du aber etwas filterst oder die Paginierung bedienst, wird die Seite auf noindex,follow gestellt. Das bezieht sich jetzt zwar nicht auf Datenschutz und Impressum, aber das war jetzt zur Klarstellung, dass du suggeriert hast, dass noindex,follow grundsätzlich unsinnig wäre.

Wenn ihr der Meinung seid es (unserer Meinung nach) falsch einzusetzen (also noindex,nofollow), dann macht es doch bitte bei euren Seiten so. Wir möchten das so aber nicht und möchten noindex,follow einsetzen. Also macht es doch bitte einfach einstellbar!

Ich akzeptiere, dass dann Möglichkeit A (Siehe oben) nicht in Frage kommt.
Es gibt aber noch die Möglichkeiten B bis D.

@fritzmg
Copy link
Contributor

fritzmg commented Jan 24, 2022

Die steht auf index,follow. Sobald du aber etwas filterst oder die Paginierung bedienst, wird die Seite auf noindex,follow gestellt.

If you use a module in Contao that filters via query parameters your module could change the robots meta tag dynamically and also not add these URLs to the sitemap. Though it's more semantically meaningful to use a canonical meta tag in such a case, rather than controlling indexing via the robots meta tag.

But this has nothing to do with the current discussion of whether regular pages with noindex,follow should be added to the sitemap or not. In your example the regular page in Contao would be configured with index,follow and not noindex,nofollow nor noindex,follow.

@Total-Reality
Copy link

Warum schreibst du jetzt auf Englisch?

In your example the regular page in Contao would be configured with index,follow and not noindex,nofollow nor noindex,follow.

Ja, hat nichts direkt mit der Diskussion zu tun. Allerdings habe ich ja auch selbst geschrieben, dass es nur der Klarstellung diente, da suggeriert wurde es würde allgemein gar nichts bringen.

In your example the regular page in Contao would be configured with index,follow and not noindex,nofollow nor noindex,follow.

Das weiß ich, hab nicht das Gegenteil behauptet.
Aber ist ja jetzt auch völlig egal. Ich finde das respektlos so spitzfindig zu sein und nie auf die eigentlichen Ideen einzugehen, sondern nur auf die kontroversen Aussagen.
Wenn die Macher von Typo3 oder Wordpress das hier sehen könnten, würden die sich auch kaputt lachen. Einfach schade und unnötig.

Daher jetzt nochmal gefragt: Warum kann man in der Seitenstruktur keine Option für die Steuerung der XML-Sitemap einführen? Siehe #501 (comment)

@tabcontao
Copy link
Author

Well, while I'm out of this discussion for years, but it seems like the discussion could go on forever. Maybe a separate switch for each setting could put an end to it. While the arguments used for it here lately seem inconsistent to me, why not make a SEO happy who comes up with a good solution and maybe even with a pull request?

A good solution would of course have to take care of search engines other than Google as well, especially Escargot, which is also used to generate the data for the internal search module. Besides, maybe we shouldn't make the "Google Way" the default, although the standard is different. Googles only constant is constant change. This could make things quite complicated in the end. So we would have (at least) three different sitemaps, one of them being the sitemap used in the frontend module, the second one a XML-Sitemap created for crawlers abididing by - and also depending on - the (standard) rules. And the third one, a XML-Sitemap for Google Crawlers, abiding by the current Google rules. The third one (XML) would be needed just for Google and would not include the "noindex, follow" pages. Which is btw IMHO neither needed nor requested by Google. All there is to it, is a warning by Google, which is not necessarily related to the

Even if we choose to omit the second part of this Tweet and make it
"If there's nothing to index, you don't need to put them into the sitemap file", "don't need to" sounds quite a little different than a clear "must not". More like a "Put them in or don't, it doesn't make a difference for us anyway".

Also ist es mitnichten amtlich bestätigt, dass es falsch ist, diese Seiten in die XML-Sitemap aufzunehmen. Es ist lediglich amtlich bestätigt, dass es nicht notwendig ist :-). Und die Warnung könnte man auch so interpretieren, dass man mehr oder weniger freundlich darauf hingewiesen wird, dass man hier Seiten mitgeschickt hat, die Google so nicht indexieren und somit auch den Links nicht folgen wird. Und dass man vielleicht nochmals gegenchecken sollte, ob das auch wirklich so sein soll und nicht eventuell doch "index, follow" gemeint ist.

Englisch übrigens deshalb, weil es auch nicht-deutschsprachige Contao-User verstehen sollten.

@Total-Reality
Copy link

Danke für die neutrale, konstruktive Antwort.
Ich stimme mit fast allem was du geschrieben hast überein - bis auf nachfolgende Einschränkungen:

Englisch übrigens deshalb, weil es auch nicht-deutschsprachige Contao-User verstehen sollten.

Zunächst kurz dazu: Es ist ein extrem kompliziertes Thema bei dem es auf jedes Wort ankommt. Bevor ich angefangen habe auf Deutsch zu schreiben war dies bereits bei Bugbuster der Fall.
Danach hatten dann sowieso alle auf Deutsch geschrieben, von daher finde ich es befremdlich, wenn dann eine Person wieder auf Englisch schreibt und die Aussagen dort dann auch nicht wirklich konstruktiv sind, sondern eher so von oben herab. Allgemein gesehen hast du natürlich recht, dass es auf Englisch besser ist.

why not make a SEO happy who comes up with a good solution and maybe even with a pull request?

Es ist unmöglich einen PR erstellen, wenn die Ansichten so stark auseinander sind. Dafür muss erst mal Kompromiss gefunden werden. Ich kann das auf DCA Ebene programmieren, hab ich kein Problem mit, aber ich hab ein Problem damit, wenn ich das 100 mal anfassen muss.

Und die Warnung könnte man auch so interpretieren, dass man mehr oder weniger freundlich darauf hingewiesen wird, dass man hier Seiten mitgeschickt hat, die Google so nicht indexieren und somit auch den Links nicht folgen wird. Und dass man vielleicht nochmals gegenchecken sollte, ob das auch wirklich so sein soll und nicht eventuell doch "index, follow" gemeint ist.

Das Problem ist, dass es keine "Warnung" ist, sondern es als "Status: Fehler" deklariert wird.
Es ist zwar gut, dass man drauf hingewiesen wird, weil es ja auch unbeabsichtigt passieren kann.

Aber wenn man es bewusst so gemacht hat, hat man ein Problem. Man kann Google nicht eindeutig für immer und ewig mitteilen, dass das kein Fehler ist, sondern es das ignorieren soll. Daher hilft nur, dass es aus der XML-Sitemap rausfliegt.

Allgemein betrachtet ist die Search Console sowieso einfach nur nervig. Auch bei vielen anderen Aktionen wartest du Wochen obwohl die jeweilige Maßnahme längst von dir behoben ist.

@Total-Reality
Copy link

Total-Reality commented Feb 21, 2022

Das Problem ist, dass es nicht nur Google gibt.
Andere Crawler, wie z.B. Escargot, interpretieren noindex,follow einfach so wie im robots.txt-Standard definiert. Sie indizieren die Seite nicht, folgend aber den Links. Dieser Anwendungsfall ist im Standard so vorgesehen und wird nicht dadurch falsch, dass Google ihn abweichend interpretiert!

Richtige Schlussfolgerung: Wenn Du Deine Sitemap für Google optimieren möchtest, verwende niemals noindex,follow, sondern immer nur noindex,nofollow für Seiten, die nicht indiziert werden sollen. Und akzeptiere, dass Du den Anwendungsfall noindex,follow bei Google eben nicht ohne Warnung nutzen kannst.

Das Problem ist, dass Google das mittlerweile nicht mehr als Warnung deklariert, sondern als Fehler. Und Fehler sind immer sehr fatal.

Falsche Schlussfolgerung: Contao sollte Seiten, die auf noindex stehen, niemals in der Sitemap anzeigen. Denn es gibt auch Crawler, die den noindex,follow-Anwendungsfall unterstützen und die URLs zu diesen Seiten gerne in der Sitemap hätten.

Contao hat doch auch jahrelang die Google Webfonts supportet, auch wenn es dort ebenfalls andere Lösungen gibt.
Google hat nun mal bei weitem die größten Marktanteile.

Dann hätte ich folgenden Vorschlag: Wir stellen es standardmäßig so ein, dass Seiten mit noindex,follow nicht in die sitemap.xml wandern.
Da die meisten hier ja gemeint haben, dass noindex,follow keine sinnvolle Einstellung ist, kann ich mir auch nicht vorstellen, dass das großartig jemand stören sollte. Wer diese Seiten dennoch hinzufügen will, hat mit dem getSearchablePages Hook ja jederzeit die Möglichkeit dazu.

Das große Problem ist nämlich, dass man zwar Seiten in die XML hinzufügen kann, aber man kann keine Seiten entfernen. Es sei denn wir würden noch einen Hook einführen.

Das wäre alles sehr viel einfacher als wenn wir noch eine neue Einstellung einführen würden zur Differenzierung zwischen HTML- und XML-Sitemap.

@fritzmg
Copy link
Contributor

fritzmg commented Feb 21, 2022

Das große Problem ist nämlich, dass man zwar Seiten in die XML hinzufügen kann, aber man kann keine Seiten entfernen. Es sei denn wir würden noch einen Hook einführen.

You can alter the complete DOM of the sitemap via the contao.sitemap event in Contao 4.13+.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
Projects
None yet
Development

No branches or pull requests