New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Page visibility in XML-Sitemap and frontend module should be separate settings #501
Comments
How exactly did you do this? |
Actually, I didn't. If I would do it, then I would do it in the properties of the page by setting "In der Sitemap anzeigen" to "Nie anzeigen" or "Standard". But then it wouldn't show up any more in the frontend module as well. My settings at the moment are: The privacy statement page is not to be included in the main navigation ("Navigationsmenü"), only in a modul "Individuelle Navigation" which is shown in the footer. It should also be included in the sitemap frontend module. So I think my settings are pretty much forced. If I set the page to "Standard" or "Nie anzeigen" it is not shown in the frontend module. |
How exactly do I reproduce this? |
I'm not sure, if the "Google Search Console Team" still sees this as a problem. I haven't got another mail about this "problem" since. I also didn't get one during the years before. So my case may be a purely academic problem at the moment.
Now, the text elements page is not visible anymore in the navigation, but is still shown on the sitemap page and, unfortunately, also contained in the XML-Sitemap while its head section shows And this was the reason for the email I received from Google in May 2019. The best thing would be just like we got it now, but the text elements page should not appear in the XML-Sitemap. And I couldn't find a combination of settings which does the trick (Page is not shown in navigation module and XML-Sitemap, page is shown in sitemap frontend module.) |
As discussed in Mumble on September 26th, the XML sitemap should not contain pages that have the |
Fixed in a67301f. |
We are currently checking for if (strpos($objParent->robots, 'noindex') === 0) Otherwise the page will still be in the |
I had that, too. |
I don't think so. After all, we want Google to follow the links on the site, so it has to be in the sitemap, hasn't it? @ausi /cc |
Well the Google Search Console lists it as an error. Also I don't know of any use case where you would want to actually set |
Privacy statement pages are often good candidates for "noindex,nofollow" IMHO. To include them in the Google Index is - at least - not nexessary. And there are rarely any links on such pages to other internal pages. To guide the Google-Bot to follow the external links doesn't make much sense as well. Anyway, "nofollow" is irrelevant IMHO when we decide if it should be in the XML-Sitemap. The setting "index" or "noindex" ist obviously the only relevant one here. |
Not sure I agree with that. Even your privacy statement page is part of your regular web site (usually) and thus most links on that page are still relevant for indexing. As long as there is any link on a page, which in turn does not contain
Outbound links should be qualified with the
Agreed. |
Die Einstellung "Nie anzeigen " wird unterschiedlich verwendet bezogen auf Modul und sitemap.xml? Dann ändert das Label "In der Sitemap zeigen" in "Im Sitemap Modul zeigen" oder so, damit das eindeutiger wird. |
If you set a page to If Google has a problem with that we could change it I think, but does the Google Search Console show this as an error which makes the whole sitemap invalid? Or is it just a notice that the submitted URL cannot be added to the index because of the |
The latter. |
From my understanding it is technically correct then as it is implemented now. From sitemaps.org:
And crawling of a I’d recommend to set the robots meta tag to |
But that would be incorrect as well. You only use |
I agree. But I think we have to live with either the “correct” warning in the Google Search Console or the “incorrect” meta robots tag. |
Or we introduce a separate setting for the Sitemap ;) |
Did I get something wrong? I thought I had to use the combination
Oops, that was years ago, I no longer have the source. But I found a post about it. If I interpret that correctly, then the The word The more I think about it, the more I feel like not using this Metatag Robots at all. My sitemap.xml submitted to the search engine declares the pages that should be indexed. And if I have links where I would like to recommend the search engines not to follow them, I have to make sure that they get the attribute |
If Google (or any search engine) should not index your page you should use
I was not able to find something that would suggest this on the linked articles. |
Das war nur das, was ich seit Jahren im Hinterkopf behalten habe. Auf der ersten verlinkten Seite finde ich z.B.
Aus diesem Grund habe ich noch nie eine Seite auf Aber ich habe da wohl einen Denkfehler, was die sitemap.xml betrifft. Ich dachte, diese wäre für die Indexierung verantwortlich. Aber nachdem ich jetzt nochmal alle eure Beiträge intensiv gelesen habe, sieht es wohl so aus, als wäre die sitemap.xml nur eine Liste der Seiten, welche gecrawlt werden sollen. Die eigentliche Anweisung eine Seite nicht zu indexieren steht dann im Metatag Robots der Seite selbst. Also kann ich eine Formular-Danke-Seite auf |
It won't be indexed by Google, but it will be indexed by Contao, if not disabled. |
What does that mean? Indexed for the Contao search engine? If so, does that mean I additionally have to exclude the page from search? |
Current status: At the moment it is so that you can no longer exclude a page from the xml without using the attribute "nofollow". For me this means that I now always have to have all pages in the xml, since I definitely don't want to give any of my pages the "nofollow" attribute. Do I have a link on my pages that the search engines shouldn't follow, e.g. 3p domains, then I use |
Das ist doch total unlogisch. Es kann nicht sein, dass die Seite in die XML-Sitemap aufgenommen wird, obwohl sie im Backend auf noindex steht. Bitte keine noindex in die Sitemap aufnehmen! Google stresst die ganze Zeit, dass die Seiten auf noindex stehen, aber übermittelt werden. Fehler in der Search Console sind nie gut. |
@Total-Reality wie soll denn ein Crawler den Links auf der Seite folgen können wenn diese nicht in der Sitemap steht? |
Wir wären sehr froh, wenn das so wäre. Status Quo bei Contao 4.9: |
You need to set the page to |
noindex,nofollow ist für Seiten wie Datenschutz und Impressum keine korrekte Einstellung. Ich habe darüber mit einer renommierten SEO Agentur gesprochen, die sehr viele große Shops und Plattformen betreut. nofollow sollte man bei internen Seiten nicht einsetzen, da dies dem Crawling massiv schadet. Die Seiten müssen definitiv auf noindex,follow stehen. P.S. Ich verstehe die Logik nicht warum die Einstellung in der Seitenstruktur seit Contao (4.9?) hinsichtlich der Auswirkungen auf das Sitemap-Modul gegenüber der XML-Sitemap anders interpretiert wird. Wer will denn das unterschiedlich handhaben? |
Das ergibt keinen Sinn. Dir ist bewusst, dass die XML Sitemap für Crawler gedacht ist und das Sitemap Modul für Nutzer? Du willst dem Crawler (ob extern oder über eigener) alle Links in der XML Sitemap auflisten, denen er folgen (follow) soll. |
Die renommierte SEO-Agentur liegt falsch, noindex,nofollow schadet nicht dem „Crawling“. @Total-Reality hast du eine Antwort auf meine Frage?
|
See also: #2450 (comment) |
Persönliche Meinungen sind hier nicht angebracht. Wenn du so "argumentierst", dann würde mich gerne deine Quelle dazu interessieren. Die Folge sieht man logischerweise auch in der Search-Console von Google: Impressum und Datenschutz u.a. werden als fehlerhafte Seiten deklariert, da diese in der XML-Sitemap stehen, aber auf noindex,follow gesetzt sind. Dann kommt jetzt wahrscheinlich als Argument von ausi, dass wir die Einstellung "noindex,follow" aus der Robots-Tag-Einstellung von Contao entfernen müssen :D Denn es bedeutet im Umkehrschluss ja, dass ich in Contao niemals noindex,follow verwenden dürfte! Denn das führt ja zu einem Fehler in der Search-Console. Ich habe hier noch kein Argument gehört was dagegen spricht Seiten aus der XML-Sitemap rauszuwerfen, die auf noindex.follow stehen. Seiten, die auf noindex stehen, sollen nicht indexiert werden, sagt ja schon der Name! Also warum nehmt ihr das in die XML-Sitemap auf? Absolut unlogisch. Wenn noindex,nofollow nicht in die Sitemap aufgenommen wird, dann sollte es auch noindex,follow nicht. Vorschlag:
Egal welche Möglichkeit (A bis D) gewählt wird, ich könnte mit allen leben. Aber der derzeitige willkürliche Zustand ist massiv unbefriedigend.
Ich hatte dir bereits geantwortet... "Seiten, die auf noindex,follow im Backend gesetzt sind, werden in die XML-Sitemap übernommen. Und das ist nicht gut." |
Siehe #501 (comment) TLDR: |
Verdreh doch bitte nicht die Tatsachen. "noindex and follow is essentially kind of the same as noindex nofollow. There is no really big difference." Es wurde gesagt es ist im wesentlichen dasselbe. Es wurde nicht gesagt, dass es exakt dasselbe ist. Mal davon abgesehen, dass das eine Aussage ist, die knapp 4 Jahre alt ist. Stellt also nicht unbedingt die aktuelle Lage dar. SEO ist sehr kurzlebig... Und selbst wenn es sogar exakt dasselbe wäre, dann ist das Argument ja genau auf meiner Seite. Dann würde es ja euch erst recht nicht weh tun wenn ihr noindex,follow ebenfalls nicht in die XML-Sitemap aufnehmt, Siehe von mir genannte Möglichkeit A. |
Das Problem ist, dass es nicht nur Google gibt. Google sagt klar, dass Andere Crawler, wie z.B. Escargot, interpretieren Richtige Schlussfolgerung: Wenn Du Deine Sitemap für Google optimieren möchtest, verwende niemals Falsche Schlussfolgerung: Contao sollte Seiten, die auf |
Also keep in mind that It could be that this is at least one source of confusion within so called "SEO agencies" and why they tell you to set pages to |
Danke für deine Antwort Leo, ich respektiere deine Meinung dazu.
Das ist richtig, allerdings spielt es hinsichtlich der Marktanteile so gut wie keine Rolle was die anderen machen. Wir können deswegen alle in Geiselhaft nehmen, weil es die anderen Suchmaschinen ggf. anders handhaben. Die Basic Einstellungen von Contao sind hier einfach unzureichend.
Danke für das Argument mit dem Twitter Eintrag von John https://twitter.com/JohnMu/status/1466666064935374851 Damit ist es also amtlich bestätigt, dass es hinsichtlich Google grundfalsch ist, dass Contao Seiten mit noindex,follow in die XML aufnimmt.
noindex,follow hat definitiv seine Daseinsberechtigung, sonst würden es wohl kaum viele große Seiten und Shops so machen. Wenn ihr der Meinung seid es (unserer Meinung nach) falsch einzusetzen (also noindex,nofollow), dann macht es doch bitte bei euren Seiten so. Wir möchten das so aber nicht und möchten noindex,follow einsetzen. Also macht es doch bitte einfach einstellbar! Ich akzeptiere, dass dann Möglichkeit A (Siehe oben) nicht in Frage kommt. |
If you use a module in Contao that filters via query parameters your module could change the robots meta tag dynamically and also not add these URLs to the sitemap. Though it's more semantically meaningful to use a canonical meta tag in such a case, rather than controlling indexing via the robots meta tag. But this has nothing to do with the current discussion of whether regular pages with |
Warum schreibst du jetzt auf Englisch?
Ja, hat nichts direkt mit der Diskussion zu tun. Allerdings habe ich ja auch selbst geschrieben, dass es nur der Klarstellung diente, da suggeriert wurde es würde allgemein gar nichts bringen.
Das weiß ich, hab nicht das Gegenteil behauptet. Daher jetzt nochmal gefragt: Warum kann man in der Seitenstruktur keine Option für die Steuerung der XML-Sitemap einführen? Siehe #501 (comment) |
Well, while I'm out of this discussion for years, but it seems like the discussion could go on forever. Maybe a separate switch for each setting could put an end to it. While the arguments used for it here lately seem inconsistent to me, why not make a SEO happy who comes up with a good solution and maybe even with a pull request? A good solution would of course have to take care of search engines other than Google as well, especially Escargot, which is also used to generate the data for the internal search module. Besides, maybe we shouldn't make the "Google Way" the default, although the standard is different. Googles only constant is constant change. This could make things quite complicated in the end. So we would have (at least) three different sitemaps, one of them being the sitemap used in the frontend module, the second one a XML-Sitemap created for crawlers abididing by - and also depending on - the (standard) rules. And the third one, a XML-Sitemap for Google Crawlers, abiding by the current Google rules. The third one (XML) would be needed just for Google and would not include the "noindex, follow" pages. Which is btw IMHO neither needed nor requested by Google. All there is to it, is a warning by Google, which is not necessarily related to the Even if we choose to omit the second part of this Tweet and make it Also ist es mitnichten amtlich bestätigt, dass es falsch ist, diese Seiten in die XML-Sitemap aufzunehmen. Es ist lediglich amtlich bestätigt, dass es nicht notwendig ist :-). Und die Warnung könnte man auch so interpretieren, dass man mehr oder weniger freundlich darauf hingewiesen wird, dass man hier Seiten mitgeschickt hat, die Google so nicht indexieren und somit auch den Links nicht folgen wird. Und dass man vielleicht nochmals gegenchecken sollte, ob das auch wirklich so sein soll und nicht eventuell doch "index, follow" gemeint ist. Englisch übrigens deshalb, weil es auch nicht-deutschsprachige Contao-User verstehen sollten. |
Danke für die neutrale, konstruktive Antwort.
Zunächst kurz dazu: Es ist ein extrem kompliziertes Thema bei dem es auf jedes Wort ankommt. Bevor ich angefangen habe auf Deutsch zu schreiben war dies bereits bei Bugbuster der Fall.
Es ist unmöglich einen PR erstellen, wenn die Ansichten so stark auseinander sind. Dafür muss erst mal Kompromiss gefunden werden. Ich kann das auf DCA Ebene programmieren, hab ich kein Problem mit, aber ich hab ein Problem damit, wenn ich das 100 mal anfassen muss.
Das Problem ist, dass es keine "Warnung" ist, sondern es als "Status: Fehler" deklariert wird. Aber wenn man es bewusst so gemacht hat, hat man ein Problem. Man kann Google nicht eindeutig für immer und ewig mitteilen, dass das kein Fehler ist, sondern es das ignorieren soll. Daher hilft nur, dass es aus der XML-Sitemap rausfliegt. Allgemein betrachtet ist die Search Console sowieso einfach nur nervig. Auch bei vielen anderen Aktionen wartest du Wochen obwohl die jeweilige Maßnahme längst von dir behoben ist. |
Das Problem ist, dass Google das mittlerweile nicht mehr als Warnung deklariert, sondern als Fehler. Und Fehler sind immer sehr fatal.
Contao hat doch auch jahrelang die Google Webfonts supportet, auch wenn es dort ebenfalls andere Lösungen gibt. Dann hätte ich folgenden Vorschlag: Wir stellen es standardmäßig so ein, dass Seiten mit Das große Problem ist nämlich, dass man zwar Seiten in die XML hinzufügen kann, aber man kann keine Seiten entfernen. Es sei denn wir würden noch einen Hook einführen. Das wäre alles sehr viel einfacher als wenn wir noch eine neue Einstellung einführen würden zur Differenzierung zwischen HTML- und XML-Sitemap. |
You can alter the complete DOM of the sitemap via the |
If I decide not to include a page in "the" XML sitemap used for search engines, it will not appear in the frontend module sitemap either. There should be a possibility to choose the visibility in both sitemaps separately, because XML sitemap and sitemap frontend module are different matters IMHO.
In a project we decided to set the Robots-Tag for the privacy statement page to "noindex, nofollow", but at the same time we chose to include the page in the sitemap, because we want to show it in the sitemap page which uses the sitemap frontend module. Now, Google sends me mails complaining about the page being included in the XML sitemap while being set to noindex in the Robots-Tag. Therefor, I need to exclude the page from XML sitemap but keeping it included in the frontend module.
The text was updated successfully, but these errors were encountered: