sitemap.xml генерируется не полностью валидным #3

Open
rb2 opened this Issue Apr 20, 2012 · 0 comments

Comments

Projects
None yet
1 participant
Owner

rb2 commented Apr 20, 2012

По спецификации http://www.sitemaps.org/protocol.html#escaping некоторые символы должны escape-иться, даже в URL. Т.е. например URI http://abc.org/monitor-14" в XML должен выглядеть не как http://abc.org/monitor-14%22 (rawurlencode), а как http://abc.org/monitor-14"

Гугл соответственно должен это получить в "xml-обертке", декодировать и опрашивать правильные линки (rawurlencode). Оказалось, он этого не делает. Запрашивает адреса вида http://abc.org/monitor-14" и получает 404 в ответ.

Резюме:

  1. В гугле глюк. И надо либо им сообщать, либо иметь в виду и обходить (не допускать применение потенциальных глюко-символов)
  2. В Опенкарте/ocStore тоже не всё хорошо при генерации sitemap.xml, поскольку искейпится только amp

TODO:

  1. генератор sitemap - надо добавить остальные сущности
  2. валидаторы SEO Keywords в админке - надо бы добавить замену "глюкоопасных" символов, чтобы они в URI вообще не попадали в базу и исправлялись на лету. И соответственно в SE они тоже никогда не попадут
    • А заодно добавить бы туда проверку на уникальность SEO Keyword
    • если (2) реализовать, то (1) можно оставить нетронутым
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment