Парсинг xml карты сайта и тестовый парсинг данных с Селениумом
Исходный код взят с телеграм канала ChatGPT, AI, Python для SEO
Создали удобное веб-приложение на Streamlit, которое:
- 🔍 Загружает все ссылки из
sitemap.xml
(поддержка вложенных карт); - ✅ Проверяет код ответа каждой страницы (200, 404 и другие);
- 🌐 Автоматически открывает каждую ссылку через Selenium;
- 🏷️ Извлекает заголовок страницы (
<title>
); - ⚙️ Позволяет настроить свой User-Agent и задержку между запросами;
- 📊 Отображает процесс работы: сколько осталось, сколько прошло времени ⏱;
- 📥 После завершения — позволяет скачать все результаты в CSV.
- Python — основной язык
- Streamlit — удобный веб-интерфейс
- Selenium — автоматизация открытия страниц
- ElementTree — обработка структуры sitemap.xml
- CSV — сохранение результатов
- Вводите домен сайта.
- Программа загружает все ссылки из
sitemap.xml
. - Каждая страница открывается через Selenium.
- Определяется HTTP-статус и заголовок страницы.
- В реальном времени показывается ход выполнения.
- После окончания можно скачать файл со всеми данными.
- Если вместо sitemap вернётся HTML-страница — будет выведено предупреждение.
- Поддерживается вложенная структура карт сайта.
- Работает в headless режиме (без открытия браузера на экране).
- Python 3.8+
- Установленные библиотеки:
pip install streamlit selenium