# Основы парсинга на Python: Request - Selenium - Beautiful Soup

Бывают ситуации, когда нужно автоматизировать сбор и анализ данных из разных источников. Например, если хочется мониторить курс рубля в режиме реального времени. Для решения подобных задач применяют парсинг.

1. Парсинг или скрапинг?
Часто эти термины используются как синонимы, но существует различие между ними.
**Парсинг** — это процесс синтаксического анализа текста с целью извлечения определенной информации.
**Скрапинг** — это процесс загрузки веб-страницы и попытка извлечения информации из неё, обычно в обход API, ограничений и правил пользования сайтом.
В российском комьюнити понятие скрапинга часто заменяется на термин парсинг. По содержанию статья больше относится к скрапингу.

2. Законность и этика парсинга
**Парсинг веб-сайтов** – это не только технический процесс, но и сложный юридический и этический вопрос. Понимание правовых и моральных аспектов парсинга является ключевым для его безопасного и эффективного использования.

Парсинг может оказать негативное влияние на сайты небольших интернет-магазинов, Например, если вы решите спарсить сайт, развернутый на дешевом VPS, да еще и начнете парсить его в нескольких потоках, то это может привести к перегрузке сервера и временному отключению сайта. Такие действия могут нанести ущерб бизнесу.

Также стоит учитывать файл robots.txt, который содержит инструкции для поисковых систем, таких как Google и Яндекс. Если владелец сайта установил ограничения на сканирование определенных страниц, игнорирование этих инструкций может быть неправомерным и некорректным.

3. Парсинг с помощью requests и BeautifulSoup
Один из самых простых и распространенных способов парсинга HTML-страниц - использование библиотек Python: requests для выполнения HTTP-запросов и BeautifulSoup для анализа HTML-кода.

- Отправляется GET запрос на указанный URL;
- Получение HTML-кода страницы;
- Использует объект BeautifulSoup для поиска и извлечения нужных данных из HTML-кода.

Этот пример демонстрирует базовый подход к парсингу веб-страниц с использованием библиотек Python requests и BeautifulSoup. Однако парсинг может быть более сложным в случае страниц с динамическим контентом или вложенной структурой. В таких случаях может потребоваться дополнительная обработка данных для извлечения необходимой информации.

4. Статические страницы
Статические веб-страницы представляют собой веб-страницы, содержимое которых остается неизменным независимо от действий пользователя или времени. Это означает, что каждый раз, когда страница запрашивается, сервер отдает один и тот же HTML-код без дополнительной обработки или изменений.

Статические веб-страницы могут быть легко спарсены с использованием инструментов для отправки HTTP-запросов (например, библиотека requests в Python) и парсинга HTML (например, BeautifulSoup). Это позволяет извлекать данные с веб-страниц для дальнейшего анализа или использования.

5. Динамические страницы
Динамические веб-страницы представляют собой веб-страницы, которые могут изменять свое содержимое без перезагрузки всей страницы. Это достигается за счет использования технологий, таких как JavaScript и AJAX (асинхронный JavaScript и XML), которые позволяют странице взаимодействовать с сервером и обновлять содержимое "на лету".

К примеру интернет-магазины с бесконечной лентой, где для загрузки "карточек" необходимо прокрутить страницу. Это типичный пример динамической загрузки данных при прокрутке страницы, которая часто используется для оптимизации производительности.

Динамические веб-страницы часто используются для разработки интерактивных веб-приложений, социальных сетей, интернет-магазинов и других веб-сервисов, где важно предоставлять пользователям быструю и удобную навигацию и взаимодействие с контентом.

6. Работа с API
Если парсинг статических страниц достаточно прост, то с динамическими поможет работа через API.

- Открытые API предоставляют доступ к данным и функциям сайта для использования другими программами или приложениями. Они могут быть платными или иметь некоторые ограничения на количество запросов или доступные функции. Примером открытого API может быть API биржи, которое предоставляет информацию о ценах акций и других финансовых данных;
- Скрытые API не предназначены для общего публичного использования, но их можно обнаружить и использовать через анализ сетевого трафика. Это может быть более сложным и технически требовательным процессом, но в определенных случаях это может быть единственным способом получения необходимых данных.

7. Защита от парсеров
Взгляните на комментарий:
"Мы не собираемся ни с кем судиться за кусок текста, просто максимально усложним работу подобным сервисам и программам по скачиванию сайтов. Эти сервисы будут получать 404 практически на все страницы. Все что мы захотим отдать во вне, мы отдадим через api."

Когда владельцы веб-сайтов хотят защитить свой контент от автоматического скачивания или парсинга, они могут применять различные методы и техники, чтобы затруднить или предотвратить такие действия. Вот некоторые из них:

- User-Agent фильтрация. Веб-серверы могут проверять User-Agent в HTTP-запросах и блокировать запросы от известных ботов и скриптов. Поэтому важно использовать подходящий User-Agent в запросах, чтобы обойти эту защиту;

- Ограничение частоты запросов. Веб-серверы могут ограничивать количество запросов, принимаемых от одного IP-адреса за определенный период времени. Это может замедлить или остановить парсер, который отправляет запросы слишком быстро;

- Использование JavaScript для рендеринга контента. Многие веб-сайты загружают контент с использованием JavaScript после загрузки основного HTML-кода страницы. Парсеры, которые не умеют обрабатывать JavaScript, могут столкнуться с трудностями при извлечении данных с таких страниц;

- Применение защиты CloudFlare. Сервисы защиты вроде CloudFlare могут предоставлять дополнительную защиту от парсеров, включая CAPTCHA, блокировку IP-адресов с аномальным поведением и другие методы защиты.

8. Способы обхода защиты при парсинге веб-сайтов
- Замена User-Agent и другие заголовки. Изменение User-Agent и других заголовков запроса позволяет скрыть идентификацию парсера и эмулировать запросы, как если бы они отправлялись обычным браузером. Библиотеки, такие как fake-useragent, предоставляют возможность генерации случайных User-Agent для каждого запроса, что делает обнаружение парсера сложнее;

- Selenium. Selenium - это инструмент для автоматизации веб-браузера, который может использоваться для эмуляции пользовательского взаимодействия с веб-страницами. Он может быть эффективным для обхода защиты, так как позволяет выполнить JavaScript и имитировать действия пользователя, такие как заполнение форм и клики по ссылкам. Однако Selenium требует значительных ресурсов и может быть медленным в сравнении с другими методами парсинга;

- Использование прокси-серверов. Использование прокси-серверов позволяет скрыть исходный IP-адрес парсера, замедляет скорость запросов и уменьшает риск блокировки. Это позволяет увеличить количество запросов без привлечения внимания исследуемого веб-сайта;

- Использование пула IP-адресов. При постоянном парсинге веб-сайтов, таких как отслеживание цен на товары на маркетплейсах, использование пула IP-адресов может быть эффективным методом. Это позволяет распределять запросы между различными IP-адресами, что снижает риск блокировки и повышает надежность парсинга.

## Что такое парсинг?

**Парсинг** — это процесс сбора, обработки и анализа данных. В качестве их источника может выступать веб-сайт.

Парсить веб-сайты можно несколькими способами — с помощью простых запросов сторонней программы и полноценной эмуляции работы браузера. Рассмотрим первый метод подробнее.

![image.png](attachment:57f47fa6-0bd7-4398-a470-36a9bdd02841.png)

Чтобы сымитировать запрос от реального пользователя, вместе с ним нужно отправить на веб-сервер специальные заголовки — `User-Agent`, `Accept`, `Accept-Encoding`, `Accept-Language`, `Cache-Control` и `Connection`. Их вы можете увидеть, если откроете веб-инспектор своего браузера.

Подробнее об HTTP запросах можно прочитать [тут](https://selectel.ru/blog/http-request/)

## Подготовка заголовков

На самом деле, необязательно отправлять с запросом все заголовки. В большинстве случаев достаточно User-Agent и Accept. Первый заголовок поможет сымитировать, что мы реальный пользователь, который работает из браузера. Второй — укажет, что мы хотим получить от веб-сервера гипертекстовую разметку.

In [2]:
st_accept = "text/html"  # говорим веб-серверу, что хотим получить html

# имитируем подключение через браузер Chrome на Windows
st_useragent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"

# формируем хеш заголовков
headers = {
   "Accept": st_accept,
   "User-Agent": st_useragent
}

После формирования заголовков нужно отправить запрос и сохранить страницу из ответа веб-сервера. Это можно сделать с помощью нескольких библиотек: Requests, ScraPy или PySpider.

## Requests: получаем страницу по запросу

Для начала работы будет достаточно Requests — он удобнее и проще, чем привычный модуль urllib.

**Requests** — это библиотека на базе встроенного пакета urllib, которая позволяет легко отправлять различные веб-запросы, а также управлять кукисами и сессиями, авторизацией и автоматической организацией пула соединений.

Для примера попробуем спарсить страницу с курсами в SkillFactory — это можно сделать за несколько действий:

Сервер вернет html-страницу, который можно прочитать с помощью атрибута text.

In [10]:
# импортируем модуль
import requests

# отправляем запрос с заголовками по нужному адресу
req = requests.get("https://skillfactory.ru/courses", headers=headers)

# считываем текст HTML-документа
src = req.text
print(src)

<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1.0" /> <!--metatextblock--> <title>Онлайн-курсы: обучение IT-профессиям | 90+ курсов</title> <meta name="description" content="Онлайн-курсы обучения по востребованным IT-профессиям и специальностям для новичков и специалистов Skillfactory. ✔️Не просто онлайн-курсы, а опыт, который вы можете выбрать ★ Выбирайте работу вместо того, чтобы ее искать." /> <meta name="keywords" content="онлайн-курсы, курсы it, курсы it-профессий" /> <meta property="og:url" content="https://skillfactory.ru/courses" /> <meta property="og:title" content="Программы обучения" /> <meta property="og:description" content="Полный список программ обучения от школы по работе с данными Skillfactory ★ Даты старта, продолжительность курсов и стоимость ☎ +7 (495) 291-09-12" /> <meta property="og:type" content="website" /> <meta propert

Мы получили гипертекстовую разметку страницы с курсами. Но что делать дальше и как извлечь из этого многообразия полезные данные? Для этого нужно применить некий «парсер для выборки данных».

## Beautiful Soup: извлекаем данные из HTML

Извлечь полезные данные из полученной html-страницы можно с помощью библиотеки Beautiful Soup.

**Beautiful Soup** — это, по сути, анализатор и конвертер содержимого html- и xml-документов. С помощью него полученную гипертекстовую разметку можно преобразовать в полноценные объекты, атрибуты которых — теги в html.

In [15]:
# импортируем модуль
from bs4 import BeautifulSoup

# инициализируем html-код страницы 
soup = BeautifulSoup(src, 'lxml')

# считываем заголовок страницы
title = soup.title.string

print(title)
# Программа выведет: Курсы - SkillFactory

Онлайн-курсы: обучение IT-профессиям | 90+ курсов


У нас получилось спарсить и напечатать заголовок страницы.

In [21]:
# импортируем необходимые модули
import requests
from bs4 import BeautifulSoup

# заголовки для запроса
headers = {
    "Accept": "text/html",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}

# отправляем запрос
req = requests.get("https://skillfactory.ru/courses", headers=headers)
src = req.text

# создаем объект BeautifulSoup
soup = BeautifulSoup(src, 'lxml')

# ищем все элементы с классом 't-rec'
course_divs = soup.find_all("div", class_="t-rec")

# выводим названия курсов с разделением
for div in course_divs:
    course_title = div.get_text(strip=True)
    if course_title:
        print(course_title)
        print("-" * 30)  # добавляем разделитель

онлайн-курсыПРактика и стажировкиМЕДИА8-800 301 56 88БЕСПЛАТНОПодобрать курс
------------------------------
ОНЛАЙН-КУРСЫБЕСПЛАТНОПРАКТИКА И СТАЖИРОВКИКОНТАКТЫМЕДИАКОРПОРАТИВНОЕ ОБУЧЕНИЕ
------------------------------
Все онлайн-курсыData ScienceАналитика данныхПрограммированиеPythonИнтенсивные курсыВеб-разработкаBackend-разработкаТестированиеРазработка приложенийБезопасностьИнфраструктураРазработка игрМаркетингДизайнМенеджментВысшее образованиеСоздание сайтов
------------------------------
Найдите свое призваниеПройдите профориентационный тест и узнайте, в каком направлении искать любимое дело и работу мечтыПройти тест
------------------------------
Онлайн-курсы по IT-профессиямПрограммированиеData ScienceТестированиеBackend-разработкаАналитика данныхВеб-разработкаРазработка приложенийРазработка игрДизайн от ContentedИнфраструктураМенеджментСоздание сайтовМаркетингБезопасностьИнтенсивыВысшее образованиеКурсы для стартаАналитикаКурсы ITIT без кодаFrontend-разработкаКурсы рекрутингаC++ и

## Проблема парсинга с помощью HTTP-запросов

Бывают ситуации, когда с помощью простых веб-запросов не получается спарсить все данные со страницы. Например, если часть контента подгружается с помощью API и JavaScript. Тогда сайт можно спарсить только через эмуляцию работы браузера.

## Парсинг с помощью эмулятора

Для эмуляции работы браузера необходимо написать программу, которая будет как человек открывать нужные веб-страницы, взаимодействовать с элементами с помощью курсора, искать и записывать ценные данные. Такой алгоритм можно организовать с помощью библиотеки Selenium.

Настройка рабочего окружения

1. Установите `ChromeDriver` — именно с ним будет взаимодействовать Selenium. Если вы хотите, чтобы актуальная версия ChromeDriver подтягивалась автоматически, воспользуйтесь webdriver-manager. Далее импортируйте Selenium и необходимые зависимости.

In [None]:
# !pip install selenium

In [33]:
from selenium import webdriver

2. Инициализируйте ChromeDriver. В качестве `executable_path` укажите путь до установленного драйвера.

In [37]:
# Указываем путь к chromedriver, если это необходимо
browser = webdriver.Chrome()

# Пример использования
browser.get("https://example.com")

![image.png](attachment:3cad4875-fc8c-49ef-af1e-22968823abe8.png)

Теперь попробуем решить задачу: найдем на сайте SkillFactory курсы связанные с Аналитикой данных.

Задача: работа с динамическим поиском

При переходе на страницу SF встречает общая лента, в которой собраны материалы для технических специалистов. Они помогают прокачивать навыки и быть в курсе новинок из мира IT.

Но материалов много, а у нас задача — найти все курсы, связанные с Data Science. Подойдем к парсингу системно и разобьем его на два этапа.

In [49]:
pip install webdriver-manager

Collecting webdriver-manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl (27 kB)
Installing collected packages: webdriver-manager
Successfully installed webdriver-manager-4.0.2
Note: you may need to restart the kernel to use updated packages.


### Шаг 1. Планирование

Для начала нужно продумать, с какими элементами должна взаимодействовать наша программа, чтобы найти соответствующие слова. Но здесь все просто: в рамках задачи Selenium должен найти все что упоминается о Data Science.

Теперь скопируем названия классов html-элементов и напишем скрипт!

### Шаг 2. Работа с полем ввода

Работа с html-элементами сводится к нескольким пунктам: регистрации объектов и запуску действий, которые будет имитировать Selenium.

### Шаг 3. Чтение ссылок и результат

Вне зависимости от того, какая у вас задача, если вы работаете с Requests и Selenium, Beautiful Soup станет серебряной пулей в обоих случаях. С помощью этой библиотеки мы извлечем полезные данные из полученной гипертекстовой разметки.

In [18]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import time

# Настраиваем и запускаем Chrome с помощью webdriver_manager
service = Service(ChromeDriverManager().install())
browser = webdriver.Chrome(service=service)

# Переходим на страницу с курсами
browser.get("https://skillfactory.ru/courses")

# Ждем некоторое время для загрузки страницы
time.sleep(5)

# Получаем HTML-код страницы
src = browser.page_source

# Создаем объект BeautifulSoup для парсинга
soup = BeautifulSoup(src, 'lxml')

# Ищем элементы с названием курсов и фильтруем по ключевым словам
courses = soup.find_all(text=lambda text: text and "Data Science" in text)

# Выводим найденные курсы
for course in courses:
    print(course)
    print("-" * 30)

Data Science
------------------------------
Data Science
------------------------------
Data Science
------------------------------
Data Science
------------------------------
Освойте самую востребованную профессию 2023 года. Начните свой путь в Data Science уже сейчас
------------------------------
Data Science
------------------------------
Погрузитесь в мир Data Science и постройте карьеру в интересной сфере: Big Data, Artificial Intelligence или Machine Learning
------------------------------
Data Science
------------------------------
Станьте дипломированным экспертом по Data Science и развитию искусственного интеллекта в направлении обработки естественного языка
------------------------------
Специалист по Data Science
------------------------------
Узнайте, как обучать нейросети и решать задачи бизнеса с помощью анализа данных. Получите диплом магистра Data Science и станьте востребованным специалистом
------------------------------
Data Science
------------------------------
Ст

  courses = soup.find_all(text=lambda text: text and "Data Science" in text)


Программа работает и выводит всю информацию, которая связана с Data Science