# Процесс получения/извлечения информации с веб-ресурсов в интернете называется web-scraping (рус. веб-скрейпинг/веб-скрапинг). Веб-скрапинг может быть проделан вручную пользователем компьютера, однако этот термин обычно связывают с автоматизированными процессами, реализованными с помощью кода.

## Какие данные можно извлечь в процессе веб-скрапинга?

- цены на товары конкурентов для оптимизации своей стратегии ценообразования;

- сообщения в социальных медиа, по которым можно отслеживать тренды в той или иной области;

- отзывы о товарах/услугах компании на различных площадках, которые можно впоследствии анализировать;

- контактные данные пользователей соцсетей или форумов для дальнейшего взаимодействия с этими пользователями;
и т.д.

Для того чтобы веб-скрапинг был возможен, необходимо подключение компьютера, который будет задействован в этом процессе, к сети Интернет.

### Интернет — это глобальная информационная сеть, которая позволяет компьютерам по всему миру обмениваться информацией. Один компьютер (называемый клиентом) отправляет запрос в определённом формате другому компьютеру (называемому сервером) и получает ответ (текст, изображение, видео и т. д.).

![image.png](attachment:image.png)

### Клиент и сервер взаимодействуют между собой, обмениваясь одиночными сообщениями (не потоком данных) посредством сетевых протоколов, которые формализуют общение между ними. В настоящее время повсеместно используемый протокол в интернете, позволяющий клиенту получать различные ресурсы (например, HTML-документы), — это протокол HTTP.

### Запрос, отправляемый клиентом с использованием протокола HTTP, состоит из нескольких элементов:

- адрес, по которому идёт обращение (например, www.google.com);

- техническая информация, например метод запроса;

- дополнительные данные, например если загружается (передаётся) изображение.

### Адрес — это URL, Uniform Resource Locator (с англ. Унифицированный Указатель Ресурса).

### Ответ, в свою очередь, состоит из следующих элементов:

- код статуса ответа: например, 200 («успешно»), 404 («не найден») и т. д. (более полный список кодов статуса ответа можете посмотреть, перейдя по ссылке);

- текст в запрошенном формате (HTML, XML, JSON и т. д.) или мультимедийные файлы;

- прочая техническая информация.

## Методы запросов в протоколе HTTP

Для того чтобы указать серверу на то, какое действие мы хотим произвести с ресурсом, в протоколе HTTP используются так называемые методы. В HTTP существует несколько методов, которые описывают действия с ресурсами. Чаще всего используются GET и POST.

### GET — получение ресурса

Метод GET запрашивает информацию из указанного источника и не может влиять на его содержимое. Запрос доступен для кэширования данных (то есть для сохранения, восстановления и дальнейшего использования) и добавления в закладки. Длина запроса ограничена (максимальная длина — 2048 символов).

Пример GET-запроса, отправляемого через адресную строку браузера:

http://site.ru/page.php?name=dima&age=27

### POST — создание ресурса

Метод POST используется для отправки данных, которые могут оказывать влияние на содержимое ресурса. В отличие от метода GET, запросы POST не могут быть кэшированы, они не остаются в истории браузера и их нельзя добавить в закладки. Длина запроса POST не ограничивается.

Пример POST-запроса, отправляемого через форму запроса:

In [None]:
POST / HTTP/1.0\r\n
Host: www.site.ru\r\n
Referer: http://www.site.ru/index.html\r\n
Cookie: income=1\r\n
Content-Type: application/x-www-form-urlencoded\r\n
Content-Length: 35\r\n
\r\n
login=Dima&password=12345

### ДОПОЛНИТЕЛЬНО

Подробнее про методы HTTP можете прочитать, перейдя по этой [ссылке](https://developer.mozilla.org/ru/docs/Web/HTTP/Methods).