# Веб-скрапинг (Web scraping)
это технология получения веб-данных путем извлечения их со страниц веб-ресурсов.

---

**Источники:**

[Scrapy Wiki](https://ru.wikipedia.org/wiki/Scrapy)

[Scrapy](https://scrapy.org/)

[Scrapy Tutorial](https://docs.scrapy.org/en/latest/intro/tutorial.html)

[Scrapy documentation](https://docs.scrapy.org/en/latest/)

[Пишем простой парсер на Scrapy](https://pycoder.ru/make-simple-spider-scrapy/)

[Библиотека для парсинга сайта Scrapy](https://tyvik.ru/posts/parsing-scrapy/)

[Python: Scrapy, Selenium, Beautiful Soup что лучше для парсинга веб сайтов](https://dev-gang.ru/article/python-scrapy-selenium-beautiful-soup-czto-luczshe-dlja-parsinga-veb-saitov-rmv3n1q3us/)

[Beautiful Soup (HTML parser)](https://en.wikipedia.org/wiki/Beautiful_Soup_(HTML_parser))

[Selenium автоматизация браузера в Python | Изучаем Selenium](https://selenium-python.com/)

[Selenium](https://ru.wikipedia.org/wiki/Selenium)

[DOM-дерево](https://learn.javascript.ru/dom-nodes)

[HTML-теги](https://html5book.ru/html-tags/#:~:text=HTML%2D%D1%82%D0%B5%D0%B3%D0%B8%20%E2%80%94%20%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D0%B0%20%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0%20HTML,%D0%B8%20%D0%BA%D0%BE%D0%BD%D0%B5%D1%87%D0%BD%D1%8B%D0%BC%20(%D0%B7%D0%B0%D0%BA%D1%80%D1%8B%D0%B2%D0%B0%D1%8E%D1%89%D0%B8%D0%BC)%20%D1%82%D0%B5%D0%B3%D0%BE%D0%BC.)

[Элементы HTML](https://ru.wikipedia.org/wiki/%D0%AD%D0%BB%D0%B5%D0%BC%D0%B5%D0%BD%D1%82%D1%8B_HTML)

[Scrapy Common Practices](https://docs.scrapy.org/en/latest/topics/practices.html#run-from-script)

---

## Обзор пакетов для веб-крапинга

---

### Scrapy

<img src="images/logo_scrapy.png" height="400" width="400"/>

**Scrapy (читается как "скрэй-пай")** – это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python.

Архитектура проекта **Scrapy** построена вокруг **"пауков"**, которые по сути являются автономными краулерами с заданными инструкциями.

**Поисковый робот (веб-паук, веб-краулер, бот, web crawler, spider, spiderbot, crawler, ant, automatic indexer)** — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.

По принципу действия, паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы.

Кроме обычных пауков, существуют так называемые **"дятлы"** — роботы, которые "простукивают" проиндексированный сайт, чтобы определить, что он доступен.

#### Ключевые особенности Scrapy:
- Имеет встроенную поддержку для извлечения данных из источников `HTML` с использованием выражений `XPath` и `CSS`.
- Это кросплатформенная библиотека, т.е. (Написана на Python и работает на Linux, Windows, Mac и BSD).
- Легко расширяема.
- Быстрее, чем другие существующие библиотеки. Он может извлекать сайты в 20 раз быстрее, чем другие инструменты. **Производительность `Scrapy` невероятно высока, и это одна из самых мощных доступных библиотек. Одним из ключевых преимуществ scrapy является то, что он построен на основе `Twisted`, асинхронной сетевой структуры, что означает, что scrapy использует неблокирующий механизм при отправке запросов пользователям.**
- Потребляет намного меньше памяти и ресурсов процессора.
- Может помочь нам создать надежное и гибкое приложение с множеством функций.
- Имеет хорошую поддержку сообщества для разработчиков, но документация не очень хороша для начинающих.

---

### Beautiful soup

<img src="images/logo_beauitful_soup.jpg" height="400" width="400"/>

Эта библиотека поможет извлечь данные из файлов `HTML` и `XML`. Но проблема с `Beautiful Soup` в том, что он не может выполнить всю работу самостоятельно (без дополнительных пакетов).

#### Ключевые особенности Beautiful soup:
- Легко освоить.
- Имеет хорошую всеобъемлющую документацию.
- Имеет хорошую поддержку сообщества, чтобы выяснить проблемы, возникающие при работе с этой библиотекой.
- Требует определенных модулей для работы. Наприме:
    - Необходима библиотека  для отправки запроса на веб-сайт, потому что сам `Beautiful soup` не может сделать запрос на конкретный сервер. Для преодоления этой проблемы требуется помощь одной из популярных библиотек `Requests` или `urlib2`. Эти библиотеки помогут нам сделать запрос к серверу.
    - После загрузки данных HTML или XML на локальный компьютер `Beautiful Soup` требуется внешний анализатор для анализа загруженных данных. Наиболее известные парсеры - это XML-parser `lxml`, `HTML-parser lxml`, `HTML5lib`, `html.parser`.

---

### Selenium WebDriver

<img src="images/logo_selenium.png" height="400" width="400"/>

Это в первую очередь набор библиотек для различных языков программирования. Эти библиотеки используются для отправки HTTP запросов драйверу (отсюда и название WebDriver), в которых указано действие, которое должен совершить браузер в рамках текущей сессии. Примерами таких команд могут быть команды нахождения элементов по локатору, переход по ссылкам, парсинг текста страницы/элемента, нажатие кнопок или переход по ссылкам на странице веб-сайта. 

#### Ключевые особенности Selenium:
- Может легко работать с основными концепциями Javascript (DOM)
- Может легко обрабатывать запросы AJAX и PJAX.
- API очень удобен для начинающих
- В основном используется для автоматизации тестов для веб-приложений. Эта среда разработана для автоматизации браузера.
- Может быть использован для разработки веб-пауков, многие люди делали это раньше.
- Позволяет разработчику писать тесты на нескольких популярных языках программирования, таких как C#, Java, Python, Ruby и другие.


## Выбор подходящего пакета (библиотеки)

**Ключевые факторы, на которые важно обратить внимание:**

- **Гибкость**

    - `Scrapy`: Архитектура Scrapy спроектирована так, чтобы настраивать промежуточное ПО для добавления собственных функциональных возможностей. Эта особенность помогает сделать проект более надежным и гибким.
    Одним из самых больших преимуществ Scrapy является то, что можно очень легко перенести существующий проект в другой проект. Поэтому для больших / сложных проектов Scrapy - лучший выбор для разработки.
    Если проекту нужны прокси, конвейер данных, то Scrapy будет лучшим выбором.

    - `Beautiful Soup`: Когда речь идет о небольшом проекте, или о низкоуровневом сложном проекте Beautiful Soup может выполнить задачу довольно хорошо. Это помогает поддерживать код простым и гибким.
    Если хочется быстро что-то освоить, выполнить операции по поиску в Интернете, то Beautiful Soup - лучший выбор.
    
    - `Selenium`: когда вы имеете дело с Javascript на сайте, Selenium будет лучшим выбором, но размер данных должен быть ограничен.

- **Производительность**
    - `Scrapy`: самый быстрый из всех.

    - `Beautiful Soup`: довольно медленно выполняет определенную задачу, но можно преодолеть эту проблему с помощью концепции многопоточности, но программисту необходимо знать концепцию многопоточности очень хорошо. Это обратная сторона Beautiful Soup.

    - `Selenium`: может работать довольно быстро, но не эквивалентно Scrapy.

- **Экосистема**
    - `Scrapy`: у него хорошая экосистема, мы можем использовать прокси и VPN для автоматизации задач. Это одна из причин выбора библиотеки для сложных проектов. Можно отправлять несколько запросов с нескольких прокси-адресов.

    - `BeautifulSoup`: эта библиотека имеет много зависимостей в экосистеме. Это один из недостатков этой библиотеки для сложного проекта.

    - `Selenium`: у него хорошая экосистема для развития, но непросто настроить прокси.

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

# Для MacOS/Ubuntu
# !which pip

# Для Windows
# !where pip

pip 20.3.3 from /home/ira/anaconda3/envs/LevelUp_DataScience/lib/python3.8/site-packages/pip (python 3.8)


In [2]:
!conda install -c conda-forge scrapy -y

Collecting package metadata (current_repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: /home/ira/anaconda3/envs/LevelUp_DataScience

  added / updated specs:
    - scrapy


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    protego-0.1.16             |             py_0         2.6 MB  conda-forge
    scrapy-2.4.1               |   py38h578d9bd_2         646 KB  conda-forge
    ------------------------------------------------------------
                                           Total:         3.2 MB

The following NEW packages will be INSTALLED:

  protego            conda-forge/noarch::protego-0.1.16-py_0

The following packages will be UPDATED:

  scrapy             pkgs/main::scrapy-2.4.1-py38h06a4308_0 --> conda-forge::scrapy-2.4.1-py38h578d9bd_2



Downloading and Extracting Packages
protego-0.1.16       | 2.6 MB    | #########################

In [3]:
!scrapy -V

Scrapy 2.4.1 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  commands      
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command


In [4]:
import scrapy
scrapy.__version__

'2.4.1'

## Создание проекта и проверка работоспособности

In [5]:
# создать проект scrapy с именем scrapy_lecture_project
!scrapy startproject scrapy_lecture_project

Error: scrapy.cfg already exists in /home/ira/LevelUp/data-science-course-original/02_data_engineering/lectures/scrapy_lecture_project


**Эта команда создаст директорию вида:**

```
scrapy_lecture_project/
  |  scrapy.cfg - конфигурационный файл для деплоя
  |  pycoder/ - python модуль проекта, здесь будет лежать код
    |  __init__.py
    |  items.py - файлик с классом, описывающим то, что будет парситься
    |  middlewares.py - описывается класс отвечающий за промежуточную обработку данных
    |  pipelines.py - описывается как будет обработано и выведено то, что парсится
    |  settings.py - настройки
    |  spiders/ - папка для "пауков", это код, который отвечает за парсинг
      |  __init__.py
```

In [6]:
%cd scrapy_lecture_project
!pwd

/home/ira/LevelUp/data-science-course-original/02_data_engineering/lectures/scrapy_lecture_project
/home/ira/LevelUp/data-science-course-original/02_data_engineering/lectures/scrapy_lecture_project


In [7]:
# вывести help по scrapy
!scrapy 

Scrapy 2.4.1 - project: scrapy_lecture_project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  check         Check spider contracts
  commands      
  crawl         Run a spider
  edit          Edit spider
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  list          List available spiders
  parse         Parse URL (using its spider) and print the results
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

Use "scrapy <command> -h" to see more info about a command


## Изучение структуры сайта

Не существует какого-либо универсального решения, потому что **каждый сайт предоставляет информацию по-разному**. 

Первое, что нужно сделать - изучить структуру сайта с помощью консоли разработчика (то есть после открытия интересующей страницы сайта нажать `ПКМ` -> `Inspect` / `Developer Tools` или `F12` / `Ctrl+Shift+I`).

<img src="images/habr_companies_page_with_inspect.png"/>

**DOM (от англ. Document Object Model — "объектная модель документа")** — это независящий от платформы и языка программный интерфейс, позволяющий программам и скриптам получить доступ к содержимому **HTML**-, XHTML- и XML-документов, а также изменять содержимое, структуру и оформление таких документов.

<img src="images/DOM.png" height="400" width="400"/>

Основой **HTML**-документа являются **теги**.

В соответствии с **объектной моделью документа («Document Object Model», коротко DOM)**, каждый **HTML**-тег является объектом. Вложенные теги являются «детьми» родительского элемента. Текст, который находится внутри тега, также является объектом.

Каждый **HTML**-документ состоит из дерева **HTML**-элементов и текста. Каждый **HTML**-элемент обозначается начальным (открывающим) и конечным (закрывающим) тегом.

## Создание "паука"

`Spider`'ы - это классы, которые необходимо реализовать самостоятельно, `Scrapy` использует для извлечения данных с сайта.

Эти классы должны наследоваться от `scrapy.Spider`, в них должны быть описаны 
- начальные запросы, 
- как идти по ссылкам на страницах,
- какую информацию извлекать со страниц.


Название `spider`'a - это очень важный параметр, по этому названию `spider` будет запускаться.

Атрибут класса `start_urls` - это список `url`'ов, которые будут использованы для начальных запросов. 
Для заданного `url`'a будет вызван метод `parse`. 

Scrapy поддерживает селекторы `CSS` и `XPath`.

**В примере будут использваны `CSS`, так как это проще.**

### Добавление настроек в `Settings.py`

Добавить настройку `FEED_EXPORT_ENCODING = 'utf-8'` (иначе русские буквы будут "закодированы").

### Отладка через Pycharm

Из [официальной документации](https://docs.scrapy.org/en/latest/topics/practices.html#run-from-script):

```
import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
    # Your spider definition
    ...

process = CrawlerProcess(settings={
    "FEEDS": {
        "items.json": {"format": "json"},
    },
})

process.crawl(MySpider)
process.start() # the script will block here until the crawling is finished
```

### Запуск Паука из терминала и сохранение результатов в файл

В терминале:
`scrapy crawl <spider_name> -o <file_name>.json --nolog` 

`spider_name` указывается в качестве атрибута класса, который унаследован от `scrapy.Spider` (и находится в пакете `spiders`).

Можно сохранять не только в `json`, но и `csv`.

Можно использовать `--nolog`, если подробный вывод результатов в терминал не нужен (так как сохраняем результаты в файл, например).

### Python теоретический минимум

**Функция-генератор** - это функция, в которой присутствует ключевое слово `yield`. При вызове, эта функция возвращает объект генератор. Так как и сама функция и объект, который она возвращает, называется **генератор**, возникает путанница, о чем идет речь. В документации Python очень часто объект генератор называется итератором. Поэтому тут я тоже буду называть возвращенный объект итератором, а функцию - генератором.

Чтобы создать **генератор**, необходимо определить функцию, как обычно, но использовать `yield` вместо `return`, указывая интерпретатору, что эту функцию следует рассматривать как итератор.

Оператор `yield` приостанавливает функцию и сохраняет локальное состояние, чтобы его можно было возобновить с того места, где оно было остановлено.

Генератор генерирует значения. При этом, значения возвращаются по запросу и после возврата одного значения, выполнение функции-генератора приостанавливается до запроса следующего значения. Между запросами генератор сохраняет свое состояние.


В программировании, **асинхронными** событиями являются те, которые возникают независимо от основного потока выполнения программы. **Асинхронные** действия — действия, выполненные в неблокирующем режиме, что позволяет основному потоку программы продолжить обработку.