# Веб-скрапинг (Web scraping)
это технология получения веб-данных путем извлечения их со страниц веб-ресурсов.

---

**Источники:**

[Scrapy Wiki](https://ru.wikipedia.org/wiki/Scrapy)

[Scrapy](https://scrapy.org/)

[Scrapy Tutorial](https://docs.scrapy.org/en/latest/intro/tutorial.html)

[Scrapy documentation](https://docs.scrapy.org/en/latest/)

[Python: Scrapy, Selenium, Beautiful Soup что лучше для парсинга веб сайтов](https://dev-gang.ru/article/python-scrapy-selenium-beautiful-soup-czto-luczshe-dlja-parsinga-veb-saitov-rmv3n1q3us/)

[Beautiful Soup (HTML parser)](https://en.wikipedia.org/wiki/Beautiful_Soup_(HTML_parser))

[Selenium автоматизация браузера в Python | Изучаем Selenium](https://selenium-python.com/)

[Selenium]https://ru.wikipedia.org/wiki/Selenium)

---

## Обзор пакетов для веб-крапинга

---

### Scrapy

<img src="images/logo_scrapy.png" height="400" width="400"/>

**Scrapy (читается как "скрэй-пай")** – это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python.

Архитектура проекта **Scrapy** построена вокруг **"пауков"**, которые по сути являются автономными краулерами с заданными инструкциями.

**Поисковый робот (веб-паук, веб-краулер, бот, web crawler, spider, spiderbot, crawler, ant, automatic indexer)** — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.

По принципу действия, паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы.

Кроме обычных пауков, существуют так называемые **"дятлы"** — роботы, которые "простукивают" проиндексированный сайт, чтобы определить, что он доступен.

#### Ключевые особенности Scrapy:
- Имеет встроенную поддержку для извлечения данных из источников `HTML` с использованием выражений `XPath` и `CSS`.
- Это кросплатформенная библиотека, т.е. (Написана на Python и работает на Linux, Windows, Mac и BSD).
- Легко расширяема.
- Быстрее, чем другие существующие библиотеки. Он может извлекать сайты в 20 раз быстрее, чем другие инструменты. **Производительность `Scrapy` невероятно высока, и это одна из самых мощных доступных библиотек. Одним из ключевых преимуществ scrapy является то, что он построен на основе `Twisted`, асинхронной сетевой структуры, что означает, что scrapy использует неблокирующий механизм при отправке запросов пользователям.**
- Потребляет намного меньше памяти и ресурсов процессора.
- Может помочь нам создать надежное и гибкое приложение с множеством функций.
- Имеет хорошую поддержку сообщества для разработчиков, но документация не очень хороша для начинающих.

---

### Beautiful soup

<img src="images/logo_beauitful_soup.jpg" height="400" width="400"/>

Эта библиотека поможет извлечь данные из файлов `HTML` и `XML`. Но проблема с `Beautiful Soup` в том, что он не может выполнить всю работу самостоятельно (без дополнительных пакетов).

#### Ключевые особенности Beautiful soup:
- Легко освоить.
- Имеет хорошую всеобъемлющую документацию.
- Имеет хорошую поддержку сообщества, чтобы выяснить проблемы, возникающие при работе с этой библиотекой.
- Требует определенных модулей для работы. Наприме:
    - Необходима библиотека  для отправки запроса на веб-сайт, потому что сам `Beautiful soup` не может сделать запрос на конкретный сервер. Для преодоления этой проблемы требуется помощь одной из популярных библиотек `Requests` или `urlib2`. Эти библиотеки помогут нам сделать запрос к серверу.
    - После загрузки данных HTML или XML на локальный компьютер `Beautiful Soup` требуется внешний анализатор для анализа загруженных данных. Наиболее известные парсеры - это XML-parser `lxml`, `HTML-parser lxml`, `HTML5lib`, `html.parser`.

---

### Selenium WebDriver

<img src="images/logo_selenium.png" height="400" width="400"/>

Это в первую очередь набор библиотек для различных языков программирования. Эти библиотеки используются для отправки HTTP запросов драйверу (отсюда и название WebDriver), в которых указано действие, которое должен совершить браузер в рамках текущей сессии. Примерами таких команд могут быть команды нахождения элементов по локатору, переход по ссылкам, парсинг текста страницы/элемента, нажатие кнопок или переход по ссылкам на странице веб-сайта. 

#### Ключевые особенности Selenium:
- Может легко работать с основными концепциями Javascript (DOM)
- Может легко обрабатывать запросы AJAX и PJAX.
- API очень удобен для начинающих
- В основном используется для автоматизации тестов для веб-приложений. Эта среда разработана для автоматизации браузера.
- Может быть использован для разработки веб-пауков, многие люди делали это раньше.
- Позволяет разработчику писать тесты на нескольких популярных языках программирования, таких как C#, Java, Python, Ruby и другие.


## Выбор подходящего пакета (библиотеки)

**Ключевые факторы, на которые важно обратить внимание:**

- **Гибкость**

    - `Scrapy`: Архитектура Scrapy спроектирована так, чтобы настраивать промежуточное ПО для добавления собственных функциональных возможностей. Эта особенность помогает сделать проект более надежным и гибким.
    Одним из самых больших преимуществ Scrapy является то, что можно очень легко перенести существующий проект в другой проект. Поэтому для больших / сложных проектов Scrapy - лучший выбор для разработки.
    Если проекту нужны прокси, конвейер данных, то Scrapy будет лучшим выбором.

    - `Beautiful Soup`: Когда речь идет о небольшом проекте, или о низкоуровневом сложном проекте Beautiful Soup может выполнить задачу довольно хорошо. Это помогает поддерживать код простым и гибким.
    Если хочется быстро что-то освоить, выполнить операции по поиску в Интернете, то Beautiful Soup - лучший выбор.
    
    - `Selenium`: когда вы имеете дело с Javascript на сайте, Selenium будет лучшим выбором. но размер данных должен быть ограничен.

- **Производительность**
    - `Scrapy`: самый быстрый из всех.

    - `Beautiful Soup`: довольно медленно выполняет определенную задачу, но можно преодолеть эту проблему с помощью концепции многопоточности, но программисту необходимо знать концепцию многопоточности очень хорошо. Это обратная сторона Beautiful Soup.

    - `Selenium`: может работать довольно быстро, но не эквивалентно Scrapy.

- **Экосистема**
    - `Scrapy`: у него хорошая экосистема, мы можем использовать прокси и VPN для автоматизации задач. Это одна из причин выбора библиотеки для сложных проектов. Можно отправлять несколько запросов с нескольких прокси-адресов.

    - `BeautifulSoup`: эта библиотека имеет много зависимостей в экосистеме. Это один из недостатков этой библиотеки для сложного проекта

    - `Selenium`: у него хорошая экосистема для развития, но проблема в том, что мы не можем использовать прокси "из коробки".

---

## Подготовка окружения

In [6]:
!which pip

/home/ira/anaconda3/envs/LevelUp_DataScience/bin/pip


In [7]:
!conda install -c conda-forge scrapy -y

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



In [8]:
import scrapy
scrapy.__version__

'2.4.1'

In [9]:
!scrapy startproject scrapy_tutorial

Error: scrapy.cfg already exists in /home/ira/LEVEL_UP/data-science-course-original/2_data_engineering/lectures/scrapy_tutorial


In [10]:
!scrapy crawl quotes

Scrapy 2.4.1 - no active project

Unknown command: crawl

Use "scrapy" to see available commands
