# Сравнение различных библиотек для парсинга на Python

Цель исследования понять особенности работы трех библиотек для веб-парсинга: `BeautifulSoup` и `Scrapy`. Также будут проведены замеры работы парсеров (время и память), написанных с помощью данных библиотек, на двух разных сайтах: Хабр и Циан, чтобы выяснить, какая библиотека является более мощной.

## 1. Какие особенности сложны с точки зрения парсинга 


## 2. Ключевые возможности каждой из библиотек (BeautifulSoup, Scrapy

### Scrapy
1. Работает на разных платформах (Linux, Windows, Mac OS)
2. Имеет встроенные селекторы `XPath` и `CSS`
3. Одна из самых быстрых библиотек
4. Потребляет меньше памяти
5. Построен на основе Twisted (асинхронной сетевой структуры)
6. Извлекает данные не только с одной страницы, а может "ползти" по другим страницам от корневого URL 
7. Можно определить правила для обхода URL

## 3. Изучаем структуру трех сайтов (Хабр, Циан) 

## 4. Каких возможностей библиотек не хватает

### Scrapy
1. На динамически загружающиеся данные есть ограничения, которые необходимо обходить, используя другие библиотеки
2. Может работать некорректно, если названия классов генерируются автоматически при каждой загрузке с помощью javascript
3. Неоднозначная обработка URL при заранее определенных правилах (может неоднократно ходить по URL, которые есть в стоп-листе, при этом не начиная работу с разрешенными URL)

## 5. Тестируем библиотеки

### Замеряем время работы

In [1]:
import sys
import time
import pandas as pd
sys.path.insert(0, 'parsers/bs4')
sys.path.insert(0, 'parsers/scrapy')
sys.path.insert(0, 'parsers/lxml')

#### Хабр

In [2]:
# импорт функций для парсинга
from parsers.bs4.habr_parser import parse_habr_bs4 as habr_bs4
from parsers.scrapy.habr_parser import parse_habr_html as habr_scrapy
from parsers.lxml.habr_parser import parse_habr_html as habr_lxml

# тесты для парсинга
sys.path.insert(0, 'tests/habr/test_source')
html_files_path = ['./tests/habr/tests_source/test{0}.html'.format(i) for i in range(0, 48)]
html_files = []
for html in html_files_path:
    with open(html) as html_file:
        html_files.append(html_file.read())

In [3]:
# bs4
for html in html_files:
    habr_bs4(html)

### Замеряем используемую память