**Веб-скрейпинг** (или скрепинг, или скрапинг) — это технология получения веб-данных путем извлечения их со страниц веб-ресурсов.  
Веб-скрейпинг объединяет в себе функции краулера (обход сайта и сбор данных) и парсера (анализ содержимого).  
Но чаще для обозначения всего процесса сбора и анализа информации используют слово **парсер**.

<div>
<img src="etapi_raboti_v_parsere.png" width="750"/>
</div>

### Requests
Python Requests — это библиотека, которая создана для быстрой и простой работы с запросами.

GET - запрашивает представление ресурса. Запросы с использованием этого метода могут только извлекать данные.

HEAD - запрашивает ресурс так же, как и метод GET, но без тела ответа.

POST - используется для отправки сущностей к определённому ресурсу. Часто вызывает изменение состояния или какие-то побочные эффекты на сервере.

PUT - заменяет все текущие представления ресурса данными запроса.

DELETE - удаляет указанный ресурс.

PATCH - используется для частичного изменения ресурса.

In [20]:
import requests

In [21]:
# Ссылка на ресурс для теста запросов
url = "https://httpbin.org/get"

"""
HTTP headers позволяют клиенту и серверу передавать дополнительную информацию 
с помощью HTTP-запроса или ответа.
'User-Agent' представляет клиентскую программу, инициирующую запрос.
"""
headers = {
    "User-Agent": "Custom Agent",
    "Content-Type": "application/json; charset=utf-8"
}

In [22]:
# get запрос без headers
requests.get(url).json()

{'args': {},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate, br',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.31.0',
  'X-Amzn-Trace-Id': 'Root=1-670c9cf5-4835d2c96d552f747d3ee331'},
 'origin': '91.222.129.174',
 'url': 'https://httpbin.org/get'}

In [23]:
# get запрос с headers
# в качестве параметров в url передается словарь {"key": "value"}
response = requests.get(url, headers=headers, params={"key": "value"})
print(response.json())
print(response.url)

{'args': {'key': 'value'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Content-Type': 'application/json; charset=utf-8', 'Host': 'httpbin.org', 'User-Agent': 'Custom Agent', 'X-Amzn-Trace-Id': 'Root=1-670c9d38-6559bb35187cbaeb7cb277b3'}, 'origin': '91.222.129.174', 'url': 'https://httpbin.org/get?key=value'}
https://httpbin.org/get?key=value


In [24]:
# post запрос
data = {'somekey': 'somevalue'}

# Словарь data автоматически кодируется как HTML форма
response = requests.post("https://httpbin.org/post", data=data)
print(response.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "somekey": "somevalue"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "17", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.31.0", 
    "X-Amzn-Trace-Id": "Root=1-670c9d8e-77e8d1930b108ad30b517c14"
  }, 
  "json": null, 
  "origin": "91.222.129.174", 
  "url": "https://httpbin.org/post"
}



In [25]:
# get запрос к официальному сайту Python
python_url = "https://www.python.org/"
response = requests.get(python_url)

In [26]:
# Заголовки ответа
response.headers

{'Connection': 'keep-alive', 'Content-Length': '51217', 'x-frame-options': 'SAMEORIGIN', 'via': '1.1 varnish, 1.1 varnish, 1.1 varnish', 'content-type': 'text/html; charset=utf-8', 'Accept-Ranges': 'bytes', 'Date': 'Mon, 14 Oct 2024 04:27:46 GMT', 'Age': '2934', 'X-Served-By': 'cache-iad-kiad7000132-IAD, cache-iad-kiad7000114-IAD, cache-bma1650-BMA', 'X-Cache': 'MISS, HIT, HIT', 'X-Cache-Hits': '0, 4, 4', 'X-Timer': 'S1728880066.040915,VS0,VE0', 'Vary': 'Cookie', 'Strict-Transport-Security': 'max-age=63072000; includeSubDomains; preload'}

In [27]:
# Содержимое ответа в unicode
response.text



### Beautiful Soup

BeautifulSoup4 (bs4) - это библиотека Python для извлечения данных из файлов HTML и XML.

In [28]:
from bs4 import BeautifulSoup

In [29]:
# get запрос к официальному сайту Python
url = "https://www.python.org/"
response = requests.get(url)
response.status_code

200

Чтобы разобрать HTML-документ, необходимо передать его в конструктор класса **BeautifulSoup()**.  
Можно передать строку или открытый дескриптор файла.

In [30]:
# Поддерживает несколько видов парсеров: html.parser, lxml, html5lib и xml
bs = BeautifulSoup(response.text, "lxml")
print(bs.prettify())

<!DOCTYPE html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!-->
<html class="no-js" dir="ltr" lang="en">
 <!--<![endif]-->
 <head>
  <!-- Google tag (gtag.js) -->
  <script async="" src="https://www.googletagmanager.com/gtag/js?id=G-TF35YF9CVH">
  </script>
  <script>
   window.dataLayer = window.dataLayer || [];
      function gtag(){dataLayer.push(arguments);}
      gtag('js', new Date());
      gtag('config', 'G-TF35YF9CVH');
  </script>
  <!-- Plausible.io analytics -->
  <script data-domain="python.org" defer="" src="https://plausible.io/js/script.js">
  </script>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <link href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js" rel="prefetch"/>
  <link href="//ajax.googleapis.

In [34]:
# Получаем информацию отдельно по тегам
print(bs.title)
# можно использовать метод text для получения содержимого тега
print(bs.title.text)

<title>Welcome to Python.org</title>
Welcome to Python.org


Методы поиска тегов:  
**find()** возвращает первый элемент по переданным фильтрующим аргументам.  
**find_all()** просматривает и извлекает ВСЕХ потомков тега, которые соответствуют переданным фильтрующим аргументам.  

**Аргументы:**  
**name** - фильтр по имени HTML-тега, может быть:
 - строкой с именем HTML-тега,
 - списком с несколькими именами HTML-тегов,
 - объектом регулярного выражения,
 - значением bool,
 - функцией.

**attrs** - словарь, с атрибутами HTML-тега в виде {"class": "sister"},  
**recursive** - отвечает за рекурсивный просмотр потомков, по умолчанию True,  
**string** - ищет совпадение в тексте HTML-документа, а не в тегах. Принимаемые значения такие же, как у аргумента name.  
**limit** - целое число, ограничивает максимальное количество совпадений.  
****kwargs** - фильтр по атрибутам HTML-тега. Принимаемые значения такие же, как у аргумента name.  

In [31]:
# получаем содержимое тега со спсиком новостей
latest_news = bs.find('div', class_='medium-widget blog-widget')

In [32]:
latest_news

<div class="medium-widget blog-widget">
<div class="shrubbery">
<h2 class="widget-title"><span aria-hidden="true" class="icon-news"></span>Latest News</h2>
<p class="give-me-more"><a href="https://blog.python.org" title="More News">More</a></p>
<ul class="menu">
<li>
<time datetime="2024-10-08T14:44:16.000001+00:00"><span class="say-no-more">2024-</span>10-08</time>
<a href="https://mailchi.mp/python/python-software-foundation-july-2024-newsletter-19873215">PSF Q3 Highlights: Board news, development updates and more!</a></li>
<li>
<time datetime="2024-10-08T13:44:00.000001+00:00"><span class="say-no-more">2024-</span>10-08</time>
<a href="https://pyfound.blogspot.com/2024/10/join-python-developers-survey-2024.html">Join the Python Developers Survey 2024: Share your experience!</a></li>
<li>
<time datetime="2024-10-07T18:21:00+00:00"><span class="say-no-more">2024-</span>10-07</time>
<a href="https://pythoninsider.blogspot.com/2024/10/python-3130-final-released.html">Python 3.13.0 (fina

In [33]:
# далее можно применить find_all для получения списка элементов li
data = [{'date': li.time.text, 'news': li.a.text} for li in latest_news.find_all('li')]
data

[{'date': '2024-10-08',
  'news': 'PSF Q3 Highlights: Board news, development updates and more!'},
 {'date': '2024-10-08',
  'news': 'Join the Python Developers Survey 2024: Share your experience!'},
 {'date': '2024-10-07', 'news': 'Python 3.13.0 (final) released'},
 {'date': '2024-10-02',
  'news': "Python 3.13 and the Latest Trends: A Developer's Guide to 2025 - Live Stream Event"},
 {'date': '2024-10-01', 'news': 'Python 3.12.7 released'}]

In [35]:
# Для дальнейше обработки полученные данные можно представить в виде DataFrame
import pandas as pd
df = pd.DataFrame(data)
df

2024-10-14 08:41:22,035 - INFO - numexpr.utils - Note: NumExpr detected 12 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 8.
2024-10-14 08:41:22,035 - INFO - numexpr.utils - NumExpr defaulting to 8 threads.


Unnamed: 0,date,news
0,2024-10-08,"PSF Q3 Highlights: Board news, development upd..."
1,2024-10-08,Join the Python Developers Survey 2024: Share ...
2,2024-10-07,Python 3.13.0 (final) released
3,2024-10-02,Python 3.13 and the Latest Trends: A Developer...
4,2024-10-01,Python 3.12.7 released


In [36]:
# Запись результата в файл
import csv
with open('news.csv', 'w', newline='', encoding='utf8') as csvfile:
    fieldnames = ['date', 'news']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(data)

### icrawler

**icrawler** предоставляет удобные инструменты для скачивания изображений из различных интернет-ресурсов. Этот модуль поддерживает несколько источников, таких как Google Images, Bing Images, Flickr и другие.

Модуль **icrawler** включает в себя несколько классов, каждый из которых предназначен для работы с определенным источником изображений. Вот несколько ключевых элементов:
1. GoogleImageCrawler
2. BingImageCrawler
3. FlickrImageCrawler
4. GreedyImageCrawler

In [37]:
# Импорт нужных классов
from icrawler.builtin import (
    GoogleImageCrawler,
    GreedyImageCrawler
)
import logging

In [38]:
# Cкачивание 5 изображений из Google Images
print("start testing GoogleImageCrawler")
google_images_dir = "images/google"
google_crawler = GoogleImageCrawler(
    downloader_threads=4, storage={"root_dir": google_images_dir}, log_level=logging.INFO
)
search_filters = dict(size="large", color="orange", license="commercial,modify", date=(None, (2017, 11, 30)))
google_crawler.crawl("cat", filters=search_filters, max_num=5)

2024-10-14 08:48:02,921 - INFO - icrawler.crawler - start crawling...
2024-10-14 08:48:02,922 - INFO - icrawler.crawler - starting 1 feeder threads...
2024-10-14 08:48:02,923 - INFO - feeder - thread feeder-001 exit
2024-10-14 08:48:02,924 - INFO - icrawler.crawler - starting 1 parser threads...
2024-10-14 08:48:02,926 - INFO - icrawler.crawler - starting 4 downloader threads...


start testing GoogleImageCrawler


2024-10-14 08:48:03,979 - INFO - parser - parsing result page https://www.google.com/search?q=cat&ijn=0&start=0&tbs=isz%3Al%2Cic%3Aspecific%2Cisc%3Aorange%2Csur%3Afmc%2Ccdr%3A1%2Ccd_min%3A%2Ccd_max%3A11%2F30%2F2017&tbm=isch
2024-10-14 08:48:04,751 - ERROR - downloader - Response status code 404, file https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Cat03.jpg
2024-10-14 08:48:04,759 - ERROR - downloader - Response status code 404, file https://upload.wikimedia.org/wikipedia/commons/thumb/2/2f/Cute_Cat_with_Beautiful_Green_Eyes.png
2024-10-14 08:48:05,036 - INFO - downloader - image #1	https://www.warrenphotographic.co.uk/photography/bigs/11634-Ginger-cat-white-background.jpg
2024-10-14 08:48:05,522 - INFO - downloader - image #2	https://geniusvets.s3.amazonaws.com/gv-blog/2017/12/Cat%20Diagnostic%20Imaging%20Sick%20Cat.jpg
2024-10-14 08:48:05,894 - INFO - downloader - image #3	https://www.cwvet.co.uk/wp-content/uploads/2017/09/Bengal-cat-guide-face-on.jpg
2024-10-14 08:48:06,20

2024-10-14 08:48:08,708 - INFO - parser - downloaded image reached max num, thread parser-001 is ready to exit
2024-10-14 08:48:08,710 - INFO - parser - thread parser-001 exit


In [40]:
# Cкачивание 5 изображений из заданного по url ресурса
print("start testing GreedyImageCrawler")
greedy_images_dir = "images/greedy"
greedy_crawler = GreedyImageCrawler(parser_threads=4, storage={"root_dir": greedy_images_dir})
greedy_crawler.crawl("https://news.mail.ru/", max_num=5, min_size=(100, 100))

2024-10-14 14:50:13,741 - INFO - icrawler.crawler - start crawling...
2024-10-14 14:50:13,741 - INFO - icrawler.crawler - starting 1 feeder threads...
2024-10-14 14:50:13,742 - INFO - icrawler.crawler - starting 4 parser threads...
2024-10-14 14:50:13,745 - INFO - icrawler.crawler - starting 1 downloader threads...


start testing GreedyImageCrawler


2024-10-14 14:50:14,106 - INFO - parser - parsing result page https://news.mail.ru
2024-10-14 14:50:14,784 - INFO - downloader - skip downloading file 000001.jpg
2024-10-14 14:50:15,114 - INFO - downloader - image #2	https://resizer.mail.ru/p/920676c7-2578-56f4-9ecf-bc99f3aaae50/AQAGXVQCg1lXKqSLR8Ew0d3QtHvOCqMNutmYLu74dyEdVlP8y2t6c06b0AAOFC90gVTtj1JyQPml9GGbh-v6Pz3PPvI.png
2024-10-14 14:50:15,117 - INFO - downloader - skip downloading file 000003.jpg
2024-10-14 14:50:15,120 - INFO - downloader - skip downloading file 000004.jpg
2024-10-14 14:50:15,121 - INFO - downloader - skip downloading file 000005.jpg
2024-10-14 14:50:15,145 - INFO - downloader - downloaded images reach max num, thread downloader-001 is ready to exit
2024-10-14 14:50:15,146 - INFO - downloader - thread downloader-001 exit
2024-10-14 14:50:15,745 - INFO - parser - parser-003 is waiting for new page urls
2024-10-14 14:50:15,748 - INFO - parser - parser-004 is waiting for new page urls
2024-10-14 14:50:15,748 - INFO -

2024-10-14 14:50:16,131 - INFO - parser - downloaded image reached max num, thread parser-001 is ready to exit
2024-10-14 14:50:16,131 - INFO - parser - thread parser-001 exit


#### Полезные ссылки:
Википедия: https://ru.wikipedia.org/wiki/Веб-скрейпинг  
Документация Requests: https://requests.readthedocs.io/en/latest/  
Документация BeautifulSoup4: https://www.crummy.com/software/BeautifulSoup/bs4/doc/  
Документация icrowler: http://icrawler.readthedocs.io/  
HTTP headers: https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers