# Основы веб-скрапинга

Автор: **Булыгин Олег**
* [Я в LinkedIn](https://www.linkedin.com/in/obulygin/)  
* [Мой канал в ТГ по Python](https://t.me/pythontalk_ru)
* [Чат канала](https://t.me/pythontalk_chat)
* [Блог в Телетайпе](https://teletype.in/@pythontalk)

Процесс автоматизированного получения/извлечения информации с веб-ресурсов называется **web-scraping** (рус. веб-скрейпинг/веб-скрапинг).

Какие данные можно извлечь в процессе веб-скрапинга?

- цены и другую информацию о товарах конкурентов;
- сообщения на новостных ресурсах;
- отзывы о товарах/услугах компании на различных площадках;
- и многое другое.


Когда мы открываем интернет-страницу – то, что мы видим это заслуга браузера. Как браузер получает эту информацию и как отображает?

Чтобы это понять, нужно ознакомиться со следующими понятиями:
- **HTTP**;
- **HTML**.

## HTTP
HTTP — это протокол клиент-серверного взаимодействия, позволяющий получать различные ресурсы, например HTML-документы. Протокол HTTP лежит в основе обмена данными в интернете.

Клиенты и серверы взаимодействуют, обмениваясь одиночными сообщениями
(а не потоком данных).

Сообщения, отправленные клиентом (например, веб-браузером), называются **запросами**, а сообщения, отправленные сервером – **ответами**.

Для того чтобы указать серверу на то, какое действие мы хотим произвести с ресурсом, в протоколе HTTP используются так называемые [методы](https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D0%BA%D0%BE%D0%B4%D0%BE%D0%B2_%D1%81%D0%BE%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D1%8F_HTTP).

Нас в первую очередь интересует метод GET, который запрашивает информацию из указанного источника и не может влиять на его содержимое.

При помощи данного метода мы сможеш получать html-разметку страницы.



## HTML

HTML (англ. HyperText Markup Language, рус. язык гипертекстовой разметки) — стандартизированный язык разметки документов в интернете. Большинство веб-страниц содержат описание разметки на языке HTML. Язык HTML интерпретируется браузерами.

Разметка на языке HTML делается с помощью так называемых тегов, которые помещаются в угловые скобки, и применяется к элементам, заключённым внутри них.

Разметка небольшой страницы выглядит примерно так:
```html
<!DOCTYPE html>
<html lang="ru">
    <head>
        <title>Название страницы</title>
        <meta charset="UTF-8">
    </head>
    <body>
        <h1> Это заголовок страницы </h1>
        <p> Какой-то текст </p>
    </body>
</html>
```

Обратите внимание, что теги образуют иерархическую структуру, то есть одни теги расположены внутри других. В примере выше тег `<p> … </p>` находится внутри тега `<body> … </body>`.

Кроме того, у тегов могут быть атрибуты, которые пишутся внутри открывающегося тега. Самые популярные атрибуты — это `class` и `id`:
```html
<h1 id="big-title"> Заголовок страницы </h1>
<p class="red-back"> Какой-то текст </p>
```

Изучение языка HTML находится вне рамок этого курса, но на текущий момент нам достаточно понимать, что:

- существуют теги с разными именами;
- у тегов бывают атрибуты, такие как `class` и `id`;
- теги образуют иерархическую структуру, то есть одни теги вложены в другие.




## requests

Чтобы получить код интересующей нас веб-страницы необходимо отправить GET-запрос с помощью библиотеки requests и посмотреть на текст ответа на запрос.

Requests — это библиотека, которую вы можете использовать для отправки всех видов HTTP-запросов. У нее много функций, начиная от передачи параметров в URL-адресах до отправки пользовательских заголовков и проверки SSL.

Документация: https://requests.readthedocs.io/en/master/user/quickstart/

In [None]:
import requests

In [None]:
res = requests.get('https://books.toscrape.com/')
# res
res.text



Ответ содержит HTML-код страницы, к которой мы обратились.

## Beautiful Soup

Как же нам теперь достать из HTML-разметки нужное? Нам поможет красивый суп!

Beautiful Soup — это библиотека для извлечения данных из HTML и XML. С ее помощью можно извлечь из сложной структуры разметки нужную информацию.

Документация: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [None]:
from bs4 import BeautifulSoup

Создаем объект, через методы которого будем искать нужные теги и извлекать их содержимое


In [None]:
soup = BeautifulSoup(res.text)
soup

<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]--><!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]--><!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]--><!--[if gt IE 8]><!--><html class="no-js" lang="en-us"> <!--<![endif]-->
<head>
<title>
    All products | Books to Scrape - Sandbox
</title>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="24th Jun 2016 09:29" name="created"/>
<meta content="" name="description"/>
<meta content="width=device-width" name="viewport"/>
<meta content="NOARCHIVE,NOCACHE" name="robots"/>
<!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
<!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->
<link href="static/oscar/favicon.ico" rel="shortcut icon"/>
<link href="static/oscar/css/styles.css" rel="stylesheet" type="text/css"/>
<link href="static

Метод `find_all` позволяет найти все указанные теги с нужными атрибутами (с вложениями), возвращает список


In [None]:
books = soup.find_all('article', 'product_pod')
print(len(books))
print(books[0])

20
<article class="product_pod">
<div class="image_container">
<a href="catalogue/a-light-in-the-attic_1000/index.html"><img alt="A Light in the Attic" class="thumbnail" src="media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg"/></a>
</div>
<p class="star-rating Three">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>
<h3><a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Light in the ...</a></h3>
<div class="product_price">
<p class="price_color">Â£51.77</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>
</article>


Напишем функцию, которая будет собирать датафрейм на основе книг с главной страницы сайта.

In [None]:
import pandas as pd

def get_books():
    url = 'https://books.toscrape.com/'
    response = requests.get(url)
    soup = BeautifulSoup(response.text)

    books = soup.find_all('article', 'product_pod')

    rows = []

    for book in books:
        title = book.find('h3').find('a').get('title')
        # print(title)
        price = book.find('p', 'price_color').text[1:]
        # print(price)
        rating = book.find('p', 'star-rating').get('class')[1]
        # print(rating)

        rows.append({'title': title, 'price': price, 'rating': rating})


    res = pd.DataFrame(rows)
    return res

get_books()
# get_books().to_csv('books.csv', index=False)


Модифицируем функцию, чтобы могли собирать информацию с нескольких страниц.

При этом стоит включить небольшую задержку между запросами, чтобы не перегружать сервер и не вызывать блокировку.

In [None]:
import time

def get_books(pages=1):
    base_url = 'https://books.toscrape.com/catalogue/'

    rows = []

    for page in range(1, pages+1):
        response = requests.get(f'{base_url}page-{page}.html')
        time.sleep(0.2)
        soup = BeautifulSoup(response.text)

        books = soup.find_all('article', 'product_pod')



        for book in books:
            title = book.find('h3').find('a').get('title')
            price = book.find('p', 'price_color').text[1:]
            rating = book.find('p', 'star-rating').get('class')[1]

            rows.append({'title': title, 'price': price, 'rating': rating})


    res = pd.DataFrame(rows)
    return res

get_books(3)


Unnamed: 0,title,price,rating
0,A Light in the Attic,£51.77,Three
1,Tipping the Velvet,£53.74,One
2,Soumission,£50.10,One
3,Sharp Objects,£47.82,Four
4,Sapiens: A Brief History of Humankind,£54.23,Five
5,The Requiem Red,£22.65,One
6,The Dirty Little Secrets of Getting Your Dream...,£33.34,Four
7,The Coming Woman: A Novel Based on the Life of...,£17.93,Three
8,The Boys in the Boat: Nine Americans and Their...,£22.60,Four
9,The Black Maria,£52.15,One


Теперь соберем описание книг.

In [None]:
def get_books(pages=1):
    base_url = 'https://books.toscrape.com/catalogue/'

    rows = []

    for page in range(1, pages+1):
        response = requests.get(f'{base_url}page-{page}.html')
        time.sleep(0.2)
        soup = BeautifulSoup(response.text)

        books = soup.find_all('article', 'product_pod')

        for book in books:
            title = book.find('h3').find('a').get('title')
            price = book.find('p', 'price_color').text[1:]
            rating = book.find('p', 'star-rating').get('class')[1]

            book_info = requests.get(f"{base_url}{book.find('h3').find('a').get('href')}")
            book_info.encoding = 'utf-8'  # исправляем проблему с кодировкой
            time.sleep(0.2)

            soup_info = BeautifulSoup(book_info.text)

            # найдем тег p после div с id product_description
            description = soup_info.find('div', id='product_description').find_next('p').text
            rows.append({'title': title, 'price': price, 'rating': rating, 'description': description})


    res = pd.DataFrame(rows)
    return res

get_books()


Unnamed: 0,title,price,rating,description
0,A Light in the Attic,£51.77,Three,It's hard to imagine a world without A Light i...
1,Tipping the Velvet,£53.74,One,"""Erotic and absorbing...Written with starling ..."
2,Soumission,£50.10,One,"Dans une France assez proche de la nôtre, un h..."
3,Sharp Objects,£47.82,Four,"WICKED above her hipbone, GIRL across her hear..."
4,Sapiens: A Brief History of Humankind,£54.23,Five,From a renowned historian comes a groundbreaki...
5,The Requiem Red,£22.65,One,Patient Twenty-nine.A monster roams the halls ...
6,The Dirty Little Secrets of Getting Your Dream...,£33.34,Four,Drawing on his extensive experience evaluating...
7,The Coming Woman: A Novel Based on the Life of...,£17.93,Three,"""If you have a heart, if you have a soul, Kare..."
8,The Boys in the Boat: Nine Americans and Their...,£22.60,Four,For readers of Laura Hillenbrand's Seabiscuit ...
9,The Black Maria,£52.15,One,"Praise for Aracelis Girmay:""[Girmay's] every l..."


Напишем скрипт, который будет собирать новости с сайта Коммерсанта

In [None]:
url = 'https://www.kommersant.ru/search/results?search_query=python'
res = requests.get(url)
res.text

'\r\n<!DOCTYPE html>\r\n\r\n<html class="no-js"  lang="ru">\r\n<head>\r\n    <title>Коммерсантъ: последние новости России и мира</title>\r\n    <meta http-equiv="X-UA-Compatible" content="IE=edge, chrome=1" />\r\n    <meta charset="utf-8" />\r\n\r\n    <meta name="format-detection" content="telephone=no" />\r\n    <meta name="title" content="Коммерсантъ: последние новости России и мира" />\r\n    <meta name="description" content="Актуальные новости, объективный анализ и эксклюзивные комментарии о важнейших событиях и трендах" />\r\n    <meta name="keywords" content="Новости,Политика,Экономика,Бизнес,Финансы,Дело,Биржа,Рынок,Акции,Прогнозы,Критика,Интервью,Рейтинги,Документы,Деньги,Власть,Автопилот,Тематические страницы,Первые лица,Деловые новости,Мировая практика,Культура,Спорт,Weekend,Астрологический прогноз,Погода мира,Курсы валют ЦБ РФ" />\r\n\r\n    <meta name="yandex-verification" content="50df68945a519dbd" />\r\n\r\n    \r\n<meta name="viewport" content="width=device-width, initi

Параметры, особенно если их много, удобно передавать в качестве словаря

In [None]:
url = 'https://www.kommersant.ru/search/results'
params = {
    'search_query': 'python'
}
res = requests.get(url, params)
soup = BeautifulSoup(res.text)
soup

<!DOCTYPE html>
<html class="no-js" lang="ru">
<head>
<title>Коммерсантъ: последние новости России и мира</title>
<meta content="IE=edge, chrome=1" http-equiv="X-UA-Compatible"/>
<meta charset="utf-8"/>
<meta content="telephone=no" name="format-detection"/>
<meta content="Коммерсантъ: последние новости России и мира" name="title"/>
<meta content="Актуальные новости, объективный анализ и эксклюзивные комментарии о важнейших событиях и трендах" name="description"/>
<meta content="Новости,Политика,Экономика,Бизнес,Финансы,Дело,Биржа,Рынок,Акции,Прогнозы,Критика,Интервью,Рейтинги,Документы,Деньги,Власть,Автопилот,Тематические страницы,Первые лица,Деловые новости,Мировая практика,Культура,Спорт,Weekend,Астрологический прогноз,Погода мира,Курсы валют ЦБ РФ" name="keywords"/>
<meta content="50df68945a519dbd" name="yandex-verification"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="324580610921010" property="fb:app_id"/>
<meta content="website" propert

Напишем функцию, которая будет собирать все ссылки на новости по запросу.

In [3]:
from bs4 import BeautifulSoup
import pandas as pd
import time
import requests
def get_all_links(query):
    url = 'https://www.kommersant.ru/search/results'
    params = {
        'search_query': query
    }
    res = requests.get(url, params)
    soup = BeautifulSoup(res.text)
    refs = soup.find_all('a', 'uho__link')
    for i in refs:
      print(i)

    links_list = []
    for ref in refs:
        links_list.append(ref.get('href'))

    # print(len(links_list))

    links_list = set(links_list)

    # print(len(links_list))

    full_links = list(map(lambda x: 'https://www.kommersant.ru' + x, links_list))

    return full_links

all_links = get_all_links('python')
print(all_links)

<a class="uho__link uho__link--overlay" href="/doc/6745421?query=python" target="_blank"><span class="vam">Искусственный интеллект готовят авансом</span></a>
<a class="uho__link" href="/doc/6745421?query=python" target="_blank">Как российские компании инвестируют в будущие ИИ-кадры</a>
<a class="uho__link" href="/doc/6745421?query=python" target="_blank"> ...  станет хорошее знание <mark>Python</mark>, основных алгоритмов и ... </a>
<a class="uho__link uho__link--overlay" href="/doc/6715450?query=python" target="_blank"><span class="vam">Смольный пообещал на лето трудоустроить не менее 11 тыс. подростков</span></a>
<a class="uho__link" href="/doc/6715450?query=python" target="_blank"> ... , программистов на С++, <mark>Python</mark>, программистов-дизайнеров. Принять ... </a>
<a class="uho__link uho__link--overlay" href="/doc/6679534?query=python" target="_blank"><span class="vam">Квантовый прыжок в технологии</span></a>
<a class="uho__link" href="/doc/6679534?query=python" target="_bla

Но мы же собрали только одну страницу? Хотим ВСЕ новости


In [None]:
def get_all_links(query, pages):
    url = 'https://www.kommersant.ru/search/results'
    all_links = []
    params = {
        'search_query': query
    }
    for i in range(1, pages+1):
        params['page'] = i
        res = requests.get(url, params)
        soup = BeautifulSoup(res.text)
        # print(res.text)
        time.sleep(0.2)

        refs = soup.find_all('a', class_='uho__link')
        links_list = []

        for ref in refs:
            links_list.append(ref.get('href'))

        links_list = set(links_list)

        full_links = list(map(lambda x: 'https://www.kommersant.ru' + x, links_list))

        all_links += full_links
    return all_links

links = get_all_links('python', 3)
print(len(links))
print(links)

25
['https://www.kommersant.ru/doc/6550819?query=python', 'https://www.kommersant.ru/doc/6443954?query=python', 'https://www.kommersant.ru/doc/6535845?query=python', 'https://www.kommersant.ru/doc/6595306?query=python', 'https://www.kommersant.ru/doc/6745421?query=python', 'https://www.kommersant.ru/doc/6715450?query=python', 'https://www.kommersant.ru/doc/6713963?query=python', 'https://www.kommersant.ru/doc/6621033?query=python', 'https://www.kommersant.ru/doc/6595899?query=python', 'https://www.kommersant.ru/doc/6679534?query=python', 'https://www.kommersant.ru/doc/6310903?query=python', 'https://www.kommersant.ru/doc/6394753?query=python', 'https://www.kommersant.ru/doc/6296079?query=python', 'https://www.kommersant.ru/doc/6296993?query=python', 'https://www.kommersant.ru/doc/6378117?query=python', 'https://www.kommersant.ru/doc/6282292?query=python', 'https://www.kommersant.ru/doc/6311661?query=python', 'https://www.kommersant.ru/doc/6367262?query=python', 'https://www.kommersant.

А теперь отдельной функцией по этим ссылкам получим датафрейм с информацией о новостях.

In [None]:
def get_kom_news(links):
    rows = []
    for link in links:
        soup = BeautifulSoup(requests.get(link).text)
        # print(link)
        time.sleep(0.2)
        date = pd.to_datetime(soup.find('time', 'doc_header__publish_time').get('datetime'))
        title = soup.find('h1', 'doc_header__name').text.strip()
        text = soup.find_all(class_='doc__text')  # текст бывает в div и в p
        full_text = '\n'.join(map(lambda x: x.text, text))
        row = {'date': date, 'title': title, 'text': full_text.strip()}
        rows.append(row)
    return pd.DataFrame(rows).reset_index(drop=True)

In [None]:
kom_news = get_kom_news(links)
kom_news

Unnamed: 0,date,title,text
0,2024-03-06 00:01:00+03:00,"«Внедрять и развивать инновации нужно тем, кто...",IT-индустрия зачастую все еще воспринимается м...
1,2024-01-10 12:37:12+03:00,Карьерный трек потребовал курс,Россияне в январские праздники скупали курсы «...
2,2024-02-29 20:46:49+03:00,Опыта больше,"Несмотря на потребность в кадрах, многие IT-ко..."
3,2024-03-28 00:01:00+03:00,«Люди стали более внимательно и требовательно ...,Последние полтора года многие российские предп...
4,2024-06-04 12:23:46+03:00,Искусственный интеллект готовят авансом,В России вместе с популярностью нейросетей рас...
5,2024-05-23 17:50:50+03:00,Смольный пообещал на лето трудоустроить не мен...,Не менее 11 тыс. подростков обещают трудоустро...
6,2024-05-22 00:05:00+03:00,Абитуриенты рвутся в IT,IT-направления среди поступающих в вузы с кажд...
7,2024-04-09 17:41:53+03:00,Открытый код нараспашку,На фоне ухода из России западных вендоров обще...
8,2024-03-28 00:00:00+03:00,В приоритете — опыт,"Многие российские IT-компании, несмотря на сер..."
9,2024-05-22 00:01:00+03:00,Квантовый прыжок в технологии,ДОМ.РФ как институт развития жилищного строите...


Проблемы веб-скрапинга

- Огромное многообразие сайтов и у каждого сайта своя структура

- Сайты постоянно меняются

- Контент сайта может формироваться динамически (тогда его содержимое из HTML не достать)

- Сайты могут использовать различные средства защиты, которые могут усложнять сбор информации.

