<a href="https://colab.research.google.com/github/vifirsanova/compling/blob/main/scraping/web.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Загрузка библиотек

Для веб-скрепинга -- выгрузки и парсинга (синтаксического анализа) данных из интернета, используем библиотеки `requests` и `BeautifulSoup`

- `requests` позволяет делать HTTP-запросы и извлекать информацию с веб-страниц
- `BeautifulSoup` производит анализ страницы, чтобы из мешанины из кода, разных тегов, ссылок и текстов на HTML-разметке можно было создать красивое структурированное представление

In [1]:
import requests
from bs4 import BeautifulSoup

# Получаем HTTP-ответ

Выберем страницу из Википедии для парсинга

In [2]:
url = 'https://en.wikipedia.org/wiki/Pug'
r_wiki = requests.get(url=url)

HTTP-ответ -- результат нашего запроса к веб-странице

- 200 означает, что запрос успешный, мы всё выгрузили
- 404 означает, что такой страницы на сайте нет

Например, ошибка 404 возникает, когда есть опечатка в названии страницы, даже если название сайта введено правильно: `https://colab.research.google.com/dive`

In [3]:
r_wiki

<Response [200]>

Проделаем то же самое с другим сайтом -- топ 250 фильмов базы данных IMDB

In [4]:
url = 'https://www.imdb.com/chart/top/'
r = requests.get(url=url)

- 403 -- еще один распространенный HTTP-запрос

Это значит, что с нашего IP-адреса запрещен доступ к данной странице

In [5]:
r

<Response [403]>

Но мы можем обойти это!

Когда мы заходим на страницу с браузера, на сайте передается строчка вот такого вида

`Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 YaBrowser/20.9.3.136 Yowser/2.5 Safari/537.36`

Она называется user agent и передает информацию о типе клиента, который мы используем, например, названия браузеров.

Если сайт допускает посещение из браузера, можно сымитировать поведение веб-браузера с помощью всего лишь одной строки кода!

In [6]:
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 YaBrowser/20.9.3.136 Yowser/2.5 Safari/537.36'
}

Добавляем в функцию `requests.get` аргумент `headers`, куда передаем эту строку

In [7]:
url = 'https://www.imdb.com/chart/top/'
r_imdb = requests.get(url=url, headers=headers)

Проверяем HTTP-ответ

In [8]:
r_imdb

<Response [200]>

In [9]:
r_imdb.status_code

200

# Выводим текст

В данных, полученных с помощью `requests`, уже есть все необходимые данные, но они представлены неудобно

In [10]:
r_wiki.text

'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-toc-available" lang="en" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Pug - Wikipedia</title>\n<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature

In [11]:
r_imdb.text



In [12]:
soup_wiki = BeautifulSoup(r_wiki.text, 'html.parser')
soup_wiki

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-toc-available" dir="ltr" lang="en">
<head>
<meta charset="utf-8"/>
<title>Pug - Wikipedia</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-lim

Поэтому нам нужен парсинг

Применим `BeautifulSoup`: загружаем вот этот неструктурированный текст в `html.parser`

Кстати, `BeautifulSoup` может парсить и другие форматы, например, XML

In [14]:
# указываем HTML-тег ("paragraphs"), чтобы вытащить только тексты
# здесь могут быть и другие теги:
# "h1", "h2", "h3" - это заголовки 1-3 уровней
# "a" - ссылки
# также вторым аргументом find_all может быть класс тега:
# например find_all("a", "img") вытащит ссылки на изображения
# теги и классы зависят от разработчика, ведь каждая веб-страница уникальна
# советы: посмотрите на основы https://www.w3schools.com/html/html_intro.asp HTML
# внимательно изучите исходный код веб-страницы, с которой работаете
pars_wiki = soup_wiki.find_all('p')
pars_wiki

[<p class="cdx-dialog__header__subtitle">This is an accepted version of this page</p>,
 <p class="mw-empty-elt">
 </p>,
 <p>The <b>Pug</b> is a <a class="mw-redirect" href="/wiki/Breed_of_dog" title="Breed of dog">breed of dog</a> with the physically distinctive features of a wrinkly, short-muzzled face, and curled tail. An ancient breed, with roots dating back to 400 B.C.,<sup class="reference" id="cite_ref-2"><a href="#cite_note-2"><span class="cite-bracket">[</span>2<span class="cite-bracket">]</span></a></sup> they have a fine, glossy coat that comes in a variety of colors, most often <a class="mw-redirect" href="/wiki/Fawn_(color)" title="Fawn (color)">fawn</a> (light brown) or black, and a compact, square body with well developed and thick muscles all over the body.
 </p>,
 <p>Pugs were brought from China to Europe in the sixteenth century and were popularized in Western Europe by the <a href="/wiki/House_of_Orange-Nassau" title="House of Orange-Nassau">House of Orange</a> of the

In [13]:
soup_imdb = BeautifulSoup(r_imdb.text, 'html.parser')
soup_imdb

<!DOCTYPE html>
<html lang="en-US" xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://opengraphprotocol.org/schema/"><head><meta charset="utf-8"/><meta content="width=device-width" name="viewport"/><script>if(typeof uet === 'function'){ uet('bb', 'LoadTitle', {wb: 1}); }</script><script>window.addEventListener('load', (event) => {
        if (typeof window.csa !== 'undefined' && typeof window.csa === 'function') {
            var csaLatencyPlugin = window.csa('Content', {
                element: {
                    slotId: 'LoadTitle',
                    type: 'service-call'
                }
            });
            csaLatencyPlugin('mark', 'clickToBodyBegin', 1729752352762);
        }
    })</script><title>IMDb Top 250 Movies</title><meta content="As rated by regular IMDb voters." data-id="main" name="description"/><script type="application/ld+json">{"@type":"ItemList","itemListElement":[{"@type":"ListItem","item":{"@type":"Movie","url":"https://www.imdb.com/title/t

Теперь данные структурировались

Во всяком случае, в данных `pars_wiki` все выглядит очень симпатично!

Теперь вытащим из этих структур тексты методом `get_text`

Наши данные представляют собой список, поэтому используем цикл for для выуживания текстов из каждого элемента списка `pars_wiki`

In [15]:
texts_wiki = [text.get_text() for text in pars_wiki]
texts_wiki

['This is an accepted version of this page',
 '\n',
 'The Pug is a breed of dog with the physically distinctive features of a wrinkly, short-muzzled face, and curled tail. An ancient breed, with roots dating back to 400 B.C.,[2] they have a fine, glossy coat that comes in a variety of colors, most often fawn (light brown) or black, and a compact, square body with well developed and thick muscles all over the body.\n',
 'Pugs were brought from China to Europe in the sixteenth century and were popularized in Western Europe by the House of Orange of the Netherlands, and the House of Stuart.[3] In the United Kingdom, in the nineteenth century, Queen Victoria developed a passion for Pugs which she passed on to other members of the royal family.\n',
 'Pugs are known for being sociable and gentle companion dogs.[4] The American Kennel Club describes the breed\'s personality as "even-tempered and charming".[5] Pugs remain popular into the twenty-first century, with some famous celebrity owners

Теперь вы можете использовать `pandas` или другие инструменты, прописать циклы для парсинга множества страниц, чтобы собрать корпус или небольшой датасет!

In [16]:
texts_wiki[0]

'This is an accepted version of this page'

Вернемся с примеру с IMDB. Здесь используем теги `script` и `application/ld+json`, потому что этот сайт в большей степени написан на JavaScript

In [17]:
soup_imdb = soup_imdb.find_all('script', type="application/ld+json")[0]
soup_imdb.string

'{"@type":"ItemList","itemListElement":[{"@type":"ListItem","item":{"@type":"Movie","url":"https://www.imdb.com/title/tt0111161/","name":"The Shawshank Redemption","description":"A banker convicted of uxoricide forms a friendship over a quarter century with a hardened convict, while maintaining his innocence and trying to remain hopeful through simple compassion.","image":"https://m.media-amazon.com/images/M/MV5BMDAyY2FhYjctNDc5OS00MDNlLThiMGUtY2UxYWVkNGY2ZjljXkEyXkFqcGc@._V1_.jpg","aggregateRating":{"@type":"AggregateRating","bestRating":10,"worstRating":1,"ratingValue":9.3,"ratingCount":2954543},"contentRating":"R","genre":"Drama","duration":"PT2H22M"}},{"@type":"ListItem","item":{"@type":"Movie","url":"https://www.imdb.com/title/tt0068646/","name":"The Godfather","description":"The aging patriarch of an organized crime dynasty transfers control of his clandestine empire to his reluctant son.","image":"https://m.media-amazon.com/images/M/MV5BYTJkNGQyZDgtZDQ0NC00MDM0LWEzZWQtYzUzZDEwMD

Чтобы начать обрабатывать JavaScript на Python, нам поможет JSON -- это тип данных, аналогичный Python dictionary. Подгрузим то, что мы спарсили в объект типа JSON

In [18]:
import json
data = json.loads(soup_imdb.string)

Теперь у нас суперструктурированные данные, из которых можно сделать очень красивый датасет!

In [19]:
data

{'@type': 'ItemList',
 'itemListElement': [{'@type': 'ListItem',
   'item': {'@type': 'Movie',
    'url': 'https://www.imdb.com/title/tt0111161/',
    'name': 'The Shawshank Redemption',
    'description': 'A banker convicted of uxoricide forms a friendship over a quarter century with a hardened convict, while maintaining his innocence and trying to remain hopeful through simple compassion.',
    'image': 'https://m.media-amazon.com/images/M/MV5BMDAyY2FhYjctNDc5OS00MDNlLThiMGUtY2UxYWVkNGY2ZjljXkEyXkFqcGc@._V1_.jpg',
    'aggregateRating': {'@type': 'AggregateRating',
     'bestRating': 10,
     'worstRating': 1,
     'ratingValue': 9.3,
     'ratingCount': 2954543},
    'contentRating': 'R',
    'genre': 'Drama',
    'duration': 'PT2H22M'}},
  {'@type': 'ListItem',
   'item': {'@type': 'Movie',
    'url': 'https://www.imdb.com/title/tt0068646/',
    'name': 'The Godfather',
    'description': 'The aging patriarch of an organized crime dynasty transfers control of his clandestine empire

Чтобы это всё визуализировать, используем `pprint`

In [20]:
from pprint import pprint
pprint(data)

{'@context': 'https://schema.org',
 '@type': 'ItemList',
 'description': 'As rated by regular IMDb voters.',
 'itemListElement': [{'@type': 'ListItem',
                      'item': {'@type': 'Movie',
                               'aggregateRating': {'@type': 'AggregateRating',
                                                   'bestRating': 10,
                                                   'ratingCount': 2954543,
                                                   'ratingValue': 9.3,
                                                   'worstRating': 1},
                               'contentRating': 'R',
                               'description': 'A banker convicted of uxoricide '
                                              'forms a friendship over a '
                                              'quarter century with a hardened '
                                              'convict, while maintaining his '
                                              'innocence and tryi

Отдельные элементы JSON'ов мы извлекаем так же, как в обычных dictionary. Чаще всего такие объекты представляют собой словари списков и списки словарей

In [21]:
data['itemListElement'][0]['item']['description']

'A banker convicted of uxoricide forms a friendship over a quarter century with a hardened convict, while maintaining his innocence and trying to remain hopeful through simple compassion.'