## Содержание:
* [Введение](#first-bullet)
* [Создание скрипта скрапинга](#second-bullet)
* [Парсинг HTML-разметки](#third-bullet)
* [Свойство text библиотеки Beautiful Soup](#fourth-bullet)
* [Скрапинг с учетом пагинации](#fifth-bullet)
* [Скрапинг изображений](#sixth-bullet)
* [Скрапинг таблицы](#seventh-bullet)

## Введение <a class="anchor" id="first-bullet"></a>

Beautiful Soup - это парсер для синтаксического разбора файлов HTML/XML, написанный на языке программирования Python, который может преобразовать даже неправильную разметку в дерево синтаксического разбора. Он поддерживает простые и естественные способы навигации, поиска и модификации дерева синтаксического разбора.

Скрипты полученные с помощью Beautiful Soup можно использовать для сбора и компиляции данных из интернета, а результат — как для анализа данных, так и для других сценариев.

Перед изучением следуюет установить саму библиотеку BeautifulSoup, а так же lxml и requests

In [None]:
#pip install beautifulsoup4
#pip install lxml
#pip install requests
#pip install pandas

Импортируем нужные библиотеки 

In [3]:
import requests
from bs4 import BeautifulSoup

## Создание скрипта скрапинга <a class="anchor" id="second-bullet"></a>

Для знакомства с процессом скрапинга мы будем использовать сайт https://quotes.toscrape.com/

Считываем код страницы с помощью библиотеки requests и используем конструктор BeautifulSoup(), чтобы поместить текст ответа в переменную soup

In [4]:
url = 'https://quotes.toscrape.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')

print(soup)

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Quotes to Scrape</title>
<link href="/static/bootstrap.min.css" rel="stylesheet"/>
<link href="/static/main.css" rel="stylesheet"/>
</head>
<body>
<div class="container">
<div class="row header-box">
<div class="col-md-8">
<h1>
<a href="/" style="text-decoration: none">Quotes to Scrape</a>
</h1>
</div>
<div class="col-md-4">
<p>
<a href="/login">Login</a>
</p>
</div>
</div>
<div class="row">
<div class="col-md-8">
<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>
<span>by <small class="author" itemprop="author">Albert Einstein</small>
<a href="/author/Albert-Einstein">(about)</a>
</span>
<div class="tags">
            Tags:
            <meta class="keywords" content="change,deep-thoughts,thinking,world" itemprop="keywords"/>
<a class="t

## Парсинг HTML-разметки <a class="anchor" id="third-bullet"></a>

HTML — это HyperText Markup Language («язык гипертекстовой разметки»), который работает за счет распространения элементов документа со специальными тегами. И благодаря Beautiful Soup проще находить нужные данные аренитируясь по тегам и классам в разметке. Вот например попробуем найти все теги span с классом text. 

In [9]:
url = 'https://quotes.toscrape.com/'      
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')

quotes = soup.find_all('span', class_='text')

print(*quotes, sep='\n\n') 

<span class="text" itemprop="text">“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”</span>

<span class="text" itemprop="text">“It is our choices, Harry, that show what we truly are, far more than our abilities.”</span>

<span class="text" itemprop="text">“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”</span>

<span class="text" itemprop="text">“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”</span>

<span class="text" itemprop="text">“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”</span>

<span class="text" itemprop="text">“Try not to become a man of success. Rather become a man of value.”</span>

<span class="text" itemprop="text">“It is better to be hated for what you are than to be loved for what you are not.”</span

## Свойство text библиотеки Beautiful Soup <a class="anchor" id="fourth-bullet"></a>

Для получения только данных (текста) — цитат в этом случае — можно использовать свойство .text из библиотеки Beautiful Soup. Обратите внимание на код, где происходит перебор всех полученных данных с выводом только нужного содержимого.

In [12]:
quotes = soup.find_all('span', class_='text') #строчка идентична предыдущему примеру

for quote in quotes:
    print(quote.text + '\n')

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”

“It is our choices, Harry, that show what we truly are, far more than our abilities.”

“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”

“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”

“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”

“Try not to become a man of success. Rather become a man of value.”

“It is better to be hated for what you are than to be loved for what you are not.”

“I have not failed. I've just found 10,000 ways that won't work.”

“A woman is like a tea bag; you never know how strong it is until it's in hot water.”

“A day without sunshine is like, you know, night.”



Можно улучшить вывод и добавить под строчки авторов. Работаем по тому же принципу — сперва нужно вручную изучить страницу. Можно обратить внимание на то, что каждый автор заключен в тег <small> с классом author. Дальше используем функцию find_all() и сохраняем результат в переменной authors.

In [14]:
authors = soup.find_all('small', class_='author')

for i in range(0, len(quotes)):
    print(quotes[i].text)
    print('---' + authors[i].text + '\n')

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
---Albert Einstein

“It is our choices, Harry, that show what we truly are, far more than our abilities.”
---J.K. Rowling

“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
---Albert Einstein

“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
---Jane Austen

“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
---Marilyn Monroe

“Try not to become a man of success. Rather become a man of value.”
---Albert Einstein

“It is better to be hated for what you are than to be loved for what you are not.”
---André Gide

“I have not failed. I've just found 10,000 ways that won't work.”
---Thomas A. Edison

“A woman is like a tea bag; you never know how strong it is until it's in hot water.

Наконец, добавим код получения всех тегов для каждой цитаты, но чтобы вевести каждой цитате соответственные теги, для начала нужно считать все списки тегов. Потом отдельным циклом будем приписывать нужные теги.

In [16]:
tags = soup.find_all('div', class_='tags')

for i in range(0, len(quotes)):
    print(quotes[i].text)
    print('--' + authors[i].text)
    print('Tags:')
    tagsforquote = tags[i].find_all('a', class_='tag')
    for tagforquote in tagsforquote:
        print('*' + tagforquote.text)
    print()

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
--Albert Einstein
Tags:
*change
*deep-thoughts
*thinking
*world

“It is our choices, Harry, that show what we truly are, far more than our abilities.”
--J.K. Rowling
Tags:
*abilities
*choices

“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
--Albert Einstein
Tags:
*inspirational
*life
*live
*miracle
*miracles

“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
--Jane Austen
Tags:
*aliteracy
*books
*classic
*humor

“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
--Marilyn Monroe
Tags:
*be-yourself
*inspirational

“Try not to become a man of success. Rather become a man of value.”
--Albert Einstein
Tags:
*adulthood
*success
*value

“It is better to be hated for what you are t

## Скрапинг с учетом пагинации <a class="anchor" id="fifth-bullet"></a>

Для этого примера используем другой сайт: https://scrapingclub.com/exercise/list_basic/?page=1

Допустим у нас есть сайт, который ведет на одну страницу коллекции, включающей на самом деле несколько страниц. На это указывает page=1 в адресе. Скрипт Beautiful Soup можно настроить и так, чтобы скрапинг происходил на нескольких страницах.

Наша основная задача - извлечь название элемента и его цену, отобразив данные в виде списка.

Создаём скрипт скрапинга для этого сайта 

In [5]:
url = 'https://scrapingclub.com/exercise/list_basic/?page=1'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')

#print(soup)

Код будет выглядить следующим образом:

In [22]:
items = soup.find_all('div', class_='col-lg-4 col-md-6 mb-4') 

for n, i in enumerate(items, start=1):  #перечисление с первой страницы
    itemName = i.find('h4', class_='card-title').text.strip()
    itemPrice = i.find('h5').text
    print(f'{n}:  {itemPrice} за {itemName}')

pages = soup.find('ul', class_='pagination') #тег перемещения по страницам сайта 
urls = []
links = pages.find_all('a', class_='page-link') # все страницы

for link in links:  #заполняем массив ссылок
    pageNum = int(link.text) if link.text.isdigit() else None
    if pageNum != None:
        hrefval = link.get('href')
        urls.append(hrefval)

for slug in urls:  # проходим по каждой ссылке и вытаскиваес из кода страницы нужную нам информацию
    newUrl = url.replace('?page=1', slug)
    response = requests.get(newUrl)
    soup = BeautifulSoup(response.text, 'lxml')
    items = soup.find_all('div', class_='col-lg-4 col-md-6 mb-4')
    for n, i in enumerate(items, start=n):
        itemName = i.find('h4', class_='card-title').text.strip()
        itemPrice = i.find('h5').text
        print(f'{n}:  {itemPrice} за {itemName}')

1:  $24.99 за Short Dress
2:  $29.99 за Patterned Slacks
3:  $49.99 за Short Chiffon Dress
4:  $59.99 за Off-the-shoulder Dress
5:  $24.99 за V-neck Top
6:  $49.99 за Short Chiffon Dress
7:  $24.99 за V-neck Top
8:  $24.99 за V-neck Top
9:  $59.99 за Short Lace Dress
9:  $34.99 за Fitted Dress
10:  $69.99 за V-neck Jumpsuit
11:  $54.99 за Chiffon Dress
12:  $39.99 за Skinny High Waist Jeans
13:  $19.99 за Super Skinny High Jeans
14:  $19.99 за Oversized Denim Jacket
15:  $24.99 за Short Sweatshirt
16:  $12.99 за Long-sleeved Jersey Top
17:  $39.99 за Skinny High Waist Jeans
17:  $24.99 за Short Sweatshirt
18:  $12.99 за Long-sleeved Jersey Top
19:  $12.99 за Long-sleeved Jersey Top
20:  $19.99 за Jersey Dress
21:  $24.99 за Short Sweatshirt
22:  $24.99 за Crinkled Flounced Blouse
23:  $29.99 за Bib Overall Dress
24:  $17.99 за Loose-knit Sweater
25:  $29.99 за Skinny Regular Jeans
25:  $12.99 за Henley-style Top
26:  $17.99 за Joggers
27:  $34.99 за Skirt with Lacing
28:  $17.99 за Top

## Скрапинг изображений <a class="anchor" id="sixth-bullet"></a>

С помощью Beautiful Soup можно собрать только ссылки на картинки сайта. 

Для примера используем сайт с картинками: https://bipbap.ru/krasivye-kartinki/kartinki-krasivye-s-koshkami-35-foto.html

In [37]:
url = 'https://bipbap.ru/krasivye-kartinki/kartinki-krasivye-s-koshkami-35-foto.html'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')

imgs = soup.findAll("img", {"itemprop":"url image"})
for img in imgs:
        print (img['src'])

https://bipbap.ru/wp-content/uploads/2017/05/1476347564_krasavicy-koshki-i-koty-1.jpg
https://bipbap.ru/wp-content/uploads/2017/05/14051744_1062109847175848_4605853089502085177_n.jpg
https://bipbap.ru/wp-content/uploads/2017/05/full.jpg
https://bipbap.ru/wp-content/uploads/2017/05/Samye_dorogie_koshki_10.jpg
https://bipbap.ru/wp-content/uploads/2017/05/1-11.jpg
https://bipbap.ru/wp-content/uploads/2017/05/31.png
https://bipbap.ru/wp-content/uploads/2017/05/102.jpg
https://bipbap.ru/wp-content/uploads/2017/05/3099.jpg
https://bipbap.ru/wp-content/uploads/2017/05/6065635.jpg
https://bipbap.ru/wp-content/uploads/2017/05/1320080644_britanskaya-koshka-004.jpg
https://bipbap.ru/wp-content/uploads/2017/05/1452337453_foto1.jpg
https://bipbap.ru/wp-content/uploads/2017/05/1476347519_krasavicy-koshki-i-koty-2.jpg
https://bipbap.ru/wp-content/uploads/2017/05/1476347855_krasavicy-koshki-i-koty-6-1.jpg
https://bipbap.ru/wp-content/uploads/2017/05/361531956103005.jpg
https://bipbap.ru/wp-content/upl

## Скрапинг таблицы <a class="anchor" id="seventh-bullet"></a>

Для примера будем использовать сайт из википедии https://en.wikipedia.org/wiki/World_population

Импортируем библиотеку Pandas и созданим скрипт скрапинга

In [17]:
import pandas as pd

url = 'https://en.wikipedia.org/wiki/World_population'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html5lib') #html5lib - медленее, но мягче (лучше использовать его, если HTML сломан) 

Код для создания таблицы будет выглядить следующим образом:

In [32]:
tables = soup.find_all('table')
population_data = pd.DataFrame(columns=['Rank', 'Country', 'Population', 'Area', 'Density'])

for row in tables[5].tbody.find_all('tr'):
    col = row.find_all('td')
    if (col != []):
        rank = col[0].text
        country = col[1].text
        population = col[2].text.strip()
        area = col[3].text.strip()
        density = col[4].text.strip()
        population_data = population_data.append({'Rank':rank, 'Country':country, 'Population':population, 'Area':area, 'Density':density}, ignore_index = True)
        
population_data

Unnamed: 0,Rank,Country,Population,Area,Density
0,1,Singapore,5704000,710,8033
1,2,Bangladesh,171070000,143998,1188
2,3,Lebanon,6856000,10452,656
3,4,Taiwan,23604000,36193,652
4,5,South Korea,51781000,99538,520
5,6,Rwanda,12374000,26338,470
6,7,Haiti,11578000,27065,428
7,8,Netherlands,17620000,41526,424
8,9,Israel,9380000,22072,425
9,10,India,1379860000,3287240,420
