In [1]:
#!pip install bs4

Для начала рассмотрим парсинг HTML-документа вручную - через BeautifulSoup

## BeautifulSoup простой пример парсинга HTML страницы

#### Исходный код страницы:

<!DOCTYPE html>
<html>
    <head>
        <title>Header</title>
        <meta charset="utf-8">                   
    </head>
        
    <body>
        <h2>Operating systems</h2>
        
        <ul id="mylist" style="width:150px">
            <li>Solaris</li>
            <li>FreeBSD</li>
            <li>Debian</li>                      
            <li>NetBSD</li>           
            <li>Windows</li>         
        </ul>
        
        <p>
          FreeBSD is an advanced computer operating system used to 
          power modern servers, desktops, and embedded platforms.
        </p>
                
        <p>
          Debian is a Unix-like computer operating system that is 
          composed entirely of free software.
        </p>        
        
    </body>    
</html>

### Получим теги `h2`, `head`, `li`

Здесь производится импорт класса BeautifulSoup из модуля bs4. Таким образом, BeautifulSoup является главным рабочим классом.

In [2]:
from bs4 import BeautifulSoup

Открывается файл index.html и производится чтение его содержимого при помощи метода read().

In [3]:
with open("index.html", "r") as f:
    
    contents = f.read()

Создается объект BeautifulSoup. Данные передаются конструктору. Вторая опция уточняет объект парсинга.

In [4]:
soup = BeautifulSoup(contents, 'lxml')

Далее выводится HTML-код следующих двух тегов: h2 и head.

In [5]:
print(soup.h2)
print(soup.head)

<h2>Operating systems</h2>
<head>
<title>Header</title>
<meta charset="utf-8"/>
</head>


В примере много раз используются элементы li, однако выводится только первый из них.

In [6]:
print(soup.li)

<li>Solaris</li>


## BeautifulSoup теги, атрибуты `name` и `text`

* Атрибут `name` указывает на название тега, а атрибут `text` указывает на его содержимое.
* Код в примере позволяет вывести HTML-код, название и текст `h2` тега.

In [7]:
with open("index.html", "r") as f:
    
    contents = f.read()
 
    soup = BeautifulSoup(contents, 'lxml')
 
    print("HTML: {0}, name: {1}, text: {2}".format(soup.h2, 
        soup.h2.name, soup.h2.text))

HTML: <h2>Operating systems</h2>, name: h2, text: Operating systems


## BeautifulSoap перебираем HTML теги

Метод `recursiveChildGenerator()` позволяет перебрать содержимое HTML-документа. Данный пример позволяет перебрать содержимое HTML-документа и вывести названия всех его тегов.

In [8]:
with open("index.html", "r") as f:
    
    contents = f.read()
 
    soup = BeautifulSoup(contents, 'lxml')
            
    for child in soup.recursiveChildGenerator():
        
        if child.name:
            
            print(child.name)

html
head
title
meta
body
h2
ul
li
li
li
li
li
p
p


## BeautifulSoup атрибут `children` (получение дочерних элементов тега)

In [9]:
with open("index.html", "r") as f:
    
    contents = f.read()

    soup = BeautifulSoup(contents, 'lxml')

    root = soup.html
    
    root_childs = [e.name for e in root.children if e.name is not None]
    print(root_childs)

['head', 'body']


В данном примере извлекаются дочерние элементы html тега, после чего они помещаются в список Python и выводятся в консоль. Так как атрибут children также убирает пробелы между тегами, необходимо добавить условие, которое позволяет выбирать только названия тегов.

## BeautifulSoup атрибут `descendants` (получение всех потомков рассматриваемого тега)

In [10]:
with open("index.html", "r") as f:
    
    contents = f.read()
 
    soup = BeautifulSoup(contents, 'lxml')
 
    root = soup.body
    
    root_childs = [e.name for e in root.descendants if e.name is not None]
    print(root_childs)

['h2', 'ul', 'li', 'li', 'li', 'li', 'li', 'p', 'p']


Перечисленные выше теги являются потомками главного тега body.

## BeautifulSoup метод `find()`, поиск элементов по id


In [11]:
with open("index.html", "r") as f:
    
    contents = f.read()
 
    soup = BeautifulSoup(contents, 'lxml')
 
    print(soup.find("ul", id="mylist"))

<ul id="mylist" style="width:150px">
<li>Solaris</li>
<li>FreeBSD</li>
<li>Debian</li>
<li>NetBSD</li>
<li>Windows</li>
</ul>


Код в примере выше находит тег ul, у которого `id=mylist`

## BeautifulSoup метод `find_all()` поиск всех тегов в HTML

In [12]:
with open("index.html", "r") as f:
    
    contents = f.read()
 
    soup = BeautifulSoup(contents, 'lxml')
 
    for tag in soup.find_all("li"):
        print("{0}: {1}".format(tag.name, tag.text))

li: Solaris
li: FreeBSD
li: Debian
li: NetBSD
li: Windows


Код в примере выше позволяет найти и вывести на экран все li теги.

### BeautifulSoup методы `select()` и `select_one()` CSS селекторы
При помощи методов select() и select_one() для нахождения запрашиваемых элементов можно использовать некоторые CSS селекторы.

In [13]:
with open("index.html", "r") as f:
    
    contents = f.read()
 
    soup = BeautifulSoup(contents, 'lxml')
 
    print(soup.select("li:nth-of-type(3)"))

[<li>Debian</li>]


В данном примере используется CSS селектор, который выводит на экран HTML-код третьего по счету элемента `li`.

In [14]:
with open("index.html", "r") as f:
    
    contents = f.read()
 
    soup = BeautifulSoup(contents, 'lxml')
 
    print(soup.select_one("#mylist"))

<ul id="mylist" style="width:150px">
<li>Solaris</li>
<li>FreeBSD</li>
<li>Debian</li>
<li>NetBSD</li>
<li>Windows</li>
</ul>


В данном примере выводятся элементы, которых есть id под названием `mylist`.

# Получим все ссылки с `google.com` с помощтю BeautifulSoup

In [15]:
import requests #Используется для возможности подключения к сайту
from bs4 import BeautifulSoup

In [16]:
# Обманываем сайт, чтобы обойти защиту от парсинга.
headers = requests.utils.default_headers()
headers.update({ 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/69.0'})

In [17]:
# Парсим код html страницы Google
url = "https://google.com"
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, 'lxml')
print(soup.prettify()) # prettify() служит для более понятного отображения данных

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="ru">
 <head>
  <meta content="Поиск информации в интернете: веб страницы, картинки, видео и многое другое." name="description"/>
  <meta content="noodp" name="robots"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/>
  <title>
   Google
  </title>
  <script nonce="czqffbYxopmQBwCsZb/yeQ==">
   (function(){window.google={kEI:'lzzzXtHkK-CEk74P4uSh6AE',kEXPI:'0,202123,3,4,32,1151584,5663,731,223,755,4350,206,1245,1959,10,168,1058,364,921,4,574,576,241,383,246,5,1128,226,1162,160,5,367,2184,137,96,46,141,116,3,126,453,310,125,37,41,217,1122040,1197755,394,90,329028,1294,12383,4855,32692,15247,861,17450,11240,9188,8384,4859,1361,284,9006,3029,4739,1848,4720,4465,1808,4998,7931,5297,2054,920,873,1217,2975,6430,11306,3222,235,4281,2779,918,2277,8,85,2711,885,708,1279,2212,241,289,149,1103,840,517,

In [18]:
variable = soup.find_all('a') #получаем вообще все, что связано с тегом <a>
for tag in variable: #и теперь по этому списку идем, получая адреса ссылок
    print(tag.get('href'))

https://www.google.ru/imghp?hl=ru&tab=wi
https://maps.google.ru/maps?hl=ru&tab=wl
https://play.google.com/?hl=ru&tab=w8
https://www.youtube.com/?gl=RU&tab=w1
https://news.google.ru/nwshp?hl=ru&tab=wn
https://mail.google.com/mail/?tab=wm
https://drive.google.com/?tab=wo
https://www.google.ru/intl/ru/about/products?tab=wh
http://www.google.ru/history/optout?hl=ru
/preferences?hl=ru
https://accounts.google.com/ServiceLogin?hl=ru&passive=true&continue=https://www.google.com/%3FUser-Agent%3DMozilla%252F5.0%2B%2528X11%253B%2BUbuntu%253B%2BLinux%2Bx86_64%253B%2Brv%253A52.0%2529%2BGecko%252F20100101%2BFirefox%252F69.0%26Accept-Encoding%3Dgzip%252C%2Bdeflate%26Accept%3D%252A%252F%252A%26Connection%3Dkeep-alive
/advanced_search?hl=ru&authuser=0
/intl/ru/ads/
http://www.google.ru/intl/ru/services/
/intl/ru/about.html
https://www.google.com/setprefdomain?prefdom=RU&prev=https://www.google.ru/&sig=K_8Ov7kWGVBo8VDrGEjBd6gwg3ul0%3D
/intl/ru/policies/privacy/
/intl/ru/policies/terms/


# Парсинг данных с сайта `quotes.toscrape.com` с помощью Spyder

In [19]:
#!pip install scrapy

In [20]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

### Импортируем Scrapy

In [21]:
import scrapy 
from scrapy.crawler import CrawlerProcess

In [22]:
import json

class JsonWriterPipeline(object):

    def open_spider(self, spider):
        self.file = open('quoteresult.jl', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

### Устанавливаем пайплайн

Этот класс создает пайплайн, который записывает все найденные объекты в JSON файл, где каждая строка содержит один элемент.

In [23]:
import json

class JsonWriterPipeline(object):

    def open_spider(self, spider):
        self.file = open('quoteresult.jl', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

### Определяем spider, содержащий настройки для парсинга

Определяем откуда парсить данные, настройки для открытия, закрытия и записи данных

In [24]:
import logging

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]
    custom_settings = {
        'LOG_LEVEL': logging.WARNING,
        'ITEM_PIPELINES': {'__main__.JsonWriterPipeline': 1}, # Used for pipeline 1
        'FEED_FORMAT':'json',                                 # Used for pipeline 2
        'FEED_URI': 'quoteresult.json'                        # Used for pipeline 2
    }
    
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.css('span small::text').extract_first(),
                'tags': quote.css('div.tags a.tag::text').extract(),
            }

### Запускаем процесс

In [25]:
process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(QuotesSpider)
process.start()

2020-06-24 14:44:24 [scrapy.utils.log] INFO: Scrapy 2.1.0 started (bot: scrapybot)
2020-06-24 14:44:24 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.7.6 (default, Jan  8 2020, 20:23:39) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.18362-SP0
2020-06-24 14:44:24 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2020-06-24 14:44:24 [scrapy.crawler] INFO: Overridden settings:
{'LOG_LEVEL': 30,
 'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
  exporter = cls(crawler)



<Deferred at 0x20b848ab948>

После всех шагов выше, в директории появится файл `quoteresult.json`

### Выводим содержимое этого файла с помощью библиотеки `pandas`

In [26]:
import pandas as pd
dfjson = pd.read_json('quoteresult.json')
dfjson

Unnamed: 0,text,author,tags
0,“This life is what you make it. No matter what...,Marilyn Monroe,"[friends, heartbreak, inspirational, life, lov..."
1,“It takes a great deal of bravery to stand up ...,J.K. Rowling,"[courage, friends]"
2,"“If you can't explain it to a six year old, yo...",Albert Einstein,"[simplicity, understand]"
3,"“You may not be her first, her last, or her on...",Bob Marley,[love]
4,"“I like nonsense, it wakes up the brain cells....",Dr. Seuss,[fantasy]
5,"“I may not have gone where I intended to go, b...",Douglas Adams,"[life, navigation]"
6,"“The opposite of love is not hate, it's indiff...",Elie Wiesel,"[activism, apathy, hate, indifference, inspira..."
7,"“It is not a lack of love, but a lack of frien...",Friedrich Nietzsche,"[friendship, lack-of-friendship, lack-of-love,..."
8,"“Good friends, good books, and a sleepy consci...",Mark Twain,"[books, contentment, friends, friendship, life]"
9,“Life is what happens to us while we are makin...,Allen Saunders,"[fate, life, misattributed-john-lennon, planni..."
