# Beautiful Soup 

**Beautiful Soup** - бибиотека Python для парсинга HTML и XML документов.  

Парсинг (синтаксический анализ)  - это сопоставление строки естественного языка или языка программирования с формальными данными. 

Таким образом, **Beautiful Soup** извлекает данные из файлов HTML и XML и представляет их в удобном виде.

**Beautiful Soup** может преобразовать даже неправильную разметку.  

Beautiful Soup поддерживает простые и истественные способы навигации, поиска и модификации дерева синтаксического разбора

Рассмотрим основные возможности Beautiful Soup.

In [4]:
from bs4 import BeautifulSoup
import re

In [62]:
doc = ['<html><head><title>Page title</title></head>',
       '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.</p>',
       '<p id="secondpara" align="blah">This is paragraph <b>two</b>.</p>',
       '</html>']
soup=BeautifulSoup(''.join(doc))

print(soup.prettify())

<html>
 <head>
  <title>
   Page title
  </title>
 </head>
 <body>
  <p align="center" id="firstpara">
   This is paragraph
   <b>
    one
   </b>
   .
  </p>
  <p align="blah" id="secondpara">
   This is paragraph
   <b>
    two
   </b>
   .
  </p>
 </body>
</html>


## Навигация 

Рассмотрим некоторые примеры навигации по синтаксическому дереву.

С помощью `contents` можно перемещаться вниз по дереву синтаксического разбора.

In [81]:
soup.contents

[<html><head><title>Page title</title></head><body><p align="center" id="firstpara">This is paragraph <b>one</b>.</p><p align="blah" id="secondpara">This is paragraph <b>two</b>.</p></body></html>]

In [63]:
soup.contents[0]

<html><head><title>Page title</title></head><body><p align="center" id="firstpara">This is paragraph <b>one</b>.</p><p align="blah" id="secondpara">This is paragraph <b>two</b>.</p></body></html>

In [65]:
soup.contents[0].name

'html'

In [66]:
soup.contents[0].contents[0]

<head><title>Page title</title></head>

In [87]:
soup.contents[0].contents[0].contents[0].name

'title'

In [95]:
soup.html

<html><head><title>Page title</title></head><body><p align="center" id="firstpara">This is paragraph <b>one</b>.</p><p align="blah" id="secondpara">This is paragraph <b>two</b>.</p></body></html>

In [96]:
soup.title

<title>Page title</title>

In [97]:
soup.body

<body><p align="center" id="firstpara">This is paragraph <b>one</b>.</p><p align="blah" id="secondpara">This is paragraph <b>two</b>.</p></body>

С помощью `parent` можно перемещаться вверх по дереву синтаксического разбора.

In [98]:
head = soup.head
print(head)
head.parent.name

<head><title>Page title</title></head>


'html'

In [99]:
title=soup.title
print(title)
title.parent.name

<title>Page title</title>


'head'

In [91]:
title.parent

<head><title>Page title</title></head>

`Next` и `previous` позволяют передвигаться по элементам документа в том порядке, в котором они были обработаны парсером, а не в порядке появления в дереве. Например, элемент next для тега <HEAD> равен тегу <TITLE>, а не тегу <BODY>. Это потому, что в исходном документе, тег <TITLE> идет сразу после тега <HEAD>.

In [43]:
head.next

<title>Page title</title>

In [101]:
title.previous

<head><title>Page title</title></head>

In [100]:
head.previous.name

'head'

`nextSibling` и `previousSibling` позволяют пропускать следующий или предыдущий элемент на этом же уровне дерева синтаксического разбора. 

In [106]:
head.nextSibling

<body><p align="center" id="firstpara">This is paragraph <b>one</b>.</p><p align="blah" id="secondpara">This is paragraph <b>two</b>.</p></body>

In [107]:
head.nextSibling.name

'body'

In [108]:
soup.p.nextSibling

<p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>

In [104]:
soup.body.previousSibling.name

'head'

В случае, когда тег имеет только один дочерний узел, который является строкой, дочерний узел будет доступен через `tag.string` точно также как и через `tag.contents[0]`. 

In [109]:
soup.title.contents[0]

'Page title'

In [110]:
soup.title.string

'Page title'

## Поиск

Искать определенные теги или теги с заданными атрибутами можно с помощью `findAll`.

In [111]:
soup.findAll('b')

[<b>one</b>, <b>two</b>]

Также можно передать регулярное выражение. Найдем все теги, имена которых начинаются на английскую букву "B":

In [113]:
tagsStartingWithB = soup.findAll(re.compile('^b'))
[tag.name for tag in tagsStartingWithB]

['body', 'b', 'b']

`findAll` можно передать список или словарь.

In [118]:
soup.findAll(['title', 'p'])

[<title>Page title</title>,
 <p align="center" id="firstpara">This is paragraph <b>one</b>.</p>,
 <p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>]

In [119]:
soup.findAll({'title' : True, 'p' : True})

[<title>Page title</title>,
 <p align="center" id="firstpara">This is paragraph <b>one</b>.</p>,
 <p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>]

Можно передать специальное значение True, которому соответствуют все теги с любыми именами.

In [120]:
allTags = soup.findAll(True)
[tag.name for tag in allTags]

['html', 'head', 'title', 'body', 'p', 'b', 'p', 'b']

Можно передать вызываемый объект, который принимает объект Tag как единственный аргумент и возвращает логическое значение. Каждый объект Tag, который находит findAll, будет передан в этот объект и если его вызов возвращает True, то необходимый тег найден.

In [121]:
soup.findAll(lambda tag: len(tag.attrs) == 2)

[<p align="center" id="firstpara">This is paragraph <b>one</b>.</p>,
 <p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>]

In [122]:
soup.findAll(lambda tag: len(tag.name) == 1 and not tag.attrs)

[<b>one</b>, <b>two</b>]

Также можно находить теги с определёнными ограничениями на атрибуты тега. 

In [123]:
soup.findAll(align="center")

[<p align="center" id="firstpara">This is paragraph <b>one</b>.</p>]

In [124]:
soup.findAll(id=re.compile("para$"))

[<p align="center" id="firstpara">This is paragraph <b>one</b>.</p>,
 <p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>]

In [125]:
soup.findAll(align=["center", "blah"])

[<p align="center" id="firstpara">This is paragraph <b>one</b>.</p>,
 <p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>]

In [135]:
soup.findAll(align=True)

[<p align="center" id="firstpara">This is paragraph <b>one</b>.</p>,
 <p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>]

In [128]:
[tag.name for tag in soup.findAll(align=None)]

['html', 'head', 'title', 'body', 'b', 'b']

`recursive` – логический аргумент (по умолчанию равен True), который сообщает Beautiful Soup о том, нужно ли обходить все поддерево или искать лишь среди непосредственных потомков тега. Вот в чем различие:

In [129]:
[tag.name for tag in soup.html.findAll()]

['head', 'title', 'body', 'p', 'b', 'p', 'b']

In [130]:
[tag.name for tag in soup.html.findAll(recursive=False)]

['head', 'body']

Установка аргумента limit позволяет останавливать поиск после того, как будет найдено заданное число совпадений.

In [131]:
soup.findAll('p', limit=1)

[<p align="center" id="firstpara">This is paragraph <b>one</b>.</p>]

In [132]:
soup.findAll('p', limit=100)

[<p align="center" id="firstpara">This is paragraph <b>one</b>.</p>,
 <p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>]

Вызов тега аналогично вызову `findall`

In [133]:
soup('b')

[<b>one</b>, <b>two</b>]

In [134]:
soup.body('p', limit=1)

[<p align="center" id="firstpara">This is paragraph <b>one</b>.</p>]

In [136]:
soup(align=True)

[<p align="center" id="firstpara">This is paragraph <b>one</b>.</p>,
 <p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>]

In [137]:
soup(align=True)[1]

<p align="blah" id="secondpara">This is paragraph <b>two</b>.</p>

## Примеры использования

In [1]:
import requests
from bs4 import BeautifulSoup
import re

In [3]:
q = "кошка шиншилла"
response = requests.get("https://www.google.ru/search?q=" + q + "&tbm=isch")

soup = BeautifulSoup(response.content.decode(response.encoding), 'html.parser')
l=soup.findAll('img')
url=l[3]['src']
print(url)
res = requests.get(url)
with open("image.jpg", "wb") as f:
	f.write(res.content)

https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRDw15zz9bIflKSDO25IBzxiGLmf026AMLT5jJwDc2iHBHe-82zPhjY7_c
