
# Beautiful Soup


### Виды парсеров



| **Парсер**  | **Типичное использование**                                                                   | **Преимущества**                                         | **Недостатки**                                            |
|-------------|----------------------------------------------------------------------------------------------|----------------------------------------------------------|-----------------------------------------------------------|
| html.parser | BeautifulSoup(markup, 'html.parser')                                                         | - *мягкий                                                | - не такой быстрый, как LXML, менее *мягкий, чем html5lib |
| lxml        | BeautifulSoup(markup, 'lxml')                                                                | - очень быстрый - * мягкий                               | - внешняя зависимость                                     |
| xml         | BeautifulSoup(markup, 'xml') или BeautifulSoup(markup, 'lxml-xml') | - очень быстрый - Поддерживаемый парсер XML              | - внешняя зависимость                                     |
| html5lib    | BeautifulSoup(markup, 'html5lib')                                                            | - *мягкий - разбирает как браузер - Действительный HTML5 | - Очень медленный - внешняя зависимость python            |


* **мягкий** парсер не проверяет соответствие открывающих и закрывающих тегов. Другими словами, мягкие парсеры будут собирать разметку с сайта, даже если она некорректна или сломана.

## Методы Beautifulsoup

### .find


Ищет первый элемент

In [13]:
# Example 1

html_doc = """
<html>
    <head>
        <title>Example Page</title>
    </head>
    <body>
        <h1>Hello World</h1>
        <p class="info">This is a paragraph.</p>
        <p class="info">This is another paragraph.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Найдёт первый тег H1
firs_h1 = soup.find('h1')
print(firs_h1)

Delimiter()

# Найдёт первый тег P с классом 'info'
first_p = soup.find('p', {'class': 'info'})
print(first_p)


<h1>Hello World</h1>
--------------------------------------------------
<p class="info">This is a paragraph.</p>


In [19]:
# Example 2

html_doc = """
<html>
    <head>
        <title>Example Page</title>
    </head>
    <body>
        <div id="main">
            <h1>Hello World</h1>
            <p class="info">This is a paragraph.</p>
            <p class="info">This is another paragraph.</p>
            <ul>
                <li>Item 1</li>
                <li>Item 2</li>
                <li>Item 3</li>
            </ul>
        </div>
        <div id="secondary">
            <p>Some additional information.</p>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# div с id 'main'
main_div = soup.find('div', {'id': 'main'})
print(main_div)

Delimiter()

main_p = soup('p', {'class': 'info'})
print(main_p)

Delimiter()

main_ul = soup('ul')
print(main_ul)

<div id="main">
<h1>Hello World</h1>
<p class="info">This is a paragraph.</p>
<p class="info">This is another paragraph.</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</div>

--------------------------------------------------

[<p class="info">This is a paragraph.</p>, <p class="info">This is another paragraph.</p>]

--------------------------------------------------

[<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>]


In [20]:
# Example 3

html_doc = """
<html>
    <head>
        <title>Example Page</title>
    </head>
    <body>
        <div id="main">
            <h1>Hello World</h1>
            <p class="info">This is a paragraph.</p>
            <p class="info">This is another paragraph.</p>
            <ul>
                <li>Item 1</li>
                <li>Item 2</li>
                <li>Item 3</li>
            </ul>
        </div>
        <div id="secondary">
            <p>Some additional information.</p>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Найдите первый div с идентификатором «main»
first_div = soup.find('div', {'id': 'main'})
print(first_div)
Delimiter()
# Найдите первый тег p с классом "info"
first_p = soup.find('p', {'class' : 'info'})
print(first_p)


<div id="main">
<h1>Hello World</h1>
<p class="info">This is a paragraph.</p>
<p class="info">This is another paragraph.</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</div>

--------------------------------------------------

<p class="info">This is a paragraph.</p>


### .find_all()

Ищет все элементы

##### Параметры 


```soup.find_all(self, name=None, attrs={}, recursive=True string=None, limit=None, **kwargs)```

- ```name``` - Имя тега HTML, который нужно найти
- ```attrs``` - словарь атрибутов и их значений, которые нужно найти
- ```recursive``` - Нужно ли искать во вложенных тегах (по умолчанию True)
- ```string``` - текст, который нужно найти
- ```limit``` - Максимальное кол-во элементов которые мы хотим найти

In [26]:
# Example 1

html_doc = """
<html>
    <body>
        <h1>Заголовок 1</h1>
        <p class="text-class">Текст 1</p>
        <p class="text-class">Текст 2</p>
        <p id="text-id">Текст 3</p>
    </body>
</html>"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Найти все теги `p`
print(*soup.find_all('p'), sep='\n')
Delimiter()
# Найти все теги `p` с атрибутом class='text-class'
print(*soup.find_all('p', {'class': 'text-class'}), sep='\n')
Delimiter()
# Найти все теги `p` с атрибутом id='text-id'
print(*soup.find_all('p', {'id': 'text-id'}), sep='\n')


<p class="text-class">Текст 1</p>
<p class="text-class">Текст 2</p>
<p id="text-id">Текст 3</p>

--------------------------------------------------

<p class="text-class">Текст 1</p>
<p class="text-class">Текст 2</p>

--------------------------------------------------

<p id="text-id">Текст 3</p>


In [31]:
# Example 2

html_doc = """
<html>
    <body>
        <h1>Заголовок 1</h1>
        <p class="text-class">Текст 1</p>
        <p class="text-class">Текст 2</p>
        <p id="text-id">Текст 3</p>
        <a href="https://google.com">Google</a>
        <a href="https://yandex.ru">Yandex</a>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Найти все теги `a` с атрибутом href
for tag in soup.find_all('a', href=True):
    print(tag['href'], tag.text)

https://google.com Google
https://yandex.ru Yandex


In [41]:
# Example 3

html_doc = """
<html>
    <head>
        <title>Example Page</title>
    </head>
    <body>
        <div id="main">
            <h1>Hello World</h1>
            <p class="info">This is a paragraph.</p>
            <p class="info">This is another paragraph.</p>
            <ul>
                <li>Item 1</li>
                <li>Item 2</li>
                <li>Item 3</li>
            </ul>
        </div>
        <div id="secondary">
            <p>Some additional information.</p>
        </div>
        <p class="info">This is a paragraph footer.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser') 
soup = soup.find('body')  # оставить только тег 'body'

print("recursive = True") # Рекурсия вкл 
print(*soup.find_all('p', recursive=True), sep='\n') # Поиск всех тегов 'p' с выводом через распаковку с применение sep

print('-'*50 ) # Разделитель

print("recursive = False") # Рекурсия выкл
print(*soup.find_all('p', recursive=False), sep='\n') 

recursive = True
<p class="info">This is a paragraph.</p>
<p class="info">This is another paragraph.</p>
<p>Some additional information.</p>
<p class="info">This is a paragraph footer.</p>
--------------------------------------------------
recursive = False
<p class="info">This is a paragraph footer.</p>


In [56]:
# Example 4

html_doc = """
<html>
    <body>
        <h1>Заголовок 1</h1>
        <p class="text-class">Текст 1</p>
        <p class="text-class">Текст 2</p>
        <p id="text-id">Текст 3</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Найти все теги `p` с текстом 'Текст 1'
print(soup.find_all('p', string='Текст 1'))

Delimiter()
# Найти все теги `p` с текстом, содержащим 'Текст'
print(*soup.find_all('p', string= lambda text : 'Текст' in text), sep='\n')
#print(soup.find_all('p', string= lambda text : text if text.startswith('Текст') else ''))

[<p class="text-class">Текст 1</p>]

--------------------------------------------------

<p class="text-class">Текст 1</p>
<p class="text-class">Текст 2</p>
<p id="text-id">Текст 3</p>


In [61]:
# Example 5

html_doc = """
<html>
    <body>
        <h1>Заголовок 1</h1>
        <p class="text-class">Текст 1</p>
        <p class="text-class">Текст 2</p>
        <p id="text-id">Текст 3</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Найти все теги `p` с классом `text-class`
print(*soup.find_all('p', {'class': 'text-class'}), sep='\n')
Delimiter()
# Найти все теги `p` с атрибутом `class`
print(*soup.find_all('p', class_=True), sep='\n')
Delimiter()
# Найти все теги `p` с атрибутом `id`
print(*soup.find_all('p', id=True), sep='\n')

<p class="text-class">Текст 1</p>
<p class="text-class">Текст 2</p>

--------------------------------------------------

<p class="text-class">Текст 1</p>
<p class="text-class">Текст 2</p>

--------------------------------------------------

<p id="text-id">Текст 3</p>


### .text


Возвращает текстовое содержимое тега, включая текст, содержащийся между тегами. Оно не учитывает вложенные теги

In [62]:
# Example 1

html_doc = """
<html>
    <body>
        <div id="main">
            <p>This is a paragraph</p>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Находим первый элемент с тегом p
p = soup.find('p')

# Используем .text, чтобы получить текст внутри тега p
print(p.text)  # This is a paragraph

This is a paragraph


In [63]:
# Example 2

from bs4 import BeautifulSoup

html_doc = """
<html>
    <body>
        <div id="main">
            <ul>
                <li>Item 1</li>
                <li>Item 2</li>
                <li>Item 3</li>
            </ul>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Находим все теги li
lis = soup.find_all('li')

# Выводим текст внутри каждого тега li с помощью .text
for li in lis:
    print(li.text)

Item 1
Item 2
Item 3


###  .get_text()

Возвращает текстовое содержимое тега и всех его потомков (включая текст, содержащийся между вложенными тегами). Он может быть использован для извлечения всего текстового содержимого внутри тега.

In [66]:
# Example 1

html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
        <p>This is some more text.</p>
        <p>This is even more text.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

header = soup.h1
header_text = header.get_text()
print(header_text)

Example Page


In [67]:
# Example 2

html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
        <p>This is some more text.</p>
        <p>This is even more text.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

all_text = soup.get_text()
print(all_text)




Example Page
This is some text.

Item 1
Item 2
Item 3

This is some more text.
This is even more text.





### .select()

Позволяет выполнять поиск элементов HTML с помощью CSS селекторов. Он возвращает список тегов, удовлетворяющих заданным условиям.

```soup.select(self, selector, namespaces=None, limit=None, **kwargs)```

Параметры:

- Тег: ```select("p")```
- Класс: ```select(".class")```
- Идентификатор: ```select("#id")```
- Атрибут: ```select("[attribute=value]")```
- Несколько селекторов: ```select("p.class")```


In [70]:
# Example 1

html_doc = """
<html>
    <body>
        <h1>Заголовок 1</h1>
        <p class="text-class">Текст 1</p>
        <p class="text-class">Текст 2</p>
        <p id="text-id">Текст 3</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Найти все теги `p` с классом `text-class`
print(soup.select('.text-class'))

# Найти все теги `p` с атрибутом `id`
print(soup.select('p#text-id'))

# Найти все теги `p` внутри тега `body`
print(soup.select('p'))

[<p class="text-class">Текст 1</p>, <p class="text-class">Текст 2</p>]
[<p id="text-id">Текст 3</p>]
[<p class="text-class">Текст 1</p>, <p class="text-class">Текст 2</p>, <p id="text-id">Текст 3</p>]


In [76]:
# Example 2

html_doc = """
<html>
  <body>
    <p class="highlight">This is a highlighted paragraph.</p>
    <p>This is a normal paragraph.</p>
    <div id="div1">
      <p>This is a paragraph in a div.</p>
    </div>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, "html.parser")

# Выберем все параграфы с классом "highlight"
print(soup.select('.highlight'))
# Выберем все параграфы, находящиеся внутри элемента с идентификатором "div1"
print(soup.select('#div1 p'))

[<p class="highlight">This is a highlighted paragraph.</p>]
[<p>This is a paragraph in a div.</p>]


In [81]:
# Example 3

html_doc = """
<html>
  <body>
    <div id="div1">
      <p class="highlight">This is a highlighted paragraph in div1.</p>
      <p>This is a normal paragraph in div1.</p>
    </div>
    <div id="div2">
      <p class="highlight">This is a highlighted paragraph in div2.</p>
      <p>This is a normal paragraph in div2.</p>
    </div>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, "html.parser")

# Выберем все параграфы с классом "highlight", которые 
# находятся внутри элементов с идентификатором "div1" или "div2"
print(soup.select('#div1 .highlight, #div2 .highlight'))

[<p class="highlight">This is a highlighted paragraph in div1.</p>, <p class="highlight">This is a highlighted paragraph in div2.</p>]


In [86]:
# Example 4

html_doc = """
<html>
  <body>
    <div id="div1">
      <p class="highlight">This is a highlighted paragraph in div1.</p>
      <p>This is a normal paragraph in div1.</p>
    </div>
    <div id="div2">
      <p class="highlight">This is a highlighted paragraph in div2.</p>
      <p>This is a normal paragraph in div2.</p>
    </div>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, "html.parser")

# Выберем все параграфы с классом "highlight"
for p in soup.select("p[class='highlight']"):
    print(p.text)

This is a highlighted paragraph in div1.
This is a highlighted paragraph in div2.


### .select_one()


Позволяет выбрать один элемент на основе CSS-селектора. Он возвращает первый найденный элемент, удовлетворяющий условию, или None, если ничего не было найдено

In [88]:
# Example 1 

html_doc = """
<html>
  <body>
    <div id="div1">
      <p class="highlight">This is a highlighted paragraph in div1.</p>
      <p>This is a normal paragraph in div1.</p>
    </div>
    <div id="div2">
      <p class="highlight">This is a highlighted paragraph in div2.</p>
      <p>This is a normal paragraph in div2.</p>
    </div>
  </body>
</html>
"""
soup = BeautifulSoup(html_doc, "html.parser")

# Выберем первый параграф с классом "highlight"
print(soup.select_one("p[class='highlight']").text)

This is a highlighted paragraph in div1.


In [94]:
# Example 2
html_doc = """
<html>
    <head>
        <title>Page Title</title>
    </head>
    <body>
        <div class="container">
            <p>This is a paragraph.</p>
            <p>This is another paragraph.</p>
        </div>
        <div class="container">
            <p>This is a third paragraph.</p>
            <p>This is a fourth paragraph.</p>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
# Выберем первый div с классом "container"
print(soup.select_one("div[class='container']"))

<div class="container">
<p>This is a paragraph.</p>
<p>This is another paragraph.</p>
</div>


In [100]:
# Example 3

html_doc = """
<html>
    <head>
        <title>Page Title</title>
    </head>
    <body>
        <div class="container">
            <p>This is a paragraph.</p>
            <p>This is another paragraph.</p>
        </div>
        <div class="container">
            <p class="highlight">This is a highlighted paragraph.</p>
            <p>This is a fourth paragraph.</p>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Выберем первый div с классом «container», у которого есть дочерний элемент p с классом «highlight».
print(soup.select_one('div.container p.highlight').get_text())

This is a highlighted paragraph.


### .parent

Возвращает родительский тег текущего элемента.

In [103]:
# Example 1

html_doc = """
<html>
  <body>
    <p>This is a paragraph.</p>
  </body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
paragraph = soup.select_one('body p')
print("Родитель этого элемента", paragraph)
print("Является: " , paragraph.parent)



Родитель этого элемента <p>This is a paragraph.</p>
Является:  <body>
<p>This is a paragraph.</p>
</body>


In [110]:
# Example 2
html_doc = """
<html>
  <head>
    <title>Example Page</title>
  </head>
  <body>
    <p>This is a paragraph.</p>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
p_tag = soup.find('p')
body_tag = p_tag.parent
print(body_tag)

<body>
<p>This is a paragraph.</p>
</body>


In [120]:
# Example 
html_doc = """
<html>
    <head>
        <title>Example Page</title>
    </head>
    <body>
        <p>This is a <b>bold</b> text.</p>
        <p>This is another <b>bold</b> text.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, "html.parser")
for b_tag in soup.find_all("b"):
    print(f"У {b_tag.name} родитель: {b_tag.parent.name}")


У b родитель: p
У b родитель: p


In [121]:
# Example 4

html_doc = """
<html>
    <body>
        <div id="content">
            <p>This is a paragraph.</p>
            <p>This is another paragraph.</p>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

first_p = soup.select_one('#content p:first-of-type')
parent_div = first_p.parent

print(parent_div)

<div id="content">
<p>This is a paragraph.</p>
<p>This is another paragraph.</p>
</div>


### .children


представляет собой объект ResultSet, который содержит все дочерние элементы тега

In [124]:
#Example 1

html_doc = """
<html>
  <head>
    <title>Example Page</title>
  </head>
  <body>
    <div class="content">
      <p>This is some content.</p>
      <p>This is some more content.</p>
    </div>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
content = soup.select_one('div.content')

for item in content.children:
    print(item.text.strip())


This is some content.

This is some more content.



### .next_sibling

Возвращает следующий элемент, следующий за текущим элементом.

In [11]:
# Example 1

html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.h1.next_sibling.next_sibling)

<p>This is some text.</p>


In [13]:
# Example 2

html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
        <p>This is some more text.</p>
        <p>This is even more text.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

first_para = soup.p
print(first_para)
print(first_para.next_sibling.next_sibling)

<p>This is some text.</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>


In [20]:
# Example 3

html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
        <p>This is some more text.</p>
        <p>This is even more text.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

first_list_item = soup.li
print(first_list_item)

next_sibling = first_list_item.next_sibling
while next_sibling:
    print(next_sibling)
    next_sibling = next_sibling.next_sibling

<li>Item 1</li>


<li>Item 2</li>


<li>Item 3</li>




### .previous_sibling

Метод для получения предыдущего элемента в одном уровне вложенности

In [23]:
# Example 1

html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
        <p>This is some more text.</p>
        <p>This is even more text.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

last_list_item = soup.find_all('li')[-1]

previous_sibling = last_list_item.previous_sibling
while previous_sibling:
    print(previous_sibling)
    previous_sibling = previous_sibling.previous_sibling



<li>Item 2</li>


<li>Item 1</li>




In [24]:
# Example 2

html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
        <p>This is some more text.</p>
        <p>This is even more text.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

last_p = soup.find_all('p')[-1]
print(last_p)

previous_sibling = last_p.previous_sibling
i = 1
while previous_sibling:
    print(i, previous_sibling)
    i += 1
    previous_sibling = previous_sibling.previous_sibling

<p>This is even more text.</p>
1 

2 <p>This is some more text.</p>
3 

4 <ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
5 

6 <p>This is some text.</p>
7 

8 <h1>Example Page</h1>
9 



### .next_element 


Метод Beautiful Soup, который возвращает следующий элемент в документе HTML, следуя порядку их вхождения. Этот метод полезен для перемещения по документу HTML последовательно, пропуская все пробелы, теги и другие ненужные элементы. 

In [31]:
html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
        <p>This is some more text 2.</p>
        <p>This is even more text 3.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'lxml')
first_p = soup.select_one('p')
next_element = first_p.next_element
while next_element:
    print(next_element.text)
    next_element = next_element.next_element

This is some text.



Item 1
Item 2
Item 3



Item 1
Item 1


Item 2
Item 2


Item 3
Item 3




This is some more text 2.
This is some more text 2.


This is even more text 3.
This is even more text 3.








In [32]:
html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
        <p>This is some more text.</p>
        <p>This is even more text.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

first_p = soup.li
print(first_p)

next_element = first_p.next_element
while next_element:
    print('++++++++++')
    print(next_element)
    print('-------------------')
    next_element = next_element.next_element

<li>Item 1</li>
++++++++++
Item 1
-------------------
++++++++++


-------------------
++++++++++
<li>Item 2</li>
-------------------
++++++++++
Item 2
-------------------
++++++++++


-------------------
++++++++++
<li>Item 3</li>
-------------------
++++++++++
Item 3
-------------------
++++++++++


-------------------
++++++++++


-------------------
++++++++++
<p>This is some more text.</p>
-------------------
++++++++++
This is some more text.
-------------------
++++++++++


-------------------
++++++++++
<p>This is even more text.</p>
-------------------
++++++++++
This is even more text.
-------------------
++++++++++


-------------------
++++++++++


-------------------
++++++++++


-------------------


### .previous_element

Метод BeautifulSoup, который возвращает предыдущий элемент в разметке HTML. Он является аналогом метода .next_element, но работает в обратном направлении

In [33]:

html_doc = """
<html>
    <body>
        <h1>Example Page</h1>
        <p>This is some text.</p>
        <ul>
            <li>Item 1</li>
            <li>Item 2</li>
            <li>Item 3</li>
        </ul>
        <p>This is some more text.</p>
        <p>This is even more text.</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

last_p = soup.find_all('li')[-1]

previous_element = last_p.previous_element

previous_element = previous_element.previous_element
print(previous_element)

Item 2


### .decompose()

Метод Beautiful Soup, который удаляет тег и все его дочерние элементы из дерева документа.

In [37]:
html_doc = """
<html>
    <head>
        <title>Example Page</title>
    </head>
    <body>
        <div id="main">
            <h1>Hello World</h1>
            <p class="info">This is a paragraph.</p>
            <p class="info">This is another paragraph.</p>
            <ul>
                <li>Item 1</li>
                <li>Item 2</li>
                <li>Item 3</li>
            </ul>
        </div>
        <div id="secondary">
            <p>Some additional information.</p>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Найдёт первый div с идентификатором «main»
main_div = soup.find('div', {'id': 'main'})
print(main_div)
Delimiter()
# Найдёт первый тег p с классом «info» внутри «main» div и удалите его.
info_p = main_div.find('p', {'class': 'info'})
info_p.decompose()
print(main_div)

<div id="main">
<h1>Hello World</h1>
<p class="info">This is a paragraph.</p>
<p class="info">This is another paragraph.</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</div>

--------------------------------------------------

<div id="main">
<h1>Hello World</h1>

<p class="info">This is another paragraph.</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</div>


### .extract

Метод объекта BeautifulSoup, который используется для извлечения тега из дерева документа. 


In [40]:

html_doc = """
<html>
    <head>
        <title>Example Page</title>
    </head>
    <body>
        <div id="main">
            <h1>Hello World</h1>
            <p class="info">This is a paragraph.</p>
            <p class="info">This is another paragraph.</p>
            <ul>
                <li>Item 1</li>
                <li>Item 2</li>
                <li>Item 3</li>
            </ul>
        </div>
        <div id="secondary">
            <p>Some additional information.</p>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Найдёт первый h1 внутри "основного" div
main_h1 = soup.find('h1')
# Извлекает тег h1 из документа
main_h1.extract()


# Тег h1 больше не доступен в документе
print(soup)
Delimiter()
print(main_h1)


<html>
<head>
<title>Example Page</title>
</head>
<body>
<div id="main">

<p class="info">This is a paragraph.</p>
<p class="info">This is another paragraph.</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</div>
<div id="secondary">
<p>Some additional information.</p>
</div>
</body>
</html>


--------------------------------------------------

<h1>Hello World</h1>


### .new_tag()


Используется для создания нового тега. Он принимает имя тега в качестве аргумента и возвращает новый экземпляр тега, который может быть добавлен в дерево документа.


- ```name``` - имя создаваемого тега.
- ```namespace``` - пространство имен, которое может использоваться тегом.
- ```nsprefix``` - префикс, используемый для идентификации пространства имен.
- ```attrs``` - словарь атрибутов тега, например {"class": "example", "id": "example-id"}.
- ```sourceline``` - номер строки в HTML-документе, где тег был создан.
- ```sourcepos``` - позиция тега в HTMLЫ-документе.
- ```kwattrs``` - дополнительные атрибуты, переданные в виде ключевых аргументов.


In [41]:
html_doc = """
<html>
    <body>
        <p>Hello World!</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Создадим новый тег h1
new_h1 = soup.new_tag("h1", class_='new_class_tag')
# Добавим текст в новый тег h1
new_h1.string = "Welcome"

# Вставим новый тег h1 в документ
soup.body.insert(0, new_h1)

print(soup)


<html>
<body><h1 class_="new_class_tag">Welcome</h1>
<p>Hello World!</p>
</body>
</html>



### .insert_after(new_tag)

Метод используется для вставки дочернего элемента после текущего элемента


In [42]:
html_doc = """
<html>
    <body>
        <p>Paragraph 1</p>
        <p>Paragraph 2</p>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Создаём тег который будем добавлять
new_tag = soup.new_tag("b", id='insert_after_tag')
new_tag.string = "Important"

first_p = soup.find("p")
first_p.insert_after(new_tag)

print(soup)


<html>
<body>
<p>Paragraph 1</p><b id="insert_after_tag">Important</b>
<p>Paragraph 2</p>
</body>
</html>



### .insert_before(new_tag)

Метод используется для вставки тега (Tag) перед другим тегом.


In [43]:
html_doc = """
<html>
  <body>
    <div>
      <p>Paragraph 1</p>
      <p>Paragraph 2</p>
    </div>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
new_tag = soup.new_tag("h1", id='insert_before_tag')
new_tag.string = "Header"

first_p = soup.find("p")
first_p.insert_before(new_tag)

print(soup)


<html>
<body>
<div>
<h1 id="insert_before_tag">Header</h1><p>Paragraph 1</p>
<p>Paragraph 2</p>
</div>
</body>
</html>



### .insert(0, new_tag)

Метод позволяет вставить другой элемент структуры HTML внутрь элемента, к которому применяется метод. 


Метод принимает два параметра:

- ```index```: индекс, по которому новый элемент будет вставлен
- ```element```: элемент, который необходимо вставить внутрь элемента

In [51]:
html_doc = """
<html>
    <body>
        <div id="main">
            <ul>
                <li>Item 1</li>
                <li>Item 2</li>
                <li>Item 3</li>
            </ul>
        </div>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'lxml')

# Находим первый div с id "main"
main_div = soup.find('ul')

# Создаёт тег li
new_li = soup.new_tag("li")
# Устанавливает текст внутри созданного li
new_li.string = "Item 4 insert_index"

# Добавляем созданный тег li в тег ul на индекс 0
main_div.insert(7,new_li)

print(main_div)

<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
<li>Item 4 insert_index</li></ul>


### .wrap

Метод служит для обертывания тегов в документе HTML. 

In [45]:
html_doc = """
<body>
  <p>Some text</p>
</body>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Обернем первый тег p внутри body с помощью тега div
p_tag = soup.body.p
p_tag.wrap(soup.new_tag("div", class_='wrap_tag'))

print(soup)


<body>
<div class_="wrap_tag"><p>Some text</p></div>
</body>

