# Урок 36. Парсинг веб-страниц

# Введение в HTML

In [1]:
import requests

response = requests.get("https://example.com")
print(response.text)

<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domai

**HTML (HyperText Markup Language)** — это язык разметки, с помощью которого создаются и структурируются веб-страницы. Он указывает браузеру, **что отображать** (заголовки, текст, изображения, таблицы и т.д.) и **как это организовано** на странице.

HTML-документ состоит из **тегов**, которые обрамляют каждый элемент страницы и говорят, как этот элемент должен выглядеть. Большинство тегов имеют открывающую и закрывающую форму:
``` html
<i>Это курсив</i>

<i>Это курсив</i>

Самозакрывающиеся теги:
``` html
<img src="https://static.tildacdn.net/tild3333-3534-4535-a465-643634653734/Group_3793.svg" alt="logo">

<img src="https://static.tildacdn.net/tild3333-3534-4535-a465-643634653734/Group_3793.svg" alt="logo">

# Структура HTML-документа

Каждый HTML-документ начинается с `<!DOCTYPE html>`, затем идут основные блоки:
``` html
<!DOCTYPE html>
<html>
  <head>
    <meta charset="UTF-8">
    <title>Заголовок страницы</title>
  </head>
  <body>
    <!-- Вся видимая часть страницы -->
  </body>
</html>

**Основные теги**

- `<html>` — корневой элемент HTML-документа, объединяет всё содержимое страницы.
- `<head>` — невидимая часть документа, содержит метаданные, стили, скрипты и заголовок страницы.
- `<title>` — задаёт заголовок страницы, который отображается во вкладке браузера.
- `<meta>` — содержит метаданные, такие как кодировка, описание, ключевые слова и др.
- `<body>` — основное содержимое страницы, отображаемое в браузере (текст, изображения, таблицы и т.д.).


**Текст**

- `<h1>` – `<h6>` — заголовки, где `<h1>` — самый крупный  
- `<p>` — абзац (параграф)  
- `<strong>`, `<b>` — жирный текст  
- `<em>`, `<i>` — курсив  
- `<br>` — перенос строки  
- `<hr>` — горизонтальная линия  

**Списки**

- `<ul>` — маркированный список (unordered list)  
- `<ol>` — нумерованный список (ordered list)  
- `<li>` — элемент списка (list item)  

**Ссылки и изображения**

- `<a href="ссылка">` — гиперссылка  
- `<img src="путь" alt="описание">` — изображение  

``` html
<!DOCTYPE html>
<html>
<head>
  <meta charset="UTF-8">
  <title>Моя первая страница</title>
</head>
<body>
  <h1>Добро пожаловать!</h1>

  <p>Это пример простой HTML-страницы. Здесь вы увидите разные теги.</p>

  <h2>Список языков:</h2>
  <ul>
    <li>HTML</li>
    <li>CSS</li>
    <li>JavaScript</li>
  </ul>

  <h2>Изображение:</h2>
  <img src="https://static.tildacdn.net/tild3333-3534-4535-a465-643634653734/Group_3793.svg" alt="Пример изображения (логотип)">

  <h2>Ссылка:</h2>
  <p><a href="https://example.com">Перейти на внешний сайт</a></p>

</body>
</html>

# **Таблицы**

- `<table>` — таблица  
- `<tr>` — строка таблицы  
- `<th>` — заголовочная ячейка (bold + по центру)  
- `<td>` — обычная ячейка  

``` html
<table>
  <tr>
    <th>Имя</th>
    <th>Возраст</th>
  </tr>
  <tr>
    <td>Анна</td>
    <td>22</td>
  </tr>
  <tr>
    <td>Олег</td>
    <td>30</td>
  </tr>
</table>

<!-- ``` html -->
<table>
  <tr>
    <th>Имя</th>
    <th>Возраст</th>
  </tr>
  <tr>
    <td>Анна</td>
    <td>22</td>
  </tr>
  <tr>
    <td>Олег</td>
    <td>30</td>
  </tr>
</table>

# Парсинг веб-страниц с помощью `BeautifulSoup`

`BeautifulSoup` — это библиотека Python для удобного извлечения данных из HTML и XML. Она превращает HTML в дерево тегов, по которому можно легко искать нужные элементы. Часто используется вместе с библиотекой `requests`, которая помогает получать HTML-код веб-страницы.

In [None]:
# !pip install beautifulsoup4



In [3]:
import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    title = soup.title.text
    print('Заголовок страницы:', title)
else:
    print('Ошибка при запросе:', response.status_code)

Заголовок страницы: Example Domain


# Основные методы поиска 

- `find(tag, attrs)` — находит **первый** тег с указанными условиями;
- `find_all(tag, attrs)` — находит **все** подходящие теги;
- `.text` или `.get_text()` — извлекает текст из тега;
- `.get('атрибут')` — извлекает значение атрибута, например `href`.

In [4]:
print(soup.find('h1'))                   # Первый <h1>
print(soup.find('h1').text)              # Текст первого <h1>

<h1>Example Domain</h1>
Example Domain


In [5]:
print(soup.find('a'))                   # Первый <a>
print(soup.find('a').text)              # Текст первого <a>
print(soup.find('a').get('href'))           # Ссылка из первого <a>
print(soup.find('a')['href'])               # Альтернативный способ

<a href="https://www.iana.org/domains/example">More information...</a>
More information...
https://www.iana.org/domains/example
https://www.iana.org/domains/example


In [6]:
list_p = soup.find_all('p')              # Все <p>
# print(list_p)

for tag in list_p:
    print(tag.text)

This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.
More information...


# Получить все внешние ссылки.

In [7]:
import requests
from bs4 import BeautifulSoup

html = requests.get("https://realpython.com").text
soup = BeautifulSoup(html, "html.parser")

links = soup.find_all("a")
for i in links:
    href = i.attrs.get("href")
    if href[:4]=="http":
        print(href)

https://www.pythonjobshq.com
https://support.realpython.com/
https://realpython.workable.com
https://www.youtube.com/realpython
https://x.com/realpython
https://www.linkedin.com/company/realpython-com
https://www.facebook.com/LearnRealPython
https://github.com/realpython/


In [None]:
import requests
from bs4 import BeautifulSoup

html = requests.get("https://realpython.com").text
soup = BeautifulSoup(html, "html.parser")

links = soup.find_all("a")
for i in links:
    href = i.attrs.get("href")
    if href[:4]=="http":
        print(href)
        # html_new = requests.get(href).text
        # soup_new = BeautifulSoup(html_new, "html.parser")
        # ...

## Обработка таблиц

In [None]:
# table = soup.find('table')
# rows = table.find_all('tr')

# for row in rows:
#     cols = row.find_all('td')
#     data = [col.text.strip() for col in cols]
#     print(data)

https://the-internet.herokuapp.com/tables

In [22]:
url = "https://the-internet.herokuapp.com/tables"
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, "html.parser")
    
    # Находим первую таблицу
    table = soup.find("table", id="table1")
    
    # Извлекаем заголовки
    headers = [th.text.strip() for th in table.find_all("th")]
    print("Заголовки:", headers)
    
    # Извлекаем строки данных
    rows = table.find_all("tr")[1:]  # Пропускаем заголовок
    for row in rows:
        cols = [td.text.strip() for td in row.find_all("td")]
        print(cols)
else:
    print("Ошибка запроса:", response.status_code)

Заголовки: ['Last Name', 'First Name', 'Email', 'Due', 'Web Site', 'Action']
['Smith', 'John', 'jsmith@gmail.com', '$50.00', 'http://www.jsmith.com', 'edit\ndelete']
['Bach', 'Frank', 'fbach@yahoo.com', '$51.00', 'http://www.frank.com', 'edit\ndelete']
['Doe', 'Jason', 'jdoe@hotmail.com', '$100.00', 'http://www.jdoe.com', 'edit\ndelete']
['Conway', 'Tim', 'tconway@earthlink.net', '$50.00', 'http://www.timconway.com', 'edit\ndelete']


Табличные данные удобнее иметь в форме списка словарей.

In [9]:
table = soup.find("table", id="table2")
    
headers = [th.text.strip() for th in table.find_all("th")]
    
# Парсинг в словари
data = []
rows = table.find_all("tr")[1:]  # Пропускаем строку заголовков
for row in rows:
    cols = [td.text.strip() for td in row.find_all("td")]
    row_dict = dict(zip(headers, cols))
    data.append(row_dict)
    
# Вывод результата
for entry in data:
    print(entry)

{'Last Name': 'Smith', 'First Name': 'John', 'Email': 'jsmith@gmail.com', 'Due': '$50.00', 'Web Site': 'http://www.jsmith.com', 'Action': 'edit\ndelete'}
{'Last Name': 'Bach', 'First Name': 'Frank', 'Email': 'fbach@yahoo.com', 'Due': '$51.00', 'Web Site': 'http://www.frank.com', 'Action': 'edit\ndelete'}
{'Last Name': 'Doe', 'First Name': 'Jason', 'Email': 'jdoe@hotmail.com', 'Due': '$100.00', 'Web Site': 'http://www.jdoe.com', 'Action': 'edit\ndelete'}
{'Last Name': 'Conway', 'First Name': 'Tim', 'Email': 'tconway@earthlink.net', 'Due': '$50.00', 'Web Site': 'http://www.timconway.com', 'Action': 'edit\ndelete'}
