# Парсинг HTML

На этой лекции мы научимся загружать страницы из интернета и доставать из них нужную нам информацию.

Давайте сначала разберемся с парсингом страницы на простом примере. У нас есть простая страница в файле `page.html`. Код этой страницы и то, как она выглядит я привожу ниже. Я специально убрал отступы в коде страницы, потому что обычно страницы загружаются из интернета без отступов и форматирования.

![title](page.png)

Давайте загрузим код этой страницы с помощью python.

In [37]:
page_file = open("page.html")

contents = page_file.read()

print(contents)

<!DOCTYPE html>
<meta charset="utf-8" />
<html>
<head>
<title>Моя первая веб-страница</title>
</head>
<body>
<h2>Operating systems</h2>
<ul id="mylist" class="myclass" style="width:150px">
<li>Solaris</li>
<li>FreeBSD</li>
<li>Debian</li>                      
<li>NetBSD</li>           
<li>Windows</li>         
</ul>
<ul>
<li>Solaris</li>
<li>FreeBSD</li>
<li>Debian</li>                      
<li>NetBSD</li>           
<li>Windows</li>
</ul>
<p>
FreeBSD is an advanced computer operating system used to 
power modern servers, desktops, and embedded platforms.
</p>
<p>
Debian is a Unix-like computer operating system that is 
composed entirely of free software.
</p>        
<h2>Таблица</h2>
<table border="1">
<tr>
<th>Заголовок 1</td>
<th>Заголовок 2</td>
<th>Заголовок 3</td>
</tr>
<tr>
<td>Строка 1, ячейка 1</td>
<td>Строка 1, ячейка 2</td>
<td>Строка 1, ячейка 3</td>
</tr>
<tr>
<td>Строка 2, ячейка 1</td>
<td>Строка 2, ячейка 2</td>
<td>Строка 2, ячейка 3</td>
</tr>
<tr>
<td>Строка 3, я

Теперь в этом файле мы можем искать что-то средствами python. Но это не так просто, ведь у нас может быть много тегов с одинаковым названием, они могут по-разному вкладываться. Нам поможет модуль `BeautifulSoup`. 

In [38]:
from bs4 import BeautifulSoup

`bs4` –– модуль для парсинга HTML. В нем нас интересует класс `BeautifulSoup`, с помощью которого мы и будем парсить наши страницы.

Сначала нам нужно создать объект класса `BeautifulSoup`, передав в него код страницы и ее тип. Тип в данном случае будет `lxml`.

Затем воспользуемся функцией `prettify`. Она выдаст нам код страницы в удомном виде с отступами.

In [39]:
soup = BeautifulSoup(contents, "lxml")

print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <meta charset="utf-8"/>
  <title>
   Моя первая веб-страница
  </title>
 </head>
 <body>
  <h2>
   Operating systems
  </h2>
  <ul class="myclass" id="mylist" style="width:150px">
   <li>
    Solaris
   </li>
   <li>
    FreeBSD
   </li>
   <li>
    Debian
   </li>
   <li>
    NetBSD
   </li>
   <li>
    Windows
   </li>
  </ul>
  <ul>
   <li>
    Solaris
   </li>
   <li>
    FreeBSD
   </li>
   <li>
    Debian
   </li>
   <li>
    NetBSD
   </li>
   <li>
    Windows
   </li>
  </ul>
  <p>
   FreeBSD is an advanced computer operating system used to 
power modern servers, desktops, and embedded platforms.
  </p>
  <p>
   Debian is a Unix-like computer operating system that is 
composed entirely of free software.
  </p>
  <h2>
   Таблица
  </h2>
  <table border="1">
   <tr>
    <th>
     Заголовок 1
    </th>
    <th>
     Заголовок 2
    </th>
    <th>
     Заголовок 3
    </th>
   </tr>
   <tr>
    <td>
     Строка 1, ячейка 1
    </td>
    <td>
     Ст

Мы можем извлечь код какого-то конкретного тега. Это можно сделать так:

In [40]:
print(soup.h2)

<h2>Operating systems</h2>


А что, если в теге, код которого мы извлекли, есть еще теги?

In [41]:
print(soup.ul)

<ul class="myclass" id="mylist" style="width:150px">
<li>Solaris</li>
<li>FreeBSD</li>
<li>Debian</li>
<li>NetBSD</li>
<li>Windows</li>
</ul>


Попробуем из этого тега извлечь то, что внутри:

In [42]:
print(soup.ul.li)

<li>Solaris</li>


То есть можно извлекать подтеги из тегов, подподтеги и так далее.

Обратите внимание, что таким образом извлекается только первый подходящий элемент. То есть элементов списка у нас было несколько, а достали мы только один.

У тега можно извлечь название, текст и тег, в который он вложен:

In [43]:
tag = soup.ul.li

print(tag.name, end='\n\n')
print(tag.text, end='\n\n')
print(tag.parent, end='\n\n')

li

Solaris

<ul class="myclass" id="mylist" style="width:150px">
<li>Solaris</li>
<li>FreeBSD</li>
<li>Debian</li>
<li>NetBSD</li>
<li>Windows</li>
</ul>



Мы можем найти всех непосредственных детей какого-то тега. Для этого можно воспользоваться полем `children`.

In [44]:
tag = soup.ul

for t in tag.children:
    if type(t) == type(tag):
        print(t)

<li>Solaris</li>
<li>FreeBSD</li>
<li>Debian</li>
<li>NetBSD</li>
<li>Windows</li>


Или мы можем вывести вообще всех детей тега вместе с их детьми, детьми детей и так далее. Для этого есть функция `recursiveChildGenerator()`.

In [45]:
for t in soup.html.recursiveChildGenerator():
    if t.name != None:
        print(t.name)

head
meta
title
body
h2
ul
li
li
li
li
li
ul
li
li
li
li
li
p
p
h2
table
tr
th
th
th
tr
td
td
td
tr
td
td
td
tr
td
td
td
tr
td
td
td


По техническим причинам у нас могут возникать пустые теги без имени и текста. Они нам не сильно нужны, так что перед тем, как выводить имя тега проверим, что оно у него есть. Условие `if t.name:` проверяет, что `t.name` не равно `None`, то есть отсутствию имени.

Научимся искать теги в коде страницы. Для этого у нас есть функция `find_all`.

In [46]:
print(soup.ul.find_all('li'))

[<li>Solaris</li>, <li>FreeBSD</li>, <li>Debian</li>, <li>NetBSD</li>, <li>Windows</li>]


Функция `find_all` ищет все теги с нужным названием в коде страницы и возвращает их в виде списка. Вторым параметром я могу передать словарь со значениями атрибутов, по которым теги нужно отфильтровать. То есть если я знаю, что мой список имеет `id` `mylist`, то я могу найти его так:

In [47]:
print(soup.find_all('ul', {'id': 'mylist', 'class': 'myclass'}))

[<ul class="myclass" id="mylist" style="width:150px">
<li>Solaris</li>
<li>FreeBSD</li>
<li>Debian</li>
<li>NetBSD</li>
<li>Windows</li>
</ul>]


то есть я получил все теги `<ul>`, которые имеют id `mylist`.

Можно получить все элементы нашего списка в виде списка:

In [48]:
l = soup.find_all('ul', {'id': 'mylist'})[0]

print(l.find_all('li'))

[<li>Solaris</li>, <li>FreeBSD</li>, <li>Debian</li>, <li>NetBSD</li>, <li>Windows</li>]


У нас также есть функция `find`. Она делает то же самое, что и `find_all`, но возвращает первый найденный тег и не в виде списка.

## Парсинг таблицы

Научимся извлекать данные из таблицы и добавлять их в двумерный массив в python.

Сначала извлечем таблицу из нашего файла.

In [49]:
table = soup.find('table')

print(table)

<table border="1">
<tr>
<th>Заголовок 1
</th><th>Заголовок 2
</th><th>Заголовок 3
</th></tr>
<tr>
<td>Строка 1, ячейка 1</td>
<td>Строка 1, ячейка 2</td>
<td>Строка 1, ячейка 3</td>
</tr>
<tr>
<td>Строка 2, ячейка 1</td>
<td>Строка 2, ячейка 2</td>
<td>Строка 2, ячейка 3</td>
</tr>
<tr>
<td>Строка 3, ячейка 1</td>
<td>Строка 3, ячейка 2</td>
<td>Строка 3, ячейка 3</td>
</tr>
<tr>
<td>Строка 4, ячейка 1</td>
<td>Строка 4, ячейка 2</td>
<td>Строка 4, ячейка 3</td>
</tr>
</table>


Теперь в нашей таблице найдем все строчки.

In [50]:
rows = table.find_all('tr')

print(rows)

[<tr>
<th>Заголовок 1
</th><th>Заголовок 2
</th><th>Заголовок 3
</th></tr>, <tr>
<td>Строка 1, ячейка 1</td>
<td>Строка 1, ячейка 2</td>
<td>Строка 1, ячейка 3</td>
</tr>, <tr>
<td>Строка 2, ячейка 1</td>
<td>Строка 2, ячейка 2</td>
<td>Строка 2, ячейка 3</td>
</tr>, <tr>
<td>Строка 3, ячейка 1</td>
<td>Строка 3, ячейка 2</td>
<td>Строка 3, ячейка 3</td>
</tr>, <tr>
<td>Строка 4, ячейка 1</td>
<td>Строка 4, ячейка 2</td>
<td>Строка 4, ячейка 3</td>
</tr>]


В первой строчке у нас лежат заголовки в теге `<th>`. Их нужно будет обработать отдельно. В остальных ячейках у нас данные в тегах `<td>`.

In [53]:
headers = rows[0].find_all('th')

print(headers)

for h in headers:
    print(h.text.strip())

[<th>Заголовок 1
</th>, <th>Заголовок 2
</th>, <th>Заголовок 3
</th>]
Заголовок 1
Заголовок 2
Заголовок 3


Затем для каждой строки таблицы, начиная с первой, извлечем из нее данные.

In [54]:
table_data = []

for row in rows[1:]:
    current_row = []
    for t in row.find_all('td'):
        current_row.append(t.text)
    
    table_data.append(current_row)

print(table_data)
print(table_data[1][2])

[['Строка 1, ячейка 1', 'Строка 1, ячейка 2', 'Строка 1, ячейка 3'], ['Строка 2, ячейка 1', 'Строка 2, ячейка 2', 'Строка 2, ячейка 3'], ['Строка 3, ячейка 1', 'Строка 3, ячейка 2', 'Строка 3, ячейка 3'], ['Строка 4, ячейка 1', 'Строка 4, ячейка 2', 'Строка 4, ячейка 3']]
Строка 2, ячейка 3


То есть мы научились загонять таблицу в двумерный массив, с которым нам удобно будет работать. Теперь мы можем доставать оттуда какие-то данные.

## Получение кода страницы из интернета

Чтобы скачать код какой-то страницы из интернета, нам потребуется модуль `requests`.

Попробуем скачать данные об ядерных взрывах в википедии: https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests

Для загрузки кода страницы мы воспользуемся функцией `get` из модуля `requests`. Она вернет нам результат запроса к странице, из которого мы достаем текст ответа. Это и есть HTML-код нашей страницы.

In [55]:
import requests

contents = requests.get("https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests").text

print(contents)


<!DOCTYPE html>
<html class="client-nojs" lang="en" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>List of nuclear weapons tests - Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"af9522bb-eaef-46f5-a1e5-ae10088d3396","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_nuclear_weapons_tests","wgTitle":"List of nuclear weapons tests","wgCurRevisionId":967466619,"wgRevisionId":967466619,"wgArticleId":2189647,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["CS1 maint: archived copy as title","Articles containing Russian-language text","Webarchive template wayback links","All 

На странице нас интересует вот эта таблица:
    
![title](table.png)

Найдем ее в коде страницы и заметим, что она имеет класс `wikitable sortable`. Класс –– это еще один атрибут тега, по нему тоже можно искать. Попробуем найти эту таблицу с помощью `BeautifulSoup`.

In [60]:
soup = BeautifulSoup(contents, "lxml")

print(len(soup.find_all('table', {'class': 'wikitable sortable'})))

print(soup.find_all('table', {'class': 'wikitable sortable'})[1])

2
<table class="wikitable sortable" style="text-align:center;">
<caption>Worldwide nuclear test with a yield of 1.4 Mt TNT equivalent and more
</caption>
<tbody><tr>
<th>Date (GMT)
</th>
<th>Yield (megatons)
</th>
<th>Deployment
</th>
<th>Country
</th>
<th>Test Site
</th>
<th>Name or Number
</th></tr>
<tr>
<td>October 30, 1961</td>
<td>50</td>
<td>parachute air drop</td>
<td>Soviet Union</td>
<td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>
<td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
</td></tr>
<tr>
<td>December 24, 1962</td>
<td>24.2</td>
<td>missile warhead</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td><a href="/wiki/Test_219" title="Test 219">Test #219</a>
</td></tr>
<tr>
<td>August 5, 1962</td>
<td>21.1</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #147
</td></tr>
<tr>
<td>September 27, 1962</td>
<td>20.0</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #

Видно, что подходящих под наши параметры поиска таблиц на странице две. Нужная нам –– вторая. Достанем ее.

In [61]:
table = soup.find_all('table', {'class': 'wikitable sortable'})[1]

print(table)

<table class="wikitable sortable" style="text-align:center;">
<caption>Worldwide nuclear test with a yield of 1.4 Mt TNT equivalent and more
</caption>
<tbody><tr>
<th>Date (GMT)
</th>
<th>Yield (megatons)
</th>
<th>Deployment
</th>
<th>Country
</th>
<th>Test Site
</th>
<th>Name or Number
</th></tr>
<tr>
<td>October 30, 1961</td>
<td>50</td>
<td>parachute air drop</td>
<td>Soviet Union</td>
<td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>
<td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
</td></tr>
<tr>
<td>December 24, 1962</td>
<td>24.2</td>
<td>missile warhead</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td><a href="/wiki/Test_219" title="Test 219">Test #219</a>
</td></tr>
<tr>
<td>August 5, 1962</td>
<td>21.1</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #147
</td></tr>
<tr>
<td>September 27, 1962</td>
<td>20.0</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #17

Запишем данные из таблицы в двумерный массив в python.

In [69]:
headers = table.find('tr').find_all('th')

for h in headers:
    print(h.text.strip())
    
print()

rows = table.find_all('tr')

table_data = []

for row in rows[1:]:
    current_row = []
    for t in row.find_all('td'):
        current_row.append(t.text)
    
    table_data.append(current_row)

print(table_data)

Date (GMT)
Yield (megatons)
Deployment
Country
Test Site
Name or Number

[['October 30, 1961', '50', 'parachute air drop', 'Soviet Union', 'Novaya Zemlya', 'Tsar Bomba, Test #130\n'], ['December 24, 1962', '24.2', 'missile warhead', 'Soviet Union', 'Novaya Zemlya', 'Test #219\n'], ['August 5, 1962', '21.1', 'air drop', 'Soviet Union', 'Novaya Zemlya', 'Test #147\n'], ['September 27, 1962', '20.0', 'air drop', 'Soviet Union', 'Novaya Zemlya', 'Test #174\n'], ['September 25, 1962', '19.1', 'air drop', 'Soviet Union', 'Novaya Zemlya', 'Test #173\n'], ['March 1, 1954', '15', 'ground', 'USA', 'Bikini Atoll', 'Castle Bravo\n'], ['May 5, 1954', '13.5', 'barge', 'USA', 'Bikini Atoll', 'Castle Yankee\n'], ['October 23, 1961', '12.5', 'air drop', 'Soviet Union', 'Novaya Zemlya', 'Test #123\n'], ['March 26, 1954', '11.0', 'barge', 'USA', 'Bikini Atoll', 'Castle Romeo\n'], ['October 31, 1952', '10.4', 'ground', 'USA', 'Enewetak Atoll', 'Ivy Mike\n'], ['August 25, 1962', '10.0', 'air drop', 'Soviet

Напишем функцию, которая по названию страны возвращает среднюю мощность ядерного взрыва, который она производила:

In [70]:
def get_average(country):
    s = 0
    count = 0
    
    for explosion in table_data:
        if explosion[3] == country:
            s = s + float(explosion[1])
            count = count + 1
    
    if count != 0:
        return s / count
    else:
        return 0

Сравним среднюю мощность взрывов, проведнных СССР и США:

In [71]:
print(get_average('Soviet Union'))
print(get_average('USA'))

6.557894736842106
5.255555555555556
