# Основы программирования в Python

Автор: *Татьяна Рогович, НИУ ВШЭ*

# Парсинг таблиц с Beautiful soup

Мы с вами посмотрели как создавать html-файлы. Давайте начнем с игрушечного примера, чтобы теперь разобраться, как информацию из таблиц доставать.

Сначала мы импортируем библиотеку `requests`. Она позволяет нам просто  и удобно посылать HTTP/1.1 запросы, не утруждаясь ручным трудом.

In [7]:
import codecs
f=codecs.open("simple_table.html", 'r')


In [10]:
link = 'https://raw.githubusercontent.com/aaparshina/DPO_21_Python_for_Data_Analysis/main/12_WebScraping/simple_table.html'

Теперь мы должны указать адрес страницы с которой мы будем скрейпить данные и сохраним ее в переменную `website_url`.
`requests.get(url).text` обратиться к сайту и вернет `HTML` код сайта.

In [11]:
website_url = requests.get(link).text

По ссылке совсем небольшой файл - почти такой же как тот, который мы с вами сделали в интерактивном тренажере.

In [12]:
website_url

'<!DOCTYPE html>\n<html>\n<head>\n<title>Page Title</title>\n</head>\n<body>\n\n<h1>Моя первая html-страница</h1>\n<h2>О себе</h2>\n<p>Я учусь создавать html-страницы.</p>\n\n<table border="1">\n<caption>Информация</caption>\n<tr>\n<th>Фамилия</th>\n<th>Имя</th>\n<th>Возраст</th>\n</tr>\n<tr>\n<td>Тамбовцева</td>\n<td>Алла</td>\n<td>24</td>\n</tr>\n<tr>\n<td>Иванов</td>\n<td>Петр</td>\n<td>32</td>\n</tr>\n<tr>\n<td>Константинопольский</td>\n<td>Константин</td>\n<td>29</td>\n</tr>\n</table>\n    \n<table>\n<tr>\n<td>Тамбовцева</td>\n<td>Алла</td>\n<td>24</td>\n</tr>\n</table>\n\n</body>\n</html>'

Как мы видим, весь код представлен просто блоком текста, который неудобно читать и разбирать. Поэтому мы создадим объект `BeautifulSoup` с помощью функциии `BeautifulSoup`, предварительно импортировав саму библиотеку. `Beautiful Soup` это библиотека для парсинга `HTML` и `XML` документов. Она создает дерево из `HTML` кода, что очень полезно при скрейпинге. Функция `prettify()` позволяет видеть код в более удобном виде, в том числе с разбивкой по тегам.

In [13]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(website_url)
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h1>
   Моя первая html-страница
  </h1>
  <h2>
   О себе
  </h2>
  <p>
   Я учусь создавать html-страницы.
  </p>
  <table border="1">
   <caption>
    Информация
   </caption>
   <tr>
    <th>
     Фамилия
    </th>
    <th>
     Имя
    </th>
    <th>
     Возраст
    </th>
   </tr>
   <tr>
    <td>
     Тамбовцева
    </td>
    <td>
     Алла
    </td>
    <td>
     24
    </td>
   </tr>
   <tr>
    <td>
     Иванов
    </td>
    <td>
     Петр
    </td>
    <td>
     32
    </td>
   </tr>
   <tr>
    <td>
     Константинопольский
    </td>
    <td>
     Константин
    </td>
    <td>
     29
    </td>
   </tr>
  </table>
  <table>
   <tr>
    <td>
     Тамбовцева
    </td>
    <td>
     Алла
    </td>
    <td>
     24
    </td>
   </tr>
  </table>
 </body>
</html>


Видим, что .preffify() упорядочил наш html код и представил его в видел дерева и вложенных узлов. Давайте попробуем найти таблицу. За поиск отвечает метод .find_all(), которому мы передаем тэг для поиска.

In [14]:
tables = soup.find_all('table')
print(tables)

[<table border="1">
<caption>Информация</caption>
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
<tr>
<td>Иванов</td>
<td>Петр</td>
<td>32</td>
</tr>
<tr>
<td>Константинопольский</td>
<td>Константин</td>
<td>29</td>
</tr>
</table>, <table>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
</table>]


Получили на выходе список, который содержит все элементы, принадлежащие к тэгу. В этом примере таблиц у нас две, каждая из них является отдельным элементом списка.

In [15]:
tables[1]

<table>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
</table>

Иногда таблиц очень много (уже скоро увидим такое на реальном примере), поэтому поисковый запрос можно уточнить с помощью аттрибутов тэга. Так, если посмотрим на код, увидим, что у нашей первой таблицы есть атрибут border со значением 1. Передадим это уточнение в bs в виде словаря. То, что до знака равно (атрибут) - ключ, а его значение - значение.

In [18]:
tables = soup.find_all('table', {'border':1}) # так поиск вернет только одну таблицу.
print(tables)

[<table border="1">
<caption>Информация</caption>
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
<tr>
<td>Иванов</td>
<td>Петр</td>
<td>32</td>
</tr>
<tr>
<td>Константинопольский</td>
<td>Константин</td>
<td>29</td>
</tr>
</table>]


Давайте теперь, например, в один список сохраним фамилии людей из нашей таблицы, а в другой возраст.

In [19]:
rows = tables[0].find_all('tr') # нашли теперь все ряды в таблице
print(rows[0])

<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>


Нашли все ряды. Первый ряд с заголовками колонок (тэги th, можно его пропустить).

In [20]:
rows[1].find_all('td') 

[<td>Тамбовцева</td>, <td>Алла</td>, <td>24</td>]

Добрались до внутреннего тэга td - глубже идти некуда. Тут три элемента (три колонки). Давайте забирать отсюда возраст и фамилию.

In [21]:
rows[1].find_all('td')[0].text.strip()

'Тамбовцева'

Чтобы избавиться от тэгов используем атрибут text - выводит текст, который лежит между тэгами. Еще для надежности можно использовать strip() - удалит невидимые символы, если они есть, а если их нет, то ошибки тоже не выдаст.

In [22]:
surnames = []
ages = []

for row in rows[1:]: # начинаем цикл со второго объекта
    surnames.append(row.find_all('td')[0].text.strip())
    ages.append(row.find_all('td')[2].text.strip())
    
print(surnames, ages)

['Тамбовцева', 'Иванов', 'Константинопольский'] ['24', '32', '29']


А теперь давайте запишем собранную информацию в файл. Табличные данные часто хранятся в формате csv - comma separated values, поэтому будем просто записывать значения в текстовый файл через запятую.

In [27]:
with open('table.csv', 'w', encoding = 'utf8') as ouf:
    for idx in range(len(surnames)):
        print(f'{surnames[idx]},{ages[idx]}', file = ouf)

In [28]:
with open('table.csv', encoding='utf8') as f:
    for line in f:
        print(line)

Тамбовцева,24

Иванов,32

Константинопольский,29

