# Python для анализа данных

## Web-Scraping. BeautifulSoup. Парсинг таблиц в html.

Автор: *Татьяна Рогович, НИУ ВШЭ*

Мы с вами посмотрели как создавать html-файлы. Давайте начнем с игрушечного примера, чтобы теперь разобраться, как информацию из таблиц доставать.

Сначала мы импортируем библиотеку `requests`. Она позволяет нам просто  и удобно посылать HTTP/1.1 запросы, не утруждаясь ручным трудом.

In [1]:
import requests

In [2]:
link = 'https://raw.githubusercontent.com/rogovich/2020_DPO_PythonProg/in-progress/6_Sorting_Files/simple_table.html'

Теперь мы должны указать адрес страницы с которой мы будем скрейпить данные и сохраним ее в переменную `website_url`.
`requests.get(url).text` обратиться к сайту и вернет `HTML` код сайта.

In [3]:
website_url = requests.get(link).text

По ссылке совсем небольшой файл - почти такой же как тот, который мы с вами сделали в интерактивном тренажере.

In [4]:
website_url

'<!DOCTYPE html>\n<html>\n<head>\n<title>Page Title</title>\n</head>\n<body>\n\n<h1>Моя первая html-страница</h1>\n<h2>О себе</h2>\n<p>Я учусь создавать html-страницы.</p>\n\n<table border="1">\n<caption>Информация</caption>\n<tr>\n<th>Фамилия</th>\n<th>Имя</th>\n<th>Возраст</th>\n</tr>\n<tr>\n<td>Тамбовцева</td>\n<td>Алла</td>\n<td>24</td>\n</tr>\n<tr>\n<td>Иванов</td>\n<td>Петр</td>\n<td>32</td>\n</tr>\n<tr>\n<td>Константинопольский</td>\n<td>Константин</td>\n<td>29</td>\n</tr>\n</table>\n    \n<table>\n<tr>\n<td>Тамбовцева</td>\n<td>Алла</td>\n<td>24</td>\n</tr>\n</table>\n\n</body>\n</html>'

Как мы видим, весь код представлен просто блоком текста, который неудобно читать и разбирать. Поэтому мы создадим объект `BeautifulSoup` с помощью функциии `BeautifulSoup`, предварительно импортировав саму библиотеку. `Beautiful Soup` это библиотека для парсинга `HTML` и `XML` документов. Она создает дерево из `HTML` кода, что очень полезно при скрейпинге. Функция `prettify()` позволяет видеть код в более удобном виде, в том числе с разбивкой по тегам.

In [5]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(website_url, 'lxml')
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h1>
   Моя первая html-страница
  </h1>
  <h2>
   О себе
  </h2>
  <p>
   Я учусь создавать html-страницы.
  </p>
  <table border="1">
   <caption>
    Информация
   </caption>
   <tr>
    <th>
     Фамилия
    </th>
    <th>
     Имя
    </th>
    <th>
     Возраст
    </th>
   </tr>
   <tr>
    <td>
     Тамбовцева
    </td>
    <td>
     Алла
    </td>
    <td>
     24
    </td>
   </tr>
   <tr>
    <td>
     Иванов
    </td>
    <td>
     Петр
    </td>
    <td>
     32
    </td>
   </tr>
   <tr>
    <td>
     Константинопольский
    </td>
    <td>
     Константин
    </td>
    <td>
     29
    </td>
   </tr>
  </table>
  <table>
   <tr>
    <td>
     Тамбовцева
    </td>
    <td>
     Алла
    </td>
    <td>
     24
    </td>
   </tr>
  </table>
 </body>
</html>


Видим, что .preffify() упорядочил наш html код и представил его в видел дерева и вложенных узлов. Давайте попробуем найти таблицу. За поиск отвечает метод .find_all(), которому мы передаем тэг для поиска.

In [6]:
tables = soup.find_all('table')
print(tables)

[<table border="1">
<caption>Информация</caption>
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
<tr>
<td>Иванов</td>
<td>Петр</td>
<td>32</td>
</tr>
<tr>
<td>Константинопольский</td>
<td>Константин</td>
<td>29</td>
</tr>
</table>, <table>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
</table>]


Получили на выходе список, который содержит все элементы, принадлежащие к тэгу. В этом примере таблиц у нас две, каждая из них является отдельным элементом списка.

In [7]:
tables[1]

<table>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
</table>

Иногда таблиц очень много (уже скоро увидим такое на реальном примере), поэтому поисковый запрос можно уточнить с помощью аттрибутов тэга. Так, если посмотрим на код, увидим, что у нашей первой таблицы есть атрибут border со значением 1. Передадим это уточнение в bs в виде словаря. То, что до знака равно (атрибут) - ключ, а его значение - значение.

In [8]:
tables = soup.find_all('table', {'border':1}) # так поиск вернет только одну таблицу.
print(tables)

[<table border="1">
<caption>Информация</caption>
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
<tr>
<td>Иванов</td>
<td>Петр</td>
<td>32</td>
</tr>
<tr>
<td>Константинопольский</td>
<td>Константин</td>
<td>29</td>
</tr>
</table>]


Давайте теперь, например, в один список сохраним фамилии людей из нашей таблицы, а в другой возраст.

In [9]:
rows = tables[0].find_all('tr') # нашли теперь все ряды в таблице
print(rows[0])

<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>


Нашли все ряды. Первый ряд с заголовками колонок (тэги th, можно его пропустить).

In [10]:
rows[1].find_all('td') 

[<td>Тамбовцева</td>, <td>Алла</td>, <td>24</td>]

Добрались до внутреннего тэга td - глубже идти некуда. Тут три элемента (три колонки). Давайте забирать отсюда возраст и фамилию.

In [11]:
rows[1].find_all('td')[0].text.strip()

'Тамбовцева'

Чтобы избавиться от тэгов используем атрибут text - выводит текст, который лежит между тэгами. Еще для надежности можно использовать strip() - удалит невидимые символы, если они есть, а если их нет, то ошибки тоже не выдаст.

In [12]:
surnames = []
ages = []

for row in rows[1:]: # начинаем цикл со второго объекта
    surnames.append(row.find_all('td')[0].text.strip())
    ages.append(row.find_all('td')[2].text.strip())
    
print(surnames, ages)

['Тамбовцева', 'Иванов', 'Константинопольский'] ['24', '32', '29']


А теперь давайте запишем собранную информацию в файл. Табличные данные часто хранятся в формате csv - comma separated values, поэтому будем просто записывать значения в текстовый файл через запятую.

In [13]:
f = open('table.csv', 'w', encoding = 'utf8')

for idx in range(len(surnames)):
    f.write(f'{surnames[idx]},{ages[idx]}\n')
    
f.close()

In [14]:
with open('table.csv', encoding='utf8') as f:
    for line in f:
        print(line)

Тамбовцева,24

Иванов,32

Константинопольский,29



Сейчас не будем углубляться в детали библиотеки pandas, но просто посмотрим, как красиво выглядят  в таблице только что собранные данные.

In [15]:
import pandas as pd
df = pd.read_csv('table.csv', encoding='utf8', header=None)
df.head()

Unnamed: 0,0,1
0,Тамбовцева,24
1,Иванов,32
2,Константинопольский,29


# А теперь парсим реальную табличку с wiki

Будем работать со страницей вики, на которой находится информация о испытаниях ядерного оружия. 
https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests

Нашей задачей будет достать вторую таблицу Worldwide nuclear test with a yield of 1.4 Mt TNT equivalent and more и сохранить из нее в три списка три колонки - Date, Yield (мощность взрыва) и Country.

In [16]:
website_url = requests.get('https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests').text
# print(website_url)

In [17]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(website_url,'lxml')

# print(soup.prettify())

Здесь таблиц уже будет много, и чтобы найти нужную уже точно понадобится атрибут.

In [18]:
len(soup.find_all('table'))

19

Если внимательно изучить код `HTML` искомой таблицы, то можно обнаружить что вся таблица находится в классе `Wikitable Sortable` (для включения отображения кода сайта в вашем браузере можно нажать правкой кнопкой мыши на таблицу и выбрать пункт *Исследовать элемент* или в любом месте страницы и *Показать исходный код*).

Поэтому первой задачей будет найти класс *wikitable sortable* в коде `HTML`. Это можно сделать с помощью функции `find_all`, указав в качестве аргументов, что мы ищем тэг `table` с классом `wikitable sortable`.

In [19]:
My_table = soup.find_all('table',{'class':'wikitable sortable'})
# My_table

Но как вы могли заметить, то на страницы есть две таблицы, которые принадлежат этому классу. Функция `find_all` вернет все найденные объекты в виде списка. Поэтому проверим второй найденный элемент.

In [20]:
#My_table[1]

Все верно, это наша искомая таблица. Если дальше изучить содержимое таблицы, то станет понятно что внутри тега `th` находится заголовок таблицы, а внутри `td` строки таблицы. А оба этих тега находятся внутри тегов `tr` что является по факту строкой таблицы. Давайте извлечем все строки таблицы также используя функцию `find_all`.

In [21]:
rows = My_table[1].find_all('tr')
# print(rows)

Давайте внимательно изучим содержимое одной строки, вытащим все `td`. Отобразим вторую строчку:

In [22]:
rows[1].find_all('td')

[<td>October 30, 1961</td>,
 <td>50</td>,
 <td>parachute air drop</td>,
 <td>Soviet Union</td>,
 <td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>,
 <td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
 </td>]

Мы видим нужные нам данные между тегов `<td><\td>`, а также ссылки с тегом `<a>` и даже смешанные ячейки с обоими этими вариантами. Давайте сначала извлечем просто данные. Для этого используем функцию `get_text()` - она вернет все что между тегами.

Возьмем, например, дату (она будет первым элементом):

In [23]:
rows[1].find_all('td')[0].get_text()

'October 30, 1961'

Единственное, нам нужно отдельно обработать, это первую строку, в которой хранится заголовок ряда (table header)

In [24]:
rows[0].find_all('th')[0].get_text()

'Date (GMT)\n'

Все классно, только давайте избавимся от знака переноса строки.

In [25]:
rows[0].find_all('th')[0].get_text().strip()

'Date (GMT)'

Давайте теперь извлечем все даты. Создадим список для их хранения `Dates` и будет итерироваться по всем элементам:

In [26]:
Dates = []

Dates.append(rows[0].find_all('th')[0].get_text().strip()) # отдельно добавляем заголовок

for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Dates.append(r[0].get_text().strip()) # сохраняем данные в наш список

print(Dates)

['Date (GMT)', 'October 30, 1961', 'December 24, 1962', 'August 5, 1962', 'September 27, 1962', 'September 25, 1962', 'March 1, 1954', 'May 5, 1954', 'October 23, 1961', 'March 26, 1954', 'October 31, 1952', 'August 25, 1962', 'September 19, 1962', 'July 11, 1958', 'June 28, 1958', 'October 30, 1962', 'October 22, 1962', 'June 27, 1962', 'April 25, 1954', 'July 20, 1956', 'October 31, 1961', 'November 6, 1971', 'July 10, 1956', 'August 27, 1962', 'October 6, 1961', 'October 27, 1973', 'November 17, 1976', 'July 11, 1962', 'May 20, 1956', 'August 1, 1958', 'August 12, 1958', 'September 12, 1973', 'May 27, 1956', 'October 14, 1970', 'September 16, 1962', 'June 17, 1967', 'September 15, 1962', 'December 25, 1962', 'April 28, 1958', 'October 4, 1961', 'June 10, 1962', 'December 27, 1968', 'September 29, 1969', 'June 27, 1973', 'October 6, 1957', 'October 18, 1958', 'October 22, 1958', 'August 20, 1962', 'September 10, 1961', 'August 24, 1968', 'September 27, 1971', 'September 21, 1962', 'N

Ок! Следующие колонки, которые нам нужны - мощность взрыва и страна. Давайте поймем, где их искать.

In [27]:
rows[0]

<tr>
<th>Date (GMT)
</th>
<th>Yield (megatons)
</th>
<th>Deployment
</th>
<th>Country
</th>
<th>Test Site
</th>
<th>Name or Number
</th></tr>

Видим, что Yield вторая колонка, а страна третья. Соберем их в отдельные списки по той же схеме, что дату. Но сначала проверим, что правильно посчитали номера.

In [28]:
rows[0].find_all('th')[1]

<th>Yield (megatons)
</th>

In [29]:
rows[0].find_all('th')[3]

<th>Country
</th>

Вроде все правильно. Единственно, не забудем хранить числа как float.

In [30]:
Yield = []

Yield.append(rows[0].find_all('th')[1].get_text().strip()) # отдельно добавляем заголовок

for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Yield.append(float(r[1].get_text().strip())) # сохраняем данные в наш список и переводим в float

print(Yield)

['Yield (megatons)', 50.0, 24.2, 21.1, 20.0, 19.1, 15.0, 13.5, 12.5, 11.0, 10.4, 10.0, 10.0, 9.3, 8.9, 8.3, 8.2, 7.7, 6.9, 5.0, 5.0, 4.8, 4.5, 4.2, 4.0, 4.0, 4.0, 3.9, 3.8, 3.8, 3.8, 3.8, 3.5, 3.4, 3.3, 3.3, 3.1, 3.1, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 2.9, 2.9, 2.8, 2.8, 2.7, 2.6, 2.5, 2.4, 2.3, 2.2, 2.0, 1.9, 1.9, 1.9, 1.8, 1.7, 1.6, 1.6, 1.6, 1.6, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.4, 1.4, 1.4, 1.4]


In [31]:
Country = []

Country.append(rows[0].find_all('th')[3].get_text().strip()) # отдельно добавляем заголовок

for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Country.append(r[3].get_text().strip()) # сохраняем данные в наш список и переводим в float

print(Country)

['Country', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'USA', 'Soviet Union', 'USA', 'USA', 'USA', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'China', 'USA', 'USA', 'USA', 'USA', 'Soviet Union', 'USA', 'China', 'Soviet Union', 'China', 'Soviet Union', 'Soviet Union', 'UK', 'Soviet Union', 'USA', 'China', 'China', 'China', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'France', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'USA', 'UK', 'USA', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'Soviet Union', 'USA', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'USA', 'Soviet Union']


In [32]:
print(Dates)
print(Yield)
print(Country)

['Date (GMT)', 'October 30, 1961', 'December 24, 1962', 'August 5, 1962', 'September 27, 1962', 'September 25, 1962', 'March 1, 1954', 'May 5, 1954', 'October 23, 1961', 'March 26, 1954', 'October 31, 1952', 'August 25, 1962', 'September 19, 1962', 'July 11, 1958', 'June 28, 1958', 'October 30, 1962', 'October 22, 1962', 'June 27, 1962', 'April 25, 1954', 'July 20, 1956', 'October 31, 1961', 'November 6, 1971', 'July 10, 1956', 'August 27, 1962', 'October 6, 1961', 'October 27, 1973', 'November 17, 1976', 'July 11, 1962', 'May 20, 1956', 'August 1, 1958', 'August 12, 1958', 'September 12, 1973', 'May 27, 1956', 'October 14, 1970', 'September 16, 1962', 'June 17, 1967', 'September 15, 1962', 'December 25, 1962', 'April 28, 1958', 'October 4, 1961', 'June 10, 1962', 'December 27, 1968', 'September 29, 1969', 'June 27, 1973', 'October 6, 1957', 'October 18, 1958', 'October 22, 1958', 'August 20, 1962', 'September 10, 1961', 'August 24, 1968', 'September 27, 1971', 'September 21, 1962', 'N

Давайте опять сохраним данные в файл. Тут обратите внимание на запятую в дате - давайте сделаем разделителем табуляцию.

In [33]:
f = open('nuclear.csv', 'w')

for idx in range(len(Dates)):
    f.write(f'{Dates[idx]}\t{Yield[idx]}\t{Country[idx]}\n')
    
f.close()

In [34]:
df = pd.read_csv('nuclear.csv', sep='\t', index_col=None)
df.head()

Unnamed: 0,Date (GMT),Yield (megatons),Country
0,"October 30, 1961",50.0,Soviet Union
1,"December 24, 1962",24.2,Soviet Union
2,"August 5, 1962",21.1,Soviet Union
3,"September 27, 1962",20.0,Soviet Union
4,"September 25, 1962",19.1,Soviet Union


# И давайте немного задачек, чтобы освежить в памяти прошлые занятия.

1. Напишите функцию, которая берет аргументом название страны и возвращает (return) среднюю мощность взрыва для этой страны (нужно сложить все значения из колонки 'Yield (megatons)', которым соответствует страна, например, США, и раделить на количество этих значений). Для подсчета используйте списки, которые мы извлекли выше.
2. Из списка Country оставьте только уникальные значения для стран и запустите вашу функцию в цикле для каждого значения Country. Внутри цикла сделайте следующий вывод "{название страны}: средняя мощность взрыва {средняя мощность} мегатон"
3. Создайте словарь, ключом в котором будет страна, а значением список из количества испытаний и максимальной мощности взрыва.
4. Выведите ключи словаря из пункта 3 и максимальную мощность взрыва, отсортированные по максимальной мощности взрыва, от меньшего к большему.

In [35]:
# 1
def average_yield(country):
    yield_sum = 0 # создаем счетчитк, в который будем приплюсовывать мощность каждого испытания в заданной стране
    yield_count = 0 # создаем счетчик, в котором будем хранить количество испытаний
    for idx in range(len(Country)): # запускаем цикл для всех значений индексов списка Country
        if Country[idx] == country:   # проверяем, равно ли значение в списке Country стране, для которой вызвана функция
            yield_sum += Yield[idx]     # если да, то добавляем мощность взрыва под этим же индексом
            yield_count += 1            # считаем это исптание
    return round(yield_sum / yield_count,2)  # после окончания работы цикла возвращаем среднюю мощность

In [36]:
# 2
for country in set(Country[1:]): # чтобы оставить только уникальные значения - делаем множество из списка + с помощью среза избавляемся от от заголовка колонки под индексом [0]
  print(country, ': средняя мощность взрыва', average_yield(country), 'мегатон')

USA : средняя мощность взрыва 5.26 мегатон
France : средняя мощность взрыва 2.6 мегатон
China : средняя мощность взрыва 3.28 мегатон
UK : средняя мощность взрыва 2.4 мегатон
Soviet Union : средняя мощность взрыва 6.56 мегатон


In [37]:
Country.count('USA')

27

In [38]:
# 3
d = {}
for x in set(Country[1:]):
    y = []
    for idx in range(len(Country[1:])):
        if Country[idx] == x:
            y.append(Yield[idx])        
    d[x] = [Country.count(x), max(y)]

print(d)

{'USA': [27, 15.0], 'France': [1, 2.6], 'China': [6, 4.0], 'UK': [2, 3.0], 'Soviet Union': [38, 50.0]}


In [39]:
# 4
for value in sorted(d.values(), key=lambda x:x[1]):
    for key in d:
        if d[key] == value:
            print(key, value[1])

France 2.6
UK 3.0
China 4.0
USA 15.0
Soviet Union 50.0
