# Python для анализа данных

## Web-Scraping. BeautifulSoup. Парсинг таблиц в html.

Автор: *Татьяна Рогович, НИУ ВШЭ*

Дополнения: *Ян Пиле, НИУ ВШЭ*

Мы с вами посмотрели как создавать html-файлы. Давайте начнем с игрушечного примера, чтобы теперь разобраться, как информацию из таблиц доставать.

Сначала мы импортируем библиотеку `requests`. Она позволяет нам просто  и удобно посылать HTTP/1.1 запросы, не утруждаясь ручным трудом.

In [4]:
import requests

In [10]:
link = 'https://raw.githubusercontent.com/pileyan/DPO_Python_2023/master/lect08_Beautiful_soup1/simple_table.html'

In [15]:
requests.get(link).text

'<!DOCTYPE html>\n<html>\n<head>\n<title>Page Title</title>\n</head>\n<body>\n\n<h1>Моя первая html-страница</h1>\n<h2>О себе</h2>\n<p>Я учусь создавать html-страницы.</p>\n\n<table border="1">\n<caption>Информация</caption>\n<tr>\n<th>Фамилия</th>\n<th>Имя</th>\n<th>Возраст</th>\n</tr>\n<tr>\n<td>Тамбовцева</td>\n<td>Алла</td>\n<td>24</td>\n</tr>\n<tr>\n<td>Иванов</td>\n<td>Петр</td>\n<td>32</td>\n</tr>\n<tr>\n<td>Константинопольский</td>\n<td>Константин</td>\n<td>29</td>\n</tr>\n</table>\n    \n<table>\n<tr>\n<td>Тамбовцева</td>\n<td>Алла</td>\n<td>24</td>\n</tr>\n</table>\n\n</body>\n</html>'

Теперь мы должны указать адрес страницы с которой мы будем скрейпить данные и сохраним ее в переменную `website_url`.
`requests.get(url).text` обратиться к сайту и вернет `HTML` код сайта.

In [24]:
website_url = requests.get(link).text

По ссылке совсем небольшой файл - почти такой же как тот, который мы с вами сделали в интерактивном тренажере.

In [25]:
website_url

'<!DOCTYPE html>\n<html>\n<head>\n<title>Page Title</title>\n</head>\n<body>\n\n<h1>Моя первая html-страница</h1>\n<h2>О себе</h2>\n<p>Я учусь создавать html-страницы.</p>\n\n<table border="1">\n<caption>Информация</caption>\n<tr>\n<th>Фамилия</th>\n<th>Имя</th>\n<th>Возраст</th>\n</tr>\n<tr>\n<td>Тамбовцева</td>\n<td>Алла</td>\n<td>24</td>\n</tr>\n<tr>\n<td>Иванов</td>\n<td>Петр</td>\n<td>32</td>\n</tr>\n<tr>\n<td>Константинопольский</td>\n<td>Константин</td>\n<td>29</td>\n</tr>\n</table>\n    \n<table>\n<tr>\n<td>Тамбовцева</td>\n<td>Алла</td>\n<td>24</td>\n</tr>\n</table>\n\n</body>\n</html>'

Как мы видим, весь код представлен просто блоком текста, который неудобно читать и разбирать. Поэтому мы создадим объект `BeautifulSoup` с помощью функциии `BeautifulSoup`, предварительно импортировав саму библиотеку. `Beautiful Soup` это библиотека для парсинга `HTML` и `XML` документов. Она создает дерево из `HTML` кода, что очень полезно при скрейпинге. Функция `prettify()` позволяет видеть код в более удобном виде, в том числе с разбивкой по тегам.

In [26]:
# !pip install bs4

In [19]:
BeautifulSoup??

In [27]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(website_url, 'html')


In [28]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h1>
   Моя первая html-страница
  </h1>
  <h2>
   О себе
  </h2>
  <p>
   Я учусь создавать html-страницы.
  </p>
  <table border="1">
   <caption>
    Информация
   </caption>
   <tr>
    <th>
     Фамилия
    </th>
    <th>
     Имя
    </th>
    <th>
     Возраст
    </th>
   </tr>
   <tr>
    <td>
     Тамбовцева
    </td>
    <td>
     Алла
    </td>
    <td>
     24
    </td>
   </tr>
   <tr>
    <td>
     Иванов
    </td>
    <td>
     Петр
    </td>
    <td>
     32
    </td>
   </tr>
   <tr>
    <td>
     Константинопольский
    </td>
    <td>
     Константин
    </td>
    <td>
     29
    </td>
   </tr>
  </table>
  <table>
   <tr>
    <td>
     Тамбовцева
    </td>
    <td>
     Алла
    </td>
    <td>
     24
    </td>
   </tr>
  </table>
 </body>
</html>


Видим, что .prettify() упорядочил наш html код и представил его в видел дерева и вложенных узлов. Давайте попробуем найти таблицу. За поиск отвечает метод .find_all(), которому мы передаем тэг для поиска.

In [30]:
len(tables)

2

In [29]:
tables = soup.find_all('table')
print(tables)

[<table border="1">
<caption>Информация</caption>
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
<tr>
<td>Иванов</td>
<td>Петр</td>
<td>32</td>
</tr>
<tr>
<td>Константинопольский</td>
<td>Константин</td>
<td>29</td>
</tr>
</table>, <table>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
</table>]


Получили на выходе список, который содержит все элементы, принадлежащие к тэгу. В этом примере таблиц у нас две, каждая из них является отдельным элементом списка.

In [34]:
type(tables[1])
# tables

bs4.element.Tag

Иногда таблиц очень много (уже скоро увидим такое на реальном примере), поэтому поисковый запрос можно уточнить с помощью аттрибутов тэга. Так, если посмотрим на код, увидим, что у нашей первой таблицы есть атрибут border со значением 1. Передадим это уточнение в bs в виде словаря. То, что до знака равно (атрибут) - ключ, а его значение - значение.

In [35]:
tables = soup.find_all('table', {'border':1}) # так поиск вернет только одну таблицу.
print(tables)

[<table border="1">
<caption>Информация</caption>
<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>
<tr>
<td>Тамбовцева</td>
<td>Алла</td>
<td>24</td>
</tr>
<tr>
<td>Иванов</td>
<td>Петр</td>
<td>32</td>
</tr>
<tr>
<td>Константинопольский</td>
<td>Константин</td>
<td>29</td>
</tr>
</table>]


Давайте теперь, например, в один список сохраним фамилии людей из нашей таблицы, а в другой возраст.

In [41]:
rows = tables[0].find_all('tr') # нашли теперь все ряды в таблице
# print(rows[0])
type(rows[0])

bs4.element.Tag

Нашли все ряды. Первый ряд с заголовками колонок (тэги th, можно его пропустить).

In [42]:
rows[1].find_all('td') 

[<td>Тамбовцева</td>, <td>Алла</td>, <td>24</td>]

Добрались до внутреннего тэга td - глубже идти некуда. Тут три элемента (три колонки). Давайте забирать отсюда возраст и фамилию.

In [49]:
rows[1].find_all('td')[0].text

'Тамбовцева'

Чтобы избавиться от тэгов используем атрибут text - выводит текст, который лежит между тэгами. Еще для надежности можно использовать strip() - удалит невидимые символы, если они есть, а если их нет, то ошибки тоже не выдаст.

<tr>
<th>Фамилия</th>
<th>Имя</th>
<th>Возраст</th>
</tr>

In [53]:
surnames = []
ages = []

for row in rows[1:]: # начинаем цикл со второго объекта
    surnames.append(row.find_all('td')[0].text.strip())
    ages.append(row.find_all('td')[2].text.strip())
    
print(surnames, ages)

['Тамбовцева', 'Иванов', 'Константинопольский'] ['24', '32', '29']


In [54]:
# '   Тамбовцева  '.strip()

'Тамбовцева'

А теперь давайте запишем собранную информацию в файл. Табличные данные часто хранятся в формате csv - comma separated values, поэтому будем просто записывать значения в текстовый файл через запятую.

In [42]:
f = open('table.csv', 'w', encoding = 'utf8')

for idx in range(len(surnames)):
    f.write(f'{surnames[idx]},{ages[idx]}\n')
    
f.close()

In [43]:
with open('table.csv', encoding='utf8') as f:
    for line in f:
        print(line)

Тамбовцева,24

Иванов,32

Константинопольский,29



Сейчас не будем углубляться в детали библиотеки pandas, но просто посмотрим, как красиво выглядят  в таблице только что собранные данные.

In [44]:
import pandas as pd
df = pd.read_csv('table.csv', encoding='utf8', header=None)
df.head()

Unnamed: 0,0,1
0,Тамбовцева,24
1,Иванов,32
2,Константинопольский,29


# А теперь парсим реальную табличку с wiki

Будем работать со страницей вики, на которой находится информация о испытаниях ядерного оружия. 
https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests

Нашей задачей будет достать вторую таблицу Worldwide nuclear test with a yield of 1.4 Mt TNT equivalent and more и сохранить из нее в три списка три колонки - Date, Yield (мощность взрыва) и Country.

In [56]:
website_url = requests.get('https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests').text
# print(website_url)

In [57]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(website_url,'html')

# print(soup.prettify())

Здесь таблиц уже будет много, и чтобы найти нужную уже точно понадобится атрибут.

In [58]:
len(soup.find_all('table'))

19

Если внимательно изучить код `HTML` искомой таблицы, то можно обнаружить что вся таблица находится в классе `Wikitable Sortable` (для включения отображения кода сайта в вашем браузере можно нажать правкой кнопкой мыши на таблицу и выбрать пункт *Исследовать элемент* или в любом месте страницы и *Показать исходный код*).

Поэтому первой задачей будет найти класс *wikitable sortable* в коде `HTML`. Это можно сделать с помощью функции `find_all`, указав в качестве аргументов, что мы ищем тэг `table` с классом `wikitable sortable`.

In [59]:
My_table = soup.find_all('table',{'class':'wikitable sortable'})
# My_table[0]

In [60]:
len(My_table)

3

Но как вы могли заметить, то на страницы есть две таблицы, которые принадлежат этому классу. Функция `find_all` вернет все найденные объекты в виде списка. Поэтому проверим второй найденный элемент.

In [63]:
# My_table[1]

Все верно, это наша искомая таблица. Если дальше изучить содержимое таблицы, то станет понятно что внутри тега `th` находится заголовок таблицы, а внутри `td` строки таблицы. А оба этих тега находятся внутри тегов `tr` что является по факту строкой таблицы. Давайте извлечем все строки таблицы также используя функцию `find_all`.

In [65]:
rows = My_table[1].find_all('tr')
# print(rows)

In [68]:
# rows[0]

Давайте внимательно изучим содержимое одной строки, вытащим все `td`. Отобразим вторую строчку:

In [69]:
rows[1].find_all('td')

[<td>October 30, 1961</td>,
 <td>50</td>,
 <td>parachute air drop</td>,
 <td>Soviet Union</td>,
 <td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>,
 <td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
 </td>]

Мы видим нужные нам данные между тегов `<td><\td>`, а также ссылки с тегом `<a>` и даже смешанные ячейки с обоими этими вариантами. Давайте сначала извлечем просто данные. Для этого используем функцию `get_text()` - она вернет все что между тегами.

Возьмем, например, дату (она будет первым элементом):

'October 30, 1961'

Единственное, нам нужно отдельно обработать, это первую строку, в которой хранится заголовок ряда (table header)

'Date (GMT)'

Все классно, только давайте избавимся от знака переноса строки.

'Date (GMT)'

Давайте теперь извлечем все даты. Создадим список для их хранения `Dates` и будет итерироваться по всем элементам:

'October 30, 1961'

In [None]:
# Соберем в словарь, где ключ - имя колонки, а значение - список элементов

'Country'

In [91]:
# Data[Country_key].pop()

In [92]:
import pandas as pd

df = pd.DataFrame(Data)

In [83]:
df

Unnamed: 0,Date (GMT),Yield (megatons),Country
0,"October 30, 1961",50,Soviet Union
1,"December 24, 1962",24.2,Soviet Union
2,"August 5, 1962",21.1,Soviet Union
3,"September 27, 1962",20.0,Soviet Union
4,"September 25, 1962",19.1,Soviet Union
...,...,...,...
69,"November 4, 1961",1.5,Soviet Union
70,"May 11, 1958",1.4,USA
71,"May 12, 1958",1.4,USA
72,"July 9, 1962",1.4,USA


Ок! Следующие колонки, которые нам нужны - мощность взрыва и страна. Давайте поймем, где их искать.

In [67]:
rows[0]

<tr>
<th>Date (GMT)
</th>
<th>Yield (megatons)
</th>
<th>Deployment
</th>
<th>Country
</th>
<th>Test Site
</th>
<th>Name or Number
</th></tr>

Видим, что Yield вторая колонка, а страна третья. Соберем их в отдельные списки по той же схеме, что дату. Но сначала проверим, что правильно посчитали номера.

<th>Yield (megatons)
</th>

<th>Country
</th>

Вроде все правильно. Единственно, не забудем хранить числа как float.

In [70]:
Yield = []

Yield.append(rows[0].find_all('th')[1].get_text().strip()) # отдельно добавляем заголовок

for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Yield.append(float(r[1].get_text().strip())) # сохраняем данные в наш список и переводим в float

print(Yield)

['Yield (megatons)', 50.0, 24.2, 21.1, 20.0, 19.1, 15.0, 13.5, 12.5, 11.0, 10.4, 10.0, 10.0, 9.3, 8.9, 8.3, 8.2, 7.7, 6.9, 5.0, 5.0, 4.8, 4.5, 4.2, 4.0, 4.0, 4.0, 3.9, 3.8, 3.8, 3.8, 3.8, 3.5, 3.4, 3.3, 3.3, 3.1, 3.1, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 2.9, 2.9, 2.8, 2.8, 2.7, 2.6, 2.5, 2.4, 2.3, 2.2, 2.0, 1.9, 1.9, 1.9, 1.8, 1.7, 1.6, 1.6, 1.6, 1.6, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.4, 1.4, 1.4, 1.4]


In [72]:
round(Yield[2])

24

In [73]:
Country = []

Country.append(rows[0].find_all('th')[3].get_text().strip()) # отдельно добавляем заголовок

for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Country.append(r[3].get_text().strip()) # сохраняем данные в наш список и переводим в float

print(Country)

['Country', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'USA', 'Soviet Union', 'USA', 'USA', 'USA', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'China', 'USA', 'USA', 'USA', 'USA', 'Soviet Union', 'USA', 'China', 'Soviet Union', 'China', 'Soviet Union', 'Soviet Union', 'UK', 'Soviet Union', 'USA', 'China', 'China', 'China', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'France', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'USA', 'UK', 'USA', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'Soviet Union', 'USA', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'USA', 'Soviet Union']


In [74]:
print(Dates)
print(Yield)
print(Country)

['Date (GMT)', 'October 30, 1961', 'December 24, 1962', 'August 5, 1962', 'September 27, 1962', 'September 25, 1962', 'March 1, 1954', 'May 5, 1954', 'October 23, 1961', 'March 26, 1954', 'October 31, 1952', 'August 25, 1962', 'September 19, 1962', 'July 11, 1958', 'June 28, 1958', 'October 30, 1962', 'October 22, 1962', 'June 27, 1962', 'April 25, 1954', 'July 20, 1956', 'October 31, 1961', 'November 6, 1971', 'July 10, 1956', 'August 27, 1962', 'October 6, 1961', 'October 27, 1973', 'November 17, 1976', 'July 11, 1962', 'May 20, 1956', 'August 1, 1958', 'August 12, 1958', 'September 12, 1973', 'May 27, 1956', 'October 14, 1970', 'September 16, 1962', 'June 17, 1967', 'September 15, 1962', 'December 25, 1962', 'April 28, 1958', 'October 4, 1961', 'June 10, 1962', 'December 27, 1968', 'September 29, 1969', 'June 27, 1973', 'October 6, 1957', 'October 18, 1958', 'October 22, 1958', 'August 20, 1962', 'September 10, 1961', 'August 24, 1968', 'September 27, 1971', 'September 21, 1962', 'N

Давайте опять сохраним данные в файл. Тут обратите внимание на запятую в дате - давайте сделаем разделителем табуляцию.

In [75]:
f = open('nuclear.csv', 'w')

for idx in range(len(Dates)):
    f.write(f'{Dates[idx]}\t{Yield[idx]}\t{Country[idx]}\n')
    
f.close()

In [77]:
df = pd.read_csv('nuclear.csv', sep='\t', index_col=None)
df.head(15)

Unnamed: 0,Date (GMT),Yield (megatons),Country
0,"October 30, 1961",50.0,Soviet Union
1,"December 24, 1962",24.2,Soviet Union
2,"August 5, 1962",21.1,Soviet Union
3,"September 27, 1962",20.0,Soviet Union
4,"September 25, 1962",19.1,Soviet Union
5,"March 1, 1954",15.0,USA
6,"May 5, 1954",13.5,USA
7,"October 23, 1961",12.5,Soviet Union
8,"March 26, 1954",11.0,USA
9,"October 31, 1952",10.4,USA


# И давайте немного задачек, чтобы освежить в памяти прошлые занятия.

1. Напишите функцию, которая берет аргументом название страны и возвращает (return) среднюю мощность взрыва для этой страны (нужно сложить все значения из колонки 'Yield (megatons)', которым соответствует страна, например, США, и раделить на количество этих значений). Для подсчета используйте списки, которые мы извлекли выше.
2. Из списка Country оставьте только уникальные значения для стран и запустите вашу функцию в цикле для каждого значения Country. Внутри цикла сделайте следующий вывод "{название страны}: средняя мощность взрыва {средняя мощность} мегатон"
3. Создайте словарь, ключом в котором будет страна, а значением список из количества испытаний и максимальной мощности взрыва.
4. Выведите ключи словаря из пункта 3 и максимальную мощность взрыва, отсортированные по максимальной мощности взрыва, от меньшего к большему.

In [78]:
# 1
def average_yield(country):
    yield_sum = 0 # создаем счетчитк, в который будем приплюсовывать мощность каждого испытания в заданной стране
    yield_count = 0 # создаем счетчик, в котором будем хранить количество испытаний
    for idx in range(len(Country)): # запускаем цикл для всех значений индексов списка Country
        if Country[idx] == country:   # проверяем, равно ли значение в списке Country стране, для которой вызвана функция
            yield_sum += Yield[idx]     # если да, то добавляем мощность взрыва под этим же индексом
            yield_count += 1            # считаем это исптание
    return round(yield_sum / yield_count,2)  # после окончания работы цикла возвращаем среднюю мощность

In [79]:
# 2
for country in set(Country[1:]): # чтобы оставить только уникальные значения - делаем множество из списка + с помощью среза избавляемся от от заголовка колонки под индексом [0]
    print(country, ': средняя мощность взрыва', average_yield(country), 'мегатонн')

Soviet Union : средняя мощность взрыва 6.56 мегатонн
UK : средняя мощность взрыва 2.4 мегатонн
France : средняя мощность взрыва 2.6 мегатонн
USA : средняя мощность взрыва 5.26 мегатонн
China : средняя мощность взрыва 3.28 мегатонн


In [80]:
Country.count('USA')

27

In [81]:
# 3
d = {}
for x in set(Country[1:]):
    y = []
    for idx in range(len(Country[1:])):
        if Country[idx] == x:
            y.append(Yield[idx])        
    d[x] = [Country.count(x), max(y)]

print(d)

{'Soviet Union': [38, 50.0], 'UK': [2, 3.0], 'France': [1, 2.6], 'USA': [27, 15.0], 'China': [6, 4.0]}


In [83]:
# 4
for value in sorted(d.values(), key=lambda x:x[1]):
#     print(value)
    for key in d:
        if d[key] == value:
            print(key, value[1])

France 2.6
UK 3.0
China 4.0
USA 15.0
Soviet Union 50.0


In [94]:
from datetime import datetime
d = 'October 30, 1961'
datetime.strptime(d, "%B %d, %Y")

datetime.datetime(1961, 10, 30, 0, 0)

### Давайте немного расширим наши знания о методах в Python (библиотека Collections)

**collections.Counter** - вид словаря, который позволяет нам считать количество неизменяемых объектов (в большинстве случаев, строк).

In [95]:
from collections import Counter

lst = (1,2,3,4,2,2,3,4,5,6,3,3,3,3,31,1,1,1,1,1)
c = Counter(lst)
c

Counter({1: 6, 2: 3, 3: 6, 4: 2, 5: 1, 6: 1, 31: 1})

Метод most_common() возвращает словарь отсортированный по values в виде списка кортежей

In [100]:
c.most_common()

[(1, 6), (3, 6), (2, 3), (4, 2), (5, 1), (6, 1), (31, 1)]

Метод most_common(1) возвращает моду вашего распределения (самое частое значение)

In [101]:
c.most_common(3)

[(1, 6), (3, 6), (2, 3)]

**Наиболее часто употребляемые шаблоны для работы с Counter:**

* sum(c.values()) - общее количество.
* c.clear() - очистить счётчик.
* list(c) - список уникальных элементов.
* set(c) - преобразовать в множество.
* dict(c) - преобразовать в словарь.
* c.most_common()[:-n:-1] - n-1 наименее часто встречающихся элементов.

In [106]:
lst = [1,2,3,4,2,2,3,4,5,6,3,3,3,3,31,1,1,1,1,1]
print(len(set(lst)))
# dict(collections.Counter(lst))

7


{1: 6, 2: 3, 3: 6, 4: 2, 5: 1, 6: 1, 31: 1}

In [23]:
dict(a)

{'spam': 2, 'egg': 1, 'counter': 3}

А еще он умеет работать со строками

In [102]:
Counter('abracadabra').most_common(3)

[('a', 5), ('b', 2), ('r', 2)]

# И давайте еще задачек

Взять с Википедии список нобелевских лауреатов по литературе и посчитать их распределение: 
* по странам
* по языкам произведений

Сколько авторов получили премию за мастерство в жанре:
* романа
* поэзии
* короткого рассказа
* драматического произведения

Предлагаю решить задачу про языки и жанры, а задачу о странах попробуйте решить сами.

Достанем html-текст страницы (мы уже такое делали)

In [3]:
import pandas as pd

In [103]:
nobel = requests.get('https://en.wikipedia.org/wiki/List_of_Nobel_laureates_in_Literature').text
# print(nobel)

Теперь обработаем выгруженный текст с помощью Beautiful Soup и "развернем" дерево тегов

In [104]:
nobel_materials = BeautifulSoup(nobel,'html')
# 
# print(nobel_materials.prettify())

Оказывается, что на странице целых 9 таблиц!

In [105]:
len(nobel_materials.find_all('table', {'class':'wikitable sortable'}))

4

Но интересующая нас таьблица снова обладает свойством 'wikitable sortable'. По нему-то мы ее и идентифицируем

In [107]:
My_nobel_materials = nobel_materials.find_all('table',{'class':'wikitable sortable'})


In [110]:
# My_nobel_materials[0]

Превратим таблицу в список строк (каждая строка размечается тегом tr)

In [112]:
rows = My_nobel_materials[0].find_all('tr')
# rows

В нулевом элементе списка будут лежат заголовки6 а в первом - информация о первом нобелевском лауреате. Это Сюлли Прюдом. Отлично, именно о нем информацию мы и видим.

In [114]:
rows[1].find_all('td')[0]

<td><a href="/wiki/1901_Nobel_Prize_in_Literature" title="1901 Nobel Prize in Literature">1901</a>
</td>

In [116]:
rows[0].find_all('th')[0].get_text().strip()

'Year'

Теперь попробуем достать список  лет из столбца Year. Заметим, что в 1904 году премия была вручена двоим номинантам (на обоих в таблице визуально видна одна ячейка даты)

In [117]:
Dates = []

Dates.append(rows[0].find_all('th')[0].get_text().strip()) # отдельно добавляем заголовок

In [35]:
rows[3].find_all('td')[0].get_text().strip()

'1903'

In [118]:
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Dates.append(r[0].get_text().strip())
    
#     break
    
    

print(Dates)

['Year', '1901', '1902', '1903', '1904', '', '1905', '1906', '1907', '1908', '1909', '1910', '1911', '1912', '1913', '1914', '1915', '1916', '1917', '', '1918', '1919', '1920', '1921', '1922', '1923', '1924', '1925', '1926', '1927', '1928', '1929', '1930', '1931', '1932', '1933', '1934', '1935', '1936', '1937', '1938', '1939', '1940', '1941', '1942', '1943', '1944', '1945', '1946', '1947', '1948', '1949', '1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021']


Почему-то у одного из лауреатов 1904 года дата отсутствует! это связано с тем, что в таблице на самом деле неодинаковое число столбцов в каждой строке. Например, в записях, когда премия не вручалась, столбца всего два, а в годы, когда премию получало два человека, для второго человека поле Year отсутствует. Получается, что в случае пустого значения года нам нужно заполнять его предыдущим значением в списке (если у человека в таблице года нет, значитв этом году премия вручалась нескольким людям, а значит можно достать предыдущее значение и вставить его вместо пропущенного). Для этого введем переменную retained и будем хранить в ней предыдущее значение даты на случай пропущенного года.

In [119]:
Dates = []

Dates.append(rows[0].find_all('th')[0].get_text().strip()) # отдельно добавляем заголовок
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    if r[0].get_text().strip() != '':
        Dates.append(r[0].get_text().strip())
        retained = r[0].get_text().strip()
    else:
        Dates.append(retained)# сохраняем данные в наш список
    

print(Dates)

['Year', '1901', '1902', '1903', '1904', '1904', '1905', '1906', '1907', '1908', '1909', '1910', '1911', '1912', '1913', '1914', '1915', '1916', '1917', '1917', '1918', '1919', '1920', '1921', '1922', '1923', '1924', '1925', '1926', '1927', '1928', '1929', '1930', '1931', '1932', '1933', '1934', '1935', '1936', '1937', '1938', '1939', '1940', '1941', '1942', '1943', '1944', '1945', '1946', '1947', '1948', '1949', '1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1966', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020',

А еще можно "заткнуть" дырку в дате с помощью проверки атрибута rowspan(дата распространяется на кол-во строк >1, в нашем случае - на 2). 

In [120]:
import lxml
soup = BeautifulSoup(requests.get('https://en.wikipedia.org/wiki/List_of_Nobel_laureates_in_Literature').text, 'lxml')
tables = soup.find_all('table')
year = []
tmp=''
for row in tables[0].find_all('tr')[1:]:
    data=row.find_all('td')[0]
#     if data.attrs != {}:
#         print(data.attrs)
#         break
    #Проверяем объединение столбцов
    if int(data.attrs.get('rowspan',0)) == 2:
        tmp=data.text.strip()
        year.append(data.text.strip())
    elif tmp=='':
        year.append(data.text.strip())
    else:
        year.append(tmp)
        tmp=''
          
print(year)

['1901', '1902', '1903', '1904', '1904', '1905', '1906', '1907', '1908', '1909', '1910', '1911', '1912', '1913', '1914', '1915', '1916', '1917', '1917', '1918', '1919', '1920', '1921', '1922', '1923', '1924', '1925', '1926', '1927', '1928', '1929', '1930', '1931', '1932', '1933', '1934', '1935', '1936', '1937', '1938', '1939', '1940', '1941', '1942', '1943', '1944', '1945', '1946', '1947', '1948', '1949', '1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1966', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021']

Победа! Теперь попробуем отыскать языки произведений авторов. Сначала запишем название колонки (как всегда)

In [121]:
Language = []
Language.append(rows[0].find_all('th')[4].get_text().strip()) # отдельно добавляем заголовок
Language

['Language(s)']

Ну а теперь попытаемся достать язык произведения

In [122]:
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Language.append(r[4].get_text().strip()) 
print(Language)

IndexError: list index out of range

Ошибка! А дело в строках таблицы, соответствующих годам, когда премия не вручалась. В этих строках всего две колонки, а значит наша попытка достать язык произведения натыкается на IndexError. Ну, ничего, мы знакомы с конструкцией try-except, с ее помощью мы и обработаем наше исключение: Если исключения нет , будем доставать все как всегда, а если исключение сработало, то запишем в список заглушку "Not awarded"

In [123]:
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    try:
        Language.append(r[4].get_text().strip()) 
    except IndexError:
        Language.append('Not awarded')
print(Language)

['Language(s)', 'French', 'German', 'Norwegian', 'Provençal', '72', 'Polish', 'Italian', 'English', 'German', 'Swedish', 'German', 'French', 'German', 'Bengali and English', 'French', 'German', 'Norwegian', 'Provençal', '72', 'Polish', 'Italian', 'English', 'German', 'Swedish', 'German', 'French', 'German', 'Bengali and English', 'Not awarded', 'French', 'Swedish', 'Danish and German', '60', 'Not awarded', 'German', 'Norwegian', 'French', 'Spanish', 'English', 'Polish', 'English', 'Italian', 'French', 'Norwegian and Danish', 'German', 'English', 'Swedish', 'English', 'Russian', 'Italian', 'Not awarded', 'English', 'French', 'English', 'Finnish', 'Not awarded', 'Not awarded', 'Not awarded', 'Not awarded', 'Danish', 'Spanish', 'German', 'French', 'English', 'English', 'English', 'Swedish', 'French', 'English', 'English', 'Icelandic', 'Spanish', 'French', 'Russian', 'Italian', 'French', 'Croatian and Serbian', 'English', 'Greek', 'French', 'Russian', 'Hebrew', '75', 'Spanish', 'Japanese',

На самом деле, мы снова сделали что-то не так. Вместо языка в записи второго лауреата 1904 года записалась "причина" выдачи премии, а именно - "in recognition of the numerous and brilliant compositions which, in an individual and original manner, have revived the great traditions of the Spanish drama". Это означает, что вместо искомой колонки мы почему-то выдали следующую! Дело в том, что если в один год премия выдавалась нескольким людям, год пишется только для первого из них. Для остальных поля Year просто нет. Поэтому когда мы вынимаем поле по индексу N для таких записей, нам нужно вынимать поле с индексом N-1 (поля Year-то нет!). Теперь давайте обернем все наше новое знание об обработке дат в таблице, наличии лет, когда премия не вручалась, а также наличии лет, когда премия вручалась нескольким номинантам, в функцию:

Если мы пытаемся вынуть дату (первая колонка или нулевая в нотации Python), воспользуемся логикой с retained, которую мы реализовали выше. Если возникает IndexError, обработаем это с помощью try-except, а если в строке нет поля Year, будем вынимать N-1'ую запись вместо N'ой.

In [124]:
def get_column(table, column_number):
    column = []
    column.append(rows[0].find_all('th')[column_number].get_text().strip()) # заголовок
    for row in table[1:]:
        r = row.find_all('td') # находим все теги td для строки таблицы
        try:
            if r[0].get_text().strip() =='':
                if column_number==0:
                    column.append(retained)
                else:
                    column.append(r[column_number-1].get_text().strip())
            else:
                column.append(r[column_number].get_text().strip())
                retained = r[column_number].get_text().strip()
        except IndexError:
            column.append('No award this year')   
    return column

Теперь опробуем функцию на пятой колонке таблицы - языке произведений.

In [125]:
languages = get_column(rows,4)
languages

['Language(s)',
 'French',
 'German',
 'Norwegian',
 'Provençal',
 'Spanish',
 'Polish',
 'Italian',
 'English',
 'German',
 'Swedish',
 'German',
 'French',
 'German',
 'Bengali and English',
 'No award this year',
 'French',
 'Swedish',
 'Danish and German',
 'Danish',
 'No award this year',
 'German',
 'Norwegian',
 'French',
 'Spanish',
 'English',
 'Polish',
 'English',
 'Italian',
 'French',
 'Norwegian and Danish',
 'German',
 'English',
 'Swedish',
 'English',
 'Russian',
 'Italian',
 'No award this year',
 'English',
 'French',
 'English',
 'Finnish',
 'No award this year',
 'No award this year',
 'No award this year',
 'No award this year',
 'Danish',
 'Spanish',
 'German',
 'French',
 'English',
 'English',
 'English',
 'Swedish',
 'French',
 'English',
 'English',
 'Icelandic',
 'Spanish',
 'French',
 'Russian',
 'Italian',
 'French',
 'Croatian and Serbian',
 'English',
 'Greek',
 'French',
 'Russian',
 'Hebrew',
 'German',
 'Spanish',
 'Japanese',
 'French and English',
 

Теперь остается посчитать частоту для различных записей этого списка, но нужно не забыть отбросить заглушки и правильно посчитать частоты для атворов, писавших на нескольких языках. Для простоты, если автор, к примеру, писал на русском и английском, давайте посчитаем его дважды - в категорию "английский язык" и в категорию "русский язык". Для начала предлагаю превратить каждую запись в "список языков", на которых писал автор, выбросить заглушки и отбросить название поля(первую запись)

In [126]:
lang = [x.split(' and ') for x in languages[1:] if x!='No award this year']
lang

[['French'],
 ['German'],
 ['Norwegian'],
 ['Provençal'],
 ['Spanish'],
 ['Polish'],
 ['Italian'],
 ['English'],
 ['German'],
 ['Swedish'],
 ['German'],
 ['French'],
 ['German'],
 ['Bengali', 'English'],
 ['French'],
 ['Swedish'],
 ['Danish', 'German'],
 ['Danish'],
 ['German'],
 ['Norwegian'],
 ['French'],
 ['Spanish'],
 ['English'],
 ['Polish'],
 ['English'],
 ['Italian'],
 ['French'],
 ['Norwegian', 'Danish'],
 ['German'],
 ['English'],
 ['Swedish'],
 ['English'],
 ['Russian'],
 ['Italian'],
 ['English'],
 ['French'],
 ['English'],
 ['Finnish'],
 ['Danish'],
 ['Spanish'],
 ['German'],
 ['French'],
 ['English'],
 ['English'],
 ['English'],
 ['Swedish'],
 ['French'],
 ['English'],
 ['English'],
 ['Icelandic'],
 ['Spanish'],
 ['French'],
 ['Russian'],
 ['Italian'],
 ['French'],
 ['Croatian', 'Serbian'],
 ['English'],
 ['Greek'],
 ['French'],
 ['Russian'],
 ['Hebrew'],
 ['German'],
 ['Spanish'],
 ['Japanese'],
 ['French', 'English'],
 ['Russian'],
 ['Spanish'],
 ['German'],
 ['English']

In [54]:
list(flatten([1,2,3,[1,2,[3,4,[5,5]]]]))

[1, 2, 3, 1, 2, 3, 4, 5, 5]

In [53]:
list(flatten(lang))

['French',
 'German',
 'Norwegian',
 'Provençal',
 'Spanish',
 'Polish',
 'Italian',
 'English',
 'German',
 'Swedish',
 'German',
 'French',
 'German',
 'Bengali',
 'English',
 'French',
 'Swedish',
 'Danish',
 'German',
 'Danish',
 'German',
 'Norwegian',
 'French',
 'Spanish',
 'English',
 'Polish',
 'English',
 'Italian',
 'French',
 'Norwegian',
 'Danish',
 'German',
 'English',
 'Swedish',
 'English',
 'Russian',
 'Italian',
 'English',
 'French',
 'English',
 'Finnish',
 'Danish',
 'Spanish',
 'German',
 'French',
 'English',
 'English',
 'English',
 'Swedish',
 'French',
 'English',
 'English',
 'Icelandic',
 'Spanish',
 'French',
 'Russian',
 'Italian',
 'French',
 'Serbian',
 'English',
 'Greek',
 'French',
 'Russian',
 'Hebrew',
 'German',
 'Spanish',
 'Japanese',
 'French',
 'English',
 'Russian',
 'Spanish',
 'German',
 'English',
 'Swedish',
 'Swedish',
 'Italian',
 'English',
 'Spanish',
 'Yiddish',
 'Greek',
 'Polish',
 'German',
 'Spanish',
 'English',
 'Czech',
 'Fren

Теперь нам осталось "распаковать" все списки в один и загрузить итоговый список в Counter. Для распаковки вложенных списков любой сложности можно использовать функцию flatten.

In [127]:
from collections import Counter
from matplotlib.cbook import flatten

Counter(list(flatten(lang))).most_common()

# ravel

[('English', 33),
 ('French', 15),
 ('German', 15),
 ('Spanish', 11),
 ('Swedish', 7),
 ('Italian', 6),
 ('Russian', 6),
 ('Polish', 5),
 ('Danish', 4),
 ('Norwegian', 3),
 ('Greek', 2),
 ('Japanese', 2),
 ('Chinese', 2),
 ('Provençal', 1),
 ('Bengali', 1),
 ('Finnish', 1),
 ('Icelandic', 1),
 ('Croatian', 1),
 ('Serbian', 1),
 ('Hebrew', 1),
 ('Yiddish', 1),
 ('Czech', 1),
 ('Arabic', 1),
 ('Portuguese', 1),
 ('Hungarian', 1),
 ('Turkish', 1)]

И такую же задачу мы можем с легкостью решить для жанров литературы. Это колонка номер 7. Но жанров литературы может быть несколько и разделены они запятой. Давайте добавим это в наше списковое включение

In [128]:
genres = get_column(rows,7)
# s = [list(
[list(map(lambda x: x.strip(), x.split(','))) 
 for x in genres[1:] if x!='No award this year']
# Counter(list(flatten(s))).most_common()

[['poetry', 'essay'],
 ['history', 'law'],
 ['poetry', 'novel', 'drama'],
 ['poetry', 'philology'],
 ['drama'],
 ['novel'],
 ['poetry'],
 ['novel', 'short story', 'poetry'],
 ['philosophy'],
 ['novel', 'short story'],
 ['poetry', 'drama', 'novel', 'short story'],
 ['drama', 'poetry', 'essay'],
 ['drama', 'novel'],
 ['poetry', 'novel', 'drama', 'short story', 'essay', 'translation'],
 ['novel'],
 ['poetry', 'novel'],
 ['poetry'],
 ['novel'],
 ['poetry'],
 ['novel'],
 ['novel', 'poetry'],
 ['drama'],
 ['poetry'],
 ['novel'],
 ['drama', 'essay'],
 ['poetry', 'novel'],
 ['philosophy'],
 ['novel'],
 ['novel', 'short story', 'essay'],
 ['novel', 'short story', 'drama'],
 ['poetry'],
 ['novel'],
 ['short story', 'poetry', 'novel'],
 ['drama', 'novel', 'short story'],
 ['drama'],
 ['novel'],
 ['novel', 'biography'],
 ['novel'],
 ['novel', 'short story'],
 ['poetry'],
 ['novel', 'poetry'],
 ['novel', 'essay', 'drama', 'memoir'],
 ['poetry', 'essay', 'drama'],
 ['novel', 'short story'],
 ['philo

Большой map мне не очень нравится, поэтому сделать такую же штуку, можно, использовав регулярное выражение.

In [129]:
import re

s = [re.split(r'\s?,\s+',x) for x in genres[1:] if x!='No award this year']
Counter(list(flatten(s))).most_common()

[('novel', 77),
 ('poetry', 53),
 ('short story', 40),
 ('essay', 39),
 ('drama', 36),
 ('screenplay', 11),
 ('translation', 8),
 ('philosophy', 5),
 ('memoir', 5),
 ('history', 3),
 ('song lyrics', 2),
 ('law', 1),
 ('philology', 1),
 ('biography', 1),
 ('memoirs', 1),
 ('autobiography', 1),
 ('memoir/autobiography', 1)]