# Python для анализа данных

## Web-Scraping. BeautifulSoup. Парсинг таблиц в html.

Автор: *Татьяна Рогович, НИУ ВШЭ*

Дополнения: *Ян Пиле, НИУ ВШЭ*

Мы с вами посмотрели как создавать html-файлы. Давайте начнем с игрушечного примера, чтобы теперь разобраться, как информацию из таблиц доставать.

# Парсим реальную табличку с wiki

Будем работать со страницей вики, на которой находится информация о испытаниях ядерного оружия. 
https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests

Нашей задачей будет достать вторую таблицу Worldwide nuclear test with a yield of 1.4 Mt TNT equivalent and more и сохранить из нее в три списка три колонки - Date, Yield (мощность взрыва) и Country.

In [1]:
import requests

In [2]:
website_url = requests.get('https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests').text
print(website_url)

<!DOCTYPE html>
<html class="client-nojs" lang="en" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>List of nuclear weapons tests - Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"a1e4997d-7fc9-45c8-a86c-a1268879efab","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"List_of_nuclear_weapons_tests","wgTitle":"List of nuclear weapons tests","wgCurRevisionId":1092387978,"wgRevisionId":1092387978,"wgArticleId":2189647,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["CS1 maint: archived copy as title","Articles containing Russian-language text","Webarchive template wayba

In [3]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(website_url)

print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   List of nuclear weapons tests - Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"a1e4997d-7fc9-45c8-a86c-a1268879efab","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"List_of_nuclear_weapons_tests","wgTitle":"List of nuclear weapons tests","wgCurRevisionId":1092387978,"wgRevisionId":1092387978,"wgArticleId":2189647,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["CS1 maint: archived copy as title","Articles containing Russian-language text","Webarch

Здесь таблиц уже будет много, и чтобы найти нужную уже точно понадобится атрибут.

In [4]:
len(soup.find_all('table'))

18

Если внимательно изучить код `HTML` искомой таблицы, то можно обнаружить что вся таблица находится в классе `Wikitable Sortable` (для включения отображения кода сайта в вашем браузере можно нажать правкой кнопкой мыши на таблицу и выбрать пункт *Исследовать элемент* или в любом месте страницы и *Показать исходный код*).

Поэтому первой задачей будет найти класс *wikitable sortable* в коде `HTML`. Это можно сделать с помощью функции `find_all`, указав в качестве аргументов, что мы ищем тэг `table` с классом `wikitable sortable`.

In [7]:
My_table = soup.find_all('table',{'class':'wikitable sortable'})
My_table[0]

<table class="wikitable sortable" style="text-align:center; font-size:90%">
<caption>Worldwide nuclear testing totals by country
</caption>
<tbody><tr>
<th style="text-align:left;"><a href="/wiki/List_of_states_with_nuclear_weapons" title="List of states with nuclear weapons">Country</a>
</th>
<th><a href="/wiki/Nuclear_weapons_testing" title="Nuclear weapons testing">Tests</a> <sup class="reference" id="cite_ref-5"><a href="#cite_note-5">[a]</a></sup>
</th>
<th><a href="/wiki/List_of_nuclear_weapons" title="List of nuclear weapons">Devices</a> fired <sup class="reference" id="cite_ref-6"><a href="#cite_note-6">[b]</a></sup>
</th>
<th><a href="/wiki/List_of_nuclear_weapons" title="List of nuclear weapons">Devices</a> w/ <br/> unknown yields <sup class="reference" id="cite_ref-7"><a href="#cite_note-7">[c]</a></sup>
</th>
<th><a class="mw-redirect" href="/wiki/Peaceful_nuclear_explosions" title="Peaceful nuclear explosions">Peaceful use tests</a> <sup class="reference" id="cite_ref-8"><

Но как вы могли заметить, то на страницы есть две таблицы, которые принадлежат этому классу. Функция `find_all` вернет все найденные объекты в виде списка. Поэтому проверим второй найденный элемент.

In [8]:
My_table[1]

<table class="wikitable sortable" style="text-align:center;">
<caption>Worldwide nuclear test with a yield of 1.4 Mt TNT equivalent and more
</caption>
<tbody><tr>
<th>Date (GMT)
</th>
<th>Yield (megatons)
</th>
<th>Deployment
</th>
<th>Country
</th>
<th>Test Site
</th>
<th>Name or Number
</th></tr>
<tr>
<td>October 30, 1961</td>
<td>50</td>
<td>parachute air drop</td>
<td>Soviet Union</td>
<td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>
<td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
</td></tr>
<tr>
<td>December 24, 1962</td>
<td>24.2</td>
<td>missile warhead</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td><a href="/wiki/Test_219" title="Test 219">Test #219</a>
</td></tr>
<tr>
<td>August 5, 1962</td>
<td>21.1</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #147
</td></tr>
<tr>
<td>September 27, 1962</td>
<td>20.0</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #17

Все верно, это наша искомая таблица. Если дальше изучить содержимое таблицы, то станет понятно что внутри тега `th` находится заголовок таблицы, а внутри `td` строки таблицы. А оба этих тега находятся внутри тегов `tr` что является по факту строкой таблицы. Давайте извлечем все строки таблицы также используя функцию `find_all`.

In [9]:
rows = My_table[1].find_all('tr')
print(rows)

[<tr>
<th>Date (GMT)
</th>
<th>Yield (megatons)
</th>
<th>Deployment
</th>
<th>Country
</th>
<th>Test Site
</th>
<th>Name or Number
</th></tr>, <tr>
<td>October 30, 1961</td>
<td>50</td>
<td>parachute air drop</td>
<td>Soviet Union</td>
<td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>
<td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
</td></tr>, <tr>
<td>December 24, 1962</td>
<td>24.2</td>
<td>missile warhead</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td><a href="/wiki/Test_219" title="Test 219">Test #219</a>
</td></tr>, <tr>
<td>August 5, 1962</td>
<td>21.1</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #147
</td></tr>, <tr>
<td>September 27, 1962</td>
<td>20.0</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #174
</td></tr>, <tr>
<td>September 25, 1962</td>
<td>19.1</td>
<td>air drop</td>
<td>Soviet Union</td>
<td>Novaya Zemlya</td>
<td>Test #173
</td></tr>, <tr>

Давайте внимательно изучим содержимое одной строки, вытащим все `td`. Отобразим вторую строчку:

In [11]:
rows[1].find_all('td')

[<td>October 30, 1961</td>,
 <td>50</td>,
 <td>parachute air drop</td>,
 <td>Soviet Union</td>,
 <td><a href="/wiki/Novaya_Zemlya" title="Novaya Zemlya">Novaya Zemlya</a></td>,
 <td><a href="/wiki/Tsar_Bomba" title="Tsar Bomba">Tsar Bomba</a>, Test #130
 </td>]

Мы видим нужные нам данные между тегов `<td><\td>`, а также ссылки с тегом `<a>` и даже смешанные ячейки с обоими этими вариантами. Давайте сначала извлечем просто данные. Для этого используем функцию `get_text()` - она вернет все что между тегами.

Возьмем, например, дату (она будет первым элементом):

In [12]:
rows[1].find_all('td')[0].get_text()

'October 30, 1961'

Единственное, нам нужно отдельно обработать, это первую строку, в которой хранится заголовок ряда (table header)

In [13]:
rows[0].find_all('th')[0].get_text()

'Date (GMT)\n'

Все классно, только давайте избавимся от знака переноса строки.

In [14]:
rows[0].find_all('th')[0].get_text().strip()

'Date (GMT)'

Давайте теперь извлечем все даты. Создадим список для их хранения `Dates` и будет итерироваться по всем элементам:

In [15]:
rows[1].find_all('td')[0].get_text().strip()

'October 30, 1961'

In [16]:
Dates = []

Dates.append(rows[0].find_all('th')[0].get_text().strip()) # отдельно добавляем заголовок

for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Dates.append(r[0].get_text().strip()) # сохраняем данные в наш список

print(Dates)

['Date (GMT)', 'October 30, 1961', 'December 24, 1962', 'August 5, 1962', 'September 27, 1962', 'September 25, 1962', 'March 1, 1954', 'May 5, 1954', 'October 23, 1961', 'March 26, 1954', 'October 31, 1952', 'August 25, 1962', 'September 19, 1962', 'July 11, 1958', 'June 28, 1958', 'October 30, 1962', 'October 22, 1962', 'June 27, 1962', 'April 25, 1954', 'July 20, 1956', 'October 31, 1961', 'November 6, 1971', 'July 10, 1956', 'August 27, 1962', 'October 6, 1961', 'October 27, 1973', 'November 17, 1976', 'July 11, 1962', 'May 20, 1956', 'August 1, 1958', 'August 12, 1958', 'September 12, 1973', 'May 27, 1956', 'October 14, 1970', 'September 16, 1962', 'June 17, 1967', 'September 15, 1962', 'December 25, 1962', 'April 28, 1958', 'October 4, 1961', 'June 10, 1962', 'December 27, 1968', 'September 29, 1969', 'June 27, 1973', 'October 6, 1957', 'October 18, 1958', 'October 22, 1958', 'August 20, 1962', 'September 10, 1961', 'August 24, 1968', 'September 27, 1971', 'September 21, 1962', 'N

Ок! Следующие колонки, которые нам нужны - мощность взрыва и страна. Давайте поймем, где их искать.

In [17]:
rows[0]

<tr>
<th>Date (GMT)
</th>
<th>Yield (megatons)
</th>
<th>Deployment
</th>
<th>Country
</th>
<th>Test Site
</th>
<th>Name or Number
</th></tr>

Видим, что Yield вторая колонка, а страна третья. Соберем их в отдельные списки по той же схеме, что дату. Но сначала проверим, что правильно посчитали номера.

In [18]:
rows[0].find_all('th')[1]

<th>Yield (megatons)
</th>

In [19]:
rows[0].find_all('th')[3]

<th>Country
</th>

Вроде все правильно. Единственно, не забудем хранить числа как float.

In [20]:
Yield = []

Yield.append(rows[0].find_all('th')[1].get_text().strip()) # отдельно добавляем заголовок

for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Yield.append(float(r[1].get_text().strip())) # сохраняем данные в наш список и переводим в float

print(Yield)

['Yield (megatons)', 50.0, 24.2, 21.1, 20.0, 19.1, 15.0, 13.5, 12.5, 11.0, 10.4, 10.0, 10.0, 9.3, 8.9, 8.3, 8.2, 7.7, 6.9, 5.0, 5.0, 4.8, 4.5, 4.2, 4.0, 4.0, 4.0, 3.9, 3.8, 3.8, 3.8, 3.8, 3.5, 3.4, 3.3, 3.3, 3.1, 3.1, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 2.9, 2.9, 2.8, 2.8, 2.7, 2.6, 2.5, 2.4, 2.3, 2.2, 2.0, 1.9, 1.9, 1.9, 1.8, 1.7, 1.6, 1.6, 1.6, 1.6, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.4, 1.4, 1.4, 1.4]


In [21]:
round(Yield[2])

24

In [22]:
Country = []

Country.append(rows[0].find_all('th')[3].get_text().strip()) # отдельно добавляем заголовок

for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Country.append(r[3].get_text().strip()) # сохраняем данные в наш список и переводим в float

print(Country)

['Country', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'USA', 'Soviet Union', 'USA', 'USA', 'USA', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'China', 'USA', 'USA', 'USA', 'USA', 'Soviet Union', 'USA', 'China', 'Soviet Union', 'China', 'Soviet Union', 'Soviet Union', 'UK', 'Soviet Union', 'USA', 'China', 'China', 'China', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'France', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'Soviet Union', 'USA', 'UK', 'USA', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'Soviet Union', 'USA', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'Soviet Union', 'USA', 'USA', 'USA', 'Soviet Union']


In [23]:
print(Dates)
print(Yield)
print(Country)

['Date (GMT)', 'October 30, 1961', 'December 24, 1962', 'August 5, 1962', 'September 27, 1962', 'September 25, 1962', 'March 1, 1954', 'May 5, 1954', 'October 23, 1961', 'March 26, 1954', 'October 31, 1952', 'August 25, 1962', 'September 19, 1962', 'July 11, 1958', 'June 28, 1958', 'October 30, 1962', 'October 22, 1962', 'June 27, 1962', 'April 25, 1954', 'July 20, 1956', 'October 31, 1961', 'November 6, 1971', 'July 10, 1956', 'August 27, 1962', 'October 6, 1961', 'October 27, 1973', 'November 17, 1976', 'July 11, 1962', 'May 20, 1956', 'August 1, 1958', 'August 12, 1958', 'September 12, 1973', 'May 27, 1956', 'October 14, 1970', 'September 16, 1962', 'June 17, 1967', 'September 15, 1962', 'December 25, 1962', 'April 28, 1958', 'October 4, 1961', 'June 10, 1962', 'December 27, 1968', 'September 29, 1969', 'June 27, 1973', 'October 6, 1957', 'October 18, 1958', 'October 22, 1958', 'August 20, 1962', 'September 10, 1961', 'August 24, 1968', 'September 27, 1971', 'September 21, 1962', 'N

Давайте опять сохраним данные в файл. Тут обратите внимание на запятую в дате - давайте сделаем разделителем табуляцию.

In [24]:
f = open('nuclear.csv', 'w')

for idx in range(len(Dates)):
    f.write(f'{Dates[idx]}\t{Yield[idx]}\t{Country[idx]}\n')
    
f.close()

In [25]:
import pandas as pd

In [26]:
df = pd.read_csv('nuclear.csv', sep='\t', index_col=None)
df.head(15)

Unnamed: 0,Date (GMT),Yield (megatons),Country
0,"October 30, 1961",50.0,Soviet Union
1,"December 24, 1962",24.2,Soviet Union
2,"August 5, 1962",21.1,Soviet Union
3,"September 27, 1962",20.0,Soviet Union
4,"September 25, 1962",19.1,Soviet Union
5,"March 1, 1954",15.0,USA
6,"May 5, 1954",13.5,USA
7,"October 23, 1961",12.5,Soviet Union
8,"March 26, 1954",11.0,USA
9,"October 31, 1952",10.4,USA


In [27]:
df = pd.read_html('https://en.wikipedia.org/wiki/List_of_nuclear_weapons_tests')[2]
df.head()

Unnamed: 0,Date (GMT),Yield (megatons),Deployment,Country,Test Site,Name or Number
0,"October 30, 1961",50.0,parachute air drop,Soviet Union,Novaya Zemlya,"Tsar Bomba, Test #130"
1,"December 24, 1962",24.2,missile warhead,Soviet Union,Novaya Zemlya,Test #219
2,"August 5, 1962",21.1,air drop,Soviet Union,Novaya Zemlya,Test #147
3,"September 27, 1962",20.0,air drop,Soviet Union,Novaya Zemlya,Test #174
4,"September 25, 1962",19.1,air drop,Soviet Union,Novaya Zemlya,Test #173


# И давайте немного задачек, чтобы освежить в памяти прошлые занятия.

1. Напишите функцию, которая берет аргументом название страны и возвращает (return) среднюю мощность взрыва для этой страны (нужно сложить все значения из колонки 'Yield (megatons)', которым соответствует страна, например, США, и раделить на количество этих значений). Для подсчета используйте списки, которые мы извлекли выше.
2. Из списка Country оставьте только уникальные значения для стран и запустите вашу функцию в цикле для каждого значения Country. Внутри цикла сделайте следующий вывод "{название страны}: средняя мощность взрыва {средняя мощность} мегатон"
3. Создайте словарь, ключом в котором будет страна, а значением список из количества испытаний и максимальной мощности взрыва.
4. Выведите ключи словаря из пункта 3 и максимальную мощность взрыва, отсортированные по максимальной мощности взрыва, от меньшего к большему.

In [32]:
# 1
def average_yield(country):
    yield_sum = 0 # создаем счетчик, в который будем приплюсовывать мощность каждого испытания в заданной стране
    yield_count = 0 # создаем счетчик, в котором будем хранить количество испытаний
    for idx in range(len(Country)): # запускаем цикл для всех значений индексов списка Country
        if Country[idx] == country:   # проверяем, равно ли значение в списке Country стране, для которой вызвана функция
            yield_sum += Yield[idx]     # если да, то добавляем мощность взрыва под этим же индексом
            yield_count += 1            # считаем это исптание
    return round(yield_sum / yield_count,2)  # после окончания работы цикла возвращаем среднюю мощность

In [36]:
average_yield('Soviet Union')

6.56

In [37]:
# 2
for country in set(Country[1:]): # чтобы оставить только уникальные значения - делаем множество из списка + с помощью среза избавляемся от от заголовка колонки под индексом [0]
    print(country, ': средняя мощность взрыва', average_yield(country), 'мегатонн')

UK : средняя мощность взрыва 2.4 мегатонн
Soviet Union : средняя мощность взрыва 6.56 мегатонн
China : средняя мощность взрыва 3.28 мегатонн
France : средняя мощность взрыва 2.6 мегатонн
USA : средняя мощность взрыва 5.26 мегатонн


In [38]:
Country.count('USA')

27

In [40]:
# 3
d = {}
for x in set(Country[1:]):
    y = []
    for idx in range(len(Country[1:])):
        if Country[idx] == x:
            y.append(Yield[idx])        
    d[x] = [Country.count(x), max(y)]

print(d)

{'UK': [2, 3.0], 'Soviet Union': [38, 50.0], 'China': [6, 4.0], 'France': [1, 2.6], 'USA': [27, 15.0]}


In [41]:
# 4
for value in sorted(d.values(), key=lambda x:x[1]):
#     print(value)
    for key in d:
        if d[key] == value:
            print(key, value[1])

France 2.6
UK 3.0
China 4.0
USA 15.0
Soviet Union 50.0


### Давайте немного расширим наши знания о методах в Python (библиотека Collections)

**collections.Counter** - вид словаря, который позволяет нам считать количество неизменяемых объектов (в большинстве случаев, строк).

In [45]:
import collections

lst = (1,2,3,4,2,2,3,4,5,6,3,3,3,3,31,1,1,1,1,1)
a = collections.Counter(lst)
a

Counter({1: 6, 2: 3, 3: 6, 4: 2, 5: 1, 6: 1, 31: 1})

Метод most_common() возвращает словарь отсортированный по values в виде списка кортежей

In [46]:
a.most_common()

[(1, 6), (3, 6), (2, 3), (4, 2), (5, 1), (6, 1), (31, 1)]

Метод most_common(1) возвращает моду вашего распределения (самое частое значение)

In [55]:
a.most_common(1)

[(1, 6)]

**Наиболее часто употребляемые шаблоны для работы с Counter:**

* sum(c.values()) - общее количество.
* c.clear() - очистить счётчик.
* list(c) - список уникальных элементов.
* set(c) - преобразовать в множество.
* dict(c) - преобразовать в словарь.
* c.most_common()[:-n:-1] - n-1 наименее часто встречающихся элементов.

In [56]:
sum(a.values())

20

In [57]:
list(a)

[1, 2, 3, 4, 5, 6, 31]

In [58]:
lst = [1,2,3,4,2,2,3,4,5,6,3,3,3,3,31,1,1,1,1,1]
print(len(set(lst)))
# dict(collections.Counter(lst))

7


In [59]:
dict(a)

{1: 6, 2: 3, 3: 6, 4: 2, 5: 1, 6: 1, 31: 1}

А еще он умеет работать со строками

In [60]:
collections.Counter('abracadabra').most_common(3)

[('a', 5), ('b', 2), ('r', 2)]

# И давайте еще задачек

Взять с Википедии список нобелевских лауреатов по литературе и посчитать их распределение: 
* по странам
* по языкам произведений

Сколько авторов получили премию за мастерство в жанре:
* романа
* поэзии
* короткого рассказа
* драматического произведения

Предлагаю решить задачу про языки и жанры, а задачу о странах попробуйте решить сами.

Достанем html-текст страницы (мы уже такое делали)

In [61]:
nobel = requests.get('https://en.wikipedia.org/wiki/List_of_Nobel_laureates_in_Literature').text
print(nobel)

<!DOCTYPE html>
<html class="client-nojs" lang="en" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>List of Nobel laureates in Literature - Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"38831424-49e7-4185-8b96-35c4731c3712","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"List_of_Nobel_laureates_in_Literature","wgTitle":"List of Nobel laureates in Literature","wgCurRevisionId":1093570500,"wgRevisionId":1093570500,"wgArticleId":11636805,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Articles with short description","Short description is different from Wikidata",

Теперь обработаем выгруженный текст с помощью Beautiful Soup и "развернем" дерево тегов

In [62]:
nobel_materials = BeautifulSoup(nobel)

print(nobel_materials.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   List of Nobel laureates in Literature - Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"38831424-49e7-4185-8b96-35c4731c3712","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"List_of_Nobel_laureates_in_Literature","wgTitle":"List of Nobel laureates in Literature","wgCurRevisionId":1093570500,"wgRevisionId":1093570500,"wgArticleId":11636805,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Articles with short description","Short description is differe

Оказывается, что на странице целых 10 таблиц!

In [63]:
len(nobel_materials.find_all('table'))

10

Но интересующая нас таблица снова обладает свойством 'wikitable sortable'. По нему-то мы ее и идентифицируем

In [64]:
My_nobel_materials = nobel_materials.find_all('table',{'class':'wikitable sortable'})
My_nobel_materials

[<table class="wikitable sortable">
 <tbody><tr>
 <th>Year
 </th>
 <th>Picture
 </th>
 <th>Laureate
 </th>
 <th>Country
 </th>
 <th>Language(s)
 </th>
 <th>Citation
 </th>
 <th>Genre(s)
 </th></tr>
 <tr>
 <td><a href="/wiki/1901_Nobel_Prize_in_Literature" title="1901 Nobel Prize in Literature">1901</a>
 </td>
 <td><a class="image" href="/wiki/File:Sully-Prudhomme.jpg"><img alt="Sully-Prudhomme.jpg" data-file-height="396" data-file-width="280" decoding="async" height="106" src="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/75px-Sully-Prudhomme.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/113px-Sully-Prudhomme.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/150px-Sully-Prudhomme.jpg 2x" width="75"/></a>
 </td>
 <td><b><a href="/wiki/Sully_Prudhomme" title="Sully Prudhomme">Sully Prudhomme</a></b> <br/> (1839–1907)
 </td>
 <td data-sort-value="France"><span class="flagicon"><img alt="" clas

Превратим таблицу в список строк (каждая строка размечается тегом tr)

In [65]:
rows = My_nobel_materials[0].find_all('tr')
rows

[<tr>
 <th>Year
 </th>
 <th>Picture
 </th>
 <th>Laureate
 </th>
 <th>Country
 </th>
 <th>Language(s)
 </th>
 <th>Citation
 </th>
 <th>Genre(s)
 </th></tr>,
 <tr>
 <td><a href="/wiki/1901_Nobel_Prize_in_Literature" title="1901 Nobel Prize in Literature">1901</a>
 </td>
 <td><a class="image" href="/wiki/File:Sully-Prudhomme.jpg"><img alt="Sully-Prudhomme.jpg" data-file-height="396" data-file-width="280" decoding="async" height="106" src="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/75px-Sully-Prudhomme.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/113px-Sully-Prudhomme.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/150px-Sully-Prudhomme.jpg 2x" width="75"/></a>
 </td>
 <td><b><a href="/wiki/Sully_Prudhomme" title="Sully Prudhomme">Sully Prudhomme</a></b> <br/> (1839–1907)
 </td>
 <td data-sort-value="France"><span class="flagicon"><img alt="" class="thumbborder" data-file-height="600" dat

В нулевом элементе списка будут лежат заголовки6 а в первом - информация о первом нобелевском лауреате. Это Сюлли Прюдом. Отлично, именно о нем информацию мы и видим.

In [66]:
rows[1]

<tr>
<td><a href="/wiki/1901_Nobel_Prize_in_Literature" title="1901 Nobel Prize in Literature">1901</a>
</td>
<td><a class="image" href="/wiki/File:Sully-Prudhomme.jpg"><img alt="Sully-Prudhomme.jpg" data-file-height="396" data-file-width="280" decoding="async" height="106" src="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/75px-Sully-Prudhomme.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/113px-Sully-Prudhomme.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/150px-Sully-Prudhomme.jpg 2x" width="75"/></a>
</td>
<td><b><a href="/wiki/Sully_Prudhomme" title="Sully Prudhomme">Sully Prudhomme</a></b> <br/> (1839–1907)
</td>
<td data-sort-value="France"><span class="flagicon"><img alt="" class="thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/commons/thumb/b/bc/Flag_of_France_%281794%E2%80%931815%2C_1830%E2%80%931974%2C

Теперь попробуем достать список  лет из столбца Year. Заметим, что в 1904 году премия была вручена двоим номинантам (на обоих в таблице визуально видна одна ячейка даты)

In [67]:
Dates = []

Dates.append(rows[0].find_all('th')[0].get_text().strip()) # отдельно добавляем заголовок

In [68]:
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Dates.append(r[0].get_text().strip())
    
    

print(Dates)

['Year', '1901', '1902', '1903', '1904', '', '1905', '1906', '1907', '1908', '1909', '1910', '1911', '1912', '1913', '1914', '1915', '1916', '1917', '', '1918', '1919', '1920', '1921', '1922', '1923', '1924', '1925', '1926', '1927', '1928', '1929', '1930', '1931', '1932', '1933', '1934', '1935', '1936', '1937', '1938', '1939', '1940', '1941', '1942', '1943', '1944', '1945', '1946', '1947', '1948', '1949', '1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021']


Почему-то у одного из лауреатов 1904 года дата отсутствует! это связано с тем, что в таблице на самом деле неодинаковое число столбцов в каждой строке. Например, в записях, когда премия не вручалась, столбца всего два, а в годы, когда премию получало два человека, для второго человека поле Year отсутствует. Получается, что в случае пустого значения года нам нужно заполнять его предыдущим значением в списке (если у человека в таблице года нет, значитв этом году премия вручалась нескольким людям, а значит можно достать предыдущее значение и вставить его вместо пропущенного). Для этого введем переменную retained и будем хранить в ней предыдущее значение даты на случай пропущенного года.

In [69]:
Dates = []

Dates.append(rows[0].find_all('th')[0].get_text().strip()) # отдельно добавляем заголовок
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    if r[0].get_text().strip() != '':
        Dates.append(r[0].get_text().strip())
        retained = r[0].get_text().strip()
    else:
        Dates.append(retained)# сохраняем данные в наш список
    

print(Dates)

['Year', '1901', '1902', '1903', '1904', '1904', '1905', '1906', '1907', '1908', '1909', '1910', '1911', '1912', '1913', '1914', '1915', '1916', '1917', '1917', '1918', '1919', '1920', '1921', '1922', '1923', '1924', '1925', '1926', '1927', '1928', '1929', '1930', '1931', '1932', '1933', '1934', '1935', '1936', '1937', '1938', '1939', '1940', '1941', '1942', '1943', '1944', '1945', '1946', '1947', '1948', '1949', '1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1966', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020',

А еще можно "заткнуть" дырку в дате с помощью проверки атрибута rowspan(дата распространяется на кол-во строк >1, в нашем случае - на 2). 

In [70]:
import lxml
soup = BeautifulSoup(requests.get('https://en.wikipedia.org/wiki/List_of_Nobel_laureates_in_Literature').text, 'lxml')
tables = soup.find_all('table')
year = []
tmp=''
for row in tables[0].find_all('tr')[1:]:
    data=row.find_all('td')[0]
    #Проверяем объединение столбцов
    if int(data.attrs.get('rowspan',0))==2:
        tmp=data.text.strip()
        year.append(data.text.strip())
    elif tmp=='':
        year.append(data.text.strip())
    else:
        year.append(tmp)
        tmp=''
          
print(year)

['1901', '1902', '1903', '1904', '1904', '1905', '1906', '1907', '1908', '1909', '1910', '1911', '1912', '1913', '1914', '1915', '1916', '1917', '1917', '1918', '1919', '1920', '1921', '1922', '1923', '1924', '1925', '1926', '1927', '1928', '1929', '1930', '1931', '1932', '1933', '1934', '1935', '1936', '1937', '1938', '1939', '1940', '1941', '1942', '1943', '1944', '1945', '1946', '1947', '1948', '1949', '1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1966', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021']

Победа! Теперь попробуем отыскать языки произведений авторов. Сначала запишем название колонки (как всегда)

In [71]:
Language = []
Language.append(rows[0].find_all('th')[4].get_text().strip()) # отдельно добавляем заголовок
Language

['Language(s)']

Ну а теперь попытаемся достать язык произведения

In [72]:
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Language.append(r[4].get_text().strip()) 
print(Language)

IndexError: list index out of range

Ошибка! А дело в строках таблицы, соответствующих годам, когда премия не вручалась. В этих строках всего две колонки, а значит наша попытка достать язык произведения натыкается на IndexError. Ну, ничего, мы знакомы с конструкцией try-except, с ее помощью мы и обработаем наше исключение: Если исключения нет , будем доставать все как всегда, а если исключение сработало, то запишем в список заглушку "Not awarded"

In [73]:
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    try:
        Language.append(r[4].get_text().strip()) 
    except IndexError:
        Language.append('Not awarded')
print(Language)

['Language(s)', 'French', 'German', 'Norwegian', 'Provençal', '"in recognition of the numerous and brilliant compositions which, in an individual and original manner, have revived the great traditions of the Spanish drama"[20]', 'Polish', 'Italian', 'English', 'German', 'Swedish', 'German', 'French', 'German', 'Bengali and English', 'French', 'German', 'Norwegian', 'Provençal', '"in recognition of the numerous and brilliant compositions which, in an individual and original manner, have revived the great traditions of the Spanish drama"[20]', 'Polish', 'Italian', 'English', 'German', 'Swedish', 'German', 'French', 'German', 'Bengali and English', 'Not awarded', 'French', 'Swedish', 'Danish and German', '"for his authentic descriptions of present-day life in Denmark"[31]', 'Not awarded', 'German', 'Norwegian', 'French', 'Spanish', 'English', 'Polish', 'English', 'Italian', 'French', 'Norwegian and Danish', 'German', 'English', 'Swedish', 'English', 'Russian', 'Italian', 'Not awarded', 'E

На самом деле, мы снова сделали что-то не так. Вместо языка в записи второго лауреата 1904 года записалась "причина" выдачи премии, а именно - "in recognition of the numerous and brilliant compositions which, in an individual and original manner, have revived the great traditions of the Spanish drama". Это означает, что вместо искомой колонки мы почему-то выдали следующую! Дело в том, что если в один год премия выдавалась нескольким людям, год пишется только для первого из них. Для остальных поля Year просто нет. Поэтому когда мы вынимаем поле по индексу N для таких записей, нам нужно вынимать поле с индексом N-1 (поля Year-то нет!). Теперь давайте обернем все наше новое знание об обработке дат в таблице, наличии лет, когда премия не вручалась, а также наличии лет, когда премия вручалась нескольким номинантам, в функцию:

Если мы пытаемся вынуть дату (первая колонка или нулевая в нотации Python), воспользуемся логикой с retained, которую мы реализовали выше. Если возникает IndexError, обработаем это с помощью try-except, а если в строке нет поля Year, будем вынимать N-1'ую запись вместо N'ой.

In [74]:
def get_column(table, column_number):
    column = []
    column.append(rows[0].find_all('th')[column_number-1].get_text().strip()) # заголовок
    for row in table[1:]:
        r = row.find_all('td') # находим все теги td для строки таблицы
        try:
            if r[0].get_text().strip() =='':
                if column_number-1==0:
                    column.append(retained)
                else:
                    column.append(r[column_number-2].get_text().strip())
            else:
                column.append(r[column_number-1].get_text().strip())
                retained = r[column_number-1].get_text().strip()
        except IndexError:
            column.append('No award this year')   
    return column

Теперь опробуем функцию на пятой колонке таблицы - языке произведений.

In [75]:
languages = get_column(rows,5)
languages

['Language(s)',
 'French',
 'German',
 'Norwegian',
 'Provençal',
 'Spanish',
 'Polish',
 'Italian',
 'English',
 'German',
 'Swedish',
 'German',
 'French',
 'German',
 'Bengali and English',
 'No award this year',
 'French',
 'Swedish',
 'Danish and German',
 'Danish',
 'No award this year',
 'German',
 'Norwegian',
 'French',
 'Spanish',
 'English',
 'Polish',
 'English',
 'Italian',
 'French',
 'Norwegian and Danish',
 'German',
 'English',
 'Swedish',
 'English',
 'Russian',
 'Italian',
 'No award this year',
 'English',
 'French',
 'English',
 'Finnish',
 'No award this year',
 'No award this year',
 'No award this year',
 'No award this year',
 'Danish',
 'Spanish',
 'German',
 'French',
 'English',
 'English',
 'English',
 'Swedish',
 'French',
 'English',
 'English',
 'Icelandic',
 'Spanish',
 'French',
 'Russian',
 'Italian',
 'French',
 'Serbian',
 'English',
 'Greek',
 'French',
 'Russian',
 'Hebrew',
 'German',
 'Spanish',
 'Japanese',
 'French and English',
 'Russian',
 '

Теперь остается посчитать частоту для различных записей этого списка, но нужно не забыть отбросить заглушки и правильно посчитать частоты для атворов, писавших на нескольких языках. Для простоты, если автор, к примеру, писал на русском и английском, давайте посчитаем его дважды - в категорию "английский язык" и в категорию "русский язык". Для начала предлагаю превратить каждую запись в "список языков", на которых писал автор, выбросить заглушки и отбросить название поля(первую запись)

In [76]:
lang = [x.split(' and ') for x in languages[1:] if x!='No award this year']
lang

[['French'],
 ['German'],
 ['Norwegian'],
 ['Provençal'],
 ['Spanish'],
 ['Polish'],
 ['Italian'],
 ['English'],
 ['German'],
 ['Swedish'],
 ['German'],
 ['French'],
 ['German'],
 ['Bengali', 'English'],
 ['French'],
 ['Swedish'],
 ['Danish', 'German'],
 ['Danish'],
 ['German'],
 ['Norwegian'],
 ['French'],
 ['Spanish'],
 ['English'],
 ['Polish'],
 ['English'],
 ['Italian'],
 ['French'],
 ['Norwegian', 'Danish'],
 ['German'],
 ['English'],
 ['Swedish'],
 ['English'],
 ['Russian'],
 ['Italian'],
 ['English'],
 ['French'],
 ['English'],
 ['Finnish'],
 ['Danish'],
 ['Spanish'],
 ['German'],
 ['French'],
 ['English'],
 ['English'],
 ['English'],
 ['Swedish'],
 ['French'],
 ['English'],
 ['English'],
 ['Icelandic'],
 ['Spanish'],
 ['French'],
 ['Russian'],
 ['Italian'],
 ['French'],
 ['Serbian'],
 ['English'],
 ['Greek'],
 ['French'],
 ['Russian'],
 ['Hebrew'],
 ['German'],
 ['Spanish'],
 ['Japanese'],
 ['French', 'English'],
 ['Russian'],
 ['Spanish'],
 ['German'],
 ['English'],
 ['Swedish

Теперь нам осталось "распаковать" все списки в один и загрузить итоговый список в Counter. Для распаковки вложенных списков любой сложности можно использовать функцию flatten.

In [77]:
from collections import Counter
from matplotlib.cbook import flatten

Counter(list(flatten(s))).most_common()

NameError: name 's' is not defined

И такую же задачу мы можем с легкостью решить для жанров литературы. Это колонка номер 7. Но жанров литературы может быть несколько и разделены они запятой. Давайте добавим это в наше списковое включение

In [78]:
genres = get_column(rows,7)
s = [list(map(lambda x:x.strip(),x.split(','))) for x in genres[1:] if x!='No award this year']
Counter(list(flatten(s))).most_common()

[('novel', 77),
 ('poetry', 53),
 ('short story', 40),
 ('essay', 39),
 ('drama', 36),
 ('screenplay', 11),
 ('translation', 8),
 ('philosophy', 5),
 ('memoir', 5),
 ('history', 3),
 ('song lyrics', 2),
 ('law', 1),
 ('philology', 1),
 ('biography', 1),
 ('memoirs', 1),
 ('autobiography', 1),
 ('memoir/autobiography', 1)]

Большой map мне не очень нравится, поэтому сделать такую же штуку, можно, использовав регулярное выражение.

In [79]:
import re

s = [re.split(r'\s?,\s+',x) for x in genres[1:] if x!='No award this year']
Counter(list(flatten(s))).most_common()

[('novel', 77),
 ('poetry', 53),
 ('short story', 40),
 ('essay', 39),
 ('drama', 36),
 ('screenplay', 11),
 ('translation', 8),
 ('philosophy', 5),
 ('memoir', 5),
 ('history', 3),
 ('song lyrics', 2),
 ('law', 1),
 ('philology', 1),
 ('biography', 1),
 ('memoirs', 1),
 ('autobiography', 1),
 ('memoir/autobiography', 1)]