# Python для анализа данных

## Web-scraping: дополнительный материал

*Автор: Ян Пиле, НИУ ВШЭ*  

### Давайте немного расширим наши знания о методах в Python (библиотека Collections)

**collections.Counter** - вид словаря, который позволяет нам считать количество неизменяемых объектов (в большинстве случаев, строк).

In [16]:
import collections

lst = (1,2,3,4,2,2,3,4,5,6,3,3,3,3,31,1,1,1,1,1)
a = collections.Counter(lst)
a

Counter({1: 6, 2: 3, 3: 6, 4: 2, 5: 1, 6: 1, 31: 1})

Метод most_common() возвращает словарь отсортированный по values в виде списка кортежей

In [7]:
a.most_common()

[(1, 6), (3, 6), (2, 3), (4, 2), (5, 1), (6, 1), (31, 1)]

Метод most_common(1) возвращает моду вашего распределения (самое частое значение)

In [9]:
a.most_common(1)

[(1, 6)]

**Наиболее часто употребляемые шаблоны для работы с Counter:**

* sum(c.values()) - общее количество.
* c.clear() - очистить счётчик.
* list(c) - список уникальных элементов.
* set(c) - преобразовать в множество.
* dict(c) - преобразовать в словарь.
* c.most_common()[:-n:-1] - n-1 наименее часто встречающихся элементов.

In [17]:
dict(a)

{1: 6, 2: 3, 3: 6, 4: 2, 5: 1, 6: 1, 31: 1}

А еще он умеет работать со строками

In [11]:
collections.Counter('abracadabra').most_common(3)

[('a', 5), ('b', 2), ('r', 2)]

# И давайте еще задачек

Взять с Википедии список нобелевских лауреатов по литературе и посчитать их распределение: 
* по странам
* по языкам произведений

Сколько авторов получили премию за мастерство в жанре:
* романа
* поэзии
* короткого рассказа
* драматического произведения

Предлагаю решить задачу про языки и жанры, а задачу о странах попробуйте решить сами.

Достанем html-текст страницы (мы уже такое делали)

In [20]:
import requests
nobel = requests.get('https://en.wikipedia.org/wiki/List_of_Nobel_laureates_in_Literature').text
#print(nobel)

Теперь обработаем выгруженный текст с помощью Beautiful Soup и "развернем" дерево тегов

In [22]:
from bs4 import BeautifulSoup

nobel_materials = BeautifulSoup(nobel,'lxml')

#print(nobel_materials.prettify())

Оказывается, что на странице целых 9 таблиц!

In [23]:
len(nobel_materials.find_all('table'))

9

Но интересующая нас таьблица снова обладает свойством 'wikitable sortable'. По нему-то мы ее и идентифицируем

In [24]:
My_nobel_materials = nobel_materials.find_all('table',{'class':'wikitable sortable'})
# My_nobel_materials

Превратим таблицу в список строк (каждая строка размечается тегом tr)

In [25]:
rows = My_nobel_materials[0].find_all('tr')
# rows

В нулевом элементе списка будут лежат заголовки, а в первом - информация о первом нобелевском лауреате. Это Сюлли Прюдом. Отлично, именно о нем информацию мы и видим.

In [26]:
rows[1]

<tr>
<td>1901
</td>
<td><a class="image" href="/wiki/File:Sully-Prudhomme.jpg"><img alt="Sully-Prudhomme.jpg" data-file-height="396" data-file-width="280" decoding="async" height="106" src="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/75px-Sully-Prudhomme.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/113px-Sully-Prudhomme.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/3/39/Sully-Prudhomme.jpg/150px-Sully-Prudhomme.jpg 2x" width="75"/></a>
</td>
<td><a href="/wiki/Sully_Prudhomme" title="Sully Prudhomme">Sully Prudhomme</a>
</td>
<td data-sort-value="France"><span class="flagicon"><img alt="" class="thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Flag_of_France_%281794%E2%80%931815%2C_1830%E2%80%931958%29.svg/23px-Flag_of_France_%281794%E2%80%931815%2C_1830%E2%80%931958%29.svg.png" srcset="//upload.wikimedia.org/wikip

Теперь попробуем достать список  лет из столбца Year. Заметим, что в 1904 году премия была вручена двоим номинантам (на обоих в таблице визуально видна одна ячейка даты)

In [27]:
Dates = []

Dates.append(rows[0].find_all('th')[0].get_text().strip()) # отдельно добавляем заголовок

In [28]:
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Dates.append(r[0].get_text().strip())
    
    

print(Dates)

['Year', '1901', '1902', '1903', '1904', '', '1905', '1906', '1907', '1908', '1909', '1910', '1911', '1912', '1913', '1914', '1915', '1916', '1917', '', '1918', '1919', '1920', '1921', '1922', '1923', '1924', '1925', '1926', '1927', '1928', '1929', '1930', '1931', '1932', '1933', '1934', '1935', '1936', '1937', '1938', '1939', '1940', '1941', '1942', '1943', '1944', '1945', '1946', '1947', '1948', '1949', '1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018 (awarded 2019)', '2019']


Почему-то у одного из лауреатов 1904 года дата отсутствует! Это связано с тем, что в таблице на самом деле неодинаковое число столбцов в каждой строке. Например, в записях, когда премия не вручалась, столбца всего два, а в годы, когда премию получало два человека, для второго человека поле Year отсутствует. Получается, что в случае пустого значения года нам нужно заполнять его предыдущим значением в списке (если у человека в таблице года нет, значитв этом году премия вручалась нескольким людям, а значит можно достать предыдущее значение и вставить его вместо пропущенного). Для этого введем переменную retained и будем хранить в ней предыдущее значение даты на случай пропущенного года.

In [29]:
Dates = []

Dates.append(rows[0].find_all('th')[0].get_text().strip()) # отдельно добавляем заголовок
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    if r[0].get_text().strip() != '':
        Dates.append(r[0].get_text().strip())
        retained = r[0].get_text().strip()
    else:
        Dates.append(retained)# сохраняем данные в наш список
    

print(Dates)

['Year', '1901', '1902', '1903', '1904', '1904', '1905', '1906', '1907', '1908', '1909', '1910', '1911', '1912', '1913', '1914', '1915', '1916', '1917', '1917', '1918', '1919', '1920', '1921', '1922', '1923', '1924', '1925', '1926', '1927', '1928', '1929', '1930', '1931', '1932', '1933', '1934', '1935', '1936', '1937', '1938', '1939', '1940', '1941', '1942', '1943', '1944', '1945', '1946', '1947', '1948', '1949', '1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1966', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018 (awarded 2019)', 

А еще можно "заткнуть" дырку в дате с помощью проверки атрибута rowspan (дата распространяется на кол-во строк >1, в нашем случае - на 2). 

In [30]:
soup = BeautifulSoup(requests.get('https://en.wikipedia.org/wiki/List_of_Nobel_laureates_in_Literature').text, 'lxml')
tables = soup.find_all('table')
year = []
tmp=''
for row in tables[0].find_all('tr')[1:]:
    data=row.find_all('td')[0]
    #Проверяем объединение столбцов
    if int(data.attrs.get('rowspan',0))==2:
        tmp=data.text.strip()
        year.append(data.text.strip())
    elif tmp=='':
        year.append(data.text.strip())
    else:
        year.append(tmp)
        tmp=''
          
print(year)

['1901', '1902', '1903', '1904', '1904', '1905', '1906', '1907', '1908', '1909', '1910', '1911', '1912', '1913', '1914', '1915', '1916', '1917', '1917', '1918', '1919', '1920', '1921', '1922', '1923', '1924', '1925', '1926', '1927', '1928', '1929', '1930', '1931', '1932', '1933', '1934', '1935', '1936', '1937', '1938', '1939', '1940', '1941', '1942', '1943', '1944', '1945', '1946', '1947', '1948', '1949', '1950', '1951', '1952', '1953', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1966', '1967', '1968', '1969', '1970', '1971', '1972', '1973', '1974', '1974', '1975', '1976', '1977', '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018 (awarded 2019)', '2019']


Победа! Теперь попробуем отыскать языки произведений авторов. Сначала запишем название колонки (как всегда)

In [31]:
Language = []
Language.append(rows[0].find_all('th')[4].get_text().strip()) # отдельно добавляем заголовок
Language

['Language(s)']

Ну а теперь попытаемся достать язык произведения

In [32]:
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    Language.append(r[4].get_text().strip()) 
print(Language)

IndexError: list index out of range

Ошибка! А дело в строках таблицы, соответствующих годам, когда премия не вручалась. В этих строках всего две колонки, а значит наша попытка достать язык произведения натыкается на IndexError. Ну, ничего, мы знакомы с конструкцией try-except, с ее помощью мы и обработаем наше исключение: Если исключения нет , будем доставать все как всегда, а если исключение сработало, то запишем в список заглушку "Not awarded"

In [33]:
for row in rows[1:]: # начинаем со второго ряда таблицы, потому что 0 уже обработали выше
    r = row.find_all('td') # находим все теги td для строки таблицы
    try:
        Language.append(r[4].get_text().strip()) 
    except IndexError:
        Language.append('Not awarded')
print(Language)

['Language(s)', 'French', 'German', 'Norwegian', 'Provençal', '"in recognition of the numerous and brilliant compositions which, in an individual and original manner, have revived the great traditions of the Spanish drama"[17]', 'Polish', 'Italian', 'English', 'German', 'Swedish', 'German', 'French', 'German', 'Bengali', 'French', 'German', 'Norwegian', 'Provençal', '"in recognition of the numerous and brilliant compositions which, in an individual and original manner, have revived the great traditions of the Spanish drama"[17]', 'Polish', 'Italian', 'English', 'German', 'Swedish', 'German', 'French', 'German', 'Bengali', 'Not awarded', 'French', 'Swedish', 'Danish', '"for his authentic descriptions of present-day life in Denmark"[29]', 'Not awarded', 'German', 'Norwegian', 'French', 'Spanish', 'English', 'Polish', 'English', 'Italian', 'French', 'Norwegian', 'German', 'English', 'Swedish', 'English', 'Russian', 'Italian', 'Not awarded', 'English', 'French', 'English', 'Finnish', 'Not 

На самом деле, мы снова сделали что-то не так. Вместо языка в записи второго лауреата 1904 года записалась "причина" выдачи премии, а именно - "in recognition of the numerous and brilliant compositions which, in an individual and original manner, have revived the great traditions of the Spanish drama". Это означает, что вместо искомой колонки мы почему-то выдали следующую! Дело в том, что если в один год премия выдавалась нескольким людям, год пишется только для первого из них. Для остальных поля Year просто нет. Поэтому когда мы вынимаем поле по индексу N для таких записей, нам нужно вынимать поле с индексом N-1 (поля Year-то нет!). Теперь давайте обернем все наше новое знание об обработке дат в таблице, наличии лет, когда премия не вручалась, а также наличии лет, когда премия вручалась нескольким номинантам, в функцию:

Если мы пытаемся вынуть дату (первая колонка или нулевая в нотации Python), воспользуемся логикой с retained, которую мы реализовали выше. Если возникает IndexError, обработаем это с помощью try-except, а если в строке нет поля Year, будем вынимать N-1'ую запись вместо N'ой.

In [34]:
def get_column(table, column_number):
    column = []
    column.append(rows[0].find_all('th')[column_number-1].get_text().strip()) # заголовок
    for row in table[1:]:
        r = row.find_all('td') # находим все теги td для строки таблицы
        try:
            if r[0].get_text().strip() =='':
                if column_number-1==0:
                    column.append(retained)
                else:
                    column.append(r[column_number-2].get_text().strip())
            else:
                column.append(r[column_number-1].get_text().strip())
                retained = r[column_number-1].get_text().strip()
        except IndexError:
            column.append('No award this year')   
    return column

Теперь опробуем функцию на пятой колонке таблицы - языке произведений.

In [35]:
languages = get_column(rows,5)
languages

['Language(s)',
 'French',
 'German',
 'Norwegian',
 'Provençal',
 'Spanish',
 'Polish',
 'Italian',
 'English',
 'German',
 'Swedish',
 'German',
 'French',
 'German',
 'Bengali',
 'No award this year',
 'French',
 'Swedish',
 'Danish',
 'Danish',
 'No award this year',
 'German',
 'Norwegian',
 'French',
 'Spanish',
 'English',
 'Polish',
 'English',
 'Italian',
 'French',
 'Norwegian',
 'German',
 'English',
 'Swedish',
 'English',
 'Russian',
 'Italian',
 'No award this year',
 'English',
 'French',
 'English',
 'Finnish',
 'No award this year',
 'No award this year',
 'No award this year',
 'No award this year',
 'Danish',
 'Spanish',
 'German',
 'French',
 'English',
 'English',
 'English',
 'Swedish',
 'French',
 'English',
 'English',
 'Icelandic',
 'Spanish',
 'French',
 'Russian',
 'Italian',
 'French',
 'Serbo-Croatian',
 'English',
 'Greek',
 'French',
 'Russian',
 'Hebrew',
 'German',
 'Spanish',
 'Japanese',
 'English and French',
 'Russian',
 'Spanish',
 'German',
 'Engl

Теперь остается посчитать частоту для различных записей этого списка, но нужно не забыть отбросить заглушки и правильно посчитать частоты для атворов, писавших на нескольких языках. Для простоты, если автор, к примеру, писал на русском и английском, давайте посчитаем его дважды - в категорию "английский язык" и в категорию "русский язык". Для начала предлагаю превратить каждую запись в "список языков", на которых писал автор, выбросить заглушки и отбросить название поля(первую запись)

In [36]:
lang = [x.split(' and ') for x in languages[1:] if x!='No award this year']
lang

[['French'],
 ['German'],
 ['Norwegian'],
 ['Provençal'],
 ['Spanish'],
 ['Polish'],
 ['Italian'],
 ['English'],
 ['German'],
 ['Swedish'],
 ['German'],
 ['French'],
 ['German'],
 ['Bengali'],
 ['French'],
 ['Swedish'],
 ['Danish'],
 ['Danish'],
 ['German'],
 ['Norwegian'],
 ['French'],
 ['Spanish'],
 ['English'],
 ['Polish'],
 ['English'],
 ['Italian'],
 ['French'],
 ['Norwegian'],
 ['German'],
 ['English'],
 ['Swedish'],
 ['English'],
 ['Russian'],
 ['Italian'],
 ['English'],
 ['French'],
 ['English'],
 ['Finnish'],
 ['Danish'],
 ['Spanish'],
 ['German'],
 ['French'],
 ['English'],
 ['English'],
 ['English'],
 ['Swedish'],
 ['French'],
 ['English'],
 ['English'],
 ['Icelandic'],
 ['Spanish'],
 ['French'],
 ['Russian'],
 ['Italian'],
 ['French'],
 ['Serbo-Croatian'],
 ['English'],
 ['Greek'],
 ['French'],
 ['Russian'],
 ['Hebrew'],
 ['German'],
 ['Spanish'],
 ['Japanese'],
 ['English', 'French'],
 ['Russian'],
 ['Spanish'],
 ['German'],
 ['English'],
 ['Swedish'],
 ['Swedish'],
 ['Ita

Теперь нам осталось "распаковать" все списки в один и загрузить итоговый список в Counter. Для распаковки вложенных списков любой сложности можно использовать функцию flatten.

In [38]:
from collections import Counter
from matplotlib.cbook import flatten

Counter(list(flatten(lang))).most_common()

[('English', 30),
 ('French', 15),
 ('German', 14),
 ('Spanish', 11),
 ('Swedish', 7),
 ('Italian', 6),
 ('Russian', 6),
 ('Polish', 5),
 ('Norwegian', 3),
 ('Danish', 3),
 ('Greek', 2),
 ('Japanese', 2),
 ('Chinese', 2),
 ('Provençal', 1),
 ('Bengali', 1),
 ('Finnish', 1),
 ('Icelandic', 1),
 ('Serbo-Croatian', 1),
 ('Hebrew', 1),
 ('Yiddish', 1),
 ('Czech', 1),
 ('Arabic', 1),
 ('Portuguese', 1),
 ('Hungarian', 1),
 ('Turkish', 1)]

И такую же задачу мы можем с легкостью решить для жанров литературы. Это колонка номер 7. Но жанров литературы может быть несколько и разделены они запятой. Давайте добавим это в наше списковое включение

In [39]:
genres = get_column(rows,7)
s = [list(map(lambda x:x.strip(),x.split(','))) for x in genres[1:] if x!='No award this year']
Counter(list(flatten(s))).most_common()

[('novel', 75),
 ('poetry', 50),
 ('short story', 37),
 ('drama', 32),
 ('essay', 21),
 ('philosophy', 6),
 ('memoirs', 6),
 ('screenplay', 6),
 ('translation', 5),
 ('literary criticism', 4),
 ('history', 3),
 ('law', 1),
 ('philology', 1),
 ('music', 1),
 ('biography', 1),
 ('songwriting', 1)]

Большой map мне не очень нравится, поэтому сделать такую же штуку, можно, использовав регулярное выражение.

In [40]:
import re

s = [re.split(r'\s?,\s+',x) for x in genres[1:] if x!='No award this year']
Counter(list(flatten(s))).most_common()

[('novel', 75),
 ('poetry', 50),
 ('short story', 37),
 ('drama', 32),
 ('essay', 21),
 ('philosophy', 6),
 ('memoirs', 6),
 ('screenplay', 6),
 ('translation', 5),
 ('literary criticism', 4),
 ('history', 3),
 ('law', 1),
 ('philology', 1),
 ('music', 1),
 ('biography', 1),
 ('songwriting', 1)]