# Обработка таблиц на сайтах
1. Соберём множество страниц сайта;
2. считаем таблицу с информацией с каждой страницы;
3. найдём минимум и максимум зарплат для каждого города за каждый год.

Для начала обратим внимание на то, что мы постоянно скачиваем страницу, настраиваем кодировку и обращаемся к ``BeautifulSoup``. Вынесем эти обращения в отдельную функцию:

In [2]:
def get_soup_by_url(current_url):
    page = requests.get(current_url)      # Загрузим страницу
    page.encoding = 'utf-8'               # Поставим верную кодировку
    soup = BeautifulSoup(page.text)       # Распознаем HTML-код
    return soup

Узнаем адреса всех страниц сайта, для этого:
1. создадим множество, где мы будем сохранять адреса страниц,
2. пока у нас есть адрес очередной страницы:
    1. будем скачивать очередную страницу,
    2. добавлять её адрес в множество,
    3. искать в коде очередной страницы ссылку на новую страницу, и если такой нет:
        * остановим цикл, так как мы дошли до конца сайта,
    4. (если нашли новую ссылку) обновим адрес очередной страницы и вернёмся к началу цикла,

3. в конце программы выведем список найденных адресов.

In [12]:
soup.find('a', text='предыдущий')

In [14]:
from bs4 import BeautifulSoup
import requests

base_url = 'https://online.hse.ru/python-as-foreign/2/'
current_page = ''
current_url = base_url + current_page

urls = set()
while True:
    print(f'Ищем новую ссылку на странице {current_url}')
    soup = get_soup_by_url(current_url)

    urls.add(current_url)   # Добавим адрес открытой страницы в множество адресов
    
    next_link = soup.find('a', text='предыдущий')   # Найдём тег с адресом новой страницы
    if next_link == None:                 # Если ссылки на новую страницу нет
        break                         # — закончим поиск страниц, выйдя из цикла
    new_page = next_link.get('href')  # Узнаем из этого тега адрес
    current_url = base_url + new_page # Подготовимся загружать новую страницу

for link in urls:   # Выведем адреса всех страниц сайта
    print(link)
    
#None, NoneType, NaN = not a number    

Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2018.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2017.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2016.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2015.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2014.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2013.html
https://online.hse.ru/python-as-foreign/2/2016.html
https://online.hse.ru/python-as-foreign/2/2013.html
https://online.hse.ru/python-as-foreign/2/
https://online.hse.ru/python-as-foreign/2/2015.html
https://online.hse.ru/python-as-foreign/2/2014.html
https://online.hse.ru/python-as-foreign/2/2018.html
https://online.hse.ru/python-as-foreign/2/2017.html


In [6]:
type(soup.find('a', text='предыдущий'))

NoneType

Научимся разбирать HTML-код таблицы и создавать на её основе словарь. Попробуем найти таблицу и вывести HTML-код всех её строк:

In [15]:
from bs4 import BeautifulSoup
import requests

url = 'https://online.hse.ru/python-as-foreign/2/'

print(f'Распознаём таблицу на странице {url}:')
soup = get_soup_by_url(url)      

s = soup.find('table')      # Найдём таблицу на странице
for tr in s.find_all('tr'): # Для каждой из найденных строк таблицы
    print(tr)               # выведем код строки

Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/:
<tr>
<th>Субъект федерации</th>
<th>Январь</th>
<th>Февраль</th>
<th>Март</th>
<th>Апрель</th>
<th>Май</th>
<th>Июнь</th>
<th>Июль</th>
<th>Август</th>
<th>Сентябрь</th>
<th>Октябрь</th>
<th>Ноябрь</th>
<th>Декабрь</th>
</tr>
<tr>
<td>Москва</td>
<td>79680</td>
<td>85370</td>
<td>95179</td>
<td>102907</td>
<td>89045</td>
<td>96030</td>
<td>91607</td>
<td>86733</td>
<td>86684</td>
<td>89129</td>
<td>88657</td>
<td>135375</td>
</tr>
<tr>
<td>Санкт-Петербург</td>
<td>56586</td>
<td>58625</td>
<td>64413</td>
<td>63555</td>
<td>60752</td>
<td>65286</td>
<td>63207</td>
<td>59249</td>
<td>60205</td>
<td>62224</td>
<td>61141</td>
<td>83582</td>
</tr>
<tr>
<td>Нижний Новгород</td>
<td>32998</td>
<td>32041</td>
<td>34735</td>
<td>35952</td>
<td>35355</td>
<td>36656</td>
<td>34646</td>
<td>33909</td>
<td>34012</td>
<td>34867</td>
<td>35876</td>
<td>48768</td>
</tr>
<tr>
<td>Пермь</td>
<td>34035</td>
<td>33932</td>
<td>3691

Обратим внимание, что нас интересуют только строки таблицы с данными, т.е. строки с тегами `td`, а не `th`. Извлечём код всех ячеек с данными (тегов `td`):

In [16]:
from bs4 import BeautifulSoup
import requests

url = 'https://online.hse.ru/python-as-foreign/2/'

print(f'Распознаём таблицу на странице {url}:')
soup = get_soup_by_url(url)      

s = soup.find('table')      
for tr in s.find_all('tr'):         # Внутри каждой строки таблицы
    for td in tr.find_all('td'):    # Для каждой из найденных ячеек с данными
        print(td)                   # выведем HTML-код ячейки

Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/:
<td>Москва</td>
<td>79680</td>
<td>85370</td>
<td>95179</td>
<td>102907</td>
<td>89045</td>
<td>96030</td>
<td>91607</td>
<td>86733</td>
<td>86684</td>
<td>89129</td>
<td>88657</td>
<td>135375</td>
<td>Санкт-Петербург</td>
<td>56586</td>
<td>58625</td>
<td>64413</td>
<td>63555</td>
<td>60752</td>
<td>65286</td>
<td>63207</td>
<td>59249</td>
<td>60205</td>
<td>62224</td>
<td>61141</td>
<td>83582</td>
<td>Нижний Новгород</td>
<td>32998</td>
<td>32041</td>
<td>34735</td>
<td>35952</td>
<td>35355</td>
<td>36656</td>
<td>34646</td>
<td>33909</td>
<td>34012</td>
<td>34867</td>
<td>35876</td>
<td>48768</td>
<td>Пермь</td>
<td>34035</td>
<td>33932</td>
<td>36919</td>
<td>37721</td>
<td>38887</td>
<td>40614</td>
<td>37150</td>
<td>37067</td>
<td>36948</td>
<td>37773</td>
<td>37986</td>
<td>52684</td>


Можно заметить, что все ячейки с данными можно разделить на два типа:
1. ячейки с названием города, к которому относится строка таблицы;
2. многих ячеек с числами.

Научимся превращать таблицу в словарь, где ключами будут названия городов, а значениями — списки чисел, для этого:
1. найдём на странице таблицу
2. для каждой её строки
    * переберём все ячейки с данными, и для каждой ячейки:
        1. если она состоит не только из цифр:
            * создадим ключ в словаре, так как мы нашли ячейку с названием города,
        2. иначе (если она состоит только из цифр):
            * добавим число из ячейки в список данных соответствующего города.

In [17]:
from bs4 import BeautifulSoup
import requests

url = 'https://online.hse.ru/python-as-foreign/2/'

print(f'Распознаём таблицу на странице {url}')
soup = get_soup_by_url(url)      

table = {}                  # Создадим пустой словарь для хранения таблицы
s = soup.find('table')      
for tr in s.find_all('tr'): 
    for td in tr.find_all('td'):  
        if not td.text.isdigit():   # Если в ячейке есть не только цифры — 
            city = td.text          # это название города
            table[city] = []        # Создадим новый город в таблице
        else:                       # Если в ячейке только цифры — 
            table[city].append(int(td.text))
            # Добавим число из ячейки в список со статистикой города

for city in table:
    print(f'{city}: {table[city]}')

Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/
Москва: [79680, 85370, 95179, 102907, 89045, 96030, 91607, 86733, 86684, 89129, 88657, 135375]
Санкт-Петербург: [56586, 58625, 64413, 63555, 60752, 65286, 63207, 59249, 60205, 62224, 61141, 83582]
Нижний Новгород: [32998, 32041, 34735, 35952, 35355, 36656, 34646, 33909, 34012, 34867, 35876, 48768]
Пермь: [34035, 33932, 36919, 37721, 38887, 40614, 37150, 37067, 36948, 37773, 37986, 52684]


Таблица распознана. Выделим код таблицы в функцию, которая будет принимать ``soup`` с найденной таблицей, а возвращать словарь списков:

In [19]:
# Эта функция принимает только один параметр — BeautifulSoup для таблицы
def parse_table_to_dict(s):
    table = {}    
    for tr in s.find_all('tr'): 
        for td in tr.find_all('td'): 
            if not td.text.isdigit(): 
                city = td.text
                table[city] = [] 
            else:
                table[city].append(int(td.text))
    return table      # Вернём полученную таблицу в основную программу

Проверим, что функция работает, заменив в уже написанной программе распознание таблицы на вызов функции `parse_table_to_dict()`: 

In [20]:
from bs4 import BeautifulSoup
import requests

url = 'https://online.hse.ru/python-as-foreign/2/'

print(f'Распознаём таблицу на странице {url}')
soup = get_soup_by_url(url)      
table_soup = soup.find('table') 

table = parse_table_to_dict(table_soup)     

for city in table:
    print(f'{city}: {table[city]}')

Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/
Москва: [79680, 85370, 95179, 102907, 89045, 96030, 91607, 86733, 86684, 89129, 88657, 135375]
Санкт-Петербург: [56586, 58625, 64413, 63555, 60752, 65286, 63207, 59249, 60205, 62224, 61141, 83582]
Нижний Новгород: [32998, 32041, 34735, 35952, 35355, 36656, 34646, 33909, 34012, 34867, 35876, 48768]
Пермь: [34035, 33932, 36919, 37721, 38887, 40614, 37150, 37067, 36948, 37773, 37986, 52684]


Распознаем таблицы на всех страницах сайта, для чего пройдём по всем адресам из уже найденного нами множества `urls`:

In [21]:
from bs4 import BeautifulSoup
import requests

for url in urls:
    print(f'Распознаём таблицу на странице {url}')
    soup = get_soup_by_url(url)      
    table_soup = soup.find('table') 

    table = parse_table_to_dict(table_soup)     

    for city in table:
        print(f'{city}: {table[city]}')

Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/2016.html
Москва: [60162, 67092, 70551, 74733, 69772, 73215, 69015, 68728, 66920, 67025, 67899, 98436]
Санкт-Петербург: [42104, 45919, 48407, 46919, 47370, 50521, 48483, 46084, 47192, 47908, 48591, 65086]
Нижний Новгород: [24959, 26241, 26731, 27673, 28570, 29323, 26889, 27163, 28040, 27481, 28717, 37262]
Пермь: [27347, 27883, 29344, 29732, 30391, 31992, 30433, 30025, 30168, 29914, 30389, 40244]
Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/2013.html
Москва: [48817, 49587, 55049, 59134, 54223, 58548, 58039, 53349, 52893, 54355, 54882, 76238]
Санкт-Петербург: [32618, 33117, 36375, 36296, 36320, 38745, 37333, 35861, 37068, 37367, 38720, 51019]
Нижний Новгород: [20429, 21122, 22179, 23228, 23740, 24356, 23421, 23096, 23118, 23888, 24376, 32455]
Пермь: [21780, 21474, 22901, 24140, 24240, 25733, 24501, 24127, 24174, 24606, 24684, 34898]
Распознаём таблицу на странице https://online.hse.ru/pyt

Наконец, посчитаем минимальную и максимальную зарплату для каждого города во всех таблицах:

In [22]:
from bs4 import BeautifulSoup
import requests

for url in urls:
    print(f'Распознаём таблицу на странице {url}')
    soup = get_soup_by_url(url)      
    table_soup = soup.find('table') 

    year = soup.find('b').text    # Найдём год на странице. Он единственный выделен тегом b
    print(f'В {year} году:')

    table = parse_table_to_dict(table_soup)     

    for city in table:
        print(f'{city}: максимальная зарплата {max(table[city])}')
        print(f'{city}: минимальная зарплата {min(table[city])}')

Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/2016.html
В 2016 году:
Москва: максимальная зарплата 98436
Москва: минимальная зарплата 60162
Санкт-Петербург: максимальная зарплата 65086
Санкт-Петербург: минимальная зарплата 42104
Нижний Новгород: максимальная зарплата 37262
Нижний Новгород: минимальная зарплата 24959
Пермь: максимальная зарплата 40244
Пермь: минимальная зарплата 27347
Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/2013.html
В 2013 году:
Москва: максимальная зарплата 76238
Москва: минимальная зарплата 48817
Санкт-Петербург: максимальная зарплата 51019
Санкт-Петербург: минимальная зарплата 32618
Нижний Новгород: максимальная зарплата 32455
Нижний Новгород: минимальная зарплата 20429
Пермь: максимальная зарплата 34898
Пермь: минимальная зарплата 21474
Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/
В 2019 году:
Москва: максимальная зарплата 135375
Москва: минимальная зарплата 79680
Санкт-Петербу

Итоговая программа этого блокнота:

In [23]:
def get_soup_by_url(current_url):
    page = requests.get(current_url)      # Загрузим страницу
    page.encoding = 'utf-8'               # Поставим верную кодировку
    soup = BeautifulSoup(page.text)       # Распознаем HTML-код
    return soup                           # Вернём готовый к использованию код

# Эта функция принимает только один параметр — BeautifulSoup для таблицы
def parse_table_to_dict(s):
    table = {}                          # Создадим пустой словарь для хранения таблицы
    for tr in s.find_all('tr'):         # Внутри каждой строки таблицы
        for td in tr.find_all('td'):    # Для каждой из найденных ячеек с данными
            if not td.text.isdigit():   # Если в ячейке есть не только цифры — 
                city = td.text          # это название города
                table[city] = []        # Создадим новый город в таблице
            else:                       # Если в ячейке только цифры — 
                table[city].append(int(td.text))
                      # Добавим число из ячейки в список со статистикой города
    return table      # Вернём полученный словарь списков в основную программу

from bs4 import BeautifulSoup
import requests

base_url = 'https://online.hse.ru/python-as-foreign/2/' # Сохраним общий для всех страниц адрес
current_page = ''
current_url = base_url + current_page

urls = set()    # Создадим множество, где будем хранить адреса всех страниц сайта
while True:
    print(f'Ищем новую ссылку на странице {current_url}')
    soup = get_soup_by_url(current_url)

    urls.add(current_url)   # Добавим адрес открытой страницы в множество адресов
    
    next_link = soup.find('a', text='предыдущий')   # Найдём тег с адресом новой страницы
    if not next_link:                 # Если ссылки на новую страницу нет
        break                         # — закончим поиск страниц, выйдя из цикла
    new_page = next_link.get('href')  # Узнаем из этого тега адрес
    current_url = base_url + new_page # Подготовимся загружать новую страницу

for url in urls:
    print(f'Распознаём таблицу на странице {url}')
    soup = get_soup_by_url(url)      
    table_soup = soup.find('table') 

    year = soup.find('b').text    # Найдём год на странице. Он единственный выделен тегом b
    print(f'В {year} году:')

    table = parse_table_to_dict(table_soup)     

    for city in table:
        print(f'{city}: максимальная зарплата {max(table[city])}')
        print(f'{city}: минимальная зарплата {min(table[city])}')

Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2018.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2017.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2016.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2015.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2014.html
Ищем новую ссылку на странице https://online.hse.ru/python-as-foreign/2/2013.html
Распознаём таблицу на странице https://online.hse.ru/python-as-foreign/2/2016.html
В 2016 году:
Москва: максимальная зарплата 98436
Москва: минимальная зарплата 60162
Санкт-Петербург: максимальная зарплата 65086
Санкт-Петербург: минимальная зарплата 42104
Нижний Новгород: максимальная зарплата 37262
Нижний Новгород: минимальная зарплата 24959
Пермь: максимальная зарплата 40244
Пермь: минимальная зарплата 27347
Распознаём таблицу на