# Анализ сайта gismeteo.ru

Для выполнения итогового задания в качестве источника данных метеосводок был выбран сервис Дневник сайта Gismeteo.ru, в котором можно бесплатно получить исторические данные о погоде, начиная с 1997 года. Необходимо получить данные с 2008 по 2018 года включительно (последний год необходим для прогнозирования навигации на сезон).

todo: добавить список коммерческих ресурсов, с которых можно получить исторические данные и прогнозы на долгий срок

In [1]:
START_YEAR = 2008
END_YEAR = 2018

![Внешний вид сервиса Дневник от gismeteo](images/gismeteo_example.png)

После исполнения скрипта на загрузку данных из сайта автоматизированной информационной системы государственного мониторинга водных объектов Российской Федерации (далее - "АИС ГМВО") **src\preparation\scrape_water_level.py**, в **data\raw\water_posts_data.json** будет находиться словарь **{uid: наименование поста наблюдения}**. Наименования представлены в виде: *название водного объекта* - *название населённого пункта*

## Получение списка населённых пунктов с постами наблюдения

### Проверка и установка рабочей директории, должен быть корень проекта

In [2]:
%pwd

'C:\\Users\\Kuroha\\source\\repos_py\\bauman_final_project\\notebooks'

In [3]:
%cd ..

C:\Users\Kuroha\source\repos_py\bauman_final_project


### Загрузка списка постов

In [4]:
from src.utils import *

if not is_data_exists(DATA_POSTS_RAW, is_raw=True):
    print('Данные с постами наблюдения АИС ГМВО не были загружены. Пожалуйста, '
          'выполните скрипт src\preparation\scrape_water_level.py'
          'и попробуйте ещё раз.')
else:
    file_posts = open_file(DATA_POSTS_RAW, is_raw=True)
    posts = json.loads(file_posts)
print(len(posts))
posts  # основная переменная, в которой будет храниться вся информация о гидрологических постах

28


{'09386': 'р.Подкаменная Тунгуска - пос.Чемдальск',
 '09387': 'р.Подкаменная Тунгуска - с.Ванавара',
 '09388': 'р.Подкаменная Тунгуска - факт.Усть-Камо',
 '09389': 'р.Подкаменная Тунгуска - с.Байкит',
 '09390': 'р.Подкаменная Тунгуска - факт.Кузьмовка',
 '09392': 'р.Чуня - пос.Стрелка Чуня',
 '09393': 'р.Чуня - пос.Муторай',
 '09396': 'руч.Миханский - пос.Вельмо 2-е',
 '09397': 'р.Тея - пгт Тея',
 '09499': 'р.Бурная - пос.Бурный',
 '09523': 'р.Подкаменная Тунгуска - пос.Суломай',
 '09560': 'р.Вельмо - пос.Светлана',
 '09568': 'р.Вельмо - пос.Вельмо 2-е',
 '09403': 'р.Нижняя Тунгуска - д.Верхнекарелина',
 '09404': 'р.Нижняя Тунгуска - с.Подволошино',
 '09405': 'р.Нижняя Тунгуска - с.Преображенка',
 '09406': 'р.Нижняя Тунгуска - с.Ербогачен',
 '09408': 'р.Нижняя Тунгуска - пос.Кислокан',
 '09410': 'р.Нижняя Тунгуска - пгт Тура',
 '09413': 'р.Нижняя Тунгуска - пос.Учами',
 '09415': 'р.Нижняя Тунгуска - факт.Большой Порог',
 '09416': 'р.Непа - с.Токма',
 '09417': 'р.Непа - д.Ика',
 '09419'

### Создание набора с очищенными названиями населённых пунктов

In [5]:
#test_name = next(iter(posts.values()))  # р.Подкаменная Тунгуска - пос.Чемдальск
#test_name = posts['09388']  # р.Подкаменная Тунгуска - факт.Усть-Камо
test_name = posts['09415']  # р.Нижняя Тунгуска - факт.Большой Порог
test_name

'р.Нижняя Тунгуска - факт.Большой Порог'

In [6]:
import re

'''
Между видом и названием населённого пункта есть или точка, или пробел, используем [ \.]{1}
Учтено наличие в названии пункта пробела и тире
В БД gismeteo названия некоторых пунктов отличаются от таковых из сайта АИС ГМВО
'''
def clear_name(input_str):
    result = input_str.replace('Вельмо 2-е', 'Вельмо')
    result = result.replace('Стрелка Чуня', 'Стрелка-Чуня')
    result = result.replace('Большой порог', 'Большой Порог')
    result = re.search(r" - \w+[ \.]{1}([\w -]+)", result).group(1)
    return result

clear_name(test_name)

'Большой Порог'

In [7]:
for uid, name in posts.items():
    posts[uid] = {'name': name, 'clean_name': clear_name(name)}

posts

{'09386': {'name': 'р.Подкаменная Тунгуска - пос.Чемдальск',
  'clean_name': 'Чемдальск'},
 '09387': {'name': 'р.Подкаменная Тунгуска - с.Ванавара',
  'clean_name': 'Ванавара'},
 '09388': {'name': 'р.Подкаменная Тунгуска - факт.Усть-Камо',
  'clean_name': 'Усть-Камо'},
 '09389': {'name': 'р.Подкаменная Тунгуска - с.Байкит',
  'clean_name': 'Байкит'},
 '09390': {'name': 'р.Подкаменная Тунгуска - факт.Кузьмовка',
  'clean_name': 'Кузьмовка'},
 '09392': {'name': 'р.Чуня - пос.Стрелка Чуня', 'clean_name': 'Стрелка-Чуня'},
 '09393': {'name': 'р.Чуня - пос.Муторай', 'clean_name': 'Муторай'},
 '09396': {'name': 'руч.Миханский - пос.Вельмо 2-е', 'clean_name': 'Вельмо'},
 '09397': {'name': 'р.Тея - пгт Тея', 'clean_name': 'Тея'},
 '09499': {'name': 'р.Бурная - пос.Бурный', 'clean_name': 'Бурный'},
 '09523': {'name': 'р.Подкаменная Тунгуска - пос.Суломай',
  'clean_name': 'Суломай'},
 '09560': {'name': 'р.Вельмо - пос.Светлана', 'clean_name': 'Светлана'},
 '09568': {'name': 'р.Вельмо - пос.Вельм

### Создание списка с уникальными населёнными пунктами

In [8]:
names = set([x['clean_name'] for x in posts.values()])
names

{'Байкит',
 'Большой Порог',
 'Бурный',
 'Ванавара',
 'Вельмо',
 'Верхнекарелина',
 'Ербогачен',
 'Ика',
 'Кербо',
 'Кислокан',
 'Кузьмовка',
 'Муторай',
 'Непа',
 'Подволошино',
 'Преображенка',
 'Светлана',
 'Стрелка-Чуня',
 'Суломай',
 'Тембенчи',
 'Тея',
 'Токма',
 'Тура',
 'Усть-Камо',
 'Учами',
 'Чемдальск'}

In [9]:
print(f'Число постов: {len(posts)}\nЧисло уникальных пунктов: {len(names)}')

Число постов: 28
Число уникальных пунктов: 25


## Проверка наличия исторических метео-данных

С получением метео-данных есть 2 проблемы:
1. Не все населённые пункты представлены в списке городов.
2. В некоторых пунтах за период с 2008 по 2018 не велись наблюдения метео-данных. При попытке их получить сайт показывает сообщение:
> Наблюдения метео-данных в данный период не велись.

![Сообщение об ошибке](images/gismeteo_error.png)

Необходимо обнаружить проблемные населённые пункты.

### Получение списка населённых пунктов с gismeteo

После открытия https://www.gismeteo.ru/diary/ и выбора страны Россия и области Красноярский край происходит 3 GET запроса:
![GET запросы](images/gismeteo_requests.png)

1. https://www.gismeteo.ru/inform-service/63466572668a39754a9ddf4c8b3437b0/countries/?fr=sel  
Получение списка стран c ID и названиями.

2. https://www.gismeteo.ru/inform-service/63466572668a39754a9ddf4c8b3437b0/districts/?country=156&fr=sel  
Получения списка областей c ID и названиями. В параметре country указан ID выбранной страны (156 - Россия).

3. https://www.gismeteo.ru/inform-service/63466572668a39754a9ddf4c8b3437b0/cities/?district=301&fr=sel  
Получения списка городов c ID и названиями. В параметре district указан ID выбранной области (301 - Красноярский край, 303 - Иркутская область).

Во всех запросах **63466572668a39754a9ddf4c8b3437b0** - это стандартный api-токен, который не зависит от IP-адреса пользователя. Запросы возвращают данные в формате xml.
Учтём, что Подкаменная Тунгуска и Нижняя Тунгуска протекают в Красноярском крае и Иркутской области России, следовательно нужно запрашивать данные о пунктах в обоих субъектах.

In [10]:
from src.utils import get_url
import xmltodict

def get_cities(district):
    file_name = f'gismeteo_cities-{district}.xml'
    if is_data_exists(file_name, is_raw=True):
        cities = open_file(file_name, is_raw=True)
    else:
        url = f'https://www.gismeteo.ru/inform-service/63466572668a39754a9ddf4c8b3437b0/cities/?district={district}&fr=sel'
        r = get_url(url)
        cities = r.text
        write_data(file_name, data=cities, is_raw=True)
    cities = xmltodict.parse(cities)  # конвертация xml в dict
    # основные данные находятся в cities['document']['item']
    cities = cities['document']['item']
    return cities

cities = {}
target_districts = [301, 303]  # нужные области
cities_file_name = f'gismeteo_cities-{",".join([str(x) for x in target_districts])}.json'
if is_data_exists(cities_file_name, is_raw=True):
    cities = open_file(cities_file_name, is_raw=True)
    cities = json.loads(cities)
else:
    for district in target_districts:
        for city in get_cities(district):
            ''' Записи в xml выглядят таким образом:
            <item id="145181" n="Абалаково" country_id="156" country_name="Россия" 
                  district_id="303" district_name="Иркутская область" kind="T"/>
                Нужные атрибуты - это id и n (name, имя)
            '''
            cities[int(city['@id'])] = city['@n']
    write_data(cities_file_name, data=cities, is_raw=True)
    
len(cities)

2861

In [11]:
for city_id, name in cities.items():
    for uid, entry in posts.items():
        if entry['clean_name'] == name:
            posts[uid].update({'gismeteo_id': int(city_id)})

posts

{'09386': {'name': 'р.Подкаменная Тунгуска - пос.Чемдальск',
  'clean_name': 'Чемдальск',
  'gismeteo_id': 158155},
 '09387': {'name': 'р.Подкаменная Тунгуска - с.Ванавара',
  'clean_name': 'Ванавара',
  'gismeteo_id': 4036},
 '09388': {'name': 'р.Подкаменная Тунгуска - факт.Усть-Камо',
  'clean_name': 'Усть-Камо'},
 '09389': {'name': 'р.Подкаменная Тунгуска - с.Байкит',
  'clean_name': 'Байкит',
  'gismeteo_id': 3995},
 '09390': {'name': 'р.Подкаменная Тунгуска - факт.Кузьмовка',
  'clean_name': 'Кузьмовка',
  'gismeteo_id': 158143},
 '09392': {'name': 'р.Чуня - пос.Стрелка Чуня',
  'clean_name': 'Стрелка-Чуня',
  'gismeteo_id': 158151},
 '09393': {'name': 'р.Чуня - пос.Муторай',
  'clean_name': 'Муторай',
  'gismeteo_id': 158146},
 '09396': {'name': 'руч.Миханский - пос.Вельмо 2-е',
  'clean_name': 'Вельмо',
  'gismeteo_id': 157875},
 '09397': {'name': 'р.Тея - пгт Тея',
  'clean_name': 'Тея',
  'gismeteo_id': 157881},
 '09499': {'name': 'р.Бурная - пос.Бурный',
  'clean_name': 'Бурн

Посмотрим, сколько населённых пунктов их списка постов гидрологического контроля рек есть в базе gismeteo:

In [12]:
len(names), len(set([x['clean_name'] for x in posts.values() if 'gismeteo_id' in x.keys()]))

(25, 19)

Для 25 уникальных локаций пунктов наблюдений нашлось соответствие с 19 населёнными пунктами в Gismeteo.

### Реализация проверки наличия метео-данных

Получение исторических метео-данных происходит следующим образом:
1. Задаются все необходимые параметры - страна, область, город, месяц и год
2. Нажатие на кнопку Получить дневник выполняет перенаправление на url вида  
https://www.gismeteo.ru/diary/4036/2008/1/  
в котором:  
- **4036** - ID населённого пункта
- **2008** - год
- **1** - месяц без лидирующего нуля

Если данные о погоде за указанный период не были зафиксированы, то вместо дневника будет сообщение об отсутствии данных.

In [13]:
import os
from bs4 import BeautifulSoup

def get_gismeteo_page(city_id, year, month):
    file_name = os.path.join('gismeteo', str(city_id), f'{year}-{month:02d}.html')
    if is_data_exists(file_name, is_raw=True):
        weather = open_file(file_name, is_raw=True)
    else:
        url = f'https://www.gismeteo.ru/diary/{city_id}/{year}/{month}/'
        r = get_url(url)
        weather = r.text
        write_data(file_name, data=weather, is_raw=True)
    soup = BeautifulSoup(weather, 'lxml')
    if soup.find(class_='empty_phrase'):
        return None
    return soup

def check_gismeteo_page(city_id, year):
    return get_gismeteo_page(city_id, year, 1) is not None

Проверяем, есть ли за первый (2008) и последний год (2018) метео-данные у выбранных городов. Если у города нет соответствия с БД gismeteo, на конечный год у него нет данных, то изменяем его gismeteo_id на -1 для дальнейшей его замены на корректный город. Если на начальный год нет данных - добавляем ключ fallback_id, который будет использоваться для получения данных вместо основного id.

In [14]:
def get_bad_cities(print_info=False):
    result = []
    for uid, city in posts.items():
        if 'gismeteo_id' not in city.keys() or city['gismeteo_id'] == -1:
            if print_info:
                print(f'- {city["clean_name"]} нет в БД gismeteo')
            posts[uid].update({'gismeteo_id': -1})
            result.append(city)
        elif not check_gismeteo_page(city["gismeteo_id"], END_YEAR):
            if print_info:
                print(f'@ {city["clean_name"]} без метео-данных на {END_YEAR} год, нужна замена')
            posts[uid].update({'gismeteo_id': -1})
            result.append(city)
        elif not check_gismeteo_page(city["gismeteo_id"], START_YEAR):
            if 'fallback_id' in city.keys() and city['fallback_id'] != -1 \
                and check_gismeteo_page(city["fallback_id"], START_YEAR):
                if print_info:
                    print(f'+ {city["clean_name"]} имеет корректную подмену')
                continue
            if print_info:
                print(f'* {city["clean_name"]} без метео-данных на {START_YEAR} год, нужна подмена')
            posts[uid].update({'fallback_id': -1})
            result.append(city)
        elif print_info:
            print(f'+ {city["clean_name"]} имеет все необходимые метео-данные')
    return result

bad_cities = get_bad_cities(print_info=True)
print(f'Количество постов наблюдения с проблемными населёнными пунктами: {len(bad_cities)} пунктах')
posts

* Чемдальск без метео-данных на 2008 год, нужна подмена
+ Ванавара имеет все необходимые метео-данные
- Усть-Камо нет в БД gismeteo
+ Байкит имеет все необходимые метео-данные
* Кузьмовка без метео-данных на 2008 год, нужна подмена
* Стрелка-Чуня без метео-данных на 2008 год, нужна подмена
* Муторай без метео-данных на 2008 год, нужна подмена
* Вельмо без метео-данных на 2008 год, нужна подмена
* Тея без метео-данных на 2008 год, нужна подмена
* Бурный без метео-данных на 2008 год, нужна подмена
* Суломай без метео-данных на 2008 год, нужна подмена
- Светлана нет в БД gismeteo
* Вельмо без метео-данных на 2008 год, нужна подмена
- Верхнекарелина нет в БД gismeteo
* Подволошино без метео-данных на 2008 год, нужна подмена
* Преображенка без метео-данных на 2008 год, нужна подмена
+ Ербогачен имеет все необходимые метео-данные
* Кислокан без метео-данных на 2008 год, нужна подмена
+ Тура имеет все необходимые метео-данные
* Учами без метео-данных на 2008 год, нужна подмена
- Большой Порог

{'09386': {'name': 'р.Подкаменная Тунгуска - пос.Чемдальск',
  'clean_name': 'Чемдальск',
  'gismeteo_id': 158155,
  'fallback_id': -1},
 '09387': {'name': 'р.Подкаменная Тунгуска - с.Ванавара',
  'clean_name': 'Ванавара',
  'gismeteo_id': 4036},
 '09388': {'name': 'р.Подкаменная Тунгуска - факт.Усть-Камо',
  'clean_name': 'Усть-Камо',
  'gismeteo_id': -1},
 '09389': {'name': 'р.Подкаменная Тунгуска - с.Байкит',
  'clean_name': 'Байкит',
  'gismeteo_id': 3995},
 '09390': {'name': 'р.Подкаменная Тунгуска - факт.Кузьмовка',
  'clean_name': 'Кузьмовка',
  'gismeteo_id': 158143,
  'fallback_id': -1},
 '09392': {'name': 'р.Чуня - пос.Стрелка Чуня',
  'clean_name': 'Стрелка-Чуня',
  'gismeteo_id': 158151,
  'fallback_id': -1},
 '09393': {'name': 'р.Чуня - пос.Муторай',
  'clean_name': 'Муторай',
  'gismeteo_id': 158146,
  'fallback_id': -1},
 '09396': {'name': 'руч.Миханский - пос.Вельмо 2-е',
  'clean_name': 'Вельмо',
  'gismeteo_id': 157875,
  'fallback_id': -1},
 '09397': {'name': 'р.Тея 

## Замена населённых пунктов

Так как для некоторых населённых пунктов не нашлось соответствие с списоком gismeteo, а также на начало 2008 года не было метео-сводок по 23 постам наблюдения, то на отсутствующие периоды времени для полноты исходных данных необходимо определить им замену. Оптимальнее всего будет вместо отсутствующих пунктов использовать их административные центры, т.к. географически они близко расположены друг к другу, а также по центрам вероятнее всего будут исторические погодные данные. 

Для определения административных центров будет использован сайт Википедии, где на страницах с населёнными пунктами указан муниципальный район, к которому он принадлежит, а на странице с этим районом - административный центр.

In [15]:
def get_wiki_page(page_name):
    file_name = os.path.join('wiki', f'{page_name}.html')
    if is_data_exists(file_name, is_raw=True):
        wiki = open_file(file_name, is_raw=True)
    else:
        url = f'https://ru.wikipedia.org/wiki/{page_name}'
        r = get_url(url)
        wiki = r.text
        write_data(file_name, data=wiki, is_raw=True)
    return BeautifulSoup(wiki, 'lxml')

In [34]:
def fix_bad_cities():
    bad_cities = get_bad_cities()
    print(f'Количество постов наблюдения с проблемными населёнными пунктами: {len(bad_cities)} пунктах')
    for city in bad_cities:
        try:
            def get_district(page):
                wiki = get_wiki_page(page)
                district = wiki.find('a', string="Муниципальный район")
                if not district:
                    if 'wiki_page' in city.keys() and page != city['wiki_page']:
                        print(f"? пробуем {city['clean_name']} открыть как {city['wiki_page']}")
                        return get_district(city['wiki_page'])
                return district
            
            city_name = city['clean_name']
            district = get_district(city_name)
            if not district:
                print('- https://ru.wikipedia.org/wiki/' + city_name.replace(' ', '_'))
                continue

            district = district.parent.parent.find('td').find('a')['title']  # поиск строки с названием района
            print(f'+ {city_name} ({district})', end='')
            wiki = get_wiki_page(district)
            admin_town = wiki.find('th', string="Адм. центр")
            if not admin_town:
                print(f'\nАдминистративный центр для {city_name} ({district}) не обнаружен')
                continue
            admin_town = admin_town.parent.find('a').text
            admin_town = admin_town.replace('ё', 'е')  # в БД gismeteo нет букв Ё
            print(f' ==> {admin_town}', end='')
            admin_town_id = next((city_id for city_id, name in cities.items() if name == admin_town))
            admin_town_id = int(admin_town_id)
            print(f' ==> {int(admin_town_id)}', end='')
            for uid, item in posts.items():
                if item['clean_name'] == city_name and item['gismeteo_id'] != admin_town_id \
                    and ('fallback_id' not in item.keys() or item['fallback_id'] != admin_town_id):
                    print(f' ==> исправлено! ', end='')
                    if item['gismeteo_id'] == -1:
                        posts[uid].update({'gismeteo_id': admin_town_id})
                        print(f'Сделана замена')
                    else:
                        posts[uid].update({'fallback_id': admin_town_id})
                        print(f'Сделана подмена')
                    break
            
        except requests.exceptions.HTTPError:
            # Википедия даёт 404 статус на отсутствующие статьи, игнорируем
            print(f'Статья {city} не найдена')
            print('- https://ru.wikipedia.org/wiki/' + city)
            continue

fix_bad_cities()
print(f'Число проблемных населённых пунктов после исправления: {len(get_bad_cities())}')
posts

Количество постов наблюдения с проблемными населёнными пунктами: 0 пунктах
Число проблемных населённых пунктов после исправления: 0


{'09386': {'name': 'р.Подкаменная Тунгуска - пос.Чемдальск',
  'clean_name': 'Чемдальск',
  'gismeteo_id': 158155,
  'fallback_id': 4015},
 '09387': {'name': 'р.Подкаменная Тунгуска - с.Ванавара',
  'clean_name': 'Ванавара',
  'gismeteo_id': 4036},
 '09388': {'name': 'р.Подкаменная Тунгуска - факт.Усть-Камо',
  'clean_name': 'Усть-Камо',
  'gismeteo_id': 4015},
 '09389': {'name': 'р.Подкаменная Тунгуска - с.Байкит',
  'clean_name': 'Байкит',
  'gismeteo_id': 3995},
 '09390': {'name': 'р.Подкаменная Тунгуска - факт.Кузьмовка',
  'clean_name': 'Кузьмовка',
  'gismeteo_id': 158143,
  'fallback_id': 4015,
  'wiki_page': 'Кузьмовка_(Красноярский_край)'},
 '09392': {'name': 'р.Чуня - пос.Стрелка Чуня',
  'clean_name': 'Стрелка-Чуня',
  'gismeteo_id': 158151,
  'fallback_id': 4015},
 '09393': {'name': 'р.Чуня - пос.Муторай',
  'clean_name': 'Муторай',
  'gismeteo_id': 158146,
  'fallback_id': 4015},
 '09396': {'name': 'руч.Миханский - пос.Вельмо 2-е',
  'clean_name': 'Вельмо',
  'gismeteo_id'

Некоторые проблемные страницы открывают список страниц с похожими названиями.

![Несколько вариантов страниц в Википедии](images/wiki_variants.png)

В таких случаях необходимо вручную задать верную страницу на Википедии.

In [28]:
for uid, item in posts.items():
    new_name = item['clean_name']
    # Бакланиха  - ближайший к реке Большой порог населённый пункт
    new_name = new_name.replace('Большой Порог', 'Бакланиха_(Красноярский_край)')
    new_name = new_name.replace('Бурный', 'Бурный_(Эвенкийский_район)')
    new_name = new_name.replace('Вельмо', 'Вельмо_(посёлок)')
    new_name = new_name.replace('Кузьмовка', 'Кузьмовка_(Красноярский_край)')
    new_name = new_name.replace('Подволошино', 'Подволошино_(Иркутская_область)')
    new_name = new_name.replace('Преображенка', 'Преображенка_(Катангский район)')
    new_name = new_name.replace('Светлана', 'Вельмо_(посёлок)')
    new_name = new_name.replace('Тембенчи', 'Тура_(Красноярский_край)')
    new_name = new_name.replace('Тея', 'Тея_(Северо-Енисейский_район)')
    new_name = new_name.replace('Учами', 'Учами_(Полигусовский_сельсовет)')
    new_name = new_name.replace('Ика', 'Ика_(село)')
    new_name = new_name.replace('Непа', 'Непа_(село)')
    if item['clean_name'] != new_name:
        print(f"{item['clean_name']} заменилось на {new_name}")
        posts[uid].update({'wiki_page': new_name})

Кузьмовка заменилось на Кузьмовка_(Красноярский_край)
Вельмо заменилось на Вельмо_(посёлок)
Тея заменилось на Тея_(Северо-Енисейский_район)
Бурный заменилось на Бурный_(Эвенкийский_район)
Светлана заменилось на Вельмо_(посёлок)
Вельмо заменилось на Вельмо_(посёлок)
Подволошино заменилось на Подволошино_(Иркутская_область)
Преображенка заменилось на Преображенка_(Катангский район)
Учами заменилось на Учами_(Полигусовский_сельсовет)
Большой Порог заменилось на Бакланиха_(Красноярский_край)
Ика заменилось на Ика_(село)
Тембенчи заменилось на Тура_(Красноярский_край)
Большой Порог заменилось на Бакланиха_(Красноярский_край)
Непа заменилось на Непа_(село)


Повторно найдём замену для проблемных городов:

In [35]:
fix_bad_cities()
print(f'Число проблемных населённых пунктов после исправления: {len(get_bad_cities())}')

Количество постов наблюдения с проблемными населёнными пунктами: 0 пунктах
Число проблемных населённых пунктов после исправления: 0


Теперь для всех постов наблюдения можно получить полные метео-данные за указанный период.

## Получение и сохранение метео-данных

In [None]:
'''
[0]      |             день               |            вечер               |
[1] число|темп.|давл.|облач.|явления|ветер|темп.|давл.|облач.|явления|ветер|
   ------------------------------------------------------------------------
[2]   1  | -15 | 732
   -----------------
'''
def process_row(row):
    cells = row.find_all('td')
    day = int(cells[0].text)
    temperature = int(cells[1].text)
    pressure = int(cells[2].text)
    
    # 3 cloud
    cloud = 'unknown'
    url_cloud = cells[3].find('img')
    if url_cloud is not None:
        url_cloud = url_cloud['src']  # //st6.gismeteo.ru/static/diary/img/dull.png
        cloud = re.search(r"diary/img/(\w+).png", url_cloud).group(1)
        
    # 4 weather
    weather = 'clear'
    url_weather = cells[4].find('img')
    if url_weather is not None:
        url_weather = url_weather['src'] # //st6.gismeteo.ru/static/diary/img/snow.png
        weather = re.search(r"diary/img/(\w+).png", url_cloud).group(1)
    
    # 5 wind
    if cells[5].text == 'Ш':  # штиль
        day_wind_spd, day_wind_dir = 0, 'Ш'
    else:
        wind_info = re.search(r"(\w+) (\d+)", cells[5].text)
        day_wind_dir = wind_info.group(1)
        day_wind_spd = int(wind_info.group(2))
    # в реальных прогнозах погоды даётся 1 прогноз на весь день, без разделения по часам или времени суток
    
    return (day, temperature, pressure, cloud, weather, day_wind_spd, day_wind_dir)
    #print(type(day), type(temperature), type(pressure), type(cloud), type(weather), type(day_wind_spd), type(day_wind_dir))
    

table = soup.find('table')
rows = table.find_all('tr')
rows = rows[2:]  # убрать шапку таблицы

result = process_row(rows[2])
result

In [None]:
start_year = 2008
end_year = 2018