# Аналіз ситуації з доступністю шкіл Подільського району м. Києва

Імпорт необхідних модулів:

In [238]:
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
import geopandas as gpd
from shapely.geometry import Point
from geopy.geocoders import GoogleV3
from ipywidgets import IntProgress
from IPython.display import display
import requests
import re

<h2>1. Підготовка датасету до роботи</h2>

Парсимо html-таблицю з прив'язками будинків до шкіл:

In [239]:
table = pd.read_html('./html/Sheet2.html')[0].drop(columns=['D','Unnamed: 0']).dropna()

Правимо помилки в назвах вулиць:

In [240]:
errors = {
    'вул. Пиритсько-Микільська' : 'вул. Притисько-Микільська',
    'вул. Н. Юрківська' : 'вул. Нижньоюрківська',
    'пров.' : 'провулок'
    }
table.B.replace(to_replace=errors, inplace=True, regex=True)
table.B[table.C[table.C == '17/18/а'].index] = 'вул. Борисоглібська'

Правимо помилки в номерах будинків:

In [241]:
errors = {
    '1315':'13','ОСбб':'','асек.1':'а секція 1',
    'асек.2':'а',' ЖБК':'','бб':'б','34аб':'34б',
    '/а':'а'
    }
table.C.replace(to_replace=errors, inplace=True, regex=True)
table = table[~table.C.str.contains('»|!')]

Зберігаємо готовий до роботи датасет у файл <b>clean_original_dataset.csv</b>:

In [242]:
table.to_csv('./csv/clean_original_dataset.csv')
table.head()

Unnamed: 0,A,B,C
0,ЗЗСО №2,вул. Кирилівська,117
1,ЗЗСО №2,вул. Кирилівська,119/1
2,ЗЗСО №2,вул. Кирилівська,121/2
3,ЗЗСО №2,вул. Кирилівська,123
4,ЗЗСО №2,вул. Кирилівська,127


<h2>2. Отримання адрес загальноосвітніх шкіл Подільського району</h2>

Читаємо підготовлений датасет:

In [243]:
table = pd.read_csv('./csv/clean_original_dataset.csv')

Парсимо адреси шкіл Подільського району м. Києва з офіційного державного сайту:

In [244]:
r = requests.get('https://kv.isuo.org/authorities/schools-list/id/771')
school_adress = pd.read_html(r.content, header=0)[0][['Скорочена', 'Адреса']]
school_adress.head()

Unnamed: 0,Скорочена,Адреса
0,В(З)СШ №27,"Україна, м.Київ, Подільський район, пров. Цимл..."
1,В(з)ш№2,"Україна, м.Київ, Подільський район, вул. Гречк..."
2,"Гімназія № 257 ""Синьоозерна""","Україна, м.Київ, Подільський район, просп. Г. ..."
3,"Гімназія №19 ""Межигірська""","Україна, м.Київ, Подільський район, вул. Межиг..."
4,"Гімназія №34 ""Либідь"" ім. Віктора Максименка","Україна, м.Київ, Подільський район, вул. Межов..."


Видаляємо "особливі" (інтернати, реабілітаційні, військові, приватні) школи із дата-фрейму:

In [245]:
special_schools = ['В\(З\)СШ', 'В\(з\)ш',
                   'зсш\-і', 'КЗНЗ', 'НВК',
                   'ШДС', 'ТОВ', 'інтернат']
school_adress = school_adress[~school_adress['Скорочена'].str.contains('|'.join(special_schools))]

Правимо помилки у адресах шкіл:

In [246]:
errors = {
    '-і':'і','-А':' А',
    '8038500000':'м.Київ, Подільський район'
}
school_adress["Адреса"].replace(to_replace=errors, inplace=True, regex=True)

Генеруємо словник із пар назв шкіл та адрес шкіл:

In [247]:
def school_name_adress(School_names, School_adresses):
    for name_names in School_names:
        try:
            number_names = re.findall(r'\d+', name_names)[0]
            for name_adresses in School_adresses.values:
                try:
                    number_adresses = re.findall(r'\d+', name_adresses[0])[0]
                    if number_adresses == number_names:
                        yield name_names, name_adresses[1]
                except:
                    pass
        except:
            print('''Назви шкіл Подільського району, що приймають учнів за місцем 
            реєстрації повинні містити їх номер''')
            break

school_name_adress = dict(school_name_adress(table['A'].unique(), school_adress))

Створюємо дата-фрейм із адресами будинків та їх шкіл за місцем реєстрації, зберігаємо у файл <b>adresses.csv</b>:

In [249]:
data = pd.DataFrame(
       {'Адреса будинку': ['Україна, м.Київ, Подільський район, {}, {}'.format(
                           table['B'].values[i], table['C'].values[i]) \
                           for i in range(0, len(table['B'].values))], 
        'Адреса школи': [school_name_adress[i] for i in table['A'].values]})
data.to_csv('./csv/adresses.csv')
data.head()

Unnamed: 0,Адреса будинку,Адреса школи
0,"Україна, м.Київ, Подільський район, вул. Кирил...","Україна, м.Київ, Подільський район, вул. Копил..."
1,"Україна, м.Київ, Подільський район, вул. Кирил...","Україна, м.Київ, Подільський район, вул. Копил..."
2,"Україна, м.Київ, Подільський район, вул. Кирил...","Україна, м.Київ, Подільський район, вул. Копил..."
3,"Україна, м.Київ, Подільський район, вул. Кирил...","Україна, м.Київ, Подільський район, вул. Копил..."
4,"Україна, м.Київ, Подільський район, вул. Кирил...","Україна, м.Київ, Подільський район, вул. Копил..."


<h2>3. Геокодинг адрес за допомогою Google Maps API</h2>

Вписуємо свій <b>Google API-ключ</b>:

In [250]:
key="AIzaSyCb3-WPT8owwRNSLhzwBXII9FMjPGzVlv0"

<h3>3.1 Геокодинг адрес будинків</h3>

Читаємо дата-сет з адресами будинків:

In [251]:
data = pd.read_csv('./csv/adresses.csv')['Адреса будинку']

Заради захисту від втрати даних, краще відразу записувати їх у файл, аніж спершу додавати до pandas.DataFrame.
Тому спочатку створюємо функцію, що почергово питає у Google координати будинків та додає їх у ітератор файлу:

In [233]:
def writeCoordinates(series, file, progress):
    geolocator = GoogleV3(api_key=key, timeout=20)
    for adress in series.values:
        point = geolocator.geocode(adress)
        lat = np.round(point.latitude, decimals=7)
        lng = np.round(point.longitude, decimals=7)
        file.write('{},{},{}\n'.format(progress, lat, lng))
        progress += 1
        progress_bar.value = progress

Тепер створюємо ітератор файлу, що приймає значення із функції.
Якщо станеться помилка - в файл буде записано вже одержані координати, що дозволить легко поновитись з місця зупинки.

In [237]:
progress_bar = IntProgress(min=0, max=len(data.values))
display(progress_bar)
with open('./csv/houses_coords.csv', 'w') as houses_coords:
    houses_coords.write(',Широта будинку,Довгота будинку\n')
    progress = 0
    writeCoordinates(data, houses_coords, progress)

IntProgress(value=0, max=960)

<h3>3.2 Геокодинг адрес шкіл</h3>

Читаємо дата-сет з адресами шкіл:

In [252]:
schools_adresses = pd.read_csv('adresses.csv')['Адреса школи']

Генеруємо словник із пар <b>унікальних</b> адрес шкіл та їх координат:

In [253]:
def getCoordinates(series):
    geolocator = GoogleV3(api_key=key, timeout=20)
    progress = 0
    for adress in series:
        point = geolocator.geocode(adress)
        lat = np.round(point.latitude, decimals=7)
        lng = np.round(point.longitude, decimals=7)
        progress += 1
        yield '{},{}'.format(lat, lng)
unique_adresses = schools_adresses.unique()
adress_coord = dict(zip(unique_adresses, list(getCoordinates(unique_adresses))))

Зберігаємо координати шкіл у файл <b>schools_coords.csv</b>:

In [254]:
progress_bar = IntProgress(min=0, max=len(schools_adresses.values))
display(progress_bar)
with open('./csv/schools_coords.csv', 'w') as schools_coords:
    schools_coords.write(',Широта школи,Довгота школи\n')
    progress = 0
    for adress in schools_adresses.values:
        row = '{},{}\n'.format(progress, adress_coord[adress])
        schools_coords.write(row)
        progress += 1
        progress_bar.value = progress

IntProgress(value=0, max=960)

<h2>4. Розрахунок відстаней від будинків до шкіл</h2>

Читаємо дата-сет з координатами будинків і шкіл:

In [255]:
schools_coords = pd.read_csv('./csv/schools_coords.csv')
houses_coords = pd.read_csv('./csv/houses_coords.csv')

Визначаємо <b>формулу гаверсинуса</b>, рівняння, яке є окремим випадком закону гаверсинусів відносно сторін та кутів сферичних трикутників і дозволяє обчислити відстань між точками на сфері за їх довготою та широтою:

In [256]:
def haversine(lon1, lat1, lon2, lat2):
    lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])

    dlon = lon2 - lon1
    dlat = lat2 - lat1

    a = np.sin(dlat/2.0)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2.0)**2

    c = 2 * np.arcsin(np.sqrt(a))
    km = 6367 * c
    return km

Створюємо дата-фрейм із відстанями від будинків до шкіл:

In [257]:
distances = pd.DataFrame(haversine(houses_coords['Широта будинку'], 
                         houses_coords['Довгота будинку'], 
                         schools_coords['Широта школи'], 
                         schools_coords['Довгота школи']), 
                         columns=('Відстань до школи, км',))


Доповнюємо дата-фрейм із відстанями колонкою з відображенням доступності школи для мешканців будинку.
Якщо відстань від будинку до школи менша за <b>800м</b> - значення дорівнює <b>True</b>, якщо більша - <b>False</b>:

In [258]:
distances['Менше за 0.8км'] = distances.iloc[:,0].apply(lambda x: True if x <= 0.8 else False)
distances.head()

Unnamed: 0,"Відстань до школи, км",Менше за 0.8км
0,0.348025,True
1,0.198128,True
2,0.120255,True
3,0.05468,True
4,0.40449,True


<h2>5. Створення шейп-файлу для подальшого використання у QGis </h2>

Зберігаємо фінальний гео-дата-фрейм із точками будинків, відстаннями до школи та оцінкою доступності для школярів у csv-файл <b>distances.csv</b> та у шейп-файл <b>distances_to_schools.shp</b>:

In [259]:
distances = gpd.GeoDataFrame(distances, 
            geometry=gpd.points_from_xy(houses_coords['Довгота будинку'], 
                                        houses_coords['Широта будинку']))
distances.to_csv('./csv/distances.csv')
distances.to_file('./shp/distances_to_schools.shp', encoding="UTF-8", driver='GeoJSON')

<h2>6. Розрахунок розподілу відстаней від будинку до школи </h2>

In [260]:
distances_col = distances.loc[:,"Відстань до школи, км"]
length = len(distances_col.values)
def get_percentage(series, value, length):
    return '{}%'.format(np.round((series > value).sum()/length*100, decimals=3))

distances_distribution = {
    'Більше ніж 1000м':get_percentage(distances_col, 1.0, length),
    'Більше ніж 800м':get_percentage(distances_col, 0.8, length),
    'Більше ніж 500м':get_percentage(distances_col, 0.5, length),
    'Менше ніж 500м':('{}%'.format(np.round((distances_col < 0.5).sum()/length*100), decimals=3),),
}

distances_distribution = pd.DataFrame(distances_distribution, columns=distances_distribution.keys())

distances_distribution.head()

Unnamed: 0,Більше ніж 1000м,Більше ніж 800м,Більше ніж 500м,Менше ніж 500м
0,15.625%,24.271%,45.625%,54.0%


<h2>7. Розрахунок медіанного значення відстані від будинку до школи </h2>

In [261]:
median = distances.loc[:,"Відстань до школи, км"].median() #у км
print('Медіанне значення відстані: {} м'.format(median*1000))

Медіанне значення відстані: 454.5443619094219 м
