<span style="color:red">Предупреждение:</span> это пособие пока находится на этапе сбора данных. Необходимо рассмотреть:
- Общие вопросы работы с геоданными
- Примеры геоданных
- Источники данных, датасеты
- Примеры задач и соревнований, связанных с геоданными
- Библиотеки для обработки геоданных и их визуализации

https://github.com/romapres2010/Coursera_Capstone/tree/10c28e8b145c33e20f71c8411df2684b7003c652

# Работа с геоданными в Python и Jupyter

Геопространственные данные (или просто *геоданные*) обычно связывают между собой некоторую информацию и конкретное географическое положение. Почти в каждом телефоне теперь есть GPS-приемник, и обработка геоданных также стала более доступной. Здорово, что данные об окружающем нас мире становятся более осязаемыми.

На языке Python создано несколько мощных библиотек для работы с геоданными, в том числе их визуализации. В этом пособии мы на различных примерах рассмотрим некоторые из пакетов для работы с геоданными в экосистеме Python, в том числе библиотеки для их визуализации.

Сферы применения геоданных:
- Анализ данных о текущем местоположении организаций, пользователей
- Вычислительные операции для урбанистики, проектирования: количество объектов (мостов, перекрестков), измерение расстояний и площадей
- Охват покрытия услугами

# Библиотеки для визуализации в Python
- [Geoviews](https://github.com/holoviz/geoviews)
- [Folium](https://python-visualization.github.io/folium/)
- [KeplerGL](https://kepler.gl/)
- [Plotly/Plotly Express](https://plotly.com/python/mapbox-layers/)
- [IpyLeaflet](https://ipyleaflet.readthedocs.io/en/latest/)
- [Geopandas](https://geopandas.org/)

Геоданные можно отображать и средствами веба. Так на GitHub можно отправить `.geojson`-файл, геоданные отображаются с помощью библиотеки [Leaflet.js](http://leafletjs.com/) ([документация](https://docs.github.com/en/free-pro-team@latest/github/managing-files-in-a-repository/mapping-geojson-files-on-github)).

# Источники и формат геоданных

Геоданные поступают к аналитикам данных и разработчикам в самых различных формах, обычно от поставщиков географических инфомрационных систем (ГИС).

[OpenStreetMap](https://www.openstreetmap.org/) позволяет легально использовать картографическую информацию. Еженедельно делается XML-снимок базы данных в виде файла [planet.osm](http://planet.openstreetmap.org/). На момент написания статьи размер bz2-архива составлял 95 Гб.

Другие источники данных:
- [Набор данных государственных границ](http://thematicmapping.org/downloads/world_borders.php)

# Формат геоданных

Работа с геоданными осложняется тем, что мы имеем дело с математическими моделями земной поверхности. Земля не является идеальным шаром, и для отображения на плоскость объектов используются различные моделей проекций ([вики](https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D0%BA%D0%B0%D1%80%D1%82%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%86%D0%B8%D0%B9), [ликбез](https://habr.com/ru/post/235283/)). В большинстве интернет-карт применяется проекция [EPSG:4326 – WGS-84](http://spatialreference.org/ref/epsg/4326/), которая базируется на широте и долготе спутниковой GPS-навигации. 

В качестве объектов обычно рассмариваются следующие.

**Точка** (Node, Point) имеет широту (`latitude`), долготу (`longitude`), в некоторых источниках указывается также высота над уровнем моря. Точка может входить в состав других объектов (линий, полигонов, отношений).

**Линия**, кривая, полилиния (Way, PolyLine, LineString). Упорядоченная последовательность точек, связанное множество отрезков.

**Полигон** (Area, Closed way, Polygon, Linear Ring) – замкнутая линия, у которой совпадают первая и последние точки. В некоторых системах полигон рассматривается как самостоятельный элемент.

Также иногда выделяется объект **Отношение** – объединение точек, линий и других отношений в единый объект.

Описание элементов:
- [OpenStreetMap](https://wiki.openstreetmap.org/wiki/RU:%D0%AD%D0%BB%D0%B5%D0%BC%D0%B5%D0%BD%D1%82%D1%8B_%D0%BA%D0%B0%D1%80%D1%82%D1%8B)

Объекты обычно сопровождаются набором атрибутов и тегов. На OpenStreetMap нет жестких ограничений и в разных странах, регионах или областях одинаковые объекты могут значительно различаться по составу и содержанию тегов.

Они же бывают представлены в виде multi-вариантов, когда несколько объектов объединяются в один. Например один выход в метро – точка, несколько выходов одной станции – мультиточка.

Данные обычно хранятся в одном из следующих форматов данных:
- [Шейп-файлы](https://ru.wikipedia.org/wiki/Shapefile) (англ. Shapefile) – открытая спецификация для хранения и обмена данными ГИС
- [GeoJSON](https://ru.wikipedia.org/wiki/GeoJSON) – открытый формат хранения географических структур данных, основанный на формате обмена данными JSON
- [KML](https://ru.wikipedia.org/wiki/KML) (Keyhole Markup Language) --- язык разметки геоданных на основе XML, получивший развитие во времена расцвета Google Earth
- [GPX](https://ru.wikipedia.org/wiki/GPX) – ещё один формат на основе XML, активно используется для записи GPS-треков
- Simple Features – стандарт OpenGIS для хранения географических данных вместе со связанными с ними атрибутами
- GML (Geography Markup Language), или язык географической разметки, открытый стандарт на основе XML для обмена данными ГИС

# Библиотеки Python
- библиотека `geopandas` расширяет функциональность pandas географическими абстракциями из Shapely.
- [GeoViews](https://geoviews.org/) – это библиотека Python, позволяющая исследовать и визуализировать данные, которые включают географические местоположения. Он имеет особенно мощную поддержку многомерных наборов метеорологических и океанографических данных, используемых в исследованиях климата и дистанционного зондирования, но также полезен практически для всего, что можно нанести на карту. Cоответствующие примеры можно найти в [галерее библиотеки](https://geoviews.org/gallery/index.html).

In [None]:
# Install if it needed in your environment
#!conda install -c conda-forge shapely --yes 
#!conda install -c conda-forge pyproj --yes 
#!conda install -c conda-forge Beautifulsoup4 --yes 
#!conda install -c conda-forge lxml --yes 
#!conda install -c conda-forge html5lib --yes 
#!conda install -c conda-forge requests --yes 
#!conda install -c conda-forge geopy --yes
#!conda install -c conda-forge geocoder --yes

# Folium

In [1]:
import folium
import pandas as pd

Для начала просто отобразим карту для центра Петербурга.

In [2]:
SPB_COORDINATES = (59.950, 30.315)
spb_map = folium.Map(location=SPB_COORDINATES,
                     zoom_start=11)
spb_map

Добавим на карту данные, привязанные к координатам. Рассмотрим на примере [датасета социальных аптек](http://data.gov.spb.ru/opendata/7808043833-social_pharmacy/). Этот датасет ежемесячно обновляется на сайте [открытых данных Санкт-Петербурга](http://data.gov.spb.ru/opendata/).

In [3]:
pharmacy = pd.read_csv("spb_pharmacy.csv", index_col=0)
pharmacy.coordinates = pharmacy.coordinates.apply(lambda x: tuple(float(s) for s in x.split(',')))
pharmacy.head(5)

Unnamed: 0_level_0,name,network_pharmacy,abbreviated_name,address,coordinates,district,phone,mode,ogrn
number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,"АО ""Петербургские аптеки"", Аптека №103","АО ""Петербургские аптеки""",Аптека №103,"189510, Санкт-Петербург, Ораниенбаумский пр., ...","(59.897163, 29.773995)",Петродворцовый,(812) 422-71-20,пн-пт 10:00 - 18:00,1097847102561
2,"АО ""Петербургские аптеки"", Аптека №111","АО ""Петербургские аптеки""",Аптека №111,"196653, Санкт-Петербург, Ленина пр., 19/3 лит.А","(59.750617, 30.583854)",Колпинский,(812) 461-33-43,пн-пт 10:00 - 21:00,1097847102561
3,"АО ""Петербургские аптеки"", Аптека №121","АО ""Петербургские аптеки""",Аптека №121,"197342, Санкт-Петербург, Ланское шоссе, 8 лит. А","(59.991084, 30.304558)",Приморский,(812) 492-50-50,пн-пт 10:00 - 19:00,1097847102561
4,"АО ""Петербургские аптеки"", Аптека №139","АО ""Петербургские аптеки""",Аптека №139,"197183, Санкт-Петербург, Школьная ул., 64 лит. А","(59.986974, 30.263784)",Приморский,(812) 430-40-88,пн-пт 10:00 - 18:00,1097847102561
5,"АО ""Петербургские аптеки"", Аптека №142","АО ""Петербургские аптеки""",Аптека №142,"194064, Санкт-Петербург, Тихорецкий пр., 20 ли...","(60.016397, 30.367027)",Выборгский,(812) 552-74-25,пн-пт 10:00 - 19:00,1097847102561


In [4]:
#from folium.plugins import MarkerCluster

#marker_cluster = MarkerCluster().add_to(spb_map)

for point in pharmacy.coordinates.unique():
    folium.Marker(point).add_to(spb_map)

spb_map

Однако представлять информацию в виде маркеров логично целесообразно только при сравнительно небольшой их плотности. В случае, когда плотность растёт, можно использовать структуру кластеров – когда один маркер агрегирует число соседей, скрытых при текущем масштабе. Продемонстрируем это на примере [датасета с информацией о достопримечательностях Санкт-Петербурга](https://data.gov.spb.ru/opendata/7842489089-sights/).

In [57]:
sights = pd.read_csv("spb_sights.csv", index_col=0, encoding='utf-8')
sights = sights[sights.coord.notna()]
sights.coord = sights.coord.apply(lambda x: tuple(float(s) for s in x.split(',')))
sights.head()

Unnamed: 0_level_0,obj_type,name,short_name,name_en,type,address_manual,phone,www,email,description,description_en,obj_history,obj_history_en,obj_hints,work_time,work_time_en,coord
oid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
5827,Религиозные объекты,Армянская апостольская церковь,,St. Catherine's Church,,"Санкт-Петербург, Невский пр., д. 40-42",+7(812)5704108; +7(812)7105061,armenian-church.org,arm_church_spb@mail.ru,,,,,,,,"(59.935299, 30.332226)"
5828,Религиозные объекты,Церковь Святого Воскресения,,St. Ressurection Church,,"Санкт-Петербург, наб. реки Смоленки, д.29",+7(812)3505301,armenian-church.org,,,,,,,,,"(59.947793, 30.253345)"
5829,Религиозные объекты,Дацан Гунзэчойнэй,,Datsan Gunzechoinei,,"Санкт-Петербург, Приморский пр., д.91",+7(981)7559605,dazan.spb.ru,,,,,,,,,"(59.983477, 30.255959)"
5830,Религиозные объекты,Коломяжская мечеть,,Kolomyazhskaya Mosque,,"Санкт-Петербург, Репищева ул., д.1",,,,,,,,,,,"(60.019505, 30.282217)"
5831,Религиозные объекты,Соборная мечеть,,Saint Petersburg Mosque,,"Санкт-Петербург, Кронверкский пр., д.7",+7(812)4984075,dum-spb.ru,dum-spb@mail.ru,,,,,,,,"(59.955133, 30.32398)"


In [65]:
sights.obj_type.unique()

array(['Религиозные объекты', 'Сады и парки', 'Памятники', 'Мосты',
       'Природные объекты', 'Замки и крепости'], dtype=object)

In [64]:
from folium.plugins import MarkerCluster

spb_map = folium.Map(location=SPB_COORDINATES, zoom_start=11)
marker_cluster = MarkerCluster().add_to(spb_map)


# необходимость кодировки в 'raw_unicode_escape' и дешифровки в 'latin_1' связана
# исключительно с некорректным преобразованием в Jupyter блокнотах библиотеки folium
for index, obj in sights.iterrows():
    folium.Marker(obj['coord'],
                  tooltip=obj['name'].\
                  encode('raw_unicode_escape').decode('latin_1')).\
    add_to(marker_cluster)

spb_map

# Карта России

Отобразим карту России с делением на субъекты Российской Федерации.

In [None]:
import json
from zipfile import ZipFile

with ZipFile('geo.json.zip') as myzip:
    with myzip.open('geo.json') as myfile:
        geo_data = json.load(myfile)

# исправим отображение для Чукотки, разделенно 180 меридианом
for i, name in enumerate(geo_data['features']):
    if geo_data['features'][i]['properties']['NAME_1'] == 'Chukot':
        coordinates = geo_data['features'][i]['geometry']['coordinates']
        for L1 in coordinates :
            for L2 in L1:
                for L3 in L2:
                    if L3[0] < 0:
                        L3[0] += 360.0

In [None]:
RU_COORDINATES = (64, 101)
my_map = folium.Map(location=RU_COORDINATES,
                    zoom_start = 3)

folium.GeoJson(geo_data).add_to(my_map)

my_map

# Отображаем информацию

Отобразим с помощью `folium` базовую информацию о субъектах – например, процент сельского населения в каждом из регионов. Для этого воспользуемся информацией из датасета `regions-info.csv`.

In [None]:
import pandas as pd
regions_data = pd.read_csv('regions-info.csv', index_col=0, decimal=",")
regions_data.head()

Названия в подобных датасетах и картах далеко не всегда совпадают. Так произошло и в этом случае:

In [None]:
geo_names = [reg['properties']['NAME_1'] for reg in geo_data['features']]
print(*sorted(geo_names)[:5], sep=', ')

In [None]:
print(*sorted(regions_data.Region_eng)[:5], sep=', ')

Кроме параметра `NAME_1` в геоданных есть также параметр `VARNAME_1`, который позволяет найти соответствие между двумя названиями. Эти названия я предварительно обобщил в csv-файле `regions_alt_names.csv`. Соотнесем названия субъектов в двух датафреймах и обновим в датафрейме, соответствующем геоданным и заменим их на более корректные названия из датасета

In [None]:
alt_names = pd.read_csv('regions_alt_names.csv', index_col=0)
alt_names['Region_geo'] = alt_names.Varnames.apply(lambda x: x.split('|')[0])

for reg in geo_data['features']:
    geo_name = reg['properties']['NAME_1']
    reg['properties']['NAME_1'] = alt_names.query(f'Region_geo == "{geo_name}"').Region_eng.iloc[0]

Отобразим численность населения

In [None]:
regions_data.query('Region == "Свердловская область"')

In [None]:
pop_map = folium.Map(location=RU_COORDINATES, zoom_start = 3)

folium.Choropleth(
    geo_data=geo_data,
    name='choropleth',
    data=regions_data.drop(0),
    columns=['Region_eng', 'Rural_pop_perc'],
    key_on='properties.NAME_1',
    fill_color='YlGn',
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name='Population (%)'
).add_to(pop_map)

folium.LayerControl().add_to(pop_map)

pop_map

## Источники:
- https://georgetsilva.github.io/posts/mapping-points-with-folium/
- [OpenStreetMap как источник геоданных](https://habr.com/ru/post/270513/)
- [О геометрии проекций на WolframMathWorld](https://mathworld.wolfram.com/topics/MapProjections.html) 
- Репозитории сообщества [OpenGeoscience](https://github.com/OpenGeoscience), в частности [geonotebook](https://github.com/OpenGeoscience/geonotebook)
- [Рассказ об ipyleaflet](https://blog.jupyter.org/interactive-gis-in-jupyter-with-ipyleaflet-52f9657fa7a)
- [Рассказ с видео о keplergl](https://www.analyticsvidhya.com/blog/2020/06/learn-visualize-geospatial-data-jupyter-kepler/)
- Обзоры библиотек на Medium: [Geospatial data visualization in Jupyter Notebooks](https://medium.com/@bartomolina/geospatial-data-visualization-in-jupyter-notebooks-ffa79e4ba7f8), [Best Libraries for Geospatial Data Visualisation in Python](https://towardsdatascience.com/best-libraries-for-geospatial-data-visualisation-in-python-d23834173b35)