# Урок 2. Основные инструменты работы с геоданными. Генерация гео признаков

In [1]:
import pandas as pd
import geopandas as gpd
import seaborn as sns
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = 10, 8
%matplotlib inline

ModuleNotFoundError: No module named 'geopandas'

Ноутбук посвящен работе с геоданными с помощью библиотек shapely и geopandas. 

### Знакомство с shapely

`Shapely` - библиотека для работы с геометрическими объектами

`Geopandas` - pandas, только с гео

`folium` - для визуализации

In [None]:
from shapely.geometry import Point, LineString, Polygon

#### точка

In [None]:
moscow_lon = 37.618423
moscow_lat = 55.751244
point = Point(moscow_lon, moscow_lat)

In [None]:
point

У точки как и у любого объекта shaply есть атрибуты площадь и длина:

In [None]:
print("area ", point.area)
print("length ", point.length)

Граница точки:

In [None]:
point.bounds

#### Линия

In [None]:
moscow_lon = 37.618423
moscow_lat = 55.751244

piter_lon = 30.26417
piter_lat = 59.89444

line = LineString([(moscow_lon, moscow_lat), (piter_lon, piter_lat)])

In [None]:
line

Границы будут отсортированы в следующем порядке: bounds - (minx, miny, maxx, maxy)  - мин долгота, мин широта, макс долгота, макс широта.

In [None]:
line.bounds

Если линия состоит из набора точек, с помощью атрибута `coords` можно вернуть массив этих точек.

In [None]:
list(line.coords)

#### Полигон

https://boundingbox.klokantech.com/ - сайт для создания bounding box города

In [None]:
polygon = Polygon([(37.3193289,55.489927), 
                   (37.9456611,55.489927),
                   (37.9456611,56.009657),
                   (37.3193289,56.009657)])
print(polygon.area)
print(polygon.length)

In [None]:
polygon

Границы полигона

In [None]:
polygon.bounds

Для полигона, у которого внутри дырка, можно найти внутренние и внешние границы

In [None]:
list(polygon.exterior.coords)

In [None]:
list(polygon.interiors)

### Операции с геометрией

<img src=http://docs.qgis.org/testing/en/_images/overlay_operations.png>

intersection

Создадим 2 точки и буфер вокруг точки, который превращается в круг.

In [None]:
a = Point(0, 0).buffer(1.1)
b = Point(1, 1).buffer(0.7)

In [None]:
b

In [None]:
a.intersection(b)

union

In [None]:
a.union(b)

In [None]:
a.difference(b)

contains

Например для того, чтобы проверить лежит ли точка в самом полигоне.

In [None]:
polygon.contains(Point(moscow_lon, moscow_lat))

In [None]:
polygon.contains(Point(piter_lon, piter_lat))

### Geopandas

Создаём объект GeoSeries (аналог Series) используя точки из Shapely.

In [None]:
geo_series = gpd.GeoSeries([Point(-120, 45), Point(-121.2, 46), Point(-122.9, 47.5)])
geo_series

Точки без привязки к местности не имеют смысла, поэтому задаём географическую проекцию.

In [None]:
geo_series.crs = {'init': 'epsg:4326'}

#### GeoDataFrame

Создадим геодатафрейм на примере датасета административных границ Москвы. Можно подгрузить geojson или esri shape-файл.

In [None]:
moscow_districts = gpd.read_file('moscow_districts.geojson')

In [None]:
moscow_districts.columns = moscow_districts.columns.str.lower()

In [None]:
moscow_districts.head()

Нарисуем геодатафрейм с помощью метода plot и покажем общую численность населения.

In [None]:
moscow_districts.plot('totalpopul', figsize=(12,10), cmap='OrRd');

#### OpenStreetMap

Скачаем данные по местам из OpenStreetMap на примере Москвы

https://wiki.openstreetmap.org/wiki/Main_Page

Сущности OpenStreeMap:
- `node` - точка, параметры широта и долгота (магазин, офис)
- `way` - линейные объекты, например улица, дорога
- `relation` - отношение, для связи между объектами

In [None]:
import requests

https://wiki.openstreetmap.org/wiki/Map_Features - информация по категориям

In [None]:
# источник, откуда будем качать
overpass_url = "https://overpass.kumi.systems/api/interpreter"

# тип выходных данных, которые мы хотим получить. 
#В данном примере это json
# далее указываем сущность - точки с категорией shop и область по которой скачиваем
overpass_query = """
[out:json];
(
 node["shop"](55.4245,37.0919,56.0671,38.1335);
);
out body;
"""

# формируем get-запрос
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
data = response.json()

In [None]:
data

Преобразуем в датафрейм и оставим только нужные поля

In [None]:
def get_tag(x, key_name):
    if str(key_name) in x:
        tmp = x[key_name]
        return tmp
    else:
        return "unknown"

In [None]:
loaded = pd.DataFrame(data['elements'])
loaded['shop'] = loaded['tags'].apply(lambda x: get_tag(x, 'shop'))

In [None]:
loaded.head()

Но здесь нет поля геометрии. Создадим его.

#### Создание geodataframe

Неважно как называется поле с геометрией, таких полей даже может быть несколько, главное указать какой столбец будет главным в параметре geometry.

In [None]:
# определяем проекцию для создания наших координат
crs = {'init' :'epsg:4326'}
# создадим лист для хранения массива точек
geometry = [Point(xy) for xy in zip(loaded.lon, loaded.lat)]
# создаём геодатафрейм с указанием исходного датафрейма, проекции и геометрии
places_geo = gpd.GeoDataFrame(loaded, crs=crs, geometry=geometry)

In [None]:
places_geo.head()

Теперь мы можем связать места с районами Москвы, т.е. посчитать какие места встречаются например в центре. Для этого можно определить атрибутивный join. У нас есть 2 датафрейма и мы их связываем по какому-нибудь общему столбцу. А когда мы имеем дело с геометрией, мы можем воспользоваться spatial join - отношения между объектами.

### Spatial join

проверка проекций - у двух датафреймов они должны совпадать

In [None]:
moscow_districts.crs

In [None]:
places_geo.crs

Объединяем 2 датафрейма (сначала районы Москвы, потом сами места), тип inner и отнрошение между геометрическими объектами (intersects, contains, within). 

In [None]:
places_district = gpd.sjoin(moscow_districts, places_geo, how="inner", op='contains')

На выходе получаем связь районов с местами.

In [None]:
places_district.head()

Преобразуем датафрейм - сделаем агрегат - сгруппируем места по районам, посчитаем их общее количество.

In [None]:
places_district['shop_count'] = places_district.groupby('name')['id'].transform('nunique')

В данном датафрейме у нас будет хранится уменьшенная информация.

In [None]:
district_stats = places_district[['name','geometry', 'shop_count', 'totalpopul']].drop_duplicates('name')#

Нарисуем карту, где у нас будет показано количество магазинов по районам.

In [None]:
district_stats.plot('shop_count', cmap='OrRd', figsize=(12,10), scheme='equals',legend=True);

Изменим проекцию на Pseudo-Mercator EPSG:3857

In [None]:
district_stats = district_stats.to_crs(epsg=3857)

In [None]:
district_stats.plot('shop_count', cmap='OrRd', figsize=(12,10), scheme='equals', legend=True);