# [Урок № 2](https://autogis-site.readthedocs.io/en/latest/lessons/L2/overview.html)
##### В этом уроке мы узнаем, как обрабатывать пространственные данные в **Python** с помощью **Geopandas**. Geopandas сочетает в себе возможности Pandas, для анализа табличных данных, и стройный для работы с геометрией. Кроме того, **Geopandas** полагается на другие пакеты, такие как ``fiona`` для чтения и написание файлов, ``pyproj`` для управления системами координат и ``matplotlib`` для построения графиков.

##### В частности, мы научимся читать и записывать пространственные данные в **Python**, и манипулировать геометрией в **GeoDataFrame**. Кроме того, мы научимся изменять проекцию данных, изменять систему координат (CRS).


#### [Основные понятия:](https://autogis-site.readthedocs.io/en/latest/lessons/L2/definitions.html)

 **Shapefile:** векторный формат данных для хранения информации о местоположении и связанных с ним атрибутов. Шейп-файл состоит из нескольких файлов с общим префиксом, которые должны храниться в одном каталоге. **.shp**, **.shx** и **.dbf** - это обязательные расширения файлов в шейп-файле. Другие расширения файлов не требуются, но, например, расширение файла **.prj** часто имеет важное значение. Более подробная информация о расширениях файлов Шейп - файлов вот [здесь](http://help.arcgis.com/en/arcgisdesktop/10.0/help/index.html#/Shapefile_file_extensions/005600000003000000/)). Формат шейп-файла разработан компанией ESRI.

 **GeoPackage:** формат с открытым исходным кодом для хранения и передачи геопространственной информации. Геопакеты способны хранить как векторные, так и растровые данные. Более подробно, GeoPackage - это контейнер для база данных SQLite с расширение **gpkg** (все в одном файле!). Формат Геопакета регулируется открытым геопространственным консорциумом. Более подробная информация по адресу: https://www.geopackage.org/

 **CRS:** системы координат определяют, как координаты соотносятся с реальными местоположениями на Земле. Географические системы координат обычно используют Градусы широты и долготы. Системы координат проекции используют координаты x и y для представления местоположения на плоской поверхности. На этом уроке вы узнаете больше о системах отсчета координат!

 **Datum:** определяет центральную точку, ориентацию и масштаб опорной поверхности, связанной с системой координат. Одни и те же координаты могут относиться к разным местоположениям в зависимости от данных! Например, **WGS84** является широко используемым глобальным датумом. **ETRS89** - это датум, используемый в Европе. Системы координат часто называются на основе используемых данных.

 **EPSG:** коды EPSG относятся к конкретным системам отсчета. EPSG расшифровывается как **”European Petroleum Survey Group"**, которая первоначально опубликовала базу данных для систем пространственной привязки. Например, EPSG: 3067 относится к системе координат ETRS-TM35FIN, которая обычно используется в Финляндии. EPSG: 4326 относится к WGS84. Вы можете искать коды EPSG по адресу: https://spatialreference.org/


#### [Векторный ввод-вывод данных в Python:](https://autogis-site.readthedocs.io/en/latest/lessons/L2/definitions.html)
Чтение данных в Python обычно является первым шагом рабочего процесса анализа. Существуют различные форматы данных ГИС, такие как [Шейп-файл](https://en.wikipedia.org/wiki/Shapefile) , [GeoJSON](https://en.wikipedia.org/wiki/GeoJSON), [KML](https://en.wikipedia.org/wiki/Keyhole_Markup_Language) и [GPKG](https://en.wikipedia.org/wiki/GeoPackage). [Geopandas](http://geopandas.org/io.html) способен считывать данные из всех этих форматов (а также из многих других).

В этом уроке будут показаны некоторые типичные примеры того, как читать (и записывать) данные из разных источников. Главное в этом разделе-продемонстрировать базовый синтаксис для чтения и записи данных с помощью коротких фрагментов кода. Примеры наборов данных можно найти в папке data-folder. Однако большинство примеров баз данных не существует, но вы можете использовать и изменять синтаксис примера в соответствии с вашими собственными настройками.



#### Форматы файлов
##### В Geopandas мы используем универсальную функцию [from_file ()](http://geopandas.org/reference.html#geopandas.GeoDataFrame.to_file) для чтения в различных форматах данных. В бакграунде **Geopandas** использует [fiona.open()](https://fiona.readthedocs.io/en/latest/fiona.html#fiona.open) при чтении данных. Шейп-файл Esri - это формат файла по умолчанию. Для других форматов файлов нам нужно указать, какой драйвер использовать для чтения данных.

Вы можете проверить поддержку через **Geopandas** или непосредственно от ``fiona``:

In [1]:
import geopandas as gpd
import os

# Проверьте поддерживаемые драйверы форматов
gpd.io.file.fiona.drvsupport.supported_drivers

{'AeronavFAA': 'r',
 'ARCGEN': 'r',
 'BNA': 'rw',
 'DXF': 'rw',
 'CSV': 'raw',
 'OpenFileGDB': 'r',
 'FlatGeobuf': 'r',
 'ESRIJSON': 'r',
 'ESRI Shapefile': 'raw',
 'GeoJSON': 'raw',
 'GeoJSONSeq': 'rw',
 'GPKG': 'raw',
 'GML': 'rw',
 'OGR_GMT': 'rw',
 'GPX': 'rw',
 'GPSTrackMaker': 'rw',
 'Idrisi': 'r',
 'MapInfo File': 'raw',
 'DGN': 'raw',
 'PCIDSK': 'rw',
 'OGR_PDS': 'r',
 'S57': 'r',
 'SEGY': 'r',
 'SUA': 'r',
 'TopoJSON': 'r'}

In [2]:
# Same as:
import fiona
# fiona.supported_drivers

In [3]:
# Текущая директория
ROOT_PATH = os.path.abspath(os.curdir)

##### Shapefile

In [4]:
# чтение файла .shp
# fp = os.path.join(ROOT_PATH,r'data\finland_municipalities.shx')
fp = os.path.join(ROOT_PATH,r'data\rus\gran_reg1.shx')
gdf = gpd.read_file(fp)
gdf.head()

Unnamed: 0,OSM_ID,NAME,ADMIN_LVL,ID_1,DT_OBR,REG_NUM,POPULATION,ADM_CNT,geometry
0,-194924.0,Красночикойский район,6,13,1933-01-01,RU 92513000,,,"POLYGON ((107.73338 50.11055, 107.74180 50.116..."
1,-194940.0,Петровск-Забайкальский район,6,21,1926-01-04,RU 92521000,,,"POLYGON ((108.09007 50.77555, 108.09208 50.778..."
2,-1754048.0,Хилокский район,6,27,1935-02-11,RU 92527000,,,"POLYGON ((109.30976 51.19475, 109.31100 51.197..."
3,-1742666.0,Кыринский район,6,14,1926-01-04,RU 92514000,,,"POLYGON ((109.39000 49.30027, 109.40258 49.309..."
4,-1754047.0,Улётовский район,6,26,1926-01-04,RU 92526000,,,"POLYGON ((110.89757 49.83994, 110.90595 49.839..."


In [5]:
# Проекция
gdf.crs

<Geographic 2D CRS: EPSG:4326>
Name: WGS 84
Axis Info [ellipsoidal]:
- Lat[north]: Geodetic latitude (degree)
- Lon[east]: Geodetic longitude (degree)
Area of Use:
- name: World
- bounds: (-180.0, -90.0, 180.0, 90.0)
Datum: World Geodetic System 1984
- Ellipsoid: WGS 84
- Prime Meridian: Greenwich

In [6]:
outfp = os.path.join(ROOT_PATH, r"data\TMP\gran_reg1.shp")
gdf.to_file(outfp)

##### GeoJSON

In [7]:
fp = os.path.join(ROOT_PATH,r'data\finland_municipalities.gjson')
data = gpd.read_file(fp, driver="GeoJSON")
data.head()

Unnamed: 0,kunta,vuosi,nimi,namn,name,geometry
0,5,2020,Alajärvi,Alajärvi,Alajärvi,"POLYGON ((366787.924 7001300.583, 362458.797 6..."
1,9,2020,Alavieska,Alavieska,Alavieska,"POLYGON ((382543.364 7120022.976, 372645.944 7..."
2,10,2020,Alavus,Alavus,Alavus,"POLYGON ((343298.204 6961570.195, 345569.224 6..."
3,16,2020,Asikkala,Asikkala,Asikkala,"POLYGON ((436139.680 6798279.085, 435912.756 6..."
4,18,2020,Askola,Askola,Askola,"POLYGON ((426631.036 6720528.076, 432565.266 6..."


In [8]:
outfp = os.path.join(ROOT_PATH, r"data\TMP\finland_municipalities.gjson")
data.to_file(outfp, driver="GeoJSON")

##### KML

In [9]:
# Enable KML driver
gpd.io.file.fiona.drvsupport.supported_drivers['KML'] = 'rw'

# Read file from KML
fp = os.path.join(ROOT_PATH,r"data\finland_municipalities.kml")
data = gpd.read_file(fp)

# Write to KML (just make a copy)
outfp =  os.path.join(ROOT_PATH, r"data\TMP\finland_municipalities.kml")
data.to_file(outfp, driver="KML")


##### Geopackage

In [10]:
# Read file from Geopackage
fp = os.path.join(ROOT_PATH, r"data\finland_municipalities.gpkg")
data = gpd.read_file(fp)

# Write to Geopackage (just make a copy)
outfp = os.path.join(ROOT_PATH, r"data\TMP\finland_municipalities.gpkg")
data.to_file(outfp, driver="GPKG")

##### GeoDatabase

In [11]:
# Read file from File Geodatabase
fp = os.path.join(ROOT_PATH, r"data\finland.gdb")
data = gpd.read_file(fp, driver="OpenFileGDB", layer='municipalities')

# Write to same FileGDB (just add a new layer) - requires additional package installations(?)
#outfp = "data/finland.gdb"
#data.to_file(outfp, driver="FileGDB", layer="municipalities_copy")

##### MapInfo Tab

In [12]:
# Read file from MapInfo Tab
fp = os.path.join(ROOT_PATH, r"data\finland_municipalities.tab")
data = gpd.read_file(fp, driver="MapInfo File")

# Write to same FileGDB (just add a new layer)
outfp = os.path.join(ROOT_PATH, r"data\TMP\finland_municipalities.tab")
data.to_file(outfp, driver="MapInfo File")


### Базы данных
##### Пример синтаксиса для чтения и записи данных из / в базы данных.

Чтение базы данных **PostGIS с помощью ``psycopg2``

In [None]:
import geopandas as gpd
import psycopg2

# Создайте соединение с базой данных с помощью модуля psycopg2 (обновите параметры в соответствии с вашей базой данных)

conn, cursor = psycopg2.connect(dbname='my_postgis_database', 
                                user='my_usrname', 
                                password='my_pwd', 
                                host='123.22.432.16', port=5432)

# Укажите sql-запрос
sql = "SELECT * FROM MY_TABLE;"

# Чтение данных из PostGIS
data = gpd.read_postgis(sql=sql, con=conn)


### Чтение / запись базы данных PostGIS с помощью SqlAlchemy + GeoAlchemy

In [None]:
from sqlalchemy.engine.url import URL
from sqlalchemy import create_engine
from sqlalchemy import MetaData
from sqlalchemy.orm import sessionmaker
from geoalchemy2 import WKTElement, Geometry

# Обновите параметры БД
HOST = '123.234.345.16'
DB = 'my_database'
USER = 'my_user'
PORT = 5432
PWD = 'my_password'

# Информация о базе данных
db_url = URL(drivername='postgresql+psycopg2', host=HOST, database=DB,
                   username=USER, port=PORT, password=PWD)

# Создать движок
engine = create_engine(db_url)

# Метаданные Init
meta = MetaData()

# Загрузить определения таблиц из БД
meta.reflect(engine)

# Создать сеанс
Session = sessionmaker(bind=engine)
session = Session()

# ========================
# Чтение данных из PostGIS
# ========================

# Укажите sql-запрос
sql = "SELECT * FROM finland;"

# Чтение данных
data = gpd.read_postgis(sql=sql, con=engine)

# Закрыть сессию
session.close()

# =========================================
# Запись данных в PostGIS (создание таблицы копирования)
# =========================================

# Coordinate Reference System (srid) Координатная система отсчета (srid)
crs = 4326

# Целевая таблица
target_table = 'finland_copy'

# Преобразование геометрических фигур в WKTElements в столбец "geom" (по умолчанию в PostGIS)
data['geom'] = data['geometry'].apply(lambda row: WKTElement(row.wkt, srid=crs))

# Drop Shapely geometries
data = data.drop('geometry', axis=1)

# Запись в PostGIS (перезапись, если таблица существует, будьте осторожны с этим! )
# Возможное поведение: "замена", "добавление", "сбой"

data.to_sql(target_table, engine, if_exists='replace', index=False)


### Чтение / запись базы данных Spatialite

In [None]:
import sqlite3
import shapely.wkb as swkb
from sqlalchemy import create_engine, event

# Путь к БД
dbfp = 'L2_data/Finland.sqlite'

# Имя для таблицы
tbl_name = 'finland'

# SRID (crs ваших данных)
srid = 4326

# Разбор геометрического типа входных данных
gtype = data.geom_type.unique()
assert len(gtype) == 1, "Mixed Geometries! Cannot insert into SQLite table."
geom_type = gtype[0].upper()

# Инициализировать компонент database engine
engine = create_engine('sqlite:///{db}'.format(db=dbfp), module=sqlite)

# Инициализировать таблицу без геометрии
geo = data.drop(['geometry'], axis=1)

with sqlite3.connect(dbfp) as conn:
    geo.to_sql(tbl_name, conn, if_exists='replace', index=False)

# Включить расширение spatialite  
with sqlite3.connect(dbfp) as conn:
    conn.enable_load_extension(True)
    conn.load_extension("mod_spatialite")
    conn.execute("SELECT InitSpatialMetaData(1);")
    # Добавить столбец геометрии с заданным CRS с заданным типом геометрии, имеющим два измерения
    conn.execute(
        "SELECT AddGeometryColumn({table}, 'wkb_geometry',\
        {srid}, {geom_type}, 2);".format(table=tbl_name, srid=srid, geom_type=geom_type)
    )
    
# Преобразование геометрических фигур в хорошо известный двоичный формат
data['geometry'] = data['geometry'].apply(lambda geom: swkb.dumps(geom))

# Push to database (перезаписать, если таблица существует)
data.to_sql(tbl_name, engine, if_exists='replace', index=False)


### Веб-сервис пространственных объектов, чтение (WFS)
##### Этот скрипт был использован для генерации входных данных для этого учебника (FileGDB и tab были созданы отдельно). Источник: статистическое управление Финляндии WFS.

In [14]:
import geopandas as gpd
import requests
import geojson
from pyproj import CRS


# Укажите URL-адрес сервера.
# Здесь мы используем данные Статистического управления Финляндии: https://www.stat.fi/org/avoindata/paikkatietoaineistot_en.html. (CC BY 4.0)
url = 'http://geo.stat.fi/geoserver/tilastointialueet/wfs'

# Укажите параметры (чтение данных в формате json).
params = dict(service='WFS', version='2.0.0', request='GetFeature', 
         typeName='tilastointialueet:kunta4500k', outputFormat='json')

# Извлечение данных из WFS с помощью запросов
r = requests.get(url, params=params)

# Создайте GeoDataFrame из geojson и установите систему координат отсчета
data = gpd.GeoDataFrame.from_features(geojson.loads(r.content),  crs="EPSG:3067")

In [15]:
data.head()

Unnamed: 0,geometry,kunta,vuosi,nimi,namn,name,bbox
0,"POLYGON ((366787.924 7001300.583, 362458.797 6...",5,2020,Alajärvi,Alajärvi,Alajärvi,"[321987.07200161, 6959704.55099558, 366787.924..."
1,"POLYGON ((382543.364 7120022.976, 372645.944 7...",9,2020,Alavieska,Alavieska,Alavieska,"[360962.99200022, 7104339.03799839, 382543.364..."
2,"POLYGON ((343298.204 6961570.195, 345569.224 6...",10,2020,Alavus,Alavus,Alavus,"[303353.32000378, 6922242.40698068, 345569.224..."
3,"POLYGON ((436139.680 6798279.085, 435912.756 6...",16,2020,Asikkala,Asikkala,Asikkala,"[403543.81899999, 6774122.31100019, 442401.762..."
4,"POLYGON ((426631.036 6720528.076, 432565.266 6...",18,2020,Askola,Askola,Askola,"[413073.96299999, 6704555.87800016, 435459.201..."


In [16]:
# Подготовка данных для записи в различные форматы файлов
data = data.drop(columns=["bbox"])

In [17]:
# Параметры проекции crs
data.crs

<Projected CRS: EPSG:3067>
Name: ETRS89 / TM35FIN(E,N)
Axis Info [cartesian]:
- E[east]: Easting (metre)
- N[north]: Northing (metre)
Area of Use:
- name: Finland
- bounds: (19.08, 58.84, 31.59, 70.09)
Coordinate Operation:
- name: TM35FIN
- method: Transverse Mercator
Datum: European Terrestrial Reference System 1989
- Ellipsoid: GRS 1980
- Prime Meridian: Greenwich

In [18]:
# Имя слоя
layer_name = "finland_municipalities"

# запись KML
gpd.io.file.fiona.drvsupport.supported_drivers['KML'] = 'rw'

# драйверы и расширения для различных форматов файлов
drivers = {'ESRI Shapefile': 'shp',
           'GeoJSON': 'gjson',
           'KML': 'kml',
           'GPKG': 'gpkg',
          }

# Запись слоя в различные форматы файлов (словарь drivers)
for driver, extension in drivers.items():
    
    # путь к файлу
    file_name = os.path.join(ROOT_PATH, r"data\OUT\{0}.{1}".format(layer_name, extension))
    print(file_name)
    print(driver)
    # Запись
    data.to_file(file_name, driver=driver)
    print("Created file", file_name)

D:\!PROJ\AutoGISproc\LES_2\data\OUT\finland_municipalities.shp
ESRI Shapefile
Created file D:\!PROJ\AutoGISproc\LES_2\data\OUT\finland_municipalities.shp
D:\!PROJ\AutoGISproc\LES_2\data\OUT\finland_municipalities.gjson
GeoJSON
Created file D:\!PROJ\AutoGISproc\LES_2\data\OUT\finland_municipalities.gjson
D:\!PROJ\AutoGISproc\LES_2\data\OUT\finland_municipalities.kml
KML
Created file D:\!PROJ\AutoGISproc\LES_2\data\OUT\finland_municipalities.kml
D:\!PROJ\AutoGISproc\LES_2\data\OUT\finland_municipalities.gpkg
GPKG
Created file D:\!PROJ\AutoGISproc\LES_2\data\OUT\finland_municipalities.gpkg
