# I. Данные


Для аналитики нужны данные, без них точно ничего не получится:)

В этом разделе мы посмотрим как:

- создать набор данных на основе координат

- загрузить существующие данные в проект

- экспортировать данные из OpenStreetMap


## Импортируем библиотеки


In [1]:
import pandas as pd
import geopandas as gpd
import osmnx as ox

и коротко расскажем о библиотеках:

<strong>Pandas</strong> пригодится для обработки и анализа струкутрированных данных (простыми словами - для работы с табличками)

<strong>Geopandas</strong> расширяет функциональность Pandas для работы с геопространственными данными <3

<strong>OSMnx</strong> помогает выгружать данные из OpenStreetMap


## 1.1 Создаем


В первых двух разделах мы представим, что у нас совсем нет данных, и нужно начинать с чистого листа

Знаем только координаты интересующего нас объекта: 59°55′54″ с. ш. 30°20′11″ в. д. Именно его мы хотим отобразить на карте


### Пространственные данные из координат


Долготу и широту присваиваем переменным lat и lon, соответственно. Также перемнной point присавиваем словарь, в который записываем координты и название объекта


In [2]:
lat =  59.9316667
lon =  30.3363889

point = {'Longitude': lon, 'Latitude': lat, "name": 'Alexandrinsky theater'}

На основе словаря (point) создаем DataFrame (point_df) и смотрим на получившийся набор данных, чтобы убедиться, что с ним все хорошо


In [3]:
point_df = pd.DataFrame(point, [1])

point_df

Unnamed: 0,Longitude,Latitude,name
1,30.336389,59.931667,Alexandrinsky theater


На основе DataFrame (point_df) создаем набор пространственных данных - GeoDataFrame с помощью библиотеки geopandas. Это очень просто! Указываем наш массив данных (point_df), создаем гометрию объекта на основе координат и указывеам систему коордиант


In [4]:
point_gdf = gpd.GeoDataFrame(point_df, geometry=gpd.points_from_xy(point_df['Longitude'], point_df['Latitude']), crs=4326)

Смотрим на получившийся DataFrame (point_gdf), чтобы убедиться, что с ним все хорошо и играем в игру найди отличие от point_df

(в чем разница - расскажите мне)


In [5]:
point_gdf

Unnamed: 0,Longitude,Latitude,name,geometry
1,30.336389,59.931667,Alexandrinsky theater,POINT (30.33639 59.93167)


Согласитесь, что по результатам выше не совсем понятно, получили мы новый массив с дополнительным столбцом или это уже принципиально иной формат данных

В первую очередь, мы можем проверить, используя функцию type(), которая вернет нам тип объекта


In [6]:
print(type(point_df) == type(point_gdf))

print("Тип point_df: %s, Тип point_gdf: %s" % (type(point_df), type(point_gdf)))

False
Тип point_df: <class 'pandas.core.frame.DataFrame'>, Тип point_gdf: <class 'geopandas.geodataframe.GeoDataFrame'>


Дествительно, в переменных содержатся данные разного типа! А point_gdf - GeoDataFrame. Значит, мы успешно создали набор пространственных данных и можем ~~собой гордиться~~ теперь отобразить данные на карте.

Для этого в этот раз попробуем использовать метод explore, который позволит нам с легкостью визуализировать данные на интерактивной карте. Этот метод использует библиотеки folium, mapclassify и maplotlib (важно, чтобы они были установлены)


In [7]:
point_gdf.explore()

Вуаля! Мы увидели на интерактивной карте точку, которую создали! Она не улетела в ни в Гвинейский залив, ни в Японской море, ни в Антарктику благодаря тому, что мы не забли про проекцию, и оказалась там, где и должна быть - в Санкт-Петербурге <3


### Сохраненяем результат


Теперь остается сохранить данный в любой из известных нам форматов


In [8]:
point_gdf.to_file('data/dataframe.gpkg', driver='GPKG', layer='name') 

## 1.2 Экспортируем из OSM


## 1.3 Читаем
