## Парсер железнодорожных станций, основываясь на необходимых параметрах

### Импорт библиотек

In [26]:
import pandas as pd
import numpy as np

### Чтение файлов, содержащих информацию о железнодорожных станциях

Источник данных файлов: http://osm.sbin.ru/esr/   
© Идея принадлежит [Sergey Gladilin](https://www.openstreetmap.org/user/Sergey%20Gladilin). Разработка и реализация - [Sergey Gladilin](https://www.openstreetmap.org/user/Sergey%20Gladilin) и [Alexandr Zeinalov](http://www.openstreetmap.org/user/Alexandr%20Zeinalov).   
Использовано по лицензии GNU GPLv3

In [27]:
esr_df = pd.read_csv('esr.csv', sep=';')
osm2esr_df = pd.read_csv('osm2esr.csv', sep=';')

### Предпросмотр импортированных файлов

In [28]:
esr_df

Unnamed: 0,division,esr,invalid_esr,country,region,express,dup_esr,source,iso3166,railway,type,name
0,,15,0,,,,,,,,,Московский узел
1,,23,0,,,,,,,,,Санкт-Петербургский узел
2,,5201,0,,,,,,,,,Кавказ-Варна (условный код)
3,,5322,0,,,,,,,,,Котка
4,,7627,1,,Латвия,,97627.0,latvia,LV,Латвийская,,Оп Апшупе
...,...,...,...,...,...,...,...,...,...,...,...,...
26639,,997911,0,,Сахалинская область,2068462.0,,sakhalin,RU-SAK,Сахалинская,остановочный пункт,572 км
26640,,997926,0,,Сахалинская область,2068402.0,,sakhalin,RU-SAK,Сахалинская,остановочный пункт,Арги-Паги
26641,,998007,0,Российская Федерация,Сахалинская область,2068459.0,,sakhalin,RU-SAK,Сахалинская,станция,Ныш
26642,,998100,0,Российская Федерация,Сахалинская область,2068498.0,,sakhalin,RU-SAK,Сахалинская,станция,Ноглики


In [29]:
osm2esr_df

Unnamed: 0,esr,status,type,osm_id,lat,lon,name,alt_name,old_name,official_name,railway,user
0,10002,1,0,665115765,61.784218,34.344021,Петрозаводск-Пассажирский,,,,station,010002
1,10318,1,0,370804,61.886433,34.249794,Шуйский Мост,,,,halt,010318
2,10407,1,0,370656,61.941113,34.250393,Шуйская,,,,station,010407
3,10411,1,0,1328926694,61.980099,34.245548,427 км,,,,halt,010411
4,10426,1,0,1424435426,62.037678,34.214035,Лучевой,,,,station,010426
...,...,...,...,...,...,...,...,...,...,...,...,...
19952,997907,1,0,1825940876,51.318710,142.714294,Альба,,,,station,
19953,997926,1,0,1024315848,51.339256,142.719803,Арги-Паги,,,,halt,
19954,998007,1,0,1815735211,51.495022,142.790359,Ныш,,,,station,
19955,998100,1,0,1825940877,51.797131,143.129868,Ноглики,,,,station,998100


### Объединение двух DataFrame на основании общей столбца `esr` - индивидуального номера каждой станции

In [30]:
stations_df = pd.merge(esr_df, osm2esr_df, on='esr', how='outer')
# удаляем столбцы, не несущие пользы в результирующей таблице
stations_df = stations_df.drop(labels=['invalid_esr', 'alt_name', 'old_name', 'official_name', 'user', 'dup_esr', 'status'], axis=1)
# если нужны только станции с наличием GPS координат - раскомментируйте строку ниже
# stations_df = stations_df.dropna(subset=['lat', 'lon'])

У нас образовалось довольно много дублирующих столбцов. ИХ необходимо объединить и удалить ненужные

In [31]:
list(stations_df)

['division',
 'esr',
 'country',
 'region',
 'express',
 'source',
 'iso3166',
 'railway_x',
 'type_x',
 'name_x',
 'type_y',
 'osm_id',
 'lat',
 'lon',
 'name_y',
 'railway_y']

### Работа с дублирующимися столбцами

In [32]:
# дозаполняем пустые ячейки в двух столбцах "параллельно"
stations_df['name_x'] = stations_df['name_x'].fillna(stations_df['name_y'])
stations_df['name_y'] = stations_df['name_y'].fillna(stations_df['name_x'])
# оставляем только один из столбцов
stations_df['name'] = stations_df['name_y']
stations_df = stations_df.drop(labels=['name_y', 'name_x'], axis=1)
stations_df
# stations_df[['name_x', 'name_y']]

Unnamed: 0,division,esr,country,region,express,source,iso3166,railway_x,type_x,type_y,osm_id,lat,lon,railway_y,name
0,,15,,,,,,,,,,,,,Московский узел
1,,23,,,,,,,,,,,,,Санкт-Петербургский узел
2,,5201,,,,,,,,,,,,,Кавказ-Варна (условный код)
3,,5322,,,,,,,,,,,,,Котка
4,,7627,,Латвия,,latvia,LV,Латвийская,,,,,,,Оп Апшупе
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28327,,997926,,Сахалинская область,2068402.0,sakhalin,RU-SAK,Сахалинская,остановочный пункт,0.0,1.024316e+09,51.339256,142.719803,halt,Арги-Паги
28328,,998007,Российская Федерация,Сахалинская область,2068459.0,sakhalin,RU-SAK,Сахалинская,станция,0.0,1.815735e+09,51.495022,142.790359,station,Ныш
28329,,998100,Российская Федерация,Сахалинская область,2068498.0,sakhalin,RU-SAK,Сахалинская,станция,0.0,1.825941e+09,51.797131,143.129868,station,Ноглики
28330,,998100,Российская Федерация,Сахалинская область,2068498.0,sakhalin,RU-SAK,Сахалинская,станция,1.0,2.119020e+08,51.797001,143.130157,station,Ноглики


In [33]:
# по аналогии с предыдущей ячейкой продолжаем заполнение столбцов
stations_df[['railway_x', 'railway_y']]
stations_df['station_type_en'] = stations_df['railway_y']
stations_df['railway'] = stations_df['railway_x']
stations_df = stations_df.drop(labels=['railway_x', 'railway_y'], axis=1)
stations_df

Unnamed: 0,division,esr,country,region,express,source,iso3166,type_x,type_y,osm_id,lat,lon,name,station_type_en,railway
0,,15,,,,,,,,,,,Московский узел,,
1,,23,,,,,,,,,,,Санкт-Петербургский узел,,
2,,5201,,,,,,,,,,,Кавказ-Варна (условный код),,
3,,5322,,,,,,,,,,,Котка,,
4,,7627,,Латвия,,latvia,LV,,,,,,Оп Апшупе,,Латвийская
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28327,,997926,,Сахалинская область,2068402.0,sakhalin,RU-SAK,остановочный пункт,0.0,1.024316e+09,51.339256,142.719803,Арги-Паги,halt,Сахалинская
28328,,998007,Российская Федерация,Сахалинская область,2068459.0,sakhalin,RU-SAK,станция,0.0,1.815735e+09,51.495022,142.790359,Ныш,station,Сахалинская
28329,,998100,Российская Федерация,Сахалинская область,2068498.0,sakhalin,RU-SAK,станция,0.0,1.825941e+09,51.797131,143.129868,Ноглики,station,Сахалинская
28330,,998100,Российская Федерация,Сахалинская область,2068498.0,sakhalin,RU-SAK,станция,1.0,2.119020e+08,51.797001,143.130157,Ноглики,station,Сахалинская


In [34]:
stations_df[['type_x', 'type_y']]
# stations_df['station_type_ru'] = stations_df['type_x']
stations_df = stations_df.drop(labels=['type_x', 'type_y'], axis=1)
stations_df

Unnamed: 0,division,esr,country,region,express,source,iso3166,osm_id,lat,lon,name,station_type_en,railway
0,,15,,,,,,,,,Московский узел,,
1,,23,,,,,,,,,Санкт-Петербургский узел,,
2,,5201,,,,,,,,,Кавказ-Варна (условный код),,
3,,5322,,,,,,,,,Котка,,
4,,7627,,Латвия,,latvia,LV,,,,Оп Апшупе,,Латвийская
...,...,...,...,...,...,...,...,...,...,...,...,...,...
28327,,997926,,Сахалинская область,2068402.0,sakhalin,RU-SAK,1.024316e+09,51.339256,142.719803,Арги-Паги,halt,Сахалинская
28328,,998007,Российская Федерация,Сахалинская область,2068459.0,sakhalin,RU-SAK,1.815735e+09,51.495022,142.790359,Ныш,station,Сахалинская
28329,,998100,Российская Федерация,Сахалинская область,2068498.0,sakhalin,RU-SAK,1.825941e+09,51.797131,143.129868,Ноглики,station,Сахалинская
28330,,998100,Российская Федерация,Сахалинская область,2068498.0,sakhalin,RU-SAK,2.119020e+08,51.797001,143.130157,Ноглики,station,Сахалинская


### Проводим выборку только железнодорожных станций, находящихся на территории РФ

In [35]:
# stations_df['country'] = stations_df['country'].fillna(value='NAN')
# stations_df[(stations_df['country'] == 'Российская Федерация') | (stations_df['country'] == 'NAN')]
stations_df = stations_df[(stations_df['country'] == 'Российская Федерация') | (stations_df['iso3166'].str.contains('RU'))]
stations_df = stations_df.drop(labels=['country'], axis=1)
stations_df

Unnamed: 0,division,esr,region,express,source,iso3166,osm_id,lat,lon,name,station_type_en,railway
5,Петрозаводское,10002,Республика Карелия,2004300.0,karel,RU-KR,6.651158e+08,61.784218,34.344021,Петрозаводск-Пассажирский,station,Октябрьская
8,,10110,Республика Карелия,,karel,RU-KR,,,,ПЕТРОЗАВОДСК-ГОЛ,,Октябрьская
9,,10125,Республика Карелия,,karel,RU-KR,,,,ПЕТРОЗАВОДСК-ТОМ,,Октябрьская
13,Петрозаводское,10205,Республика Карелия,2004775.0,karel,RU-KR,,,,ГОЛИКОВКА,,Октябрьская
14,Петрозаводское,10214,Республика Карелия,2004775.0,karel,RU-KR,,,,Голиковка,,Октябрьская
...,...,...,...,...,...,...,...,...,...,...,...,...
28327,,997926,Сахалинская область,2068402.0,sakhalin,RU-SAK,1.024316e+09,51.339256,142.719803,Арги-Паги,halt,Сахалинская
28328,,998007,Сахалинская область,2068459.0,sakhalin,RU-SAK,1.815735e+09,51.495022,142.790359,Ныш,station,Сахалинская
28329,,998100,Сахалинская область,2068498.0,sakhalin,RU-SAK,1.825941e+09,51.797131,143.129868,Ноглики,station,Сахалинская
28330,,998100,Сахалинская область,2068498.0,sakhalin,RU-SAK,2.119020e+08,51.797001,143.130157,Ноглики,station,Сахалинская


### Экспортируем готовую таблицу в csv

In [36]:
stations_df.to_csv('RU_stations_new.csv', sep='\t', encoding='utf-8')