Очищенный и унифицированный набор данных http://data.gov.spb.ru/opendata/7830001067-transport_station/
Над набором данных произведены следующие операции:
-
удалена колонка the_official_name - полностью дублирующиеся данные по колонке name_stopping
-
удалена колонка object_type - содержит только один тип данных: "Остановка"
-
удалена колонка location - не содержит никакой информации
-
удалены пробелы в начале и в конце
-
удалены двойные пробелы
-
все записи переведены в uppercase
-
уточнены типы населенных пунктов (город / поселок / деревня) по большинству записей
-
Е=>Ё fix
-
расставлены запятые и пробелы перед номерами домов
-
слово дом (в т.ч. "Д.", "д.") в наименованиях удалено
-
уточняющая информация ("по проспекту...", "по улице...") взята в скобки
-
приведены в соответствие с постановлением Правительства Санкт-Петербурга "О Реестре названий объектов городской среды" (по состоянию на 21.07.2016г.):
- сокращения топонимов: улиц, проспектов, ж/д станций и т.п.
- исправлены наименования объектов в форме краткого притяжательного прилагательного, с учетом склонений: Бармалеева улица, Репищева улица, Сегалева улица и т.п.
-
в отдельную колонку pos_vys вынесен признак (н-р, "Посадки и высадки нет", "высадка" и т.п.)
-
в отдельную колонку po_treb вынесен признак "по требованию"
-
введена колонка changed - признак отличия от оригинальной записи (изменение)
В колонке name_stopping остались наименования, содержащие "(ТЕСТ)", а также "УЛ. КОМИССАРА СМИРНОВА Т (20"
Итого: всего в наборе 7001 остановка (проверка на уникальность по координатам не производилась). Колонка name_stopping - 3583 уникальных наименования, clean_name - 2711 уникальных наименований