In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import geopandas as gpd

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.linear_model import LinearRegression

### Задача:

Прогноз продаж одной из популярных моделей [фичерфонов](https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%D1%87%D0%B5%D1%80%D1%84%D0%BE%D0%BD) (на картинке ниже пример похожего устройства) в салонах МегаФона
![](https://39.img.avito.st/640x480/8468720439.jpg)

### Исходные данные:

Датасет содержит следующие поля:

1. `point_id` - Индентификатор салона
2. `lon` - Долгота точки
3. `lat` - Широта точки
4. `target` - Значение таргета, усредненное за несколько месяцев и отнормированное

### Требования к решению и советы:

Ниже приведен список из нескольких важных пунктов, необходимых для решения задания. Выполнение каждого из пунктов влияет на итоговую оценку. Вы можете выполнить каждый из пунктов разными способами, самым лучшим будет считаться вариант, когда всё получение и обработка данных будут реализованы на Питоне (пример: вы можете скачать данные из OSM через интерфейс на сайте overpass-turbo или с помощью библиотек `overpass`/`requests`. Оба варианта будут зачтены, но больше баллов можно заработать во втором случае)



1. Салоны расположены в нескольких разных городах, вам необходимо **определить город для каждого салона** (это понадобится во многих частях задания). К этому есть разные подходы. Вы можете провести [обратное геокодирование](https://en.wikipedia.org/wiki/Reverse_geocoding) с помощью геокодера [Nominatim](https://nominatim.org/), доступного через библиотеку `geopy` примерно вот так:
```python
from geopy.geocoders import Nominatim
geolocator = Nominatim(user_agent="specify_your_app_name_here")
location = geolocator.reverse("52.509669, 13.376294")
print(location.address)
```
В таком случае, вам придется обрабатывать полученную строку адреса, чтобы извлечь название города. Также вы можете скачать из OSM или найти в любом другом источнике границы административно территориальных границ России и пересечь с ними датасет с помощью `geopandas.sjoin` (этот вариант более надежный, но нужно будет разобраться с тем, как устроены границы АТД в OSM, обратите внимание на [этот тег](https://wiki.openstreetmap.org/wiki/Key:admin_level))


2. **Используйте данные OSM**: подумайте, какие объекты могут влиять на продажи фичерфонов. Гипотеза: такие телефоны покупают люди, приезжающие в город или страну ненадолго, чтобы вставить туда отдельную симкарту для роуминга. Можно попробовать использовать местоположения железнодорожных вокзалов (изучите [этот тег](https://wiki.openstreetmap.org/wiki/Tag:railway%3Dstation)). Необходимо использовать хотя бы 5 разных типов объектов из OSM. Скорее всего, вам придется качать данные OSM отдельно для разных городов (см. пример для Нью-Йорка из лекции)


3. **Используйте разные способы генерации признаков**: описать положение салона МегаФона относительно станций метро можно разными способами - найти ***расстояние до ближайшей станции***, или же посчитать, сколько станций попадает в ***500 метровую буферную зону*** вокруг салона. Такие признаки будут нести разную информацию. Так же попробуйте поэкспериментировать с размерами буферных зон (представьте, что значат в реальности радиусы 100, 500, 1000 метров). Попробуйте посчитать расстояние до центра города, до других объектов.

4. **Сделайте визуализации**: постройте 2-3 карты для какого нибудь из городов - как распределен в пространстве таргет, где находятся объекты, полученные вами из OSM. Можете использовать любой инструмент - обычный `plot()`, `folium`, `keplergl`. Если выберете Кеплер, обязательно сохраните в файл конфиг карты, чтобы ее можно было воспроизвести. Сделать это можно вот так:

```python
import json
json_data = kepler_map.config
with open('kepler_config.json', 'w') as outfile:
    json.dump(json_data, outfile)
```
5. Задание не ограничено приведенными выше пунктами, попробуйте нагенерировать интересных признаков, найти в интернете дополнительные данные (в таком случае в комментарии к коду укажите ссылку на ресурс, откуда взяли данные)



6. Это довольно сложная задача - датасет очень маленький, данные по своей природе довольно случайны. Поэтому место и скор на Kaggle не будут играть решающую роль в оценке, но позволят заработать дополнительные баллы

### Read data

In [2]:
train = pd.read_csv('data/mf_geo_train.csv')
test = pd.read_csv('data/mf_geo_test.csv')

In [3]:
train.head(2)

Unnamed: 0,point_id,lon,lat,target
0,ommNZCUV,37.590776,55.84863,-0.348157
1,nMe2LHPb,37.78421,55.750271,1.294206


In [4]:
test.head(2)

Unnamed: 0,point_id,lon,lat,target
0,F4lXR1cG,37.681242,55.74804,0.0091
1,4LJu4GTf,60.58091,56.79586,0.0091


### 1
1. Салоны расположены в нескольких разных городах, вам необходимо **определить город для каждого салона** (это понадобится во многих частях задания). К этому есть разные подходы. Вы можете провести [обратное геокодирование](https://en.wikipedia.org/wiki/Reverse_geocoding) с помощью геокодера [Nominatim](https://nominatim.org/), доступного через библиотеку `geopy` примерно вот так:
```python
from geopy.geocoders import Nominatim
geolocator = Nominatim(user_agent="specify_your_app_name_here")
location = geolocator.reverse("52.509669, 13.376294")
print(location.address)
```
В таком случае, вам придется обрабатывать полученную строку адреса, чтобы извлечь название города. Также вы можете скачать из OSM или найти в любом другом источнике границы административно территориальных границ России и пересечь с ними датасет с помощью `geopandas.sjoin` (этот вариант более надежный, но нужно будет разобраться с тем, как устроены границы АТД в OSM, обратите внимание на [этот тег](https://wiki.openstreetmap.org/wiki/Key:admin_level))

In [5]:
from geopy.geocoders import Nominatim
import overpass
import requests

Добавляем город, в котором находится каждый салон:

In [8]:
geolocator = Nominatim(user_agent="http")

In [9]:
for i in train.index:
    location = geolocator.reverse(str(train.lat[i]) + ', ' + str(train.lon[i]))
    address = location.address.split(sep=', ')
    if address[-4] == 'Москва' or address[-4] == 'Санкт-Петербург':
        train.loc[i, 'city'] = address[-4]
    else:
        train.loc[i, 'city'] = address[-5].split()[-1]

Проверим правильность добавления:

In [10]:
train.city.value_counts()

Москва             160
Санкт-Петербург     83
Самара              27
Новосибирск         26
Казань              25
Екатеринбург        22
Новгород            21
Ростов-на-Дону      21
Красноярск          20
Уфа                 19
Балашиха             1
Name: city, dtype: int64

Видим, что обработка адреса верна.

In [11]:
train.head()

Unnamed: 0,point_id,lon,lat,target,city
0,ommNZCUV,37.590776,55.84863,-0.348157,Москва
1,nMe2LHPb,37.78421,55.750271,1.294206,Москва
2,ZgodVRqB,39.635721,47.21333,-1.039679,Ростов-на-Дону
3,0t2jNYdz,37.70457,55.78202,-1.169339,Москва
4,U27W4QJ7,37.643983,55.730188,-0.088837,Москва


Делаем то же самое с test:

In [12]:
for i in test.index:
    location = geolocator.reverse(str(test.lat[i]) + ', ' + str(test.lon[i]))
    address = location.address.split(sep=', ')
    if address[-4] == 'Москва' or address[-4] == 'Санкт-Петербург':
        test.loc[i, 'city'] = address[-4]
    else:
        test.loc[i, 'city'] = address[-5].split()[-1]

In [13]:
test.city.value_counts()

Москва             40
Санкт-Петербург    21
Казань              7
Новосибирск         7
Самара              7
Ростов-на-Дону      5
Уфа                 5
Красноярск          5
Новгород            5
Екатеринбург        5
Name: city, dtype: int64

In [14]:
test.head()

Unnamed: 0,point_id,lon,lat,target,city
0,F4lXR1cG,37.681242,55.74804,0.0091,Москва
1,4LJu4GTf,60.58091,56.79586,0.0091,Екатеринбург
2,kLuAAN3s,37.598614,55.781357,0.0091,Москва
3,OxQHvaNu,37.794051,55.717468,0.0091,Москва
4,paQsTa1K,49.213026,55.74829,0.0091,Казань


### 2
2. **Используйте данные OSM**: подумайте, какие объекты могут влиять на продажи фичерфонов. Гипотеза: такие телефоны покупают люди, приезжающие в город или страну ненадолго, чтобы вставить туда отдельную симкарту для роуминга. Можно попробовать использовать местоположения железнодорожных вокзалов (изучите [этот тег](https://wiki.openstreetmap.org/wiki/Tag:railway%3Dstation)). Необходимо использовать хотя бы 5 разных типов объектов из OSM. Скорее всего, вам придется качать данные OSM отдельно для разных городов (см. пример для Нью-Йорка из лекции)

#### Соберем данные из OSM для Москвы:

In [15]:
overpass_url = "http://overpass-api.de/api/interpreter"

Метро:

In [16]:
overpass_query = """
[out:json];
area(3600102269);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
mos_und = response.json()

Кафе

In [17]:
overpass_query = """
[out:json];
area(3600102269);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
mos_caf = response.json()

Гостиницы

In [18]:
overpass_query = """
[out:json];
area(3600102269);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
mos_hot = response.json()

Достопримечательности:

In [19]:
overpass_query = """
[out:json];
area(3600102269);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
mos_att = response.json()

Торговые центры:

In [20]:
overpass_query = """
[out:json];
area(3600102269);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
mos_mal = response.json()

#### Теперь загрузим данные для Санкт-Петербурга:

Метро:

In [21]:
overpass_query = """
[out:json];
area(3600421007);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
spb_und = response.json()

Кафе

In [22]:
overpass_query = """
[out:json];
area(3600421007);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
spb_caf = response.json()

Гостиницы

In [23]:
overpass_query = """
[out:json];
area(3600421007);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
spb_hot = response.json()

Достопримечательности:

In [24]:
overpass_query = """
[out:json];
area(3600421007);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
spb_att = response.json()

Торговые центры:

In [25]:
overpass_query = """
[out:json];
area(3600421007);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
spb_mal = response.json()

#### Ростов-на-Дону

Станции:

In [26]:
overpass_query = """
[out:json];
area(3601285772);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ros_sta = response.json()

Кафе

In [27]:
overpass_query = """
[out:json];
area(3601285772);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ros_caf = response.json()

Гостиницы

In [28]:
overpass_query = """
[out:json];
area(3601285772);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ros_hot = response.json()

Достопримечательности:

In [29]:
overpass_query = """
[out:json];
area(3601285772);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ros_att = response.json()

Торговые центры:

In [30]:
overpass_query = """
[out:json];
area(3601285772);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ros_mal = response.json()

#### Самара

Станции:

In [31]:
overpass_query = """
[out:json];
area(3600287507);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
sam_sta = response.json()

Кафе

In [32]:
overpass_query = """
[out:json];
area(3600287507);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
sam_caf = response.json()

Гостиницы

In [33]:
overpass_query = """
[out:json];
area(3600287507);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
sam_hot = response.json()

Достопримечательности:

In [34]:
overpass_query = """
[out:json];
area(3600287507);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
sam_att = response.json()

Торговые центры:

In [35]:
overpass_query = """
[out:json];
area(3600287507);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
sam_mal = response.json()

#### Новосибирск

Станции:

In [36]:
overpass_query = """
[out:json];
area(3601751445);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvs_sta = response.json()

Кафе

In [37]:
overpass_query = """
[out:json];
area(3601751445);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvs_caf = response.json()

Гостиницы

In [38]:
overpass_query = """
[out:json];
area(3601751445);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvs_hot = response.json()

Достопримечательности:

In [39]:
overpass_query = """
[out:json];
area(3601751445);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvs_att = response.json()

Торговые центры:

In [40]:
overpass_query = """
[out:json];
area(3601751445);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvs_mal = response.json()

#### Казань

Станции:

In [41]:
overpass_query = """
[out:json];
area(3600367666);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kaz_sta = response.json()

Кафе

In [42]:
overpass_query = """
[out:json];
area(3600367666);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kaz_caf = response.json()

Гостиницы

In [43]:
overpass_query = """
[out:json];
area(3600367666);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kaz_hot = response.json()

Достопримечательности:

In [44]:
overpass_query = """
[out:json];
area(3600367666);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kaz_att = response.json()

Торговые центры:

In [45]:
overpass_query = """
[out:json];
area(3600367666);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kaz_mal = response.json()

#### Екатеринбург

Станции:

In [46]:
overpass_query = """
[out:json];
area(3606564910);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ek_sta = response.json()

Кафе

In [47]:
overpass_query = """
[out:json];
area(3606564910);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ek_caf = response.json()

Гостиницы

In [48]:
overpass_query = """
[out:json];
area(3606564910);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ek_hot = response.json()

Достопримечательности:

In [49]:
overpass_query = """
[out:json];
area(3606564910);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ek_att = response.json()

Торговые центры:

In [50]:
overpass_query = """
[out:json];
area(3606564910);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ek_mal = response.json()

#### Новгород

Станции:

In [318]:
overpass_query = """
[out:json];
area(3601752948);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvg_sta = response.json()

Кафе

In [319]:
overpass_query = """
[out:json];
area(3601752948);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvg_caf = response.json()

Гостиницы

In [320]:
overpass_query = """
[out:json];
area(3601752948);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvg_hot = response.json()

Достопримечательности:

In [321]:
overpass_query = """
[out:json];
area(3601752948);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvg_att = response.json()

Торговые центры:

In [322]:
overpass_query = """
[out:json];
area(3601752948);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
nvg_mal = response.json()

#### Красноярск

Станции

In [56]:
overpass_query = """
[out:json];
area(3601430616);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kras_sta = response.json()

Кафе

In [57]:
overpass_query = """
[out:json];
area(3601430616);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kras_caf = response.json()

Гостиницы

In [58]:
overpass_query = """
[out:json];
area(3601430616);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kras_hot = response.json()

Достопримечательности:

In [59]:
overpass_query = """
[out:json];
area(3601430616);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kras_att = response.json()

Торговые центры:

In [60]:
overpass_query = """
[out:json];
area(3601430616);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
kras_mal = response.json()

#### Уфа

Станции

In [61]:
overpass_query = """
[out:json];
area(3601549169);
node["railway"="station"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ufa_sta = response.json()

Кафе

In [62]:
overpass_query = """
[out:json];
area(3601549169);
node["amenity"="cafe"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ufa_caf = response.json()

Гостиницы

In [63]:
overpass_query = """
[out:json];
area(3601549169);
node["tourism"="hotel"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ufa_hot = response.json()

Достопримечательности:

In [64]:
overpass_query = """
[out:json];
area(3601549169);
node["tourism"="attraction"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ufa_att = response.json()

Торговые центры:

In [65]:
overpass_query = """
[out:json];
area(3601549169);
node["shop"="mall"](area);
out center;
"""
response = requests.get(overpass_url, 
                        params={'data': overpass_query})
ufa_mal = response.json()

### 3
3. **Используйте разные способы генерации признаков**: описать положение салона МегаФона относительно станций метро можно разными способами - найти ***расстояние до ближайшей станции***, или же посчитать, сколько станций попадает в ***500 метровую буферную зону*** вокруг салона. Такие признаки будут нести разную информацию. Так же попробуйте поэкспериментировать с размерами буферных зон (представьте, что значат в реальности радиусы 100, 500, 1000 метров). Попробуйте посчитать расстояние до центра города, до других объектов.

In [74]:
from shapely.geometry import Point, Polygon

#### Москва

Признак количество кафе в радиусе 1 км

In [358]:
moscow = train[train.city == 'Москва']
df_mos_caf = gpd.GeoDataFrame(mos_caf['elements'])
for i in moscow.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_caf.index:
        if point.contains(Point(df_mos_caf.lat[j], df_mos_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [152]:
df_mos_hot = gpd.GeoDataFrame(mos_hot['elements'])
df_mos_att = gpd.GeoDataFrame(mos_att['elements'])
df_mos_mal = gpd.GeoDataFrame(mos_mal['elements'])
for i in moscow.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_hot.index:
        if point.contains(Point(df_mos_hot.lat[j], df_mos_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [154]:
for i in moscow.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_att.index:
        if point.contains(Point(df_mos_att.lat[j], df_mos_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [156]:
for i in moscow.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_mal.index:
        if point.contains(Point(df_mos_mal.lat[j], df_mos_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [158]:
df_mos_sta = gpd.GeoDataFrame(mos_und['elements'])
for i in moscow.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_sta.index:
        if point.contains(Point(df_mos_sta.lat[j], df_mos_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

In [209]:
from geopy import distance

Расстояние до близжайшей станции

In [213]:
for i in moscow.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in df_mos_sta.index:
        station = (df_mos_sta.lon[j], df_mos_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [216]:
for i in moscow.index:
    point = (train.lon[i], train.lat[i])
    center = (37.6174943, 55.7504461)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [221]:
for i in moscow.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in moscow.index:
        if j != i:
            salon = (train.lon[j], train.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

Проделаем все тоже самое для других городов.

#### Санкт-Петербург

Признак количество кафе в радиусе 1 км

In [223]:
spb = train[train.city == 'Санкт-Петербург']
df_spb_caf = gpd.GeoDataFrame(spb_caf['elements'])
for i in spb.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_caf.index:
        if point.contains(Point(df_spb_caf.lat[j], df_spb_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [224]:
df_spb_hot = gpd.GeoDataFrame(spb_hot['elements'])
df_spb_att = gpd.GeoDataFrame(spb_att['elements'])
df_spb_mal = gpd.GeoDataFrame(spb_mal['elements'])
for i in spb.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_hot.index:
        if point.contains(Point(df_spb_hot.lat[j], df_spb_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [225]:
for i in spb.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_att.index:
        if point.contains(Point(df_spb_att.lat[j], df_spb_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [226]:
for i in spb.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_mal.index:
        if point.contains(Point(df_spb_mal.lat[j], df_spb_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [227]:
df_spb_sta = gpd.GeoDataFrame(spb_und['elements'])
for i in spb.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_sta.index:
        if point.contains(Point(df_spb_sta.lat[j], df_spb_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [228]:
for i in spb.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in df_spb_sta.index:
        station = (df_spb_sta.lon[j], df_spb_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [453]:
for i in spb.index:
    point = (train.lon[i], train.lat[i])
    center = (30.316229, 59.938732)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [230]:
for i in spb.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in spb.index:
        if j != i:
            salon = (train.lon[j], train.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

#### Ростов-на-Дону

Признак количество кафе в радиусе 1 км

In [233]:
ros = train[train.city == 'Ростов-на-Дону']
df_ros_caf = gpd.GeoDataFrame(ros_caf['elements'])
for i in ros.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_caf.index:
        if point.contains(Point(df_ros_caf.lat[j], df_ros_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [234]:
df_ros_hot = gpd.GeoDataFrame(ros_hot['elements'])
df_ros_att = gpd.GeoDataFrame(ros_att['elements'])
df_ros_mal = gpd.GeoDataFrame(ros_mal['elements'])
for i in ros.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_hot.index:
        if point.contains(Point(df_ros_hot.lat[j], df_ros_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [235]:
for i in ros.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_att.index:
        if point.contains(Point(df_ros_att.lat[j], df_ros_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [241]:
for i in ros.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_mal.index:
        if point.contains(Point(df_ros_mal.lat[j], df_ros_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [248]:
df_ros_sta = gpd.GeoDataFrame(ros_sta['elements'])
for i in ros.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_sta.index:
        if point.contains(Point(df_ros_sta.lat[j], df_ros_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [297]:
for i in ros.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in df_ros_sta.index:
        station = (df_ros_sta.lon[j], df_ros_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [238]:
for i in ros.index:
    point = (train.lon[i], train.lat[i]) 
    center = (39.7114196, 47.2213858)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [239]:
for i in ros.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in ros.index:
        if j != i:
            salon = (train.lon[j], train.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

#### Самара

Признак количество кафе в радиусе 1 км

In [243]:
sam = train[train.city == 'Самара']
df_sam_caf = gpd.GeoDataFrame(sam_caf['elements'])
for i in sam.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_caf.index:
        if point.contains(Point(df_sam_caf.lat[j], df_sam_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [244]:
df_sam_hot = gpd.GeoDataFrame(sam_hot['elements'])
df_sam_att = gpd.GeoDataFrame(sam_att['elements'])
df_sam_mal = gpd.GeoDataFrame(sam_mal['elements'])
for i in sam.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_hot.index:
        if point.contains(Point(df_sam_hot.lat[j], df_sam_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [245]:
for i in sam.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_att.index:
        if point.contains(Point(df_sam_att.lat[j], df_sam_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [246]:
for i in sam.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_mal.index:
        if point.contains(Point(df_sam_mal.lat[j], df_sam_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [249]:
df_sam_sta = gpd.GeoDataFrame(sam_sta['elements'])
for i in sam.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_sta.index:
        if point.contains(Point(df_sam_sta.lat[j], df_sam_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [250]:
for i in sam.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in df_sam_sta.index:
        station = (df_sam_sta.lon[j], df_sam_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [251]:
for i in sam.index:
    point = (train.lon[i], train.lat[i])
    center = (50.113987, 53.198627)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [252]:
for i in sam.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in sam.index:
        if j != i:
            salon = (train.lon[j], train.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

#### Новосибирск

Признак количество кафе в радиусе 1 км

In [255]:
nvs = train[train.city == 'Новосибирск']
df_nvs_caf = gpd.GeoDataFrame(nvs_caf['elements'])
for i in nvs.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_caf.index:
        if point.contains(Point(df_nvs_caf.lat[j], df_nvs_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [256]:
df_nvs_hot = gpd.GeoDataFrame(nvs_hot['elements'])
df_nvs_att = gpd.GeoDataFrame(nvs_att['elements'])
df_nvs_mal = gpd.GeoDataFrame(nvs_mal['elements'])
for i in nvs.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_hot.index:
        if point.contains(Point(df_nvs_hot.lat[j], df_nvs_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [257]:
for i in nvs.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_att.index:
        if point.contains(Point(df_nvs_att.lat[j], df_nvs_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [258]:
for i in nvs.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_mal.index:
        if point.contains(Point(df_nvs_mal.lat[j], df_nvs_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [259]:
df_nvs_sta = gpd.GeoDataFrame(nvs_sta['elements'])
for i in nvs.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_sta.index:
        if point.contains(Point(df_nvs_sta.lat[j], df_nvs_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [260]:
for i in nvs.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in df_nvs_sta.index:
        station = (df_nvs_sta.lon[j], df_nvs_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [261]:
for i in nvs.index:
    point = (train.lon[i], train.lat[i])
    center = (82.9234509, 55.0282171)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [262]:
for i in nvs.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in nvs.index:
        if j != i:
            salon = (train.lon[j], train.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

#### Казань

Признак количество кафе в радиусе 1 км

In [265]:
kaz = train[train.city == 'Казань']
df_kaz_caf = gpd.GeoDataFrame(kaz_caf['elements'])
for i in kaz.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_caf.index:
        if point.contains(Point(df_kaz_caf.lat[j], df_kaz_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [266]:
df_kaz_hot = gpd.GeoDataFrame(kaz_hot['elements'])
df_kaz_att = gpd.GeoDataFrame(kaz_att['elements'])
df_kaz_mal = gpd.GeoDataFrame(kaz_mal['elements'])
for i in kaz.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_hot.index:
        if point.contains(Point(df_kaz_hot.lat[j], df_kaz_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [267]:
for i in kaz.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_att.index:
        if point.contains(Point(df_kaz_att.lat[j], df_kaz_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [268]:
for i in kaz.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_mal.index:
        if point.contains(Point(df_kaz_mal.lat[j], df_kaz_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [269]:
df_kaz_sta = gpd.GeoDataFrame(kaz_sta['elements'])
for i in kaz.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_sta.index:
        if point.contains(Point(df_kaz_sta.lat[j], df_kaz_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [270]:
for i in kaz.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in df_kaz_sta.index:
        station = (df_kaz_sta.lon[j], df_kaz_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [271]:
for i in kaz.index:
    point = (train.lon[i], train.lat[i])
    center = (49.1242266, 55.7823547)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [272]:
for i in kaz.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in kaz.index:
        if j != i:
            salon = (train.lon[j], train.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

#### Екатеринбург

Признак количество кафе в радиусе 1 км

In [277]:
ek = train[train.city == 'Екатеринбург']
df_ek_caf = gpd.GeoDataFrame(ek_caf['elements'])
for i in ek.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_caf.index:
        if point.contains(Point(df_ek_caf.lat[j], df_ek_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [278]:
df_ek_hot = gpd.GeoDataFrame(ek_hot['elements'])
df_ek_att = gpd.GeoDataFrame(ek_att['elements'])
df_ek_mal = gpd.GeoDataFrame(ek_mal['elements'])
for i in ek.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_hot.index:
        if point.contains(Point(df_ek_hot.lat[j], df_ek_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [279]:
for i in ek.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_att.index:
        if point.contains(Point(df_ek_att.lat[j], df_ek_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [280]:
for i in ek.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_mal.index:
        if point.contains(Point(df_ek_mal.lat[j], df_ek_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [281]:
df_ek_sta = gpd.GeoDataFrame(ek_sta['elements'])
for i in ek.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_sta.index:
        if point.contains(Point(df_ek_sta.lat[j], df_ek_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [282]:
for i in ek.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in df_ek_sta.index:
        station = (df_ek_sta.lon[j], df_ek_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [283]:
for i in ek.index:
    point = (train.lon[i], train.lat[i])
    center = (60.60825, 56.839104)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [284]:
for i in ek.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in ek.index:
        if j != i:
            salon = (train.lon[j], train.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

#### Новгород

Признак количество кафе в радиусе 1 км

In [323]:
nvg = train[train.city == 'Новгород']
df_nvg_caf = gpd.GeoDataFrame(nvg_caf['elements'])
for i in nvg.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_caf.index:
        if point.contains(Point(df_nvg_caf.lat[j], df_nvg_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [324]:
df_nvg_hot = gpd.GeoDataFrame(nvg_hot['elements'])
df_nvg_att = gpd.GeoDataFrame(nvg_att['elements'])
df_nvg_mal = gpd.GeoDataFrame(nvg_mal['elements'])
for i in nvg.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_hot.index:
        if point.contains(Point(df_nvg_hot.lat[j], df_nvg_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [325]:
for i in nvg.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_att.index:
        if point.contains(Point(df_nvg_att.lat[j], df_nvg_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [326]:
for i in nvg.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_mal.index:
        if point.contains(Point(df_nvg_mal.lat[j], df_nvg_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [327]:
df_nvg_sta = gpd.GeoDataFrame(nvg_sta['elements'])
for i in nvg.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_sta.index:
        if point.contains(Point(df_nvg_sta.lat[j], df_nvg_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [328]:
for i in nvg.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in df_nvg_sta.index:
        station = (df_nvg_sta.lon[j], df_nvg_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [329]:
for i in nvg.index:
    point = (train.lon[i], train.lat[i])
    center = (44.003506, 56.328571)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [330]:
for i in nvg.index:
    point = (train.lon[i], train.lat[i])
    dist = 500
    for j in nvg.index:
        if j != i:
            salon = (train.lon[j], train.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

#### Красноярск

Признак количество кафе в радиусе 1 км

In [333]:
kras = train[train.city == 'Красноярск']
df_kras_caf = gpd.GeoDataFrame(kras_caf['elements'])
for i in kras.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_caf.index:
        if point.contains(Point(df_kras_caf.lat[j], df_kras_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [334]:
df_kras_hot = gpd.GeoDataFrame(kras_hot['elements'])
df_kras_att = gpd.GeoDataFrame(kras_att['elements'])
df_kras_mal = gpd.GeoDataFrame(kras_mal['elements'])
for i in kras.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_hot.index:
        if point.contains(Point(df_kras_hot.lat[j], df_kras_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [335]:
for i in kras.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_att.index:
        if point.contains(Point(df_kras_att.lat[j], df_kras_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [336]:
for i in kras.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_mal.index:
        if point.contains(Point(df_kras_mal.lat[j], df_kras_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [337]:
df_kras_sta = gpd.GeoDataFrame(kras_sta['elements'])
for i in kras.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_sta.index:
        if point.contains(Point(df_kras_sta.lat[j], df_kras_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [341]:
for i in kras.index:
    point = (train.lat[i], train.lon[i])
    dist = 500
    for j in df_kras_sta.index:
        station = (df_kras_sta.lat[j], df_kras_sta.lon[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [342]:
for i in kras.index:
    point = (train.lat[i], train.lon[i])
    center = (56.0090968, 92.8725147)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [343]:
for i in kras.index:
    point = (train.lat[i], train.lon[i])
    dist = 500
    for j in kras.index:
        if j != i:
            salon = (train.lat[j], train.lon[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

#### Уфа

Признак количество кафе в радиусе 1 км

In [345]:
ufa = train[train.city == 'Уфа']
df_ufa_caf = gpd.GeoDataFrame(ufa_caf['elements'])
for i in ufa.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_caf.index:
        if point.contains(Point(df_ufa_caf.lat[j], df_ufa_caf.lon[j])):
            n += 1
    train.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [346]:
df_ufa_hot = gpd.GeoDataFrame(ufa_hot['elements'])
df_ufa_att = gpd.GeoDataFrame(ufa_att['elements'])
df_ufa_mal = gpd.GeoDataFrame(ufa_mal['elements'])
for i in ufa.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_hot.index:
        if point.contains(Point(df_ufa_hot.lat[j], df_ufa_hot.lon[j])):
            n += 1
    train.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [347]:
for i in ufa.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_att.index:
        if point.contains(Point(df_ufa_att.lat[j], df_ufa_att.lon[j])):
            n += 1
    train.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [348]:
for i in ufa.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_mal.index:
        if point.contains(Point(df_ufa_mal.lat[j], df_ufa_mal.lon[j])):
            n += 1
    train.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [349]:
df_ufa_sta = gpd.GeoDataFrame(ufa_sta['elements'])
for i in ufa.index:
    point = Point(train.lat[i], train.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_sta.index:
        if point.contains(Point(df_ufa_sta.lat[j], df_ufa_sta.lon[j])):
            n += 1
    train.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [350]:
for i in ufa.index:
    point = (train.lat[i], train.lon[i])
    dist = 500
    for j in df_ufa_sta.index:
        station = (df_ufa_sta.lat[j], df_ufa_sta.lon[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    train.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [351]:
for i in ufa.index:
    point = (train.lat[i], train.lon[i])
    center = (54.7261409, 55.947499)
    train.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [352]:
for i in ufa.index:
    point = (train.lat[i], train.lon[i])
    dist = 500
    for j in ufa.index:
        if j != i:
            salon = (train.lat[j], train.lon[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    train.loc[i, 'dist_salon'] = dist

Необходимо избавиться от Балашихи, такой объект всего 1, а в тесте он вовсе отсутствует, поэтому существенно на качество не повлияет.

In [354]:
train = train.dropna()

In [355]:
train

Unnamed: 0,point_id,lon,lat,target,city,cafes,hotels,attractions,malls,stations,min_dist_stat,dist_center,dist_salon
0,ommNZCUV,37.590776,55.848630,-0.348157,Москва,1.0,2.0,0.0,0.0,2.0,0.155140,9.163007,0.765778
1,nMe2LHPb,37.784210,55.750271,1.294206,Москва,9.0,0.0,0.0,0.0,1.0,0.265079,18.503919,0.083209
2,ZgodVRqB,39.635721,47.213330,-1.039679,Ростов-на-Дону,4.0,1.0,0.0,0.0,0.0,1.970163,8.433064,0.791127
3,0t2jNYdz,37.704570,55.782020,-1.169339,Москва,26.0,3.0,0.0,0.0,1.0,0.089354,10.058066,0.156413
4,U27W4QJ7,37.643983,55.730188,-0.088837,Москва,52.0,12.0,1.0,0.0,3.0,0.341539,3.441087,0.966847
...,...,...,...,...,...,...,...,...,...,...,...,...,...
420,AA8hN7bJ,37.628765,55.740664,0.213704,Москва,73.0,21.0,3.0,0.0,3.0,0.080903,1.520054,1.106251
421,uNw6t6xk,37.586825,55.794233,-0.002397,Москва,54.0,1.0,0.0,3.0,3.0,0.171250,5.151452,0.423794
422,Ap42ei8k,37.678790,55.772910,-0.910019,Москва,56.0,7.0,1.0,0.0,1.0,0.199517,7.086157,0.130759
423,rn9A8r62,37.752130,55.619640,-0.326547,Москва,3.0,0.0,0.0,0.0,2.0,0.937091,18.879288,1.077707


### Необходимо проделать все это для тестового датасета.

#### Москва

Признак количество кафе в радиусе 1 км

In [359]:
moscow_ = test[test.city == 'Москва']
for i in moscow_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_caf.index:
        if point.contains(Point(df_mos_caf.lat[j], df_mos_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [360]:
for i in moscow_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_hot.index:
        if point.contains(Point(df_mos_hot.lat[j], df_mos_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [361]:
for i in moscow_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_att.index:
        if point.contains(Point(df_mos_att.lat[j], df_mos_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [362]:
for i in moscow_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_mal.index:
        if point.contains(Point(df_mos_mal.lat[j], df_mos_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [363]:
for i in moscow_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_mos_sta.index:
        if point.contains(Point(df_mos_sta.lat[j], df_mos_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [364]:
for i in moscow_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in df_mos_sta.index:
        station = (df_mos_sta.lon[j], df_mos_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [366]:
for i in moscow_.index:
    point = (test.lon[i], test.lat[i])
    center = (37.6174943, 55.7504461)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [368]:
for i in moscow_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in moscow_.index:
        if j != i:
            salon = (test.lon[j], test.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

#### Санкт-Петербург

Признак количество кафе в радиусе 1 км

In [369]:
spb_ = test[test.city == 'Санкт-Петербург']
for i in spb_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_caf.index:
        if point.contains(Point(df_spb_caf.lat[j], df_spb_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [370]:
for i in spb_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_hot.index:
        if point.contains(Point(df_spb_hot.lat[j], df_spb_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [371]:
for i in spb_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_att.index:
        if point.contains(Point(df_spb_att.lat[j], df_spb_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [372]:
for i in spb_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_mal.index:
        if point.contains(Point(df_spb_mal.lat[j], df_spb_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [373]:
for i in spb_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_spb_sta.index:
        if point.contains(Point(df_spb_sta.lat[j], df_spb_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [374]:
for i in spb_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in df_spb_sta.index:
        station = (df_spb_sta.lon[j], df_spb_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [451]:
for i in spb_.index:
    point = (test.lon[i], test.lat[i])
    center = (30.316229, 59.938732)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [376]:
for i in spb_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in spb_.index:
        if j != i:
            salon = (test.lon[j], test.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

#### Ростов-на-Дону

Признак количество кафе в радиусе 1 км

In [377]:
ros_ = test[test.city == 'Ростов-на-Дону']
for i in ros_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_caf.index:
        if point.contains(Point(df_ros_caf.lat[j], df_ros_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [378]:
for i in ros_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_hot.index:
        if point.contains(Point(df_ros_hot.lat[j], df_ros_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [379]:
for i in ros_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_att.index:
        if point.contains(Point(df_ros_att.lat[j], df_ros_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [380]:
for i in ros_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_mal.index:
        if point.contains(Point(df_ros_mal.lat[j], df_ros_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [381]:
for i in ros_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ros_sta.index:
        if point.contains(Point(df_ros_sta.lat[j], df_ros_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [382]:
for i in ros_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in df_ros_sta.index:
        station = (df_ros_sta.lon[j], df_ros_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [383]:
for i in ros_.index:
    point = (test.lon[i], test.lat[i]) 
    center = (39.7114196, 47.2213858)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [384]:
for i in ros_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in ros_.index:
        if j != i:
            salon = (test.lon[j], test.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

#### Самара

Признак количество кафе в радиусе 1 км

In [385]:
sam_ = test[test.city == 'Самара']
for i in sam_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_caf.index:
        if point.contains(Point(df_sam_caf.lat[j], df_sam_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [386]:
for i in sam_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_hot.index:
        if point.contains(Point(df_sam_hot.lat[j], df_sam_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [387]:
for i in sam_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_att.index:
        if point.contains(Point(df_sam_att.lat[j], df_sam_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [388]:
for i in sam_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_mal.index:
        if point.contains(Point(df_sam_mal.lat[j], df_sam_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [389]:
for i in sam_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_sam_sta.index:
        if point.contains(Point(df_sam_sta.lat[j], df_sam_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [390]:
for i in sam_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in df_sam_sta.index:
        station = (df_sam_sta.lon[j], df_sam_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [391]:
for i in sam_.index:
    point = (test.lon[i], test.lat[i])
    center = (50.113987, 53.198627)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [392]:
for i in sam_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in sam_.index:
        if j != i:
            salon = (test.lon[j], test.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

#### Новосибирск

Признак количество кафе в радиусе 1 км

In [393]:
nvs_ = test[test.city == 'Новосибирск']
for i in nvs_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_caf.index:
        if point.contains(Point(df_nvs_caf.lat[j], df_nvs_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [394]:
for i in nvs_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_hot.index:
        if point.contains(Point(df_nvs_hot.lat[j], df_nvs_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [395]:
for i in nvs_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_att.index:
        if point.contains(Point(df_nvs_att.lat[j], df_nvs_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [396]:
for i in nvs_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_mal.index:
        if point.contains(Point(df_nvs_mal.lat[j], df_nvs_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [397]:
for i in nvs_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvs_sta.index:
        if point.contains(Point(df_nvs_sta.lat[j], df_nvs_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [398]:
for i in nvs_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in df_nvs_sta.index:
        station = (df_nvs_sta.lon[j], df_nvs_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [399]:
for i in nvs_.index:
    point = (test.lon[i], test.lat[i])
    center = (82.9234509, 55.0282171)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [400]:
for i in nvs_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in nvs_.index:
        if j != i:
            salon = (test.lon[j], test.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

#### Казань

Признак количество кафе в радиусе 1 км

In [401]:
kaz_ = test[test.city == 'Казань']
for i in kaz_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_caf.index:
        if point.contains(Point(df_kaz_caf.lat[j], df_kaz_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [402]:
for i in kaz_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_hot.index:
        if point.contains(Point(df_kaz_hot.lat[j], df_kaz_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [403]:
for i in kaz_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_att.index:
        if point.contains(Point(df_kaz_att.lat[j], df_kaz_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [404]:
for i in kaz_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_mal.index:
        if point.contains(Point(df_kaz_mal.lat[j], df_kaz_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [405]:
for i in kaz_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kaz_sta.index:
        if point.contains(Point(df_kaz_sta.lat[j], df_kaz_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [406]:
for i in kaz_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in df_kaz_sta.index:
        station = (df_kaz_sta.lon[j], df_kaz_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [407]:
for i in kaz_.index:
    point = (test.lon[i], test.lat[i])
    center = (49.1242266, 55.7823547)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [408]:
for i in kaz_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in kaz_.index:
        if j != i:
            salon = (test.lon[j], test.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

#### Екатеринбург

Признак количество кафе в радиусе 1 км

In [409]:
ek_ = test[test.city == 'Екатеринбург']
for i in ek_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_caf.index:
        if point.contains(Point(df_ek_caf.lat[j], df_ek_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [410]:
for i in ek_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_hot.index:
        if point.contains(Point(df_ek_hot.lat[j], df_ek_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [411]:
for i in ek_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_att.index:
        if point.contains(Point(df_ek_att.lat[j], df_ek_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [412]:
for i in ek_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_mal.index:
        if point.contains(Point(df_ek_mal.lat[j], df_ek_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [413]:
for i in ek_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ek_sta.index:
        if point.contains(Point(df_ek_sta.lat[j], df_ek_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [414]:
for i in ek_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in df_ek_sta.index:
        station = (df_ek_sta.lon[j], df_ek_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [415]:
for i in ek_.index:
    point = (test.lon[i], test.lat[i])
    center = (60.60825, 56.839104)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [416]:
for i in ek_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in ek_.index:
        if j != i:
            salon = (test.lon[j], test.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

#### Новгород

Признак количество кафе в радиусе 1 км

In [417]:
nvg_ = test[test.city == 'Новгород']
for i in nvg_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_caf.index:
        if point.contains(Point(df_nvg_caf.lat[j], df_nvg_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [418]:
for i in nvg_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_hot.index:
        if point.contains(Point(df_nvg_hot.lat[j], df_nvg_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [419]:
for i in nvg_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_att.index:
        if point.contains(Point(df_nvg_att.lat[j], df_nvg_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [420]:
for i in nvg_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_mal.index:
        if point.contains(Point(df_nvg_mal.lat[j], df_nvg_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [421]:
for i in nvg_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_nvg_sta.index:
        if point.contains(Point(df_nvg_sta.lat[j], df_nvg_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [422]:
for i in nvg_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in df_nvg_sta.index:
        station = (df_nvg_sta.lon[j], df_nvg_sta.lat[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [423]:
for i in nvg_.index:
    point = (test.lon[i], test.lat[i])
    center = (44.003506, 56.328571)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [424]:
for i in nvg_.index:
    point = (test.lon[i], test.lat[i])
    dist = 500
    for j in nvg_.index:
        if j != i:
            salon = (test.lon[j], test.lat[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

#### Красноярск

Признак количество кафе в радиусе 1 км

In [425]:
kras_ = test[test.city == 'Красноярск']
for i in kras_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_caf.index:
        if point.contains(Point(df_kras_caf.lat[j], df_kras_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [426]:
for i in kras_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_hot.index:
        if point.contains(Point(df_kras_hot.lat[j], df_kras_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [427]:
for i in kras_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_att.index:
        if point.contains(Point(df_kras_att.lat[j], df_kras_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [428]:
for i in kras_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_mal.index:
        if point.contains(Point(df_kras_mal.lat[j], df_kras_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [429]:
for i in kras_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_kras_sta.index:
        if point.contains(Point(df_kras_sta.lat[j], df_kras_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [430]:
for i in kras_.index:
    point = (test.lat[i], test.lon[i])
    dist = 500
    for j in df_kras_sta.index:
        station = (df_kras_sta.lat[j], df_kras_sta.lon[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [431]:
for i in kras_.index:
    point = (test.lat[i], test.lon[i])
    center = (56.0090968, 92.8725147)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [432]:
for i in kras_.index:
    point = (test.lat[i], test.lon[i])
    dist = 500
    for j in kras_.index:
        if j != i:
            salon = (test.lat[j], test.lon[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

#### Уфа

Признак количество кафе в радиусе 1 км

In [433]:
ufa_ = test[test.city == 'Уфа']
for i in ufa_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_caf.index:
        if point.contains(Point(df_ufa_caf.lat[j], df_ufa_caf.lon[j])):
            n += 1
    test.loc[i, 'cafes'] = n

Количество гостиниц в радиусе 1 км

In [434]:
for i in ufa_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_hot.index:
        if point.contains(Point(df_ufa_hot.lat[j], df_ufa_hot.lon[j])):
            n += 1
    test.loc[i, 'hotels'] = n

Количество достопримечательностей в радиусе 1 км

In [435]:
for i in ufa_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_att.index:
        if point.contains(Point(df_ufa_att.lat[j], df_ufa_att.lon[j])):
            n += 1
    test.loc[i, 'attractions'] = n

Количество торговых центров в радиусе 1 км

In [436]:
for i in ufa_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_mal.index:
        if point.contains(Point(df_ufa_mal.lat[j], df_ufa_mal.lon[j])):
            n += 1
    test.loc[i, 'malls'] = n

Количество станций в радиусе 1 км

In [437]:
for i in ufa_.index:
    point = Point(test.lat[i], test.lon[i]).buffer(0.01) # я выбрал простой путь, 0.01 градусов на 1 км
    n = 0
    for j in df_ufa_sta.index:
        if point.contains(Point(df_ufa_sta.lat[j], df_ufa_sta.lon[j])):
            n += 1
    test.loc[i, 'stations'] = n

Расстояние до близжайшей станции

In [438]:
for i in ufa_.index:
    point = (test.lat[i], test.lon[i])
    dist = 500
    for j in df_ufa_sta.index:
        station = (df_ufa_sta.lat[j], df_ufa_sta.lon[j])
        if distance.geodesic(point, station).km < dist:
            dist = distance.geodesic(point, station).km
    test.loc[i, 'min_dist_stat'] = dist

Расстояние до центра

In [439]:
for i in ufa_.index:
    point = (test.lat[i], test.lon[i])
    center = (54.7261409, 55.947499)
    test.loc[i, 'dist_center'] = distance.geodesic(point, center).km

Расстояние до близжайшего салона

In [440]:
for i in ufa_.index:
    point = (test.lat[i], test.lon[i])
    dist = 500
    for j in ufa_.index:
        if j != i:
            salon = (test.lat[j], test.lon[j])
            if distance.geodesic(point, salon).km < dist:
                dist = distance.geodesic(point, salon).km
    test.loc[i, 'dist_salon'] = dist

### 4
4. **Сделайте визуализации**: постройте 2-3 карты для какого нибудь из городов - как распределен в пространстве таргет, где находятся объекты, полученные вами из OSM. Можете использовать любой инструмент - обычный `plot()`, `folium`, `keplergl`. Если выберете Кеплер, обязательно сохраните в файл конфиг карты, чтобы ее можно было воспроизвести. Сделать это можно вот так:

```python
import json
json_data = kepler_map.config
with open('kepler_config.json', 'w') as outfile:
    json.dump(json_data, outfile)
```

In [461]:
import folium
from folium.plugins import HeatMap

Нахождение метро в Москве:

In [469]:
m = folium.Map(location=[55.7504461, 37.6174943], 
               zoom_start=11, 
               tiles='cartodbpositron')
for lat, lon in zip(df_mos_sta.lat, df_mos_sta.lon):
    folium.Marker(location=[lat, lon], popup=" m", icon=folium.Icon(color = 'gray')).add_to(m)
m.save("map1.html")
m

Распределение таргета в Москве:

In [482]:
m_1 = folium.Map(location=[55.7504461, 37.6174943], 
               zoom_start=11, 
               tiles='cartodbpositron')
heat_data = [[train.lat[i], train.lon[i], train.target[i]] for i in train.index]
HeatMap(heat_data,
        radius=10).add_to(m_1)
m_1.save('map2.html')
m_1

### Fit model

In [508]:
train

Unnamed: 0,point_id,lon,lat,target,city,cafes,hotels,attractions,malls,stations,min_dist_stat,dist_center,dist_salon
0,ommNZCUV,37.590776,55.848630,-0.348157,Москва,1.0,2.0,0.0,0.0,2.0,0.155140,9.163007,0.765778
1,nMe2LHPb,37.784210,55.750271,1.294206,Москва,9.0,0.0,0.0,0.0,1.0,0.265079,18.503919,0.083209
2,ZgodVRqB,39.635721,47.213330,-1.039679,Ростов-на-Дону,124.0,1.0,0.0,0.0,0.0,1.970163,8.433064,0.791127
3,0t2jNYdz,37.704570,55.782020,-1.169339,Москва,26.0,3.0,0.0,0.0,1.0,0.089354,10.058066,0.156413
4,U27W4QJ7,37.643983,55.730188,-0.088837,Москва,52.0,12.0,1.0,0.0,3.0,0.341539,3.441087,0.966847
...,...,...,...,...,...,...,...,...,...,...,...,...,...
420,AA8hN7bJ,37.628765,55.740664,0.213704,Москва,73.0,21.0,3.0,0.0,3.0,0.080903,1.520054,1.106251
421,uNw6t6xk,37.586825,55.794233,-0.002397,Москва,54.0,1.0,0.0,3.0,3.0,0.171250,5.151452,0.423794
422,Ap42ei8k,37.678790,55.772910,-0.910019,Москва,56.0,7.0,1.0,0.0,1.0,0.199517,7.086157,0.130759
423,rn9A8r62,37.752130,55.619640,-0.326547,Москва,3.0,0.0,0.0,0.0,2.0,0.937091,18.879288,1.077707


In [524]:
cat = train[['city']]
num = train[['min_dist_stat', 'dist_center']]

In [489]:
from sklearn.feature_extraction import DictVectorizer as DV

In [525]:
encoder = DV(sparse = False)
cat_oh = encoder.fit_transform(cat.T.to_dict().values())

In [526]:
X_train_num, X_valid_num, y_train, y_valid = train_test_split(num, train.target, test_size=0.3, random_state=0)
X_train_cat, X_valid_cat = train_test_split(cat_oh, test_size=0.3, random_state=0)

In [527]:
X_train = np.hstack((X_train_num, X_train_cat))
X_valid = np.hstack((X_valid_num, X_valid_cat))

In [528]:
model = LinearRegression().fit(X_train, y_train)

In [529]:
mean_absolute_error(y_valid, model.predict(X_valid))

0.6148328159180323

In [535]:
cat_test = test[['city']]
num_test = test[['min_dist_stat', 'dist_center']]

In [536]:
cat_oh_test = encoder.transform(cat_test.T.to_dict().values())

In [537]:
X_test = np.hstack((num_test, cat_oh_test))

### Только вещественные признаки

In [556]:
X = train[['lon', 'lat', 'dist_salon', 'dist_center']]
X_test = test[['lon', 'lat', 'dist_salon', 'dist_center']]

In [557]:
X_train, X_valid, y_train, y_valid = train_test_split(X, train.target)

In [558]:
model = LinearRegression().fit(X_train, y_train)

In [559]:
mean_absolute_error(y_valid, model.predict(X_valid))

0.7157095916912916

#### Два расстояния
The best

In [561]:
X = train[['lat', 'lon', 'dist_center']]
X_test = test[['lat', 'lon', 'dist_center']]

In [562]:
X_train, X_valid, y_train, y_valid = train_test_split(X, train.target)

In [563]:
model = LinearRegression().fit(X_train, y_train)

In [564]:
mean_absolute_error(y_valid, model.predict(X_valid))

0.7014557863623183

### Make submission

In [565]:
submission = pd.read_csv('data/sample_submission.csv')
submission['target'] = model.predict(X_test)
submission.to_csv('data/my_submission_01.csv', index=False)