In [24]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as sts

## Cоздание новых признаков

1)Из такой характеристики, как Ближайшая станция метро мы могли бы узнать, **находится ли квартира в пределах Московской Кольцевой Автомобильной Дороги (МКАД)**: обычно недвижимость за пределами МКАДа стоит намного дешевле.

2)Также было предположение **оценить близость квартир к последнему этажу** (чем выше этаж, тем красивее вид). Но здесь мы пришли к выводу о том, что при непропорциональном распределении этажей в здании достаточно сложно определить, с какого именно этажа начинает открываться так называемый "красивый вид", ведь кому-то хочется видеть двор, кому-то — крыши домов, а кому-то нравится смотреть на облака. Создание данного признака было также отвергнуто.

3)Третьей из предполагаемых новых характеристик стало **отношение Жилая площадь к Площадь квартиры**: с ее помощью можно было бы предположить, какая часть квартиры реально пригодна для жилья.

In [5]:
data_without_miss = pd.read_csv('data_without_miss.csv') 
data_without_miss

Unnamed: 0,Округ,Ближайшая станция метро,Время до метро,Метро рядом,Застройщик,ЖК,Класс,Тип квартиры,Этаж,Этажей в доме,Отделка,Количество комнат,Площадь квартиры,Жилая площадь,Площадь кухни,Тип дома,Парковка,Год сдачи,Цена,Цена за 1 кв.м
0,СВАО,Марьина роща,17.0,2,Компания Пионер,«PRIDE (Прайд)»,Премиум,квартира,5.0,22.0,Без отделки,1.0,32.20,20.333629,11.724697,Монолитный,Подземная,2025.0,16106665,500206.987578
1,СЗАО,Трикотажная,4.0,3,СК Резиденс,«ÁLIA (АЛИЯ)»,Бизнес,квартира,2.0,26.0,Неизвестно,1.0,48.06,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0,16122800,335472.326259
2,САО,Тимирязевская,3.0,3,MR Group,«SYMPHONY 34 (Симфони 34)»,Премиум,квартира,2.0,36.0,Чистовая,1.0,37.62,12.800000,3.100000,Монолитный,"Подземная, гостевая",2025.0,18472662,491033.014354
3,ЗАО,Фили,5.0,3,Аеон Девелопмент,«River Park Towers Кутузовский (Ривер Парк Тау...,Премиум,квартира,2.0,45.0,Без отделки,1.0,42.80,20.333629,11.724697,Монолитно-кирпичный,Подземная,2026.0,22450632,524547.476636
4,САО,Белорусская,4.0,3,MR Group,«Комплекс апартаментов Slava (Слава)»,Премиум,апартаменты,2.0,16.0,Предчистовая,1.0,47.90,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0,25160002,525261.002088
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1095,НАО (Новомосковский),Ольховая,17.0,3,Группа Родина,«Russian Design District (Рашен Дизайн Дистрикт)»,Бизнес,квартира,12.0,13.0,Без отделки,1.0,36.90,12.200000,11.400000,Монолитно-кирпичный,"Подземная, гостевая",2023.0,11011700,298420.054201
1096,НАО (Новомосковский),Рассказовка,2.0,3,Абсолют Недвижимость,«Переделкино Ближнее Город-парк»,Комфорт,квартира,1.0,9.0,Без отделки,2.0,52.40,26.300000,11.724697,"Панельный, монолитный","Отдельная многоуровневая, гостевая",2025.0,11043610,210755.916031
1097,СЗАО,Спартак,5.0,3,ПИК,«Holland park (Холланд парк)»,Комфорт,квартира,2.0,13.0,Без отделки,1.0,34.90,10.600000,16.100000,Монолитный,"Подземная, гостевая",2024.0,11191557,320674.985673
1098,САО,Водники,12.0,3,ДСК-1,«Первый Ленинградский»,Комфорт,квартира,2.0,14.0,Предчистовая,2.0,52.90,25.500000,10.600000,Панельный,"Отдельная многоуровневая, гостевая",2023.0,11148781,210752.003781


Создадим **признак жилая площадь к общей площади квартиры**

In [21]:
data_without_miss['Жилая площадь/общая площадь']  = data_without_miss['Жилая площадь']/data_without_miss['Площадь квартиры']

In [22]:
data_without_miss

Unnamed: 0,Округ,Ближайшая станция метро,Время до метро,Метро рядом,Застройщик,ЖК,Класс,Тип квартиры,Этаж,Этажей в доме,...,Количество комнат,Площадь квартиры,Жилая площадь,Площадь кухни,Тип дома,Парковка,Год сдачи,Цена,Цена за 1 кв.м,Жилая площадь/общая площадь
0,СВАО,Марьина роща,17.0,2,Компания Пионер,«PRIDE (Прайд)»,Премиум,квартира,5.0,22.0,...,1.0,32.20,20.333629,11.724697,Монолитный,Подземная,2025.0,16106665,500206.987578,0.631479
1,СЗАО,Трикотажная,4.0,3,СК Резиденс,«ÁLIA (АЛИЯ)»,Бизнес,квартира,2.0,26.0,...,1.0,48.06,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0,16122800,335472.326259,0.423088
2,САО,Тимирязевская,3.0,3,MR Group,«SYMPHONY 34 (Симфони 34)»,Премиум,квартира,2.0,36.0,...,1.0,37.62,12.800000,3.100000,Монолитный,"Подземная, гостевая",2025.0,18472662,491033.014354,0.340245
3,ЗАО,Фили,5.0,3,Аеон Девелопмент,«River Park Towers Кутузовский (Ривер Парк Тау...,Премиум,квартира,2.0,45.0,...,1.0,42.80,20.333629,11.724697,Монолитно-кирпичный,Подземная,2026.0,22450632,524547.476636,0.475085
4,САО,Белорусская,4.0,3,MR Group,«Комплекс апартаментов Slava (Слава)»,Премиум,апартаменты,2.0,16.0,...,1.0,47.90,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0,25160002,525261.002088,0.424502
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1095,НАО (Новомосковский),Ольховая,17.0,3,Группа Родина,«Russian Design District (Рашен Дизайн Дистрикт)»,Бизнес,квартира,12.0,13.0,...,1.0,36.90,12.200000,11.400000,Монолитно-кирпичный,"Подземная, гостевая",2023.0,11011700,298420.054201,0.330623
1096,НАО (Новомосковский),Рассказовка,2.0,3,Абсолют Недвижимость,«Переделкино Ближнее Город-парк»,Комфорт,квартира,1.0,9.0,...,2.0,52.40,26.300000,11.724697,"Панельный, монолитный","Отдельная многоуровневая, гостевая",2025.0,11043610,210755.916031,0.501908
1097,СЗАО,Спартак,5.0,3,ПИК,«Holland park (Холланд парк)»,Комфорт,квартира,2.0,13.0,...,1.0,34.90,10.600000,16.100000,Монолитный,"Подземная, гостевая",2024.0,11191557,320674.985673,0.303725
1098,САО,Водники,12.0,3,ДСК-1,«Первый Ленинградский»,Комфорт,квартира,2.0,14.0,...,2.0,52.90,25.500000,10.600000,Панельный,"Отдельная многоуровневая, гостевая",2023.0,11148781,210752.003781,0.482042


Создадим признак: находится ли **ближайшее метро в пределах МКАДА**

In [28]:
#список станций метро, которые находятся за мкадом
za_mkadom = ['Аникеевка', 'Баковка', 'Битца', 'Боровское шоссе', 'Бульвар адмирала Ушакова', 'Бульвар Дмитрия Донского', 'Бунинская Аллея', 'Бутово', 'Водники', 'Волоколамская', 'Выхино', 'Говорово', 'Долгопрудная', 'Жулебино', 'Коммунарка', 'Котельники', 'Красногорская',
'Кунцевская', 'Лермонтовский проспект', 'Лобня', 'Лухмановская', 'Митино', 'Молодежная', 'Мякинино', 'Нахабино', 'Некрасовка', 'Немчиновка', 'Новодачная', 'Новокосино', 'Новопеределкино', 'Одинцово', 'Ольховая', 'Опалиха', 'Остафьево', 'Павшино', 'Подольск', 'Прокшино', 'Пятницкое шоссе', 'Рассказовка', 'Румянцево', 'Саларьево', 'Силикатная', 'Сколково', 'Солнцево', 'Улица Горчакова', 'Улица Дмитриевского', 'Улица Скобелевская', 'Улица Старокачаловская', 'Филатов Луг', 'Хлебниково', 'Шереметьевская', 'Щербинка']
data_without_miss['Метро за мкадом'] = np.where(data_without_miss['Ближайшая станция метро'].isin(za_mkadom), 1,0)

In [29]:
data_without_miss

Unnamed: 0,Округ,Ближайшая станция метро,Время до метро,Метро рядом,Застройщик,ЖК,Класс,Тип квартиры,Этаж,Этажей в доме,...,Жилая площадь,Площадь кухни,Тип дома,Парковка,Год сдачи,Цена,Цена за 1 кв.м,Жилая площадь/общая площадь,За мкадом,Метро за мкадом
0,СВАО,Марьина роща,17.0,2,Компания Пионер,«PRIDE (Прайд)»,Премиум,квартира,5.0,22.0,...,20.333629,11.724697,Монолитный,Подземная,2025.0,16106665,500206.987578,0.631479,0,0
1,СЗАО,Трикотажная,4.0,3,СК Резиденс,«ÁLIA (АЛИЯ)»,Бизнес,квартира,2.0,26.0,...,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0,16122800,335472.326259,0.423088,0,0
2,САО,Тимирязевская,3.0,3,MR Group,«SYMPHONY 34 (Симфони 34)»,Премиум,квартира,2.0,36.0,...,12.800000,3.100000,Монолитный,"Подземная, гостевая",2025.0,18472662,491033.014354,0.340245,0,0
3,ЗАО,Фили,5.0,3,Аеон Девелопмент,«River Park Towers Кутузовский (Ривер Парк Тау...,Премиум,квартира,2.0,45.0,...,20.333629,11.724697,Монолитно-кирпичный,Подземная,2026.0,22450632,524547.476636,0.475085,0,0
4,САО,Белорусская,4.0,3,MR Group,«Комплекс апартаментов Slava (Слава)»,Премиум,апартаменты,2.0,16.0,...,20.333629,11.724697,Монолитно-кирпичный,"Подземная, гостевая",2023.0,25160002,525261.002088,0.424502,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1095,НАО (Новомосковский),Ольховая,17.0,3,Группа Родина,«Russian Design District (Рашен Дизайн Дистрикт)»,Бизнес,квартира,12.0,13.0,...,12.200000,11.400000,Монолитно-кирпичный,"Подземная, гостевая",2023.0,11011700,298420.054201,0.330623,1,1
1096,НАО (Новомосковский),Рассказовка,2.0,3,Абсолют Недвижимость,«Переделкино Ближнее Город-парк»,Комфорт,квартира,1.0,9.0,...,26.300000,11.724697,"Панельный, монолитный","Отдельная многоуровневая, гостевая",2025.0,11043610,210755.916031,0.501908,1,1
1097,СЗАО,Спартак,5.0,3,ПИК,«Holland park (Холланд парк)»,Комфорт,квартира,2.0,13.0,...,10.600000,16.100000,Монолитный,"Подземная, гостевая",2024.0,11191557,320674.985673,0.303725,0,0
1098,САО,Водники,12.0,3,ДСК-1,«Первый Ленинградский»,Комфорт,квартира,2.0,14.0,...,25.500000,10.600000,Панельный,"Отдельная многоуровневая, гостевая",2023.0,11148781,210752.003781,0.482042,1,1


Мы создали два новых признака, **однако впоследствии не будем использовать их в исследовании**, так как сочли, что уже готовых признаков нам будет достаточно для проверки гипотез и обучения моделей.