# Исследование объявлений о продаже квартир

## Общее описание проекта 
В распоряжении данные сервиса о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно изучить влияние различных факторов на рыночную стоимость объектов недвижимости. 

## Описание признакового пространства 
По каждой квартире на продажу доступны следующие признаки. 

|Признак|Описание признака|
|-------------:|:------------|
|airports_nearest|расстояние до ближайшего аэропорта в метрах (м)|
|balcony|число балконов|
|ceiling_height|высота потолков (м)|
|cityCenters_nearest|расстояние до центра города (м)|
|days_exposition| сколько дней было размещено объявление (от публикации до снятия)|
|first_day_exposition|дата публикации|
|floor|этаж|
|floors_total| всего этажей в доме|
|is_apartment|апартаменты (булев тип)|
|kitchen_area|площадь кухни в квадратных метрах (м²)|
|last_price|цена на момент снятия с публикации|
|living_area|жилая площадь в квадратных метрах(м²)|
|locality_name|название населённого пункта|
|open_plan|свободная планировка (булев тип)|
|parks_around3000|число парков в радиусе 3 км|
|parks_nearest|расстояние до ближайшего парка (м)|
|ponds_around3000|число водоёмов в радиусе 3 км|
|ponds_nearest|расстояние до ближайшего водоёма (м)|
|rooms|число комнат|
|studio|квартира-студия (булев тип)|
|total_area|площадь квартиры в квадратных метрах (м²)|
|total_images|число фотографий квартиры в объявлении|

Пояснение: апартаменты — это нежилые помещения, не относящиеся к жилому фонду, но имеющие необходимые условия для проживания.

## Инструкции по выполнению проекта

Шаг 1. Откройте файл с данными и изучите общую информацию

Шаг 2. Предобработка данных
- Обработать аномальные наблюдения;
- Привести данные к необходимым типам;
- Исследовать дублирующиеся записи;
- Обработать пропущенные значения.

Шаг 3. Посчитайте и добавьте в таблицу:
цену квадратного метра;
день недели, месяц и год публикации объявления;
этаж квартиры; варианты — первый, последний, другой;
соотношение жилой и общей площади, а также отношение площади кухни к общей.

# Шаг 1. Откройте файл с данными и изучите общую информацию.
<a class="anchor" id="step1"></a>

## Импорт библиотек

In [1]:
import pandas as pd 
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
CAT_OS = 'https://github.com/OlesiaAngel/DataAnalitics/blob/main/%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/'

In [3]:
data = pd.read_csv(CAT_OS+'predobr/p7.csv?raw=True', sep='\t')

## Общее ознакомление с данными

В целях проверки корректности загруженных данных, ознакомления с предоставленным набором, распечатаем десять первых (метод `.head()`) и последних (метод `.tail()`) записей.     

In [4]:
data.head(10)

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,...,kitchen_area,balcony,locality_name,airports_nearest,cityCenters_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16.0,51.0,8,,...,25.0,,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,,...,11.0,2.0,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81.0
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5.0,34.3,4,,...,8.3,0.0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558.0
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,,...,,0.0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424.0
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14.0,32.0,13,,...,41.0,,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121.0
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,...,9.1,,городской посёлок Янино-1,,,,,,,55.0
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26.0,10.6,6,,...,14.4,1.0,посёлок Парголово,52996.0,19143.0,0.0,,0.0,,155.0
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24.0,,22,,...,18.9,2.0,Санкт-Петербург,23982.0,11634.0,0.0,,0.0,,
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,...,8.81,,посёлок Мурино,,,,,,,189.0
9,18,5400000.0,61.0,2017-02-26T00:00:00,3,2.5,9.0,43.6,7,,...,6.5,2.0,Санкт-Петербург,50898.0,15008.0,0.0,,0.0,,289.0


In [7]:
data.columns = list(range(0,22))

In [8]:
data.tail(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,12,13,14,15,16,17,18,19,20,21
23689,13,3550000.0,35.3,2018-02-28T00:00:00,1,2.86,15.0,16.3,4,,...,9.1,2.0,Санкт-Петербург,17284.0,16081.0,1.0,353.0,2.0,652.0,29.0
23690,3,5500000.0,52.0,2018-07-19T00:00:00,2,,5.0,31.0,2,,...,6.0,,Санкт-Петербург,20151.0,6263.0,1.0,300.0,0.0,,15.0
23691,11,9470000.0,72.9,2016-10-13T00:00:00,2,2.75,25.0,40.3,7,,...,10.6,1.0,Санкт-Петербург,19424.0,4489.0,0.0,,1.0,806.0,519.0
23692,2,1350000.0,30.0,2017-07-07T00:00:00,1,,5.0,17.5,4,,...,6.0,,Тихвин,,,,,,,413.0
23693,9,4600000.0,62.4,2016-08-05T00:00:00,3,2.6,9.0,40.0,8,,...,8.0,0.0,Петергоф,45602.0,34104.0,1.0,352.0,1.0,675.0,239.0
23694,9,9700000.0,133.81,2017-03-21T00:00:00,3,3.7,5.0,73.3,3,,...,13.83,,Санкт-Петербург,24665.0,4232.0,1.0,796.0,3.0,381.0,
23695,14,3100000.0,59.0,2018-01-15T00:00:00,3,,5.0,38.0,4,,...,8.5,,Тосно,,,,,,,45.0
23696,18,2500000.0,56.7,2018-02-11T00:00:00,2,,3.0,29.7,1,,...,,,село Рождествено,,,,,,,
23697,13,11475000.0,76.75,2017-03-28T00:00:00,2,3.0,17.0,,12,,...,23.3,2.0,Санкт-Петербург,39140.0,10364.0,2.0,173.0,3.0,196.0,602.0
23698,4,1350000.0,32.3,2017-07-21T00:00:00,1,2.5,5.0,12.3,1,,...,9.0,,поселок Новый Учхоз,,,,,,,


## Информация о признаках

Вывод информации о типах признаков, количестве записей, количестве ненулевых значений

In [None]:
data.info()

По признакам каждого типа получены описательные статистики

In [None]:
for t in set(data.dtypes):
    print("Переменные типа",t)
    print(data.select_dtypes(include = [t]).describe(),'\n')

In [None]:
data.describe()

**Текст, выделенный полужирным шрифтом**## Выводы по шагу 1

Результаты проведенного первичного обследования полученной выборки позволяют сделать следующие выводы: 
<a class="anchor" id="enclus1"></a>
1. Структура полученной выборки позволяет применять для обработки данных  библиотеку `pandas`. Сформированный датафрейм имеет 23699 строк и 22 столбца.
2. Наименование признаков не требует корректировки, за исключением признака `floor`, который лучше переименовать из-за наличия методов с таким же именем.
3. В отдельных признаках содержатся пропуски и аномальные наблюдения, требуется преобразование типов. Детальная информация по каждому признаку преставлена в таблице.

|№|Признак|Расшифровка|Проблемы с признаком|
|-:|------:|:----|:---|
|1|total_images| число фотографий квартиры в объявлении| установленный тип данных соответствует смыслу признака; пропусков нет; аномальных значений нет (хотя 50 фото многовато)|
|2|last_price|цена на момент снятия с публикации|проблем с признаком не обнаружено|
|3|total_area|площадь квартиры в квадратных метрах (м²)| проблем с признаком не обнаружено, однако заметим, что в основном продаются небольшие по площади квартиры порядка 70 $м^2$     |
|4|first_day_exposition|дата публикации|пропусков нет|
|5|rooms|число комнат|имеется квартира без комнат `0!` и маловероятное число комнат `19!`; большинство квартир 2-х и 3-х комнатные, что адекватно соотносится с признаком `total_area`|
|6|ceiling_height|высота потолков(м)|установленный тип данных соответствует смыслу признака; имеются пропуски и аномальные значения (высота потолка 1 м и 100 м); большинство квартир имеют высоту потолков 2.50-2.80 м --- стандартная высота потолка|
|7|floors_total|всего этажей в доме|заменить тип данных на целочисленный; имеется небольшое число пропусков; максимальный этаж -- 60| 
|8|living_area|жилая площадь в квадратных метрах(м²)|имеется небольшое число пропусков; минимальная площадь 2(м²) -- маловато будет для жилого помещания, максимальная площадь составляет 409.7(м²) -- очень большая квартира|
|9|floor|этаж| пропусков нет, аномалии не наблюдаются; следует изменить название признака, поскольку есть функции с таким именем|
|10|is_apartment|апартаменты (булев тип)|изменить тип данных на булев (bool); пропусков много, но возможно это просто указание того, что это не апартаменты|
|11|kitchen_area|площадь кухни в квадратных метрах (м²)|имеются пропуски, маловероятные значения площади кухни: минимальное 1.3(м²), а максимальное 112 (м²)|
|12|balcony|число балконов|именить тип данных на целочисленный; имеются пропуски; аномалий не замечано, но есть 5 балконов|
|13|locality_name|название населённого пункта|имеются малочисленные пропуски|
|14|airports_nearest|расстояние до ближайшего аэропорта в метрах (м)|имеются пропуски; минимальное значение 0 м -- квартира в здании аэропорта!!!|
|15|cityCenters_nearest|расстояние до центра города (м)|имеются пропуски; практически 66 км до центра города -- интересный факт|
|16|parks_around3000|число парков в радиусе 3 км|изменить тип данных на целочисленный; имеются пропуски; аномалий не замечано|
|17|parks_nearest|расстояние до ближайшего парка (м)|имеются пропуски в данных; аномалий не замечано|
|18|ponds_around3000|число водоёмов в радиусе 3 км|изменить тип данных на целочисленный; имеются пропуски; аномалий не замечано|
|19|ponds_nearest|расстояние до ближайшего водоёма (м)|имеются пропуски; аномалий не замечано|
|20|days_exposition|сколько дней было размещено объявление (от публикации до снятия)|изменить тип данных на целочисленный; имеются пропуски; аномалий не замечано|
|21|studio|квартира-студия (булев тип)|пропусков нет|                 
|22|open_plan|свободная планировка (булев тип)|пропусков нет|

**На этом исчерпывается информация, которую удалось получить по результатам первичного обследования предоставленного набора данных.** 

# Шаг 2. Предобработка данных
<a class="anchor" id="step2"></a>

## План работ на шагу 2

На данном шаге планируется выполнить следующие работы:
1. Переименовать признаки; 
2. Оценить количество дубликатов и, при наличии, удалить их;
3. Исследовать аномальные наблюдения;
4. Восстановить пропуски;
5. Заменить типы признаков.

## Переименование признаков

Имя признака `floor` совпадает с методом `floor()` из библиотеки `math`, т.е. является зарезервированным именем. Переименуем `floor` $\to$ `storey`. Для этого воспользуемся методом `rename()`. Сделаем это по месту в уже существующем датафрейме. Проверим результат.

In [None]:
data.rename({'floor': 'storey'}, axis=1, inplace=True)

In [None]:
data.columns.to_list()

## Замена типов признаков

[**Выше отмечалось**](#enclus1), что для ряда признаков необходимо изменить тип. В нижеследующей таблице указаны признаки, для которых нужно сделать это преобразование.

|Признак|Текущий тип данных|Необходимый тип данных|
|-------------:|:------------|:------------|
|floors_total|float64|int64|
|balcony|float64|int64|
|parks_around3000|float64|int64|
|ponds_around3000|float64|int64|
|days_exposition|float64|int64|
|is_apartment|object|bool|

Для замены типа данных воспользуемся цепочкой .astype().dtypes, передав в качестве параметра словарь, содержащий пары
{имя переменной : новый тип,…}

In [None]:
#data.astype({'floors_total':'int64', 'balcony':'int64', 'parks_around3000':'int64', 'ponds_around3000':'int64', 'days_exposition':'int64', 'is_apartment':'bool'}).dtypes)

## Обработка дубликатов

Воспользуемся цепочкой методов `.duplicated().sum()` для обнаружения дубликатов, а методом `.drop_duplicates()` для их удаления.

In [None]:
data.duplicated().sum()

## Обработка пропущенных значений

При обработке пропущенных значений по каждому признаку будем придерживаться следующей стратегии: выявим и, при необходимости, устраним аномальные наблюдения, а затем будет заполнять пропущенные значения. 

План работ:
1. Получение общей информации о числе пропущенных значений по каждому признаку;
2. Работа с аномальными значения по каждому признаку;
3. Заполнение пропущенных значений. 

In [None]:
data.describe(include='object')

### Общая информация о пропущенных значениях

Для наглядного представления структуры исходной выборки с пропусками построим так называемую "тепловую карту". По горизонтальной оси расположены признаки, по вертикальной – номера записей/строк. Желтый цвет соответствует пропускам данных.

Сформируем также датафрейм, содержащий имена признаков с пропусками, количество и процент пропущенных значений по признаку.

In [None]:
cols = data.columns
# определяем цвета 
# желтый - пропущенные данные, синий - не пропущенные
colors = ['#000099', '#ffff00'] 
a = sns.heatmap(data[cols].isnull(), cmap=sns.color_palette(colors))

In [None]:
df_missing = pd.DataFrame(columns=['name', 'count_missig_value', 'pct_missig_value'])
j = 0
for i, col in enumerate(data.columns):
    pct_missing = np.mean(data[col].isnull())
    val_missing = np.sum(data[col].isnull())
    if pct_missing != 0:
        df_missing.loc[j] = [col, val_missing, pct_missing]
        j +=1
print('Сводная таблица по пропускам', '\n', df_missing.sort_values(by='count_missig_value', ascending=False))

Комментировать таблицу пока не имеет смысла, в ней только факты и они говорят о том, что с пропусками придется повозиться. Пойдем в порядке убывания числа пропущенных значений. По каждому признаку будем отсеивать аномалии, а затем восстанавливать пропущенные значения.

### Заполнение значений признака `locality_name`

[**Напомним**](#enclus1), что данный признак имеет небольшое число пропущенных значений. При обработке будем придерживаться следующей схемы: оценим распределение объявлений по населенным пунктам, заполним пропуски [**модой**](https://ru.wikipedia.org/wiki/%D0%9C%D0%BE%D0%B4%D0%B0_(%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)#:~:text=%D0%9C%D0%BE%CC%81%D0%B4%D0%B0%20%E2%80%94%20%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B2%D0%BE%20%D0%BC%D0%BD%D0%BE%D0%B6%D0%B5%D1%81%D1%82%D0%B2%D0%B5%20%D0%BD%D0%B0%D0%B1%D0%BB%D1%8E%D0%B4%D0%B5%D0%BD%D0%B8%D0%B9,%D0%BC%D0%BE%D0%B4%D0%B0%20%E2%80%94%206%20%D0%B8%209).) по признаку. Начнем.

Оценим количество пропусков

In [None]:
data['locality_name'].isna().sum()

Построим распределение объявлений по населенным пунктам 

In [None]:
data['locality_name'].value_counts()

Обратим внимание, что тип населеного пункта "поселок" пишется либо через "е", либо через "ё". В целях унификации везде заменим "ё" на "е", ну и "Ё" на "Е".

In [None]:
data['locality_name'] = data['locality_name'].str.replace('ё', 'е')
data['locality_name'] = data['locality_name'].str.replace('Ё', 'Е')
data['locality_name'].unique()

Видим, что в названии некоторых населенных пунктов, типы населенных пунктов содержат смысловые синонимы:

поселок  <--- городской поселок, городского типа, городской, коттеджный 

деревня (деревень больше) <--- село

садовое товарищество <--- садоводческое некоммерческое товарищество

В целях унификации проведем замену. 

In [None]:
data['locality_name'] = data['locality_name'].str.replace('городской ', '')
data['locality_name'] = data['locality_name'].str.replace(' городского типа', '')
data['locality_name'] = data['locality_name'].str.replace('коттеджный ', '')
data['locality_name'] = data['locality_name'].str.replace(' при железнодорожной', '')
data['locality_name'] = data['locality_name'].str.replace('садоводческое некоммерческое', 'садовое')
data['locality_name'] = data['locality_name'].str.replace('село ', 'деревня ')
data['locality_name'].unique()

In [None]:
data['locality_name'].value_counts()

In [None]:
data['locality_name'] = data['locality_name'].fillna('Санкт-Петербург')

In [None]:
data['locality_name'].isnull().sum()

### Заполнение значений признака `is_apartment`  

По данному признаку очевидной представляется гипотеза, что если для квартиры пропущено значение этого признака, то это не апартаменты. Отталкиваясь от этой гипотезы, заполним пропуски по этому признаку значениями `False`. Проверим цепочкой `.isna().sum()` отсутствие пропусков и методом `.unique()` посмотрим уникальные значения признака.

In [None]:
data['is_apartment'] = data['is_apartment'].fillna(False)
print('Число пропущенных значений по признаку {:s} равно {:d}'.format('is_apartment',data['is_apartment'].isna().sum()))
list(data['is_apartment'].unique())

### Заполнение значений признаков `parks_nearest` и `parks_around3000`, `ponds_nearest` и `ponds_around3000`

Представляется, что пары признаков, отвечающие за парки и водоемы нужно обрабатывать вместе. Именно признаки каждой пары. Видимо ценность квартиры определяется, в том числе, шаговой (3 км) доступностью парков и водоемов. Отталкиваясь от этой гипотезы и будем проводить работы по поиску и обработке аномалий, а также последующему заполнению пропусков.

#### Заполнение значений признаков `parks_nearest` и `parks_around3000`

Посмотрим сколько парков за пределами 3 км. 

In [None]:
data[data.parks_nearest > 3000]['parks_nearest'].value_counts()

Этих парков всего 4! штуки, находящихся на удалении 13, 64 и 190 м от заветной границы в 3 км. Спишем эти метры на погрешность прибора, ну и если пройдено уже 3 км, то дополнительных 190 м это как раз заминка, для тех кто увлекается бегом. 

Заменим эти 4 значения на 3000, пропуски пока оставим не тронутыми. Для этого воспользуемся освоенным в теоретической части спринта методов `.where()`, ну и проверим.  

In [None]:
data.parks_nearest.where(data.parks_nearest.isna() | (data.parks_nearest <=3000), other=3000, inplace=True)
data[data.parks_nearest > 3000]['parks_nearest'].value_counts()

С аномалиями в `parks_nearest`. Займемся `parks_around3000`. Проверим, а нет ли записей, для которых в `parks_around3000` пропущенные значения, но расстояние до парка известно. Если такие записи есть, то для них заполним значение признака `parks_around3000` 1 (если расстояние известно, то хотя бы один парк должен быть).

In [None]:
mis_val = data[data.parks_nearest.notna()]['parks_around3000'].isna().sum()
if mis_val != 0:
    data.parks_around3000 = data[data.parks_nearest.notna()].parks_around3000.fillna(1)
    print('Гипотеза подтвердилась. Заполнено {: d} значений признака parks_around3000'.format(mis_val))
else:
    print('Гипотеза не подтвердилась')



Ну и хорошо, что таких записей нет, позже проверим водоемы. 
Повторим этот трюк, только в обратном направлении. У записи проверим наличие парков в радиусе 3 км (`parks_around3000`), если такие есть, а поле по переменной `parks_nearest` пустое, то заполним его значением 3000.

In [None]:
mis_val = data[data.parks_around3000.notna()]['parks_nearest'].isna().sum()
if mis_val != 0:
    data.parks_nearest = data[data.parks_around3000.notna()].parks_nearest.fillna(3000)
    print('Гипотеза подтвердилась. Заполнено {: d} значений признака parks_nearest'.format(mis_val))
else:
    print('Гипотеза не подтвердилась')

In [None]:
data[['parks_nearest', 'parks_around3000']].isna().sum()

Больше никаких гипотез относительно признаков `parks_nearest` и `parks_around3000` нет. Заполним оставшиеся пропуски по признаку `parks_around3000` значением 0 (нет парков в радиусе 3 км), а по признаку `parks_nearest` пропуски заменим значением 5000 (в шаговой доступности парков нет, только ехать на машине). Почему выбрана такая стратегия заполнения: к настоящему времени исчерпана вся информация по этой паре признаков, если парков нет, то и дойти пешком до них нельзя. Ну и традиционная проверка. 

In [None]:
data['parks_around3000'].fillna(0, inplace=True)
data['parks_nearest'].fillna(5000, inplace=True)
data[['parks_nearest', 'parks_around3000']].isna().sum()

#### Заполнение значений признаков `ponds_nearest` и `ponds_around3000`

Обработку этих признаком проведем по той же схеме, что для признаком `parks_nearest` и `parks_around3000`. В связи с этим промежуточные комментации

In [None]:
data[data.ponds_nearest > 3000]['ponds_nearest'].value_counts()

Здорово, если водоемы есть, то они ближе 3 км.

Проверим наличие записей, для которых известно расстояние до водоема, а число водоемов не указано. И в обратную сторону.

In [None]:
mis_val = data[data.ponds_nearest.notna()]['ponds_around3000'].isna().sum()
if mis_val != 0:
    data.ponds_around3000 = data[data.ponds_nearest.notna()].ponds_around3000.fillna(1)
    print('Гипотеза подтвердилась. Заполнено {: d} значений признака ponds_around3000'.format(mis_val))
else:
    print('Гипотеза не подтвердилась')


In [None]:
mis_val = data[data.ponds_around3000.notna()]['ponds_nearest'].isna().sum()
if mis_val != 0:
    data.ponds_nearest = data[data.ponds_around3000.notna()].ponds_nearest.fillna(3000)
    print('Гипотеза подтвердилась. Заполнено {: d} значений признака ponds_nearest'.format(mis_val))
else:
    print('Гипотеза не подтвердилась')

Заполним оставшиеся пропуски по признаку `ponds_around3000` -- 0 (нет водоемов), а пропуски признака `ponds_nearest` -- 5000 (пешком дойти до водоема сложно)   

In [None]:
data['ponds_around3000'].fillna(0, inplace=True)
data['ponds_nearest'].fillna(5000, inplace=True)
data[['ponds_nearest', 'ponds_around3000']].isna().sum()

### Заполнение значений признака `balcony`

Видимо здесь речь идет все-таки не о балконах, а о лоджиях (автор имел дело с установщика окон и они прояснили разницу в этих понятиях). Автор жил в нескольких многоэтажках и везде количество балконов было не больше количества комнат в квартире. Наблюдались случаи, когда в одной комнате было два балкона, балконы на кухне -- распространенная практика. 
Посчитаем количество записей, в которых количество балконов больше числа комнат + 2 (вдруг все-таки в комнате 2 балкона и еще и на кухне). Квертиры свободной планировки и студии не рассматриваем.    

In [None]:
data['balcony'].value_counts()

In [None]:
anomal_val = data[(~data.studio) & (~data.open_plan) & (data.balcony >= data.rooms+2)].shape[0]
if anomal_val != 0:
    data.drop(data[(~data.open_plan) & (~data.studio) & (data.balcony > data.rooms + 2)].index, inplace=True)
    print('Найдено {:d} записей с аномально большим количеством балконов. Записи удалены.'.format(anomal_val))
else:
    print('Не найдено записей с аномально большим количеством балконов.')

In [None]:
data['balcony'].value_counts()

Видим, что уменьшилось число записей, в которых по либо 4, либо по 5 балконов. Других гипотез по поиску аномалий в признаке `balcony` нет. Заполним пропуски по этому признаку 0, если не указано, значит балкона нет. Логика здесь такова: наличие балкона, как представляется, добавляет ценности квартире и делает ее более привлекательной. Следовательно, если балкон есть, то для повышения привлекательно предложения его надо указывать.

In [None]:
data.balcony.fillna(0, inplace=True)
data['balcony'].isna().sum()

### Заполнение значений признака `ceiling_height`

Для поиска аномалий по данному признаку автор изучил вопрос о требованиях к высоте потолка. Оказывается есть нормы (процитируем документ [**СТРОИТЕЛЬНЫЕ НОРМЫ И ПРАВИЛА. ЖИЛЫЕ ЗДАНИЯ**](http://www.rosinox.ru/docs/snip-2.08.01-89/#:~:text=%D0%92%D1%8B%D1%81%D0%BE%D1%82%D0%B0%20%D0%B6%D0%B8%D0%BB%D1%8B%D1%85%20%D0%BF%D0%BE%D0%BC%D0%B5%D1%89%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%BE%D1%82%20%D0%BF%D0%BE%D0%BB%D0%B0,%D0%BD%D0%B5%20%D0%B1%D0%BE%D0%BB%D0%B5%D0%B5%203%2C0%20%D0%BC%20.), определяющий требования к высоте потолков в жилых помещениях. Приведем их.

**1.1*. Высота жилых помещений от пола до потолка должна быть не менее 2,5 м, для климатических подрайонов IА, IБ, IГ, IД, IIА - не менее 2,7 м.
Высоту этажей от пола до пола для жилых домов социального назначения рекомендуется принимать не более 2,8 м, для климатических подрайонов IА, IБ, IГ, IД, IIА - не более 3,0 м.
Высота внутриквартирных коридоров должна быть не менее 2,1 м.**

Изучив вопрос [**дополнительно**](https://www.ivd.ru/stroitelstvo-i-remont/potolok/standartnaya-vysota-potolkov-v-kvartire-kakoj-ona-byvaet-i-kak-ee-izmenit-42011), установлено, что в "сталинках" высота потолка варьируется от 3 до 3.5 метров, но есть и квартиры с потолками более 4 метров, относящиеся к классу "люкс".   

Квартиры-студии здесь четких норм нет, едининственно, что удалось найти, это 3.2 м --- минимальная высота потока, при которой можно уже организовывать подобную квартиру, также автору известно о продаже квартир с 6-метровыми потолками, позиционирующихся именно как квартиры-студии.    

Для выявления критических (недопустимых) значений потолка установим минимально возможную высоту в 2.1 метра (вдруг высоту потолка измеряли в коридоре). 

In [None]:
data.query('ceiling_height < 2.1')

Квартиры с потолками ниже 2.1 метра есть. Их всего 14 штук. Удалим эти записи. Ну и проверим результат.

In [None]:
data.drop(data[data.ceiling_height < 2.1].index, inplace=True)
data.query('ceiling_height < 2.1')

Ограничим высоту потолков любой квартиры 6 метрами и посмотрим на результат. Для лучшего понимания геометрии "нехороших" квартир возьмем для них максимальные значения признака площадь `living_area`.  

In [None]:
data.query('ceiling_height > 6').pivot_table(index="ceiling_height", values="living_area", aggfunc='max')

Подозрительными являются высоты потолков `27.0`, `25.0`, `32.0`, `22.6`, `27.5`, `26.0` и `24.0`. Для реальных высот потолков они являются маловероятными, а вот ошибками оператора при вводе значений вполне могут быть. Оставим записи с этими значениями потолков, предварительно поделив их на 10. Остальные записи удалим. Традиционно проверим результат.

In [None]:
data.loc[(data.ceiling_height >= 22.6) & (data.ceiling_height <= 32), 'ceiling_height'] /= 10
data.drop(data[data.ceiling_height > 6].index, inplace=True)
data.query('ceiling_height > 6')

Разобравшись с аномалиями в признаке `ceiling_height`, восстановим его значения. Будем руководствоваться информацией, полученной из [**внешних источников**](https://www.ivd.ru/stroitelstvo-i-remont/potolok/standartnaya-vysota-potolkov-v-kvartire-kakoj-ona-byvaet-i-kak-ee-izmenit-42011) о нормах высоты потолков.

Для квартир с пропусками по признаку `ceiling_height` заполним их нормативным значением высоты потолка 2.64 м.    

In [None]:
data.ceiling_height.fillna(2.64, inplace=True)
data['ceiling_height'].isnull().sum()

### Заполнение значений признака `airports_nearest`

Доступный по расстоянию аэропорт это, наверное, хорошо, но очень шумно. Бегло ознакомившись с впоросом [**тут**](https://www.m24.ru/articles/kvartira/22012014/35075) и [**тут**](https://www.vedomosti.ru/economics/articles/2019/10/27/814810-pravitelstvo-pozvolit-stroit) стало понятно, что тема не простая. Желательно строить не ближе 30 км от здания аэропорта, ближе нужно согласовывать. Видимо минимальным предельно допустимым является расстояние до аэропорта 5 км. Вооружившись этой информации будем искать аномальные наблюдения.   

In [None]:
data[data.airports_nearest < 5000]

Вот и "нехорошая" квартира в здании аэропорта. Видим, что это всего одна запись, удалить ее.

In [None]:
data.drop(data[data.airports_nearest < 5000].index, inplace=True)

C аномально минимальными значениями расстояний разобрались, про корректность [**максимального значения**](#enclus1) (чуть меньше 85 км) сказать ничего нельзя. Будем считать, что с аномальными значениями по признаку разобрались. Перейдем к вопросу восстановления пропусков.  

В качестве рабочей примем гипотезу, что для квартир, находящихся в одном населенном, расстояние до ближайшего аэропорта будет "примерно" одинаковым. 

In [None]:
data['airports_nearest'].isna().sum()

In [None]:
data['airports_nearest'] = data.groupby('locality_name')['airports_nearest'].transform(lambda x: x.fillna(x.mean()))

In [None]:
data['airports_nearest'].isna().sum()

Для оставшихся записей расстояние до ближайшего аэропорта положим равным максимальному расстоянию в выборке. Если не указано расстояние, значит аэропорт далеко. Предварительно посмотрим для квартир из каких населенных пунктов неизвестно расстояние до аэропорта.      

In [None]:
data[data['airports_nearest'].isna()]['locality_name'].unique()

In [None]:
max_dist = data['airports_nearest'].max()
data['airports_nearest'].fillna(max_dist, inplace = True)
data['airports_nearest'].isna().sum()

### Заполнение значений признака `cityCenters_nearest`

При обработке пропусков по переменной `cityCenters_nearest` будем придерживаться той же стратегии, что для переменной `airports_nearest`: если известно в каком населенном пункте расположена квартира, то соответствующее значение заполним групповым средним известных расстояний до центра в этом населенном пункте; остальным пропущенным значениям будем присваивать максимальное значение расстояния.     

In [None]:
data['cityCenters_nearest'].isna().sum()

Для известных населенных пунктов заполняем расстояние до центра групповыми средними. 

In [None]:
data['cityCenters_nearest'] = data.groupby('locality_name')['cityCenters_nearest'].transform(lambda x: x.fillna(x.mean()))

In [None]:
data['cityCenters_nearest'].isna().sum()

Оставшиеся значения по признаку `cityCenters_nearest` заполняем максимальным расстоянием до центра. 

In [None]:
max_dist = data['cityCenters_nearest'].max()
data['cityCenters_nearest'].fillna(max_dist, inplace = True)
data['cityCenters_nearest'].isna().sum()

### Заполнение значений признака `days_exposition`

Никаких оригинальных гипотез относительно заполнения пропущенных значений этого признака нет. Применим все ту же стратегию: если известен населенный пункт, то заменим пропущенные значения числа дней размещения объявления групповым средним по этому населенному пункту; остальные значения заполним [**медианой**](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_(%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)#:~:text=%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%CC%81%D0%BD%D0%B0%20(%D0%BE%D1%82%20%D0%BB%D0%B0%D1%82.,%D0%BD%D0%B5%D0%B3%D0%BE%2C%20%D0%B0%20%D0%B4%D1%80%D1%83%D0%B3%D0%B0%D1%8F%20%D0%BF%D0%BE%D0%BB%D0%BE%D0%B2%D0%B8%D0%BD%D0%B0%20%D0%BC%D0%B5%D0%BD%D1%8C%D1%88%D0%B5.), как статистикой более устойчивой к выбросам

In [None]:
data['days_exposition'].isna().sum()

In [None]:
#data['days_exposition'] = data.groupby('locality_name')['days_exposition'].transform(lambda x: x.fillna(x.mean()))

In [None]:
#data['days_exposition'].isna().sum()

In [None]:
median_days = 0
data['days_exposition'].fillna(median_days, inplace = True)
data['days_exposition'].isna().sum()

### Заполнение значений признака `kitchen_area`

[**Напомним**](#enclus1), что данный признак содержит маловероятные значения площади кухни: минимальное 1.3(м²), а максимальное 112 (м²). Исследование вопроса снова привело нас к нормам [**СП 54.13330.2016 Здания жилые многоквартирные**](https://gsps.ru/poleznoe/minimalnaya-ploshchad-pomeshcheniy-kvartiry.php#:~:text=%E2%96%BA%20%D0%9E%D0%B1%D1%89%D0%B5%D0%B9%20%D0%B6%D0%B8%D0%BB%D0%BE%D0%B9%20%D0%BA%D0%BE%D0%BC%D0%BD%D0%B0%D1%82%D1%8B%20%D0%B2%20%D0%BA%D0%B2%D0%B0%D1%80%D1%82%D0%B8%D1%80%D0%B0%D1%85%20%D1%81%20%D1%87%D0%B8%D1%81%D0%BB%D0%BE%D0%BC%20%D0%BA%D0%BE%D0%BC%D0%BD%D0%B0%D1%82%20%D0%B4%D0%B2%D0%B5,%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C%D1%8E%20%D0%BD%D0%B5%20%D0%BC%D0%B5%D0%BD%D0%B5%D0%B5%205%20%D0%BC%C2%B2.). Цитируем

5.7 Площадь квартир социального использования государственного и муниципального жилищных фондов согласно ЖК РФ должна быть не менее: <a class="anchor" id="norm1"></a>

► Общей жилой комнаты в однокомнатной квартире - 14 м².  

► Общей жилой комнаты в квартирах с числом комнат две и более - 16 м². 

► Спальни - 8 м² (на двух человек - 10 м²); кухни - 8 м².

► Кухонной зоны в кухне-столовой - 6 м².

► В однокомнатных квартирах допускается проектировать кухни или кухни-ниши площадью не менее 5 м².

**Таким образом**, зафиксируем минимальную площадь кухни в 5 м² (автор помнит так называемые [**"малосемейки"**](https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D0%BB%D0%BE%D1%81%D0%B5%D0%BC%D0%B5%D0%B9%D0%BA%D0%B0), кухни площадью 8 м² там точно не было). Хотя, как выясняется из статьи, все зависит от типовой серии проекта. Это для обычных квартир.

В выборке могут быть еще и квартиры-студии, а также квартиры со свободной планировкой. Если автор правильно понял, то там четко определенной кухни может и не быть. 

Дальнейшее изучение вопроса было связано с [**соотношением жилой и нежилой площадей квартиры**](https://communal-control.ru/advice/view?id=16#:~:text=%D0%96%D0%B8%D0%BB%D0%B0%D1%8F%20%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C%20%E2%80%93%20%D1%8D%D1%82%D0%BE%20%D1%81%D1%83%D0%BC%D0%BC%D0%B0%20%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D0%B5%D0%B9,%2C%20%D0%B1%D0%B0%D0%BB%D0%BA%D0%BE%D0%BD%D0%BE%D0%B2%2C%20%D0%B2%D0%B5%D1%80%D0%B0%D0%BD%D0%B4%20%D0%B8%20%D1%82%D0%B5%D1%80%D1%80%D0%B0%D1%81.&text=%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D0%B5%D0%BD%D1%82%D1%8B%20%D1%82%D0%B0%D0%BA%D0%B8%D0%B5%3A%20%D0%B4%D0%BB%D1%8F%20%D0%BB%D0%BE%D0%B4%D0%B6%D0%B8%D0%B9%20%2D%200,%D1%85%D0%BE%D0%BB%D0%BE%D0%B4%D0%BD%D1%8B%D1%85%20%D0%BA%D0%BB%D0%B0%D0%B4%D0%BE%D0%B2%D1%8B%D1%85%20%2D%201%2C0.). Цитируем [**источник**](https://orel.cian.ru/stati-pravilo-kuhni-kakie-metry-ne-byvajut-lishnimi-217180/) "..оптимальное соотношение жилых и нежилых помещений (большинство специалистов считают, что нежилые могут занимать в зависимости от потребностей владельца от 15 до 40% всей площади квартиры)." 

Имеем: Общая площадь квартиры = Жилая площадь + Нежилая площадь.

Площадь балконов не входит в Общую площадь.  

Кухня, ровно как вспомомогальные помещения (кладовки) и санузлы, относится к нежилой площади. 

Поскольку в предоставленной выборке имеется признак `total_area` (площадь квартиры в квадратных метрах) и в нем нет пропусков, то его значения можно использовать для восстановления значений площади кухни для всех типов квартир. 

Имеем следующее, полученное автором, теоретическое соотношение между общей площадью и нежилой

Площадь кухни = max[5, Общая площадь * 0.2 - Площадь санузлов].     

Оператор max() используется для того, чтобы квартиры с маленькой общей площадью имели кухню не менее 5 $м^2$. Коэффициент `0.2` взят из цитата выше (от 15 до 40% всей площади квартиры). В реальности, конечно, нельзя говорить о постоянности подобной связи (есть большие и маленькие кухни при больших площадях квартиры).

[**Площадь санузла**](remonttool.ru/dizajn-i-interer/standartnye-i-minimalnye-gabarity-sanuzla-vybor-optimalnogo-razmera.html) положим равным 6 $м^2$ --- и пусть владельцы больших квартир не обижаются.

Итого, имеем следующую формулу для оценки (восстановления значений) площади кухни

Площадь кухни = max[5, Общая площадь * 0.2 - 6]

**КОММЕНТАРИЙ:** Выбранные коэффициенты данной формулы, безусловно, могут подлежать критики. В целом, однако, подход имеет место быть. Фактически имеем задачу линейной регрессии: зависимая переменная --- площадь кухни; независимая переменная --- общая площадь; свободный член --- площадь санузлов. Но, тема пока не изучена, возможно дальше и будет в проектах. 

In [None]:
data[(data.studio | data.open_plan)]['kitchen_area'].isna().sum()

In [None]:
data[~(data.studio | data.open_plan)].boxplot(column=['kitchen_area'])

In [None]:
data['kitchen_area'].isna().sum()

In [None]:
data[~(data.studio | data.open_plan)].plot(y='kitchen_area', title='Площадь кухни', kind='hist', bins=100, figsize=(18,12))

**Ящик с усами и гистограмма** позволяют сделать вывод, что для большинства квартир площадь кухни не превышает 20 $м^2$. Аномальными будем считать кухни с площадью более 60 $м^2$. Эти записи будут удаляться.

In [None]:
data.query('~(studio | open_plan) & (kitchen_area < 5 | kitchen_area > 60)')

In [None]:
data.drop(data[~(data.studio | data.open_plan) & ((data.kitchen_area < 5) | (data.kitchen_area > 60))].index, inplace=True)
data.query('~(studio | open_plan) & (kitchen_area < 5 | kitchen_area > 60)')

In [None]:
data['kitchen_area'].isna().sum()

Здесь возникли затруднения, что реализовать формулу оценки площади кухни в одну строку. Сделал в несколько: 
1. По столбцу `total_area` посчитал под формуле нужные значения;
2. Присвоил промежуточному Series значения для восстановления;
3. Выполнил восстановление по индексу.

In [None]:
dt = np.where(data[data.kitchen_area.isnull()]['total_area']*0.2-6 > 5, data[data.kitchen_area.isnull()]['total_area']*0.2-6, 5 )
miss_value = pd.Series(dt, index = data[data.kitchen_area.isnull()]['total_area'].index)
data['kitchen_area'] = data['kitchen_area'].fillna(miss_value)

In [None]:
data['kitchen_area'].isna().sum()

### Заполнение значений признака `living_area`

[**Выше**](#norm1) было указано, что минимальная жилая площадь составляет 14 м². Установим это значение в качетве нижней границы признака `living_area`. Верхнюю определим по ящику с усами и гистограмме.  

Здесь стратегия заполнения пропусков проста: общую площадь квартиры - (площадь кухни + площадь санузла).

In [None]:
data.boxplot(column=['living_area'])

In [None]:
data.plot(y='living_area', title='Жилая площадь', kind='hist', bins=100, figsize=(18,12))

Верхнюю границу жилой площади определим в 200 кв.м

In [None]:
data.query('living_area < 14 | living_area > 200')

Записей достаточно много, но нормы есть нормы. Хотя, если внимательно посмотреть, то за 3 кв. м. просят 64990000!!!!
Будем удалять.

In [None]:
data.drop(data[(data.living_area < 14) | (data.living_area > 200)].index, inplace=True)
data.query('living_area < 14 | living_area > 200')

Заполняем пропуски по **формуле**

In [None]:
data['living_area'] = data['living_area'].fillna(data['total_area'] - (data['kitchen_area'] + 6))
data['living_area'].isna().sum()

В квартире жилая площадь не может быть больше или равной общей площади.

In [None]:
data.drop(data[data.living_area >= data.total_area].index, inplace=True)

### Заполнение значений признака `floors_total`

Аномальные значения отберем до ящику и гистограмме.

Пропущенные значения этажности дома заменим медианой этажности всех домов, находящихся в одном населенном пункте домом, у которого этажность пропущена. 

In [None]:
data.boxplot(column=['floors_total'])

In [None]:
data.plot(y='floors_total', title='Количество этажей', kind='hist', bins=100, figsize=(18,12))

Нет зданий с числом этажей, равным 0. Можно сказать, что здания с количеством этажей больше 30 это очень большая редкость. 

In [None]:
data.query('floors_total >= 30')

In [None]:
data.drop(data[data.floors_total >= 30].index, inplace=True)

Замена пропущенных значений этажности дома медианой этажности всех домов, находящихся в одном населенном пункте. 

In [None]:
data['floors_total'] = data.groupby('locality_name')['floors_total'].transform(lambda x: x.fillna(x.median()))

In [None]:
data['floors_total'].isna().sum()

In [None]:
data.isna().sum()

## Замена типов признаков

[**Выше отмечалось**](#enclus1), что для ряда признаков необходимо изменить тип. В нижеследующей таблице указаны признаки, для которых нужно сделать это преобразование.

|Признак|Текущий тип данных|Необходимый тип данных|
|-------------:|:------------|:------------|
|floors_total|float64|int64|
|balcony|float64|int64|
|parks_around3000|float64|int64|
|ponds_around3000|float64|int64|
|days_exposition|float64|int64|
|is_apartment|object|bool|

Для замены типа данных воспользуемся цепочкой .astype().dtypes, передав в качестве параметра словарь, содержащий пары
{имя переменной : новый тип,…}

In [None]:
data.astype({'floors_total':'int64', 
             'balcony':'int64', 
             'parks_around3000':'int64', 
             'ponds_around3000':'int64', 
             'days_exposition':'int64', 
             'is_apartment':'bool'}).dtypes

## Выводы по шагу 2

1. Закреплено правило: приведи данные в порядок (убери аномалии), затем восстанавливай данные.
2. Поиск аномалий значительно облегчается с помощью визуализаций.
3. Нужно внимательно относится к порядку восстанавливаемых переменных.
4. Поиск стратегий по восстановлению данных требует значительных усилий, но их надо прилагать. 
5. Тип признака определяется его содержанием. Отталкиваясь от этого правила, у ряда признаков поменяли типы данных. 