# Исследование объявлений о продаже квартир

Для исследования нам предоставлены данные сервиса Яндекс Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Нам предстоит определять рыночную стоимость объектов недвижимости. Для этого проведем исследовательский анализ данных и установим параметры, влияющие на цену объектов. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.

По каждой квартире на продажу доступны два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта и других объектов — эти данные автоматически получены из геосервисов. Количество парков и водоёмов также заполняется без участия пользователя.

# Описание данных

* airports_nearest — расстояние до ближайшего аэропорта в метрах (м)
* balcony — число балконов
* ceiling_height — высота потолков (м)
* cityCenters_nearest — расстояние до центра города (м)
* days_exposition — сколько дней было размещено объявление (от публикации до снятия)
* first_day_exposition — дата публикации
* floor — этаж
* floors_total — всего этажей в доме
* is_apartment — апартаменты (булев тип)
* kitchen_area — площадь кухни в квадратных метрах (м²)
* last_price — цена на момент снятия с публикации
* living_area — жилая площадь в квадратных метрах (м²)
* locality_name — название населённого пункта
* open_plan — свободная планировка (булев тип)
* parks_around3000 — число парков в радиусе 3 км
* parks_nearest — расстояние до ближайшего парка (м)
* ponds_around3000 — число водоёмов в радиусе 3 км
* ponds_nearest — расстояние до ближайшего водоёма (м)
* rooms — число комнат
* studio — квартира-студия (булев тип)
* total_area — общая площадь квартиры в квадратных метрах (м²)
* total_images — число фотографий квартиры в объявлении

## Получим общую информацию о данных

In [4]:
#импортируем библиотеку pandas и откроем файл
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


In [72]:
try:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/real_estate_data.csv', sep='\t')
except:
    data = pd.read_csv('/datasets/real_estate_data.csv', sep='\t')
data.head(10)

Unnamed: 0,total_images,last_price,total_area,first_day_exposition,rooms,ceiling_height,floors_total,living_area,floor,is_apartment,...,kitchen_area,balcony,locality_name,airports_nearest,cityCenters_nearest,parks_around3000,parks_nearest,ponds_around3000,ponds_nearest,days_exposition
0,20,13000000.0,108.0,2019-03-07T00:00:00,3,2.7,16.0,51.0,8,,...,25.0,,Санкт-Петербург,18863.0,16028.0,1.0,482.0,2.0,755.0,
1,7,3350000.0,40.4,2018-12-04T00:00:00,1,,11.0,18.6,1,,...,11.0,2.0,посёлок Шушары,12817.0,18603.0,0.0,,0.0,,81.0
2,10,5196000.0,56.0,2015-08-20T00:00:00,2,,5.0,34.3,4,,...,8.3,0.0,Санкт-Петербург,21741.0,13933.0,1.0,90.0,2.0,574.0,558.0
3,0,64900000.0,159.0,2015-07-24T00:00:00,3,,14.0,,9,,...,,0.0,Санкт-Петербург,28098.0,6800.0,2.0,84.0,3.0,234.0,424.0
4,2,10000000.0,100.0,2018-06-19T00:00:00,2,3.03,14.0,32.0,13,,...,41.0,,Санкт-Петербург,31856.0,8098.0,2.0,112.0,1.0,48.0,121.0
5,10,2890000.0,30.4,2018-09-10T00:00:00,1,,12.0,14.4,5,,...,9.1,,городской посёлок Янино-1,,,,,,,55.0
6,6,3700000.0,37.3,2017-11-02T00:00:00,1,,26.0,10.6,6,,...,14.4,1.0,посёлок Парголово,52996.0,19143.0,0.0,,0.0,,155.0
7,5,7915000.0,71.6,2019-04-18T00:00:00,2,,24.0,,22,,...,18.9,2.0,Санкт-Петербург,23982.0,11634.0,0.0,,0.0,,
8,20,2900000.0,33.16,2018-05-23T00:00:00,1,,27.0,15.43,26,,...,8.81,,посёлок Мурино,,,,,,,189.0
9,18,5400000.0,61.0,2017-02-26T00:00:00,3,2.5,9.0,43.6,7,,...,6.5,2.0,Санкт-Петербург,50898.0,15008.0,0.0,,0.0,,289.0


In [None]:
#выведем информацию о датасете
data.info()

In [None]:
# построим гистограммы
data.hist(figsize=(15, 20))

In [None]:
data.shape

In [None]:
data.isna().sum()

In [None]:
data.describe()

Датафрейм содержит 23699 записей о продаже жилой недвижимости. 

Данные содержат пропуски в 14 колонках.

Наблюдаются подозрительные аномалии, например, показатель максимальной высоты потолков в 100м, общая площадь квартиры в 900кв.м. и дворцы с 19 комнатами - довольно нетипичные показатели для объявлений о продаже квартир. 

Данные требуют предварительной обработки.

## Выполним предобработку данных

### Наведем красоту в названиях столбцов

In [None]:
#переименуем некоторые колонки методом rename()
data = data.rename(columns = {'cityCenters_nearest' : 'city_centers_nearest',
                             'parks_around3000' : 'parks_around_3000',
                             'ponds_around3000' : 'ponds_around_3000'})

#проверим, что получилось
data.head()

### Обработаем пропущенные значения

Еще раз посмотрим пропуски и определим как можно их заполнить.

In [None]:
data_nulls = (data.isna().sum()/len(data)*100).sort_values(ascending=False)
data_nulls

Данные содержат пропуски в 14 колонках
* ceiling_height - высота потолков (м)
* floors_total - всего этажей в доме           
* living_area - жилая площадь в квадратных метрах (м²)
* is_apartment - апартаменты 
* kitchen_area - площадь кухни в квадратных метрах (м²)
* balcony - число балконов            
* locality_name - название населённого пункта 
* airports_nearest - расстояние до ближайшего аэропорта в метрах (м)
* city_centers_nearest - расстояние до центра города (м)
* parks_around_3000 - число парков в радиусе 3 км        
* parks_nearest - расстояние до ближайшего парка (м)
* ponds_around_3000 - число водоёмов в радиусе 3 км 
* ponds_nearest - расстояние до ближайшего водоёма (м) 
* days_exposition - сколько дней было размещено объявление (от публикации до снятия)

**Обработка пропусков в столбце 'locality_name'**

0.2% объявлений не содержат информации о названии населенного пункта, в котором расположена квартира. Эти данные пользователь наверняка вносил самостоятельно и, возможно по невнимательности, пропустил. Но т.к. расположение объекта недвижимости обычно влияет на его рыночную стоимость, а восстановить эту информацию невозможно, удалим эти объявления из общих данных.

In [None]:
data = data.dropna(subset=['locality_name'])

**Обработка пропусков в столбце 'floors_total'**

In [None]:
# Посмотрим на пропущенные значения в столбце 'floors_total':
data[data.floors_total.isna()].head(10)

В 0.36% записей отсутствуют данные об общей этажности здания. Но столбец 'floor', в котором указан этаж, где находится квартира, заполнен без пропусков. Значит можно предположить, что в доме не меньше этажей, чем указано в соответствующей графе 'floor'. 

Осталась проблема с квартирами на первом этаже. Возможно ли, что это частные дома или одноэтажная застройка в пригороде?

Посмотрим есть ли вообще такие объявления.

In [None]:
data.query('floors_total == 1')[['floors_total', 'locality_name']]

Такие объявления тоже встречаются. Большинство из них действительно в пригороде, но попадаются и окраины Санкт-Петербурга. Значит бывают квартиры на первых этажах одноэтажных домов.

В таком случае, пропуски в общей этажности дома заполним из графы 'floor'.

In [None]:
data['floors_total'] = data['floors_total'].fillna(data['floor'])
data['floors_total'].isna().sum()

**Пропуски в столбце 'balcony'**

Столбец с количеством балконов пользователь заполнял самостоятельно.

48,6% значений в этом столбце пропущено. Логично предположить, что если балконов в квартире нет, то и в графе стоит пропуск.

Заменим пропуски нулем.

In [None]:
data['balcony'] = data['balcony'].fillna(0)

**Пропуски в столбце 'ceiling_height'**

В таблице данные о высоте потолков не заполнены в 38% объявлений.

Полагаю, что владельцы квартир с трехметровыми потолками, указали бы этот факт - ведь это существенный плюс при продаже квартиры, увеличивающий ее престиж и стоимость.

Возможно, остальные владельцы стандартных 2,65 не сочли эти данные важными и пропустили при заполнении.

Помня о том, что у нас были аномально высокие потолки в 100м, для заполнения пропусков возьмем медианное значение высоты потолков в одинаковых по этажности зданиях. Но сначала посмортим, есть ли существенная разница в медианной высоте потолков в различных населенных пунктах

In [None]:
data.pivot_table(index='locality_name', columns='floors_total', values='ceiling_height', aggfunc='median').head(20)

Разница, действительно, есть.

В таком случае пропуски там, где возможно заполним медианным значением высоты потолков в домах в одной локации и с одинаковой этажностью.

**Наблюдение:** В Бокситогорской трехэтажке пятиметровые потолки,.. а в Кронштадте есть 60-этажные здания? Вот так сюрприз!

In [None]:
data['ceiling_height'] = data['ceiling_height']\
                .fillna(data.groupby(['locality_name', 'floors_total'])['ceiling_height']\
                .transform('median'))

In [None]:
# Проверим что получилось в Кронштадте
data.query('locality_name == "Кронштадт" ')

In [None]:
# Посмотрим сколько осталось пропущенных значений.
data['ceiling_height'].isna().sum()

Осталось 399 значений. Пропуски остались там, где нет домов с одинаковой этажностью в пределах одного населенного пункта. Их заменим медианным значением высоты потолков среди всех домов с одинаковым количеством этажей.

data['ceiling_height'] = data['ceiling_height'].fillna(data.groupby('floors_total')['ceiling_height'].transform('median'))
data.query('locality_name == "Кронштадт" ')

In [None]:
# Готово! Проверим итоговые значения пропусков по столбцу.
data['ceiling_height'].isna().sum()

Остался один. Проверим, что это за объявление.

In [None]:
data[data['ceiling_height'].isna()]

Википедия утверждает, что в Санкт-Петербурге нет жилых домов с общей этажностью в 33 этажа. https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%81%D0%B0%D0%BC%D1%8B%D1%85_%D0%B2%D1%8B%D1%81%D0%BE%D0%BA%D0%B8%D1%85_%D0%B7%D0%B4%D0%B0%D0%BD%D0%B8%D0%B9_%D0%A1%D0%B0%D0%BD%D0%BA%D1%82-%D0%9F%D0%B5%D1%82%D0%B5%D1%80%D0%B1%D1%83%D1%80%D0%B3%D0%B0

Ближайший по этажности и подходящий по расположению (удаленность от центра города) - ЖК "Князь Александр Невский". Высота потолков в квартирах этого жилого комплекса - 2.65.

Ссылка на источник: https://www.novostroy-spb.ru/baza/zhk_knyaz_aleksandr_nevskiy

Так тому и быть. Заполним этим значением.

In [None]:
data['ceiling_height'] = data['ceiling_height'].fillna(2.650)
data['ceiling_height'].isna().sum()

**Обработка пропусков в столбце 'is_apartment'**

Пропущенных значений в этом столбце рекордные 88%.

Есть несколько предположений:

* пользователи, не заполняли эту графу потому что их недвижимость - это не апартаменты. В таком случае, значения стоит исправить на 'False'.
* сама графа 'is_apartment' была добавлена в таблицу позже и более ранние объявления не имеют этого признака.

Для начала проверим заполнение столбца по годам, потом решим.

In [None]:
data['is_apartment'].value_counts()

In [None]:
#методом to_datetime() скорректируем значения в столбце с датами. Т.к. время не указано, оставим только год-месяц-число
data['first_day_exposition'] = pd.to_datetime(data['first_day_exposition'], format='%Y-%m-%d')

# создадим колонку с годом в исходном датафрейме
data['year'] = data['first_day_exposition'].dt.year

# теперь сгруппируем данные по годам и посмотрим на результаты. 
# Сумма - это количество объявлений, где аппартаменты однозначно указаны (True)
data.pivot_table(index='year', values='is_apartment', aggfunc=['sum', 'count'])

Получается, что записи о продаже аппартаментов были в объявлениях во все годы, значит нельзя утверждать, что раньше такой графы просто не существовало.

Исходя из этого можно либо заполнить пропуски значениями False, либо оставить этот столбец как есть. 

Пока что не будем исправлять и вернемся к столбцу, если он понадобится.

**Обработка пропусков в столбцах 'kitchen_area', 'living_area'**

Предположу, что отсутствующие значения в этих колонках связаны с планировкой квартиры. В датафрейме присутствуют квартиры-студии и квартиры со свободной планировкой. Площадь кухни и жилая площадь в них могут не учитываться отдельно.

In [None]:
data.query('open_plan == True')[['kitchen_area', 'living_area']].isna().sum()

In [None]:
data.query('studio == True')[['kitchen_area', 'living_area']].isna().sum()

Версия не подтвердилась. Пропущенных значений гораздо больше, чем количество студий и открытых планировок. По всей видимости, этот параметр не является обязательным и многие пользователи проигнорировали его заполнение.

Оставим эти пропуски как есть. Ведь заполнение, исходя из известной общей площади за вычетом кухни или жилой площади (если они где-то указаны) не даст точного результата. Не будут учтены сан.узлы, балконы, кладовки и т.д.

**Обработка данных, полученных автоматически**

In [None]:
data.isna().sum()

Выше мы заполняли пропуски в колонках, где данные указывали пользователи. 

Остались столбцы, с пропущенными значениями, заполняемыми автоматически:

* airports_nearest (5534)
* city_centers_nearest (5511)
* parks_around_3000 (5510)
* parks_nearest (15586)
* ponds_around_3000 (5510)
* ponds_nearest (14565)
* days_exposition (3180)

Примечательны близкие по количеству пропусков столбцы с расстояниями до аэропорта/центра, и одинаковое количество пропусков в столбцах парки/пруды в пределах 3 км.

Стоит проверить, не было ли какого-то сбоя при заполнении или переносе данных.

Сравним для начала, во всех ли строках с пропущенными значениями в 'parks_around_3000' пропущены так же и 'ponds_around_3000', 'city_centers_nearest', 'airports_nearest'. И аналогично 'ponds_nearest' и 'parks_nearest'.

In [None]:
# Т.к. NaN не навен NaN и вообще не равен ничему, сделаем срез по пропускам значений в 'parks_around_3000'
# 'ponds_around_3000' одновременно, т.е. попарно и узнаем количество таких пар
len(data.query('parks_around_3000 != parks_around_3000\
     and ponds_around_3000 != ponds_around_3000\
     and city_centers_nearest != city_centers_nearest \
     and airports_nearest != airports_nearest'))

In [None]:
len(data.query('ponds_nearest != ponds_nearest and parks_nearest != parks_nearest'))

Во многих объвлениях пропущены геоданные одновременно во всех заполняемых автоматически ячейках. Возможна была какая-то ошибка при заполнении или выгрузке данных. Эти строки мы оставим как есть.

Столбец 'days_exposition' содержит информацию о том, сколько дней прошло с момента публикации до снятия объявления. Полагаю, что некоторые объявления еще не были закрыты на момент формирования датафрейма, что и объясняет количество пропусков в этой колонке (3180). Заполнять их не будем.

### Для выборочных столбцов скорректируем тип данных

* столбец 'first_day_exposition' содержит дату, для дальнейшей работы с этим столбцом переведем его в формат datetime;
* в столбце 'floors_total' логично предположить цельночисленные значения, исправим тип данных на int64;
* столбец 'balcony' тоже должен содержать целые числа;

In [None]:
#методом to_datetime() скорректируем значения в столбце с датами. Т.к. время не указано, оставим только год-месяц-число
data['first_day_exposition'] = pd.to_datetime(data['first_day_exposition'], format='%Y-%m-%d')

#методом astype() переведем значения столбца 'floors_total' и 'balcony' в цельночисленный формат
data['floors_total'] = data['floors_total'].astype('int64')
data['balcony'] = data['balcony'].astype('int64')

In [None]:
data.info()

### Обработаем дубликаты

In [None]:
data.duplicated().sum()

Явных дубликатов нет. Поищем неявные. Вероятнее всего, частичные совпадения могут присутствовать в столбце 'locality_name'.

In [None]:
data['locality_name'].sort_values().unique()

In [None]:
len(data['locality_name'].sort_values().unique())

Присутствует 364 уникальных значения. Но среди них могут быть одинаковые названия в разном написании (посёлок городского типа/городской поселок). Поэтому поселки любых видов заменим на простой 'поселок'. И также приведем к одному виду садовые товарищества.

In [None]:
data['locality_name'] = data['locality_name'].replace({'посёлок':'поселок'},regex=True)
data['locality_name'] = data['locality_name']\
    .replace({
                'городской поселок':'поселок',
                'коттеджный поселок':'поселок',
                'поселок городского типа':'поселок',
                'поселок при железнодорожной станции':'поселок',
                'поселок станции':'поселок',
                'садоводческое некоммерческое товарищество':'садовое товарищество',
              }
             ,regex=True)

data['locality_name'].sort_values().unique()

In [None]:
len(data['locality_name'].sort_values().unique())

Остались деревня Кудрово и поселок Мурино, но не знаю точно, принадлежат ли эти локации к одноименным районам пригорода. Оставлю как есть.

## Добавим в таблицу новые столбцы

Для дальнейшей работы добавим в таблицу новые столбцы со следующими параметрами:
* price_per_m2 - цена одного квадратного метра
* weekday - день недели публикации объявления (0 — понедельник, 1 — вторник и так далее)
* month - месяц публикации объявления
* year - год публикации объявления
* floor_type - тип этажа квартиры
* distance_to_center_km - расстояние до центра города в километрах

In [None]:
# для расчета цены 1 кв.м. поделим последнюю стоимость объекта на его общую площадь, округлим до сотых
data['price_per_m2'] = (data['last_price'] / data['total_area']).round(2)

# выделим из даты публикации объявления день недели и месяц, сохраним их в новых столбцах
data['weekday'] = data['first_day_exposition'].dt.weekday
data['month'] = data['first_day_exposition'].dt.month

# посмотрим, что получилось
data[['price_per_m2', 'weekday', 'month', 'year']].head()

Для разбивки по типу этажа создадим функцию, которая в зависимости от номера этажа и общей этажности дома присвоит каждой квартире значение по типу этажа: «первый», «последний», «другой».

In [None]:
# функция floor_type() берет номер этажа и сравнивает его с общей этажностью дома, 
# возвращает тип этажа, на котором находится квартира
def floor_type(row):
        if row['floor'] == 1:
            return 'первый'
        elif row['floor'] == row['floors_total']:
            return 'последний'
        else: 
            return 'другой'

data['floor_type'] = data.apply(floor_type, axis=1)
data[['floor', 'floors_total', 'floor_type']].head(15)

Расстояние до центра города выразим в километрах и округлим до целого

In [None]:
data['distance_to_center_km'] = (data['city_centers_nearest'] / 1000).round()
data[['city_centers_nearest', 'distance_to_center_km']].head(10)

## Проведем исследовательский анализ данных

### Изучим параметры объектов недвижимости

Рассмотрим следующие параметры:
* общая площадь
* жилая площадь
* площадь кухни
* цена объекта
* количество комнат
* высота потолков
* тип этажа квартиры («первый», «последний», «другой»)
* общее количество этажей в доме
* расстояние до центра города
* расстояние до ближайшего парка.

Проверим, есть ли в них аномальные значения.

#### Параметр total_area -  общая площадь

In [None]:
data['total_area'].describe()

Средняя площадь квартир 60 кв.м., медианное значение меньше - 52 кв.м. - вполне похоже на правду.

Присутствуют объекты площадью менее 14 кв.м. (хотя при действующем с 2003г. СНиПе 31-01-2003 п 5.7 : " 5.7 Площадь помещений в квартирах <...> должна быть не менее: жилого помещения (комнаты) в однокомнатной квартире - 14 м " - это кажется подозрительным). Но пока оставим эти данные, всякое может быть.

In [None]:
data.query('total_area < 14')

Интересна также максимальная площадь в 900 кв.м. Построим гистограмму значений площади квартир. По всем значениям и отдельно по площади до 200 кв.м..

In [None]:
data['total_area'].hist(bins=30)
plt.show()
data['total_area'].hist(bins=30, range=(30, 200))
plt.show()

Основная масса - это квартиры площадью 30-60 кв.м. 

Объявления о продаже квартир свыше 200 кв.м., судя по гистограмме, встречаются редко.
Посмотрим, сколько таких объектов.

In [None]:
len(data.query('total_area > 200').sort_values(by='total_area'))/len(data)*100

In [None]:
data.query('total_area > 200').sort_values(by='total_area').tail(20)

227 объектов с площадью свыше 200 кв.м. Среди них 12-комнатный пентхаус(?) на 25 этаже, площадью 900 квадратов - что-то на богатом.

Для дальнейшей оценки параметров недвижимости будем использовать значения площади в диапазоне 30-200 кв.м..

#### Параметр rooms - число комнат

In [None]:
data['rooms'].describe()

In [None]:
data['rooms'].hist(bins=19)
plt.show()
data['rooms'].hist(range=(1, 3))

Почти поровну однокомнатных и двухкомнатных квартир и чуть меньше трехкомнатных. Посмотрим, сколько всех остальных.

In [None]:
len(data.query('rooms < 1 or rooms > 3'))/len(data)*100

Большинство объявлений о продаже 1, 2, 3х - комнатных квартир. Их и будем рассматривать как типичные значения. 

#### Параметры living_area - жилая площадь и kitchen_area - площадь кухни

In [None]:
data[['living_area', 'kitchen_area']].describe()

В основном средняя жилая площадь квартиры - 30-35 кв.м., кухни - 9-10 кв.м.. Этот параметр указан не во всех объявлениях, к тому же мы помним, что некоторые объекты могут быть квартирами-студиями или объектами со свободной планировкой. 

Нужно подробнее посмотреть, что за минимальное значение жилой площади в 2кв.м.. 

In [None]:
data.query('living_area < 14').sort_values(by='living_area')

На первый взгляд, жилая площадь в 2 кв.м. кажется просто ошибкой записи, возможно автор имел в виду 20 кв.м.. Но эта логика не работает при значении 5 при общей площади 22кв.м.

Проверим, может это студии и свободная планировка.

In [None]:
data.query('living_area < 14 and (studio == True or open_plan == True)')[['total_area', 'living_area', 'kitchen_area', 'open_plan', 'studio']].sort_values(by='living_area')

Из 321 объекта с указанной жилой площадью менее 14 кв.м. -  студий и открытых планировок всего 12. Эта версия тоже не годится.

Посмотрим, сколько однокомнатных квартир с жилой площадью менее 14 кв.м..

In [None]:
data.query('living_area < 14 and rooms == 1')

Таких объявлений много (289) и общая площадь квартиры кажется нормальной для обычной однушки. Вероятно, не все объекты соответствуют СНиПам по норме жилой площади, или же графа 'living_area' не во всех объявлениях заполнена корректно.

Построим гистограммы распределения значений жилой площади и площади кухни.

In [None]:
data.plot(kind='hist', y='living_area', grid=True, legend=True)
plt.show()
data.plot(kind='hist', y='kitchen_area', grid=True, legend=True)

Графики выглядят почти идентично, площадь кухни пропорциональна жилой площади квартиры, как в основном и бывает.

#### Параметр ceiling_height - высота потолков

In [None]:
data['ceiling_height'].describe()

Медианное значение - 2,65, что соответствует реальности. Нужно проверить, что за минимальное значение в 1 м и явно неправдоподобный максимум в 100м.

Согласно СНиП 2.08.01-85 "Жилые здания": высота жилых помещений от пола до потолка - не менее 2,5 м. Но в нашей выборке есть также одноэтажные дома в пригороде. Поэтому в качестве нижней планки будем рассматривать объекты с высотой потолков от 2 м. 

In [None]:
# проверим, сколько значений меньше 
len(data.query('ceiling_height <= 2'))

Теперь разберемся с аномально высокими потолками. Возьмем за верхний предел 3,5 метра. Посмотрим на самые выдающиеся значения.

In [None]:
data.query('ceiling_height > 3.5')[['ceiling_height', 'floor', 'floors_total', 'locality_name']].sort_values(by='ceiling_height').tail(30)

In [None]:
len(data.query('ceiling_height > 3.5'))/len(data)*100

Похоже, что значения потолков в 24-32 метра просто некорректно внесены в базу и подразумевают величины в 2,4 - 3,2. Исправим.

In [None]:
data.loc[(data['ceiling_height'] >= 24) & (data['ceiling_height'] <= 32), 'ceiling_height'] = data['ceiling_height']/10

In [None]:
# проверим
data[355:356]

Оставшиеся значения будем считать аномально высокими и в расчет брать не станем.

In [None]:
# построим график
data.query('2 <= ceiling_height <= 3.5').plot(kind='hist', y='ceiling_height', bins=30, grid=True)

Судя по графику, и значения меньше 2.5 метров можно смело отбрасывать.

#### Параметр floor_type - тип этажа

In [None]:
data['floor_type'].hist(bins=5)

Квартиры на первом этаже пользуются наименьшим спросом.

#### Параметр floors_total - общее количество этажей в доме

In [None]:
data['floors_total'].describe()

Самое высокое жилое здание Санкт-Петербурга и окрестностей - ЖК "Князь Александр Невский" 37 этажей. Все, что превышает эти значения рассматривать не будем.

In [None]:
data.query('floors_total > 37')[['floors_total', 'locality_name']]

In [None]:
data['floors_total'].hist(bins=30, figsize=(15, 7))

Большинство объектов в нашем датасете - квартиры в 5-ти и 9-ти этажных домах. Объекты свыше 30 этажей можно не учитывать при анализе, их слишком мало.

#### Параметр last_price - цена объекта

In [None]:
data['last_price'].describe()

Медианная цена объекта недвижимости в нашей выборке 4.65 млн.руб., средняя около 6,5 млн.руб. Разброс цен огромный. Неправдоподобной кажется и минимальная цена в 12тыс и максимальная в 760 млн.

In [None]:
# посмотрим на объекты стоимостью менее 1млн.руб.
data.query('last_price < 1000000')[['last_price', 'total_area', 'locality_name']].sort_values(by='last_price').head(10)

Для построения гистограммы оставим данные о цене, не превышающие 20 млн.руб., так же не будем брать в рассчет объект за 12тыс.руб. - тут явно какая-то ошибка

In [None]:
data['last_price'].hist(bins=100, range=(430000, 20000000), figsize=(15, 7))

Большая часть значений лежит в пределах 2-7,5 млн.руб. Данные о цене свыше 10 млн. хотя и присутствуют, но являются скорее нетипичными значениями.

#### Параметр city_centers_nearest - расстояние до центра города

In [None]:
data['city_centers_nearest'].describe()

In [None]:
data['city_centers_nearest'].hist(bins=50)

Большинство объектов расположены в пределах 10-20 км от центра города. Среднее и медианное значение этого показателя близки и составляют 13-14 км. Так же есть пик значений на отметке около 5 км. В нашей базе объявления из разных городов Ленинградской области. В небольших населенных пунктах центр города значительно ближе, чем в Санкт-Петербурге.

#### Параметр parks_nearest - расстояние до ближайшего парка

In [None]:
data['parks_nearest'].describe()

In [None]:
data['parks_nearest'].hist(bins=30)

Похоже, что парков в Санкт-Петербурге и окрестностях так много, что почти все живут где-то рядом. 

### Скорость продажи квартиры

Изучите, как быстро продавались квартиры (столбец days_exposition). Этот параметр показывает, сколько дней было размещено каждое объявление.
Постройте гистограмму.
Посчитайте среднее и медиану.
В ячейке типа markdown опишите, сколько времени обычно занимает продажа. Какие продажи можно считать быстрыми, а какие — необычно долгими?

#### Параметр days_exposition — сколько дней было размещено объявление

In [None]:
data['days_exposition'].describe()

In [None]:
data['days_exposition'].hist(bins=200, figsize=(15, 7))

Среднее время продажи квартиры - 180 дней, медианное - 95. Четверть квартир было продано в первые 45 дней после публикации объявления - такие продажи можно считать быстрыми. Есть объявления, не закрытые свыше четырех лет - вероятно аномалии. В основном, большинство объявлений было закрыто в течение 7-8 месяцев. 

Присутствуют два пика значений в периоде от 40 до 100 дней. В эти дни было закрыто больше объявлений, чем обычно. Посмотрим на них.

In [None]:
data['days_exposition'].hist(bins=100, range=(40, 100), figsize=(15, 7))

Возможно это какие-то автоматические настойки, регулирующие период размещения объявления, и эти значения не следует рассматривать как типичные.

### Факторы, влияющие на общую стоимость объекта недвижимости

Для изучения факторов, влияющих на стоимость квартиры, подготовим таблицу с отфильтрованными данными, исходя из предыдущих наблюдений.

In [None]:
data_slice = data.query('30 < total_area < 200')
data_slice = data_slice.query('1 <= rooms <= 3')
data_slice = data_slice.query('2.5 <= ceiling_height < 3.5')
data_slice = data_slice.query('floors_total <= 30')
data_slice = data_slice.query('430000 <= last_price <= 10000000')
data_slice = data_slice.query('days_exposition <= 230 and days_exposition != 45 and days_exposition != 60')

len(data_slice)

In [None]:
data_slice.describe()

Выясним, зависит ли цена от: 
* общей площади; 
* жилой площади; 
* площади кухни; 
* количества комнат; 
* этажа, на котором расположена квартира; 
* даты размещения (день недели, месяц, год). 

#### Взаимосвязь цены и общей площади квартиры

Установим, есть ли линейная зависимость между этими параметрами

In [None]:
data_slice['last_price'].corr(data_slice['total_area'])

In [None]:
data_slice.plot(x='total_area', y='last_price', kind='scatter', alpha=0.3, grid=True, figsize=(15, 7))

Наблюдаем, что с увеличением площади квартиры, общая стоимость также растет, что логично.

#### Взаимосвязь цены и жилой площади квартиры

In [None]:
data_slice['last_price'].corr(data_slice['living_area'])

In [None]:
data_slice.plot(x='living_area', y='last_price', kind='scatter', alpha=0.3, grid=True, figsize=(15, 7))

Явной линейной зависимости между жилой площадью и ценой квартиры не наблюдается. Жилая площадь обычно пропорциональна общей площади квартиры. И на нашем графике двумя пятнами выделаются, по всей видимости, однокомнатные и двухкомнатные квартиры.

#### Взаимосвязь цены и площади кухни

In [None]:
data_slice['last_price'].corr(data_slice['kitchen_area'])

In [None]:
data_slice.plot(x='kitchen_area', y='last_price', kind='scatter', alpha=0.3, grid=True, figsize=(15, 7))

Явной линейной зависимости между площадью кухни и ценой квартиры не наблюдается. Но кухня, как и жилая площадь обычно увеличиваются с ростом общей площади квартиры. 

#### Взаимосвязь цены и количества комнат

Для изучения взаимосвязи этих параметров возьмем среднюю цену квартир с разным количеством комнат.

In [None]:
data_slice['last_price'].corr(data_slice['rooms'])

In [None]:
data_slice.pivot_table(index='rooms', values='last_price', aggfunc='mean').plot(y='last_price', grid=True, figsize=(15, 7))

Средняя цена квартиры растет по мере увеличения количества комнат в ней.

#### Взаимосвязь цены и этажа, на котором расположена квартира

In [None]:
data_slice.pivot_table(index='floor_type', values='last_price', aggfunc='mean').plot(y='last_price', grid=True, figsize=(15, 7))

Для графика мы взяли среднюю стоимость крартир на первом, последнем и остальных этажах. Просматривается влияние типа этажа на цену недвижимости. Самые дешевые квартиры расположены на первом этаже. Самые дорогие - на других этажах, кроме последнего. 

#### Взаимосвязь цены и даты размещения объявления 

Проверим, есть ли связь между днем недели, месяцем, годом размещения объявления о продаже  и средней ценой квартиры. Построим графики для каждого параметра.

In [None]:
data_slice.pivot_table(index='weekday', values='last_price', aggfunc='mean').plot(y='last_price', grid=True)
plt.show()
data_slice.pivot_table(index='month', values='last_price', aggfunc='mean').plot(y='last_price', grid=True)
plt.show()
data_slice.pivot_table(index='year', values='last_price', aggfunc='mean').plot(y='last_price', grid=True)

Можно сказать, что в среднем цена на квартиру в объявлении, размещенном в воскресение, ниже, чем в другие дни недели. Возможно, это просто совпадение, или, например, в рабочие дни активно размещают объявления профессиональные риэлторы и агентства недвижимости. Должны же они когда-то тоже отдыхать.

В графике взаимосвязи цены и месяца размещения объявления прослеживается некоторая сезонность - провал цен в середине лета и в конце года, а пики приходятся на апрель, август и ноябрь. Возможно это связано с сезоном отпусков и новогодних каникул.

В графике по годам размещения наблюдается плавный рост средней цены на квартиру с 2015 по 2016 г., падение цены к 2017г. и резкий скачок после 2018-го. Возможно, такой скачок связан с общим ростом рынка недвижимости, доступностью ипотечных кредитов, государственными программами поддержки - больше людей смогли позволить себе купить квартиру. Повышенный спрос спровоцировал  рост цен на недвижимость.

### Изучим среднюю цену одного квадратного метра

Проанализируем среднюю цену одного квадратного метра в 10 населённых пунктах с наибольшим числом объявлений. Построим сводную таблицу с количеством объявлений и средней ценой квадратного метра для этих населенных пунктов. 

In [None]:
# сводная таблица из топ-10 по количеству объявлений из предыдущего среза,
# сгруппирована по локациям, содержит среднюю цену 1кв.м. и общее количество записей в каждой группе
price_per_meter = data_slice.pivot_table(index='locality_name', values='price_per_m2', aggfunc=('mean', 'count'))\
                .sort_values(by='count', ascending=False).head(10)
price_per_meter

In [None]:
print('Самая высокая цена 1 квадратного метра в городе', price_per_meter.query('mean == mean.max()').index.tolist())
print('Самая низкая цена 1 квадратного метра в городе', price_per_meter.query('mean == mean.min()').index.tolist())

Ранее мы посчитали расстояние до центра в километрах. Теперь узнаем среднюю стоимость квартир в Санкт-Петербурге на разном удалении от центра. 

In [None]:
data_spb = data_slice.query('locality_name == "Санкт-Петербург" ')[['last_price', 'distance_to_center_km']]
data_spb = data_spb.pivot_table(index='distance_to_center_km', values='last_price', aggfunc='mean')
data_spb

Построим график изменения средней цены для каждого километра от центра Петербурга.

In [None]:
data_spb.plot(y='last_price', kind='bar', grid=True, figsize=(15, 7))

Самые дорогие квартиры находятся в пределах 8 км от центра города. После 8 км цена перестает резко падать. Это говорит о том, что заканчивается зона центра города. По удалению от центра стоимость квартир равномерно снижается, однако виден пик стоимости на расстоянии 28 км от центра - возможно там расположен новый дорогой жилой комплекс. 

## Общий вывод

В процессе исследования были реализованы следующие действия:

1. Импортированы и изучены данные.


2. В прцессе предобработки были обнаружены и заполнены пропуски в следующих колонках:
- данные без обозначения локации объекта недвижимости удалены,
- пропущенные значения общей этажности дома заменены на значения этажа, на котором расположена квартира,
- неуказанное количество балконов заменено нулем,
- пропущенные значения высоты потолка заменены медианным значением высоты потолка в домах, находящихся в той же местности, с тем же количеством этажей либо просто медианным значением высоты потолка в домах той же этажности,
- остальные пропущенные значения не изменялись.

3. Отдельно стоит отметить пропуски в геоданных, проставленных автоматически - таких значений много, возможно произошел сбой при заполнении или выгрузке этих данных.


4. Изменены типы данных:
- столбец с датой размещения переведен в формат datetime,
- столбцы с количеством балконов и количеством этажей приведены к цельночисленному формату.


5. Скорректированы названия локаций объектов недвижимости.


6. Для проведения анализа добавлены столбцы:
- цена одного квадратного метра
- день недели публикации объявления (0 — понедельник, 1 — вторник и так далее)
- месяц публикации объявления
- год публикации объявления
- тип этажа квартиры
- расстояние до центра города в километрах.


7. Изучены следующие параметры объектов недвижимости:
- общая площадь,
- число комнат,
- жилая площадь,
- площадь кухни,
- высота потолков,
- тип этажа,
- общее количество этажей,
- цена объекта,
- расстояние до центра города,
- расстояние до ближайшего парка,
- скорость продажи квартиры.

8. Для описания факторов, влияющих на стоимость объекта недвижимости был взят срез полученных данных со следующими границами:
- общая площадь квартиры от 30 до 200 кв.м.,
- количество комнат от 1 до 3,
- высота потолков от 2,5 до 3,5 метров,
- количество этажей в доме от 1 до 30,
- цена квартиры от 430 тыс. до 10 млн. руб.,
- количество дней от даты размещения до снятия объявления до 230.


9. В рамках исследования найдены следующие особенности, рынка недвижимости Санкт-Петербурга и Ленинградской области:
- с увеличением площади, растет и цена квартиры,
- явной линейной зависимости между жилой площадью и площадью кухни с  ценой квартиры не наблюдается. Но кухня, как и жилая площадь обычно увеличиваются с ростом общей площади квартиры, соответственно растет и цена.
- средняя цена квартиры растет по мере увеличения количества комнат в ней,
- квартиры, расположенные на первом и последнем этажах стоят дешевле остальных,
- с 2018 года произошел резкий подъем стоимости недвижимости.


10. Были проанализированы 10 регионов Ленинградской области с наибольшим числом объявлений о продаже квартир. Найдены следующие особенности:
- самая высокая средняя цена за 1 кв.м. - в Санкт-Петербурге составляет около 103 тыс.руб.
- в Выборге средняя цена почти в два раза меньше (около 57 тыс.руб.)


11. Отдельно была изучена средняя стоимость квартир в Санкт-Петербурге и выявлена зависимость стоимости от расстояния до центра города. Чем ближе к центру - тем дороже стоит квартира.


**Таким образом, основными факторами, влияющими на цену недвижимости в регионе являются общая площадь квартиры, этаж, на котором она находится, а для Санкт-Петербурга еще и удаленность квартиры от центра города.**