Исследование объявлений о продаже квартир
В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.

По каждой квартире на продажу доступны два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта, ближайшего парка и водоёма.

- [x]  открыт файл
- [x]  файлы изучены (выведены первые строки, метод `info()`, гистограммы и т.д.)
- [x]  определены пропущенные значения
- [x]  заполнены пропущенные значения там, где это возможно
- [x]  есть пояснение, какие пропущенные значения обнаружены
- [x]  изменены типы данных
- [x]  есть пояснение, в каких столбцах изменены типы и почему
- [x]  устранены неявные дубликаты в названиях населённых пунктов
- [x]  устранены редкие и выбивающиеся значения (аномалии) во всех столбцах
- [x]  посчитано и добавлено в таблицу: цена одного квадратного метра
- [x]  посчитано и добавлено в таблицу: день публикации объявления (0 - понедельник, 1 - вторник и т.д.)
- [x]  посчитано и добавлено в таблицу: месяц публикации объявления
- [x]  посчитано и добавлено в таблицу: год публикации объявления
- [x]  посчитано и добавлено в таблицу: тип этажа квартиры (значения — «первый», «последний», «другой»)
- [x]  посчитано и добавлено в таблицу: расстояние в км до центра города
- [x]  изучены и описаны следующие параметры:
        - общая площадь;
        - жилая площадь;
        - площадь кухни;
        - цена объекта;
        - количество комнат;
        - высота потолков;
        - этаж квартиры;
        - тип этажа квартиры («первый», «последний», «другой»);
        - общее количество этажей в доме;
        - расстояние до центра города в метрах;
        - расстояние до ближайшего аэропорта;
        - расстояние до ближайшего парка;
        - день и месяц публикации объявления
- [x]  построены гистограммы для каждого параметра
- [x]  выполнено задание: "Изучите, как быстро продавались квартиры (столбец days_exposition). Этот параметр показывает, сколько дней «висело» каждое объявление.
    - Постройте гистограмму.
    - Посчитайте среднее и медиану.
    - В ячейке типа markdown опишите, сколько обычно занимает продажа. Какие продажи можно считать быстрыми, а какие — необычно долгими?"
- [x]  выполнено задание: "Какие факторы больше всего влияют на общую (полную) стоимость объекта? Постройте графики, которые покажут зависимость цены от указанных ниже параметров. Для подготовки данных перед визуализацией вы можете использовать сводные таблицы."
        - общей площади;
        - жилой площади;
        - площади кухни;
        - количество комнат;
        - типа этажа, на котором расположена квартира (первый, последний, другой);
        - даты размещения (день недели, месяц, год);
- [x]  выполнено задание: "Посчитайте среднюю цену одного квадратного метра в 10 населённых пунктах с наибольшим числом объявлений. Выделите населённые пункты с самой высокой и низкой стоимостью квадратного метра. Эти данные можно найти по имени в столбце `locality_name`."
- [x]  выполнено задание: "Ранее вы посчитали расстояние до центра в километрах. Теперь выделите квартиры в Санкт-Петербурге с помощью столбца `locality_name` и вычислите среднюю цену каждого километра. Опишите, как стоимость объектов зависит от расстояния до центра города."
- [x]  в каждом этапе есть промежуточные выводы
- [x]  есть общий вывод

### 1. Откройте файл с данными и изучите общую информацию. 

In [None]:
import pandas as pd
import numpy as np
data = pd.read_csv('/jubyterbase/real_estate_data.csv', sep = '\t') 

In [None]:
# выводим информацию обо всех колонках
data.info()

In [None]:
# вывод первых 10 строчек для ознакомления
data.head(10)

In [None]:
# вывод пропусков
display(data.isna().sum())

In [None]:
# посмотрим распределение числовых значений
data.describe()

На основании изучения информации можно сделать вывод, что имеются пропуски у следующих столбцов нашего датафрейма:

ceiling_height - высота потолков (м)

floors_total - всего этажей в доме 

living_area - жилая площадь в квадратных метрах (м²)

is_apartment - апартаменты (булев тип)

kitchen_area - площадь кухни в квадратных метрах (м²)

balcony - количество балконов

locality_name - название населённого пункта  

airports_nearest - расстояние до ближайшего аэропорта в метрах (м)  

cityCenters_nearest - расстояние до центра города (м) 

parks_nearest - расстояние до ближайшего парка (м) 

parks_around3000  число парков в радиусе 3 км

parks_nearest — расстояние до ближайшего парка (м)

ponds_around3000 — число водоёмов в радиусе 3 км

ponds_nearest - расстояние до ближайшего водоёма (м)  

days_exposition - сколько дней было размещено объявление (от публикации до снятия) 


Построим общую гистограмму для всех столбцов таблицы

In [None]:
# выведим гистограмму для всех столбцов
data.hist(figsize=(15, 20));

####  2.1 Предобработка промущенных данных

1) Предобработка столбца с пропущенными данными 'ceiling_height' - высота потолков (м)

In [None]:
# предобработка с пропущенныдми данными о потолках
data = data[(data['ceiling_height'] != 100) & (data['ceiling_height'] != 1)]
data.loc[data['ceiling_height'] > 20, 'ceiling_height'] = data.loc[data['ceiling_height'] > 20, 'ceiling_height']/10
data['ceiling_height'].fillna(data['ceiling_height'].median(), inplace=True)

2) Предобработка столбца с пропущенными данными 'floors_total' - всего этажей в доме

In [None]:
# посмотрим информацию о этажности домов и сколько их
data['floors_total'].value_counts()

In [None]:
# удаление пропусков
data.dropna(subset=['floors_total'], inplace=True)

В связи с незначительным количеством пропущенных ячеек с указанием количества этажей и невозможности узнать данное значение - мы их удалим.

3) Предобработка столбца с пропущенными данными  'living_area' - всего этажей в доме

In [None]:
# предобработка 'living_area'
living_ratio = data['living_area'].mean() / data['total_area'].mean()
data['living_area'].fillna(living_ratio * data['total_area'], inplace=True)

Для заполнения промощённых ячеек столца living_area создадим переменную living_ratio и ищем соотношение средней жилой площади и среднюю общий площадь. Соотношение умножаем на общую площадь и командой fillna() заполняем пропущенные ячейки.

4) Предобработка столбца с пропущенными данными 'is_apartment' - апартаменты

In [None]:
# заменим пропуски значениями True и False
data['is_apartment'] = data['is_apartment'].fillna(False)

In [None]:
# 
data['is_apartment'].value_counts()

Изучив столбец 'is_apartment' можно сделать вывод, что булево значение False имеет преимущество перед True. Соответственно рынок продажи апартаментов не развит. Если мы заполним пропущенные строки булевым значением False, то результат не повлияет на общую картину.

In [None]:
# заменим пропуски нулями
data['is_apartment'] = data['is_apartment'].fillna(False)

5) Предобработка столбца с пропущенными данными  'kitchen_area' - апартаменты

In [None]:
# предобработка 'kitchen_area'
kitchen_ratio = data['kitchen_area'].mean() / data['total_area'].mean()
data['kitchen_area'].fillna(kitchen_ratio * data['total_area'], inplace=True)

Для заполнения промощённых ячеек столбца kitchen_area создадим переменную kitchen_ratio и ищем соотношение средней площади кухни и средний общий площади. Соотношение умножаем на общую площадь и командой fillna() заполняем пропущенные ячейки.

6) Предобработка столбца с пропущенными данными  'balcony' - балконы

In [None]:
# проверим количество уникальных значений
data['balcony'].value_counts()

In [None]:
# изучим информацию о балконах
data['balcony'] = data['balcony'].fillna(0)
data['balcony'].astype('int')

Изучая столбец 'balcony' видно, что большая часть квартир не имеет балконов, соответственно можно сделать вывод, что незаполненные ячейки — это квартиры без балконов. С помощью команды fillna() заполняем пустые ячейки цифрой 0. Так же переведём столбец из float64 в int.

In [None]:
# проверим информацию после предобработки
display(data.isna().sum())

7) Предобработка столбца с пропущенными данными 'locality_name' - балконы

In [None]:
# проверим количество уникальных значений в 'locality_name'
data['locality_name'].value_counts()

Изучив столбец 'locality_name' командой value_counts() видно, что населённые пункты имеют название начинающиеся на "посёлок", а так же разное писание - с буквами Е и Ё. Изучим поподробнее командой unique(). Найдём уникальные названия.

In [None]:
# проверим уникальные значения в  'locality_name'
data['locality_name'].unique()

Видим множество населённых пунктов с разными наименованиями. Удалим тип населённого пункта для лучшего ориентирования. Предворительно удалим неизвестные населённые пункты - т.к. у нас нет возможности узнать их название.

In [None]:
# удалим незаполненные ячейки в 'locality_name'
data.dropna(subset=['locality_name'], inplace=True)

In [None]:
# запишем в датасет excess_name названия, которые нужно удалить
excess_name = ['посёлок', 'поселок', 'городского типа', 'садоводческое некоммерческое' , 'товарищество', 'станции', 'садовое', 'городской', 'при железнодорожной станции', 'деревня', 'коттеджный', 'село', 'городского типа' ]

In [None]:
# фунция для удаление ненужных слов из столбца
def clarif_name(locality_name): # на вход функции подаются список неправильных значений и строка с правильным значением
    for i in excess_name:
        if i in locality_name:
            return locality_name.replace(i, '') 
    return locality_name

In [None]:
# применение фунции clarif_name. Удалим слова перечисленные в датасете excess_name
data['locality_name'] = data['locality_name'].apply(clarif_name)

In [None]:
# проверим что получилось
print(data['locality_name'].sort_values())

In [None]:
# посмотрим пропуски
display(data.isna().sum())

8) Предобработка столбца с пропущенными данными  'days_exposition' - сколько дней было размещено объявление (от публикации до снятия)

In [None]:
# проверим количество уникальных значений в 'days_exposition'
data['days_exposition'].value_counts(ascending=True)

In [None]:
data['days_exposition'] = np.floor(pd.to_numeric(data['days_exposition'], errors='coerce')).astype('Int64')

In [None]:
# проверим количество уникальных значений в 'days_exposition'
data['days_exposition'].value_counts(ascending=True)

Изучая 'days_exposition' видим, что количество пропущенных ячеек - 3171. Принимаю решение заполнить из цифрой 0. Незаполненные ячейки- квартиры, объявления о который находились 0 дней на публикации. Так же переведём столбец из float64 в int64.

9) Предобработка столбца с пропущенными данными 'airports_nearest', 'cityCenters_nearest',  'parks_around3000', 'parks_nearest ', 'ponds_around3000', 'ponds_nearest' пока оставим без изменений

####  2.2 Предобработка остальных данных

1) Переведём 'last_price' ( цена на момент снятия с публикации) в целое числовое значение 

In [None]:
# измегим тип данных в 'last_price'
data['last_price'] = data['last_price'].astype('int')

2) Преобразуем отображение даты и времени в другой формат. Столбец 'first_day_exposition' 

In [None]:
# преобразуем формат выводимых временных данных 'first_day_exposition' 
data['first_day_exposition'] = pd.to_datetime(data['first_day_exposition'], format='%Y-%m-%dT%H:%M:%S')

In [None]:
# посмотрим что получилось
data['first_day_exposition']

In [None]:
# после изменения типов данных проверим что получилось
data.info()

Переделываем "Тип данных" из float64 в int64, т.к. количество балконов целочисленно.

In [None]:
# преобразуем тип данных в числовой
data['balcony'] = data['balcony'].astype('int')

In [None]:
# посмотрим распределение числовых значений
data.describe()

In [None]:
#код ревьюера
data['total_area'].hist(bins=30);

In [None]:
data = data.loc[data['total_area'] < 200]

In [None]:
data['total_area'].hist(bins=30, range=(0, 300)); #общая площадь

In [None]:
# посмотрим распределение в last_price
data.boxplot(column=['last_price']);

In [None]:
data = data.loc[data['last_price'] < 30000000]

In [None]:
data['last_price'].hist(bins=30, range=(0, 50000000)); # цена

In [None]:
# посмотрим распределение в rooms
data.boxplot(column=['rooms']);

In [None]:
data = data.loc[data['rooms'] < 6]

In [None]:
# количество комнат
data['rooms'].hist(bins=30, range=(0, 10)); 

### 3. Посчитайте и добавьте в таблицу новые столбцы

1) Подсчитываем цену 1 кв.м

In [None]:
# создадим столбец с ценой за 1 кв.м.
data['price_1'] = data['last_price'] / data['total_area']

2) Подсчитаем и добавим в таблицу: день публикации объявления (0 - понедельник, 1 - вторник и т.д.)

In [None]:
# подсчитаем день публикации объявления
data['day_of_week'] = data['first_day_exposition'].dt.weekday

3) Подсчитаем и добавим в таблицу:  месяц публикации объявления

In [None]:
# столбец с месяцем публикации объявления
data['month'] = data['first_day_exposition'].dt.month

4) Подсчитаем и добавим в таблицу: год публикации объявления

In [None]:
# столбец с годом публикации объявления
data['year'] = data['first_day_exposition'].dt.year

5) Подсчитаем и добавим в таблицу: тип этажа квартиры (значения — «первый», «последний», «другой»)

In [None]:
# фунция вывода информации об этажности
def floor_category(row):
    floors_total = row['floors_total']
    floor = row['floor']
    if floor == 1:
        return 'первый'
    elif floor == floors_total:
        return 'последний'
    elif 1 < floor < floors_total:
        return 'другой'
    
data['floor_category'] = data.apply(floor_category, axis = 1)

6) Подсчитаем и добавим в таблицу:  расстояние в км до центра города

In [None]:
# расстояние до центра города
data['cityCenters_nearest_km'] = data['cityCenters_nearest']/1000
data['cityCenters_nearest_km'].round(0)

7) Проверим

In [None]:
# посмотрим наш датасет. Что получилось
data.head()

### 4. Проведите исследовательский анализ данных

Изучим и опишем следующие параметры:

1) Общая площадь:

In [None]:
data['total_area'].hist(bins= 100, range=(10, 60));

на гистограмме видно 5 максимумов из которых можно сделать вывод, что самые популярные квартиры имеют площадь:

от 30 до 50 кв.м. (верноятно 1 комната)

от 50 до 75 кв.м. (верноятно 2 комнаты)

от 75 до 100 кв.м. (верноятно 3 комнаты)

от 20 до 30 кв.м. (верноятно студия)

от 100 и выше (4 комнаты и более)

2) Общая площадь:

In [None]:
data['living_area'].hist(bins= 100, range=(5, 70));

На основании анализа, который мы рассмотрели на гистограмме - видно следующее: 

Больше всего продаётся квартир в диапазоне 12-23 кв.м. Самые популярные около 18 кв.м. 

Далее по популярности идут квартиры площадью 25-37 кв.м. Самые популярные около 30 кв.м. 

Далее по популярности идут квартиры от 38 до 50 кв.м.



3) Площадь кухни

In [None]:
data['kitchen_area'].hist(bins= 100, range=(70, 150));

На основании анализа, который мы рассмотрели на гистограмме - видно следующее: 

Квартиры с площадью кухни от 6 до 12кв.м - самые продаваемые

Менее продаваемые с площадью кухни начиная от 13 кв.м.

In [None]:
data['last_price'] = data['last_price'] /1000000 

In [None]:
data['last_price'].hist(bins= 100, range=(0, 30));

Вывод:
Больше всего объявлений о продаже квартир находятся в ценовом диапазоне от 3 до 5 млн. руб. Наибольшее количество по цене 4,5 млн. руб.

5) Количество комнат

In [None]:
data['rooms'].hist(bins= 100, range=(0, 10));

Самые популярные проданные квартиры имеют 1-2 комнаты

Далее 3 комнаты

Далее 4 комнаты

Далее свыше 4 комнат

6) Высота потолков

In [None]:
data['ceiling_height'].hist(bins= 100, range=(2.3, 3));

больше всего квартир плодано с потолками 2,65м

далее 2,5м, 2.6м, 2.7м, 3м, 2.8м

7) Этаж квартиры

In [None]:
data['floor'].hist(bins= 100, range=(0, 30));

самые популярные дома имеют 1-5 этажей

далее от 6 до 9 этажей

далее свыше 10 этажей

8) тип этажа квартиры («первый», «последний», «другой»)

In [None]:
data['floor_category'].hist(bins= 100, range=(0, 2));

Больше всего квартир в категории "другой"

квартир на первом и последних этажах почти одинаковое количество

9) Общее количество этажей в доме

In [None]:
data['floors_total'].hist(bins= 100, range=(0, 40));

Больше всего квартир продано в 5 и 9 этажных домах. Так же видно, что квартир в 4, 10, 17, 18 и 25 этажах, но они гораздо менее представлены, чем 5 и 9 этажи.

10) Расстояние до центра города в метрах

In [None]:
data['cityCenters_nearest'].hist(bins= 100, range=(0, 50000));

Основная масса квартир находится на расстоянии от цента в диапазоне от 5000 м до 18000 м.

11) Расстояние до ближайшего аэропорта

In [None]:
data['airports_nearest'].hist(bins= 100, range=(5000, 60000));

Расстояние до ближайшего аэропорта можно разделить на 4 категории:

Категория №1 - Больше всего проданных квартир, где расстояние до аэропорта находиться в диапазоне от 10 до 30 км;

Категория №2 - от 30 до 40 км;

Категория №3 - от 40 до 55 км;

Категория №4 - незначительное меньшинство квартир.


12) Расстояние до ближайшего парка

In [None]:
data['parks_nearest'].hist(bins= 100, range=(0, 4000));

Больше всего проданных квартир находятся от ближайшего парка на расстоянии до 1 км.

Меньше всего проданных квартир находятся на расстоянии от 1 км и более

13) День и месяц публикации объявления

In [None]:
data['day_of_week'].hist(bins= 100, range=(0, 10));

In [None]:
data['month'].hist(bins= 100, range=(0, 12));

Лучше всего квартиры продаются в будние дни с понедельника по пятницу. Меньше всего в выходные - суббота и воскресенье.

Лучше всего квартиры продаются феврале, но и в марте, апреле и октябре происходят много сделок.

В мае наименьшее количество продаж квартир. Однако на равное с маем худшие месяца — это январь и декабрь.

In [None]:
data['days_exposition'].hist(bins= 100, range=(80, 500));

In [None]:
print('Среднее значение: ', data['days_exposition'].mean())
print('Медианное значение: ', data['days_exposition'].median()) 

Так же мы видим 3 всплеска продаж. Самый большой на 45 день нахождения объявления на сайте, далее на 60 и на 30 день.

В среднем квартиры за 157 дней.

Медианное значение сроков продажи квартир - 74 дней.



Долгими продажами являются квартиры объявления, которых находятся более 200 дней.


15) Какие факторы больше всего влияют на общую (полную) стоимость объекта? Постройте графики, которые покажут зависимость цены от указанных ниже параметров. Для подготовки данных перед визуализацией вы можете использовать сводные таблицы."

- общая площадь;

In [None]:
total_area_price = data.pivot_table(index='total_area', values='last_price')
print(total_area_price)
total_area_price.plot(grid=True, style='o', figsize=(7, 7))

In [None]:
display(data['total_area'].corr(data['last_price']))
display(data['last_price'].corr(data['total_area']))

Вывод: 

Чем больше площадь - тем выше цена квартиры;

- жилая площадь

In [None]:
living_area_price = data.pivot_table(index='living_area', values='last_price')
living_area_price.plot(grid=True, style='o', figsize=(7, 7))

In [None]:
display(data['living_area'].corr(data['last_price']))
display(data['last_price'].corr(data['living_area']))

Вывод: 

Чем больше жилая площадь - тем выше цена квартиры;

- площадь кухни;

In [None]:
total_kitchen_area_price = data.pivot_table(index='kitchen_area', values='last_price')
total_kitchen_area_price.plot(grid=True, style='o', figsize=(7, 7))

In [None]:
display(data['kitchen_area'].corr(data['last_price']))
display(data['last_price'].corr(data['kitchen_area']))

Вывод: 

Чем больше площадь кухни- тем выше цена квартиры;

- количество комнат;

In [None]:
total_rooms = data.pivot_table(index='rooms', values='last_price')
total_rooms.plot(grid=True, style='o', figsize=(10, 10));

Вывод:

В зависимости от площади цена на квартиры ростёт до квартир с 7 комнатами. На квартиры свыше 7 комнат цена начинает снижаться. Однако видно необоснованный реский рост цены на квартиры с 12 комнатами. Однако это исключение из правил, который мы не будем брать в рассчёт. Так же можно в качестве исключения из правил взать квартиры с 15 комнатами. Там мы видем необоснованне увеличение цены.

In [None]:
display(data['rooms'].corr(data['last_price']))
display(data['last_price'].corr(data['rooms']))

- типа этажа, на котором расположена квартира (первый, последний, другой);

In [None]:
total_floors_total = data.pivot_table(index='floors_total', values='last_price')
total_floors_total.plot(grid=True, style='o', figsize=(10, 10));

In [None]:
display(data['floors_total'].corr(data['last_price']))
display(data['last_price'].corr(data['floors_total']))

Вывод:

Согласно гистограмме и коэффициенту Пирсона взаимосвязь цены квартиры и её местоположения минимальная

- даты размещения (день недели, месяц, год);

In [None]:
total_first_day_exposition = data.pivot_table(index=['day_of_week'], values='last_price')
total_first_day_exposition.plot(grid=True, style='o', figsize=(10, 10));

In [None]:
total_first_day_exposition = data.pivot_table(index=['month'], values='last_price')
total_first_day_exposition.plot(grid=True, style='o', figsize=(10, 10));

In [None]:
total_first_day_exposition = data.pivot_table(index=['year'], values='last_price')
total_first_day_exposition.plot(grid=True, style='o', figsize=(10, 10))

Вывод: 

На основании гистограммы в целом нет зависимости цены квартиры от даты размещения, однако видно, что в определённые даты, месяца и года наплюдается необоснованные всплески количества объявлений.

Вывод:

На основании гистограмм можно видно, что:

1) Лучше всего квартиры продавались в субботу, среду и четверг. Хуже всего в воскресенье, вторник, пятницу и понедельник <br>
2) 3 наилучших месяца по продажам: декабрь, сентябрь и апрель. 3 худших месяца: октябрь, июнь и март <br>
3) Самый лучший год по продажам - 2014. Очень много получилось продаж. Дашее спад вплоть до 2018 года и в 2019 году снова начался рост.<br>

16) Посчитайте среднюю цену одного квадратного метра в 10 населённых пунктах с наибольшим числом объявлений. 
Выделите населённые пункты с самой высокой и низкой стоимостью квадратного метра. Эти данные можно найти по имени в столбце 
locality_name."

In [None]:
# максимальное число объявлений
locality_name_max_10 = data['locality_name'].value_counts().head(10)

In [None]:
print(locality_name_max_10)

In [None]:
# средний last_price объявлений
mean_last_price = data['last_price'].mean()

In [None]:
print(mean_last_price)

In [None]:
# максимальные цены по городам 
locality_name_max_10 = data['locality_name'].value_counts().head(10)
locality_name_max_10_price_1 = data.query('locality_name in (@locality_name_max_10.index)').pivot_table(values='price_1', index='locality_name')
locality_name_max_10_price_1.sort_values('price_1', ascending=False)

Вывод: 

Самые дорогие квартиры в Санкт-Петербурге. Средняя цена на квартиры в городе составляет 114838,24 рубля за квадратный метр. Далее в порядке убывания г. Пушкин, деревня Кудрово и т.д. Очевидно, что чем больше удаление от центра города (и самого города) тем ниже цена.  



17) Ранее вы посчитали расстояние до центра в километрах. Теперь выделите квартиры в Санкт-Петербурге с помощью столбца locality_name и вычислите среднюю цену каждого километра. Опишите, как стоимость объектов зависит от расстояния до центра города.

In [None]:
spb_center = data.query('(locality_name == "Санкт-Петербург") & (cityCenters_nearest_km < 40)')
spb_center1 = spb_center.pivot_table(index='cityCenters_nearest_km', values='last_price', aggfunc='median')
spb_center1.plot(grid=True, style='o', figsize=(10, 10))

In [None]:
spb_center_averag = data.query('(locality_name == "Санкт-Петербург") & (cityCenters_nearest_km < 40)')
spb_center_averag1 = spb_center_averag.pivot_table(index='cityCenters_nearest_km', values='price_1', aggfunc='median').plot(grid=True, style='o', figsize=(5, 5))
spb_center_averag1

Вывод: 

Наиболее дорогие квартиры находятся на расстоянии 7 километров от центра города. Далее, с удалением от центра стоимость как самих квартир , так и средняя стоимость квадратного метра начинает уменьшаться. 

### 5. Общий вывод

На основании проведённого исследовательского анализа данных можно сделать седлающие выводы:

1) Самый популярный тип квартир 1 и 2 комнатные. Далее по популярности 3 комнатные, студии и квартиры с 4 комнатами и выше;

2) Самые популярные квартиры около 18 кв.м. Далее по популярности квартиры около 30 кв.м. Далее около 43 кв.м.;

3) Квартиры с площадью кухни от 6 до 12кв.м - самые продаваемые. Квартиры с площадью кухни более 13 кв.м. менее продаваемые.;

4) Больше всего объявлений о продаже квартир находятся в ценовом диапазоне от 3 до 5 млн. руб. Наибольшее количество по цене 4,5 млн. руб.;

5) Самые популярные проданные квартиры имеют 1-2 комнаты, далее 3 комнаты, 4 комнаты, свыше 4 комнат;

6) Больше всего квартир подано с потолками 2,65м, далее по популярности 2,5м, 2.6м, 2.7м, 3м, 2.8м;

7) Самые популярные дома имеют 1-5 этажей, далее по популярности от 6 до 9 этажей, далее свыше 10 этажей;

8) Больше всего квартир находиться не на 1 и не на последнем этаже. Количество квартир на 1 и последнем этажах одинаково;

9) Больше всего квартир продано в 5 и 9 этажных домах. Так же видно, что квартир в 4, 10, 17, 18 и 25 этажках, но они гораздо менее представлены, чем 5 и 9 этажки;

10) Основная масса квартир находится на расстоянии от цента в диапазоне от 5000 м. до 18000 м.;

11) Больше всего проданных квартир, где расстояние до аэропорта находиться в диапазоне от 10 до 30 км, далее по популярности от 30 до 40 км, от 40 до 55 км

12) Больше всего проданных квартир находятся от ближайшего парка на расстоянии до 1 км., менее всего от 1 км и более

13) Лучше всего квартиры продаются в будние дни с понедельника по пятницу. Меньше всего в выходные - суббота и воскресенье.

Лучше всего квартиры продаются феврале, но и в марте, апреле и октябре происходят много сделок.

В мае наименьшее количество продаж квартир. Однако на равное с маем худшие месяца — это январь и декабрь.

14) Судя по данным гистограммы можно сделать вывод, что больше всего квартир находилось на сайте 0 дней.

Так же мы видим 3 всплеска продаж. Самый большой на 45 день нахождения объявления на сайте, далее на 60 и на 30 день.

В среднем квартиры за 157 дней.

Медианное значение сроков продажи квартир - 74 дней.


Долгими продажами являются квартиры объявления, которых находятся более 200 дней.

15) Чем больше площадь - тем выше цена квартиры;

16) Чем больше жилая площадь - тем выше цена квартиры;

17) Чем больше площадь кухни- тем выше цена квартиры;

18) В зависимости от площади цена на квартиры растёт до квартир с 7 комнатами. На квартиры свыше 7 комнат цена начинает снижаться. Однако видно необоснованный резкий рост цены на квартиры с 12 комнатами. Однако это исключение из правил, который мы не будем брать в расчёт. Так же можно в качестве исключения из правил взять квартиры с 15 комнатами. Там мы видим необоснованное увеличение цены;

19) Взаимосвязь цены квартиры и её местоположения минимальная

20) На основании гистограмм можно видно, что:
- Лучше всего квартиры продавались в субботу, среду и четверг. Хуже всего в воскресенье, вторник, пятницу и понедельник
- 3 наилучших месяца по продажам: декабрь, сентябрь и апрель. 3 худших месяца: октябрь, июнь и март
- Самый лучший год по продажам - 2014. Очень много получилось продаж. Дашее спад вплоть до 2018 года и в 2019 году снова начался рост.

21) Самые дорогие квартиры в Санкт-Петербурге. Средняя цена на квартиры в городе составляет 114838,24 рубля за квадратный метр. Далее в порядке убывания г. Пушкин, деревня Кудрово и т.д. Очевидно, что чем больше удаление от центра города (и самого города) тем ниже цена.

22) Наиболее дорогие квартиры находятся на расстоянии 7 километров от центра города. Далее, с удалением от центра стоимость как самих квартир, так и средняя стоимость квадратного метра начинает уменьшаться.


<div class="alert alert-success">
<b>✔️ Итоговый комментарий ревьюера v4:</b>
<br>Все правки выполнены. Молодец!
<br>Проделана огромная работа! У тебя подробные, понятные и логичные выводы, которые ты подкрепляешь фактами. Были использованы разные графики и способы, чтобы как можно более тщательно изучить данные и у тебя это получилось! 
<br>Я рад был поработать над проверкой твоей работы) В качестве дополнительного материала для изучения могу порекомендовать следующий ресурс:

	https://www.python-graph-gallery.com/
<br>В нем содержится большая библиотека графиков с готовым кодом, который можно использовать при работе.
<br>Поздравляю со сдачей проекта и желаю удачи в дальнейшем обучении! 😉    
</div>