# Исследование объявлений о продаже квартир

# Краткое описание проекта

***Цели проекта:***

- Необходимо изучить архив данных по недвижимости Санкт-Петербурга и соседних пунктах за последние несколько лет.
- Отследить аномалоии и определить мошеннеческую деятельность на основе установленных параметров.
- Определить рыночную стоимость объектов недвижимости.

***Имеющиеся данные:***

В нашем распоряжении есть данные о недвижимости Питера. Имеющийся датасет содержит в себе следующую информацию:

- airports_nearest — расстояние до ближайшего аэропорта в метрах (м)
- balcony — число балконов
- ceiling_height — высота потолков (м)
- cityCenters_nearest — расстояние до центра города (м)
- days_exposition — сколько дней было размещено объявление (от публикации до снятия)
- first_day_exposition — дата публикации
- floor — этаж
- floors_total — всего этажей в доме
- is_apartment — апартаменты (булев тип)
- kitchen_area — площадь кухни в квадратных метрах (м²)
- last_price — цена на момент снятия с публикации
- living_area — жилая площадь в квадратных метрах(м²)
- locality_name — название населённого пункта
- open_plan — свободная планировка (булев тип)
- parks_around3000 — число парков в радиусе 3 км
- parks_nearest — расстояние до ближайшего парка (м)
- ponds_around3000 — число водоёмов в радиусе 3 км
- ponds_nearest — расстояние до ближайшего водоёма (м)
- rooms — число комнат
- studio — квартира-студия (булев тип)
- total_area — площадь квартиры в квадратных метрах (м²)
- total_images — число фотографий квартиры в объявлении

<h1>План проекта<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Изучение-данных-из-файла" data-toc-modified-id="Изучение-данных-из-файла-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Изучение данных из файла</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Apartment" data-toc-modified-id="Apartment-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Apartment</a></span></li><li><span><a href="#Area" data-toc-modified-id="Area-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Area</a></span></li><li><span><a href="#Ceiling" data-toc-modified-id="Ceiling-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Ceiling</a></span></li><li><span><a href="#Day-exposition" data-toc-modified-id="Day-exposition-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Day exposition</a></span></li><li><span><a href="#Balcony" data-toc-modified-id="Balcony-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Balcony</a></span></li><li><span><a href="#Floors" data-toc-modified-id="Floors-2.6"><span class="toc-item-num">2.6&nbsp;&nbsp;</span>Floors</a></span></li><li><span><a href="#Locality" data-toc-modified-id="Locality-2.7"><span class="toc-item-num">2.7&nbsp;&nbsp;</span>Locality</a></span></li><li><span><a href="#Airport" data-toc-modified-id="Airport-2.8"><span class="toc-item-num">2.8&nbsp;&nbsp;</span>Airport</a></span></li><li><span><a href="#Days-exposition" data-toc-modified-id="Days-exposition-2.9"><span class="toc-item-num">2.9&nbsp;&nbsp;</span>Days exposition</a></span></li><li><span><a href="#Citycenter" data-toc-modified-id="Citycenter-2.10"><span class="toc-item-num">2.10&nbsp;&nbsp;</span>Citycenter</a></span></li><li><span><a href="#Parks-and-Ponds" data-toc-modified-id="Parks-and-Ponds-2.11"><span class="toc-item-num">2.11&nbsp;&nbsp;</span>Parks and Ponds</a></span></li><li><span><a href="#Замена-типа-данных" data-toc-modified-id="Замена-типа-данных-2.12"><span class="toc-item-num">2.12&nbsp;&nbsp;</span>Замена типа данных</a></span></li><li><span><a href="#Выбросы" data-toc-modified-id="Выбросы-2.13"><span class="toc-item-num">2.13&nbsp;&nbsp;</span>Выбросы</a></span></li></ul></li><li><span><a href="#Расчёты-и-добавление-результатов-в-таблицу" data-toc-modified-id="Расчёты-и-добавление-результатов-в-таблицу-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Расчёты и добавление результатов в таблицу</a></span></li><li><span><a href="#Исследовательский-анализ-данных" data-toc-modified-id="Исследовательский-анализ-данных-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Исследовательский анализ данных</a></span><ul class="toc-item"><li><span><a href="#" data-toc-modified-id="-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span></a></span></li><li><span><a href="#" data-toc-modified-id="-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span></a></span></li><li><span><a href="#" data-toc-modified-id="-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span></a></span></li><li><span><a href="#" data-toc-modified-id="-4.4"><span class="toc-item-num">4.4&nbsp;&nbsp;</span></a></span></li><li><span><a href="#" data-toc-modified-id="-4.5"><span class="toc-item-num">4.5&nbsp;&nbsp;</span></a></span></li><li><span><a href="#" data-toc-modified-id="-4.6"><span class="toc-item-num">4.6&nbsp;&nbsp;</span></a></span></li><li><span><a href="#" data-toc-modified-id="-4.7"><span class="toc-item-num">4.7&nbsp;&nbsp;</span></a></span></li></ul></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

# Выводы по проделанной работе

**Подводя итог, можно прийти к следующему заключению по общей таблице с отфильтрованными данными:**
- Основная площадь продаваемых квартир приходится на 50 м кв.
- Средняя цена наблюдается в районе 4.5 млн.
- Больше всего двухкомнатных квартир выставляют на продажу.
- Средняя высота потолка 2.7 м, что вполне реалистично, так как в новостройках это установленный стандарт.
- Где-то на 96й день квартиру продают и снимают с публикации. Самыми быстрыми продажами являются продажи на 8ой день с момента размещения объявления. А самыми медленными продажами являются объявления, которые висят на сайте польше чем 1.5 года.
- Цена больше всего зависит от общей площади. Меньше всего зависит от количества комнат, по минимуму зависит от этажа и никак не зависит от дня недели, месяца. Наблюдается отрицательная корреляция с расстоянием до центра и города. Это значит что чем дальше от центра, тем меньше цена и чем дольше стоит квартира на продаже, тем ниже ее цена со временем. 

**Что касается отфильтрованных данных для Питера, можно сделать следующие выводы:**
- Центральной зоной города является радиус 7 км.
- Больше всего в центре квартир с общей площадью 66. 
- Больше всего квартир на продажу выставлено двухкомнатных. 
- Высота потолков составляет 2.7 м, что соотвествует действительности.
- Самая распространенная цена на квартиры в центре это 7.5 млн.
- Наибольшая зависимость цены наблюдается от количества комнат. Меньше зависимость цены от этажа. Остальные данные об удаленности от центра и даты размещения никак не влияют на цену. Единственный всплеск налюдается в данных о годах, но то связано с экономическим кризисов 2014 года.

## Изучение данных из файла

In [1]:
!pip install plotly



In [2]:
import pandas as pd
import numpy as np

import plotly
import plotly.graph_objs as go
import plotly.express as px
import plotly.figure_factory as ff

import matplotlib.pyplot as plp
import random 

from pymystem3 import Mystem
m = Mystem()
from collections import Counter

import sys
import warnings
if not sys.warnoptions:
       warnings.simplefilter("ignore")

ModuleNotFoundError: No module named 'pymystem3'

***Проведем выгрузку датасета с "подстраховкой":***

In [None]:
# подстраховка. Иногда датасеты лежат сразу в корневике, а иногда лежат в папке datasets        
try:
    df = pd.read_csv('/datasets/real_estate_data.csv', sep ='\t')
except:
    df = pd.read_csv('real_estate_data.csv', sep ='\t')

In [None]:
display(df.sample(5))
display(df.info())
pd.set_option('display.float_format', '{:,.2f}'.format) 
display(df.describe())

***Выводы:***

- Присутствуют пропущенные значения в столбцах ceiling_height, floors_total, living_area, is_apartment, kitchen_area, balcony, locality_name, airports_nearest, cityCenters_nearest, parks_around3000, parks_nearest, ponds_around3000, ponds_nearest, days_exposition.
- В столбце last_price тип данных представлен с плавающей точкой - лучше перевести в целочисленный тип, так как точную сумму вплоть до копеек никогда не указывают. Также floors_total, days_exposition, balcony, airports_nearest, cityCenters_nearest, parks_around3000, parks_nearest, ponds_around3000 и ponds_nearest также необходимо перевести в целочисленный тип данных.
- Лучшим решением будет дать новые названия столбцам для простоты их записи при выборе определенного столбца из датафрейма.
- В locality_name все нужно привести к нижнему регистру + провести лемматизацию.
- В parks_nearest пропущенные значения заменить на 0 если в parks_around3000 стоит также 0. Проделать то же самое с ponds_around3000 и ponds_nearest.
- В first_day_exposition исправить формат дат.
- В floors_total пропущенные значения можно удалить, если количество пропусков мало.
- В пропущенных значениях living_area можно их заменить известным количеством комнат * минимальная квадратура жилой комнаты (14 кв.м). Если неизвестны данные в kitchen_area, то их можно заменить на минимально допустимую квадратуру для кухни = 5 кв.м. При этом всем необходимо держать в уме общую площадь. Также стоит учитывать данные в studio. Если квартира является студией, то в таком случае в значениях kitchen_area будет стоять 0 и при этом living_area не должна быть меньше 19. Конечно, застройщики очень часто не соблюдают это и строят исходя из спроса даже меньшие по площади, однако будем придерживаться норм и порог будет 19.
- Пропущенные значения в balcony можно заменить на 0, так как скорее всего продавец решил не указывать количество балконов попросту из-за их отсутствия.
- В is_apartment пропущенные значения заменить на False.
- С пропущенными значениями в locality_name можно поступить следующим образом: удалить пропущенные значения, так как от себя мы не можем проставить названия населенных пунктов, здесь важна точность.
- Минимальное значение в total_area = 12 и максимальное 900 (учитывая что Q3 равен почти 70), а такого быть не должно.
- В ceiling_height минимальное значение равно 1. При этом максимальное равно 100. Самый максимум потолка можно наблюдать в сталинках - 4,5 метра. Однако здесь необходимо будет построить усы, чтобы определить выбросы. Плюс необходимо учитывать что некоторые продавцы могли забыть поставить разделяющую точку в числе. Ту же ситуацию можно наблюдать и в living_area, kitchen_area - есть выбросы. Также в rooms максимальное количество комнат это 19. Так же есть данные по open_plan, что означает 0 в living_area и kitchen_area (владелец сам решает где возводить стены).
- В airports_nearest минимум равен 0. Аэропорт у нас не содержит в себе жилые помещения, а потому данный минимум не верен.

- Оценим процентное соотношение пропусков относительно общего кол-ва данных.

In [None]:
table = pd.concat([df.isnull().sum(), 100*df.isnull().mean()], axis=1)\
    .rename(columns={0:'Кол-во', 1:'Доля'})
table[table['Кол-во'] != 0].style.format({'Доля':'{:.0f}%'}).bar(color='#FFA07A', vmax=len(df), subset=['Кол-во'], align='zero')\
 .bar(color='lightgreen', vmax=100, subset=['Доля'], align='zero')

- Выглядят подозрительно одинаково процентные соотношения у parks_around3000 и ponds_around3000. Проверим пропущены ли у них одновременно эти значения?

In [None]:
compare = df[['parks_around3000', 'ponds_around3000']]
compare['compare'] = compare['parks_around3000'].isnull() & compare['ponds_around3000'].isnull()
result = len(compare[compare['compare'] == True])
print('Общее количество пропущенных строк в обоих данных = {}'.format(result))

- Судя по всему да, данные значения в 5518 строках пропущены одновременно.

Изменим названия столбцов для дальнейшего упрощения записи.

In [None]:
df = df.rename(columns={'total_images':'images', 'last_price':'price', 'ceiling_height':'ceiling', 'is_apartment':'apartment', 'locality_name':'locality', 'airports_nearest':'airport', 'cityCenters_nearest':'citycenter', 'parks_around3000':'parks3000', 'parks_nearest':'parks', 'ponds_around3000':'ponds3000', 'ponds_nearest':'ponds'})

- Выведем сразу корреляцию Пирсона по всему датафрейму, чтобы в дальнейшем определять зависимость одного показателя от другого.

In [None]:
df.corr().style\
    .format({f'{i}':"{:,.2f}" for i in df.columns})\
    .background_gradient(cmap='Blues')

***Выводы:***

Ориентируясь на процентное соотношение пропущенных значений имеем, что: высота потолков - 38%, апартаменты - 88%, балконы - 48%, расстояние до аэропорта - 23%, расстояние до центра - 23%, парки в радиусе 3 км - 23%, парки рядом - 65%, водоемы в радиусе 3 км - 23%, водоемы рядом - 61 %, дни - 13%.
Вполне возможно что такие пропуски как данные, которые были вписаны лично пользователем, могли появиться просто из-за незнания продавца точных данных. Например к таким данным можно отнести высоту потолка, отдельно жилая площадь и площадь кухни.
Что касается второго типа данных, который заполнянлся автоматически программой: возможно здесь причина пропусков кроется в возможном наличии данных для того или иного города\населенного пункта. Возможно что в программе не прописано определение заданных данных для небольших населенных пунктов, а только для крупных и средних городов?

При помощи корреляции можно ожидаемо проследить зависимость между такими значениями как: price - total area, total area - rooms/living area,  floors total - floor.

## Предобработка данных

**На данном этапе нам необходимо:**
- определить и изучить пропущенные значения
- заполнить пропуски, где это уместно
- привести данные к нужным типам

### Apartment

- Заменим пропущенные значения в apartment на False, так как вполне логично что апартаментов гораздо меньше на рынке недвидимости нежели чем квартир + вполне логично что в данном столбце так много пропусков из=за того что владелец решил не указывать этот параметр, так как его жилье не является апартаментами.

In [None]:
df['apartment'] = df['apartment'].fillna(False)
df['apartment'].value_counts()

### Area

- Пропущенные значения living_area можно заменить известным количеством комнат * минимальная квадратура жилой комнаты (14 кв.м). Если неизвестны данные в kitchen_area, то их можно заменить на минимально допустимую квадратуру для кухни = 5 кв.м. При этом всем необходимо держать в уме общую площадь. Также стоит учитывать данные в studio. Если квартира является студией, то в таком случае в значениях kitchen_area будет стоять 0.

- Для начала разберемся с пропущенными значениями в жилой площади, учитывая какого типа квартира: студия или нет + свободная планировка или нет. При этом учтем тот момент,что площадь жилой зоны должна быть меньше разности общей и кухонной площади. (<= не можем поставить, так как нужно закладывать в уме наличие нежилой площади)

In [None]:
def area(row):
    if np.isnan(row['living_area']) and (row['studio'] == 1) and (row['open_plan'] == 1):
        return row['rooms'] * 14
    elif np.isnan(row['living_area']) and (row['studio'] == 0) and (row['open_plan'] == 0) and (row['kitchen_area'] > 0):
        return row['total_area'] - row['kitchen_area']
    elif (row['living_area']) < (row['total_area'] - row['kitchen_area']):
        return row['living_area']
    else:
        return 5555 #маркер, для того чтобы убрать в дальнейшем выброс
    
df['living_area'] = df.apply(area, axis = 1)

- Теперь разберемся с площадью кухни. Также будем учитывать какого типа квартира: студия или нет + свободная планировка или нет. При этом учтем тот момент,что площадь кухни должна быть меньше разности общей и жилой площади. (<= не можем поставить, так как нужно закладывать в уме наличие нежилой площади)

In [None]:
def kitchen(row):
        if np.isnan(row['kitchen_area']) and (row['studio'] == 1) and (row['open_plan'] == 1):
            return 5
        elif np.isnan(row['kitchen_area']) and (row['studio'] == 0) and (row['open_plan'] == 0):
            return 0
        elif row['kitchen_area'] < (row['total_area'] - row['living_area']):
            return row['kitchen_area']
        else:
            return 5555 #маркер, для того чтобы убрать в дальнейшем выброс
    
df['kitchen_area'] = df.apply(kitchen, axis = 1)
result_2 = len(df[(df['living_area'] == 5555)|(df['kitchen_area'] == 5555)])
print('По итогу кол-во неучтенных значений = {}.'.format(result_2))

### Ceiling

In [None]:
df.corr().style\
    .format({f'{i}':"{:,.2f}" for i in df.columns})\
    .background_gradient(cmap='Blues')

- В соответствии с корреляцией можно сделать вывод что высота потолков не зависит ни от каких данных. Единственное что могло бы повлиять на высоту потолков это тип дома и год постройки. Однако, так как таких данных нет, построем диаграмму размаха, чтобы определить неправильные значения.

In [None]:
fig = px.box(df, y="ceiling", boxmode="overlay",
             color_discrete_sequence=px.colors.sequential.haline)
fig.update_layout(yaxis_title=" ", xaxis_title=" ", plot_bgcolor="white", title='Высота потолков')
fig.update_layout(yaxis_range=[0,11]) #до установления лимита был зафиксирован максимальный выброс на отметке 100.
fig.show()

- Выглядит подозрительно. Если единичный случай в 100 можно еще не учитывать, то высота потолков больше 5 метров уже пугает. Можем предположить что была неверна установлена плавающая точка для значений выше 20. Передвинем ее так, чтобы 25 метров превратились в 2.5.

In [None]:
def ceiling(number):
    if number>=4.5: #это самый максиум потолков в сталинках. В дальнейшем отсеку значения меньше 2.5 и больше 4.5
            number = number/10
    return number
 
df['ceiling'] = df['ceiling'].apply(ceiling)

In [None]:
fig = px.box(df, y="ceiling", boxmode="overlay",
             color_discrete_sequence=px.colors.sequential.haline)
fig.update_layout(yaxis_title=" ", xaxis_title=" ", plot_bgcolor="white", title='Высота потолков')
fig.update_layout(yaxis_range=[0,11]) #до установления лимита был зафиксирован максимальный выброс на отметке 100.
fig.show()

- В ceiling заменим пропущенные значения на медиану, так как опираясь на таблицу корреляции, высота потолков ни от чего не зависит. (Можно так же попробовать заменить на значения схожих домов по типам этажности - было бы немного ближе, но разница конечно же не критична.)

In [None]:
df['ceiling'] = df['ceiling'].fillna(df['ceiling'].median())

- Посчитаем количество значений меньше 2.50м и больше 4.50м.

In [None]:
df['ceiling'].value_counts().loc[lambda x : x < 2.50].count()

In [None]:
df['ceiling'].value_counts().loc[lambda x : x > 4.50].count()

- Выбросов мало. Можем их оставить, заменив при этом на медиану, а можем и убрать в четвертом шаге. Выберем второй вариант.

### Day exposition

- Исправим данные по дате публикации и приведем к читабельному виду.

In [None]:
df['first_day_exposition'] = pd.to_datetime(df['first_day_exposition'], format='%Y-%m-%dT%H:%M:%S')

- Теперь данные по дате публикации находятся в правильном формате.

### Balcony

- Пропущенные значения в balcony заменим на 0, так как скорее всего продавец решил не указывать количество балконов попросту из-за их отсутствия.

In [None]:
df['balcony'] = df['balcony'].fillna(0)

### Floors

In [None]:
df['floors_total'].isna().sum()

- 86 пропущенныз значений. Не так много. Так как необходимо в дальнейшем изучить зависимость от первого, последнего и другого этажа - лучшим решением будет удалить значения с пропущенными значениями. Этот парамтр достаточно тяжело восстановить - он практически ни от чего не зависит.

In [None]:
df = df.dropna(subset=['floors_total'])

### Locality

- Приведем все названия геопозиций к нижнему регистру и определим топ 10 геолокаций.

In [None]:
df['locality'] = df['locality'].str.lower()
df['locality'].isnull().sum()

- Всего 48 пропущенных значений в данных о геопозиции. Отбросим эти данные, так как без определения геолокации они бесполезны.

In [None]:
df = df.dropna(subset=['locality'])

In [None]:
df['lemmas'] = df['locality'].apply(m.lemmatize)
Counter(df['lemmas'].sum()).most_common()
[i for i in Counter(df['lemmas'].sum()).most_common() if i[0] not in ['\n','', ' ']]
# Полезно сразу учесть какие-либо странные символы и прописывать

Итог: выделим для себя 10 основных названий, для отработки лемматизации.
    - санкт-петербург
    - муриный (мурино)
    - кудрово
    - шушары
    - всеволожск
    - пушкин
    - колпино
    - парголовый (парголово)
    - гатчина
    - выборг

In [None]:
df['locality'].nunique()

In [None]:
def lemmatization(row):
    lemma = m.lemmatize(row)
    if 'санкт-петербург' in lemma:
        return 'санкт-петербург'
    elif 'муриный' in lemma:
        return 'мурино'
    elif 'кудрово' in lemma:
        return 'кудрово'
    elif 'шушары' in lemma:
        return 'шушары'
    elif 'всеволожск' in lemma:
        return 'всеволожск'
    elif 'пушкин' in lemma:
        return 'пушкин'
    elif 'колпино' in lemma:
        return 'колпино'
    elif 'парголовый' in lemma:
        return 'парголово'
    elif 'гатчина' in lemma:
        return 'гатчина'
    elif 'выборг' in lemma:
        return 'выборг'
    else:
        return row
    
df['locality'] = df['locality'].apply(lemmatization)

### Airport

- Для заполнения пропущенных значений в расстоянии до аэропорта, сгруппируем данные по геопозиции и известным расстояниям.

- Заменим пропущенные значения в данных о расстоянии до аэропорта известными медианами согласно населенным пунктам.

In [None]:
grp = df.groupby(['locality'])
df['airport'] = grp.airport.apply(lambda x: x.fillna(x.median()))

- Единственным вариантом заполнения оставшихся пропущенных значений будет замена на большой маркер - 5555, так как подставление медианы, либо средней арифметической не будет правильным решением. Все-таки это техническая ошибка, а потому нельзя ставить "от себя" в данном случае значения. Лучше их обозначить маркерами, которые впоследствии отсечем.

In [None]:
df['airport'] = df['airport'].fillna(5555)

### Days exposition

- Вполне возможно что пропущенное значение в данном столбце может быть обусловлено тем что объявление о продаже квартиры до сих пор висит на сайте, либо же квартиру уже продали, а бывший владелец забыл снять объявление. Заполним пропуски маркером 5555.

In [None]:
df['days_exposition'] = df['days_exposition'].fillna(5555)

### Citycenter

- Также сгруппируем данные по населенным пунктам и подставим медиану в пропущенные значения, а оставшиеся пропущенные данные заменим просто медианой по столбцу. В данно случае мы не можем поставить 0, так как это будет означать что квартира находится попросту чуть ли не в самом центре города. (Это, конечно, возможно, но маловероятно что в таком огромном количестве)

In [None]:
grp = df.groupby(['locality'])
df['citycenter'] = grp.citycenter.apply(lambda x: x.fillna(x.median()))

- Заменим маркером 5555 оставшиеся пропущенные значения.

In [None]:
df['citycenter'] = df['citycenter'].fillna(5555)

### Parks and Ponds

**Данная часть таблицы автозаполняема и, если нет данных, то значит поблизости нет ни парков, ни водоемов. Следовательно такие значения можно заполнить маркерами. Однако мы попробобуем использовать замену рандомными числами пропущенных значений.**

- В parks пропущенные значения заменим на 0, если в соотвествующем значении parks3000 также стоит 0. Логично предположить что если в радиусе 3 км нет парков, то и расстояние будет равно 0. Проделаем то же самое с ponds3000 и ponds.

In [None]:
df.loc[df['parks3000'] == 0, 'parks'] = df.loc[df['parks3000'] == 0, 'parks'].fillna(0)
df.loc[df['ponds3000'] == 0, 'ponds'] = df.loc[df['ponds3000'] == 0, 'ponds'].fillna(0)

- Проверим действительно ли оба столбца по паркам и оба столбца по прудам содержат пропуски одновременно.

In [None]:
len(df[df['parks'].isnull() & df['parks3000'].isnull()])

In [None]:
len(df[df['ponds'].isnull() & df['ponds3000'].isnull()])

- Проверим пропущены ли все 4 значения одновременно в 5.483 строках. Если да, то здесь возможно есть закономерность.

In [None]:
len(df[df['ponds'].isnull() & df['ponds3000'].isnull() & df['parks'].isnull() & df['parks3000'].isnull()])

- Да, данные пропущены одновременно. Скорее всего это может быть связано с технической ошибкой, возможно что в местности где есть пропущенные значения действительно нет водоемов и парков в радиусе 3х километров. Хотя, возможно, при заполнении эти параметры автоматом не заполняются многими людьми. Проверим к каким населенным пунктам они относятся.

In [None]:
df['locality'][df['ponds'].isnull() & df['ponds3000'].isnull() & df['parks'].isnull() & df['parks3000'].isnull()].value_counts().sort_values(ascending=False).head(10)

- Как видно, одновременно 4 данных пропущены в крупных населенных пунктах из датафрейма.
Следовательно мы не можем просто удалить все строки где одновременно пропущены все эти значения.
В парках минимальное количество это 0, а максимальное количество это 3. Также и с количеством прудов в радиусе 3х км, минимум 0 и максимум 3.

- Так как random.randint возвращает псевдослучайное целое число в диапазоне, во-первых, заменим пропущенные значения в парках и прудах на 5(известно что числа находятся в диапазоне от 0.0 до 3.0, поэтому 5 будет выбиваться из общей картины и его можно будет спокойно заменить). Во-вторых, приведем значения количества прудов и парков в радиусе 3х км к целочисленному типу.
- Подход достаточно интересный, и можно идти по протоптанной дорожке и не заполнять рандомными значениями, т.к. рандом может наследить в каком-нибудь населенном пункте и повлиять на анализ, а может и нет, на то он и рандом.

- Также сохраним изначальные значения до обработки, чтобы в дальнейшем сравнить показания 2х гистограмм: сырой и измененной с заполненными значениями рандомными числами.

In [None]:
raw_parks3000 = df['parks3000']
raw_ponds3000 = df['ponds3000']

In [None]:
df['parks3000'] = df['parks3000'].fillna(5)
df['ponds3000'] = df['ponds3000'].fillna(5)
df['parks3000'] = df['parks3000'].astype('int')
df['ponds3000'] = df['ponds3000'].astype('int')

In [None]:
def p3000(number):
    if number==5:
        return random.randint(0, 3)
    else:
        return number
    
    
df['parks3000'] = df['parks3000'].apply(p3000)
df['ponds3000'] = df['ponds3000'].apply(p3000)

- Для наглядности построем гистограммы по исходным данным и измененным.

In [None]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=raw_parks3000, name='raw parks3000'))
fig.add_trace(go.Histogram(x=raw_ponds3000, name='raw parks3000'))
fig.add_trace(go.Histogram(x=df['parks3000'], name='filtered parks3000'))
fig.add_trace(go.Histogram(x=df['ponds3000'], name='filtered parks3000'))

# Overlay both histograms
fig.update_layout(barmode='group')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.75)
fig.show()

- Как видно произошла рандомная замена числа 5 на числа от 0 до 3.

- Теперь повторно применим условие при котором если parks3000 либо ponds3000 равно 0, то и parks либо ponds будет равен 0 соответственно.

In [None]:
df.loc[df['parks3000'] == 0, 'parks'] = df.loc[df['parks3000'] == 0, 'parks'].fillna(0)
df.loc[df['ponds3000'] == 0, 'ponds'] = df.loc[df['ponds3000'] == 0, 'ponds'].fillna(0)

- Приступаем к следующему шагу: применим также random.randint для заполнения пропусков в расстоянии до ближайшего парка и до ближайшего пруда.

- В парках минимальное значение расстояния равно 1.00 и максимальное 3,190.00. Для прудов минимальное это 13.00, а максимальное 1,344.00. Для начала разберемся с тем, что на замену пропущенных значений в парках и прудах поставим 0. И затем приведем эти данные к целочисленному типу.

In [None]:
df['parks'] = df['parks'].fillna(0)
df['ponds'] = df['ponds'].fillna(0)
df['parks'] = df['parks'].astype('int')
df['ponds'] = df['ponds'].astype('int')

- Теперь отдельно пропишем функцию для парков на замену нулевых значений рандомными числами от минимума до максимума. И, затем, проделаем то же самое с прудами.

In [None]:
def park(number):
    if number==0:
        return random.randint(1, 3190)
    else:
        return number
    
    
df['parks'] = df['parks'].apply(park)

In [None]:
def pond(number):
    if number==0:
        return random.randint(13, 1344)
    else:
        return number
    
    
df['ponds'] = df['ponds'].apply(pond)

***Вывод:***

Т.к. такие параметры не особо значимы здесь это решение допустимо. Но так нельзя делать при наличии серьезных зависимостей. Безусловно нужно учитывать данные матрицы корреляции и делать выводы.

### Замена типа данных

In [None]:
df.dtypes

- Необходимо поменять тип images, rooms, floor, price, floors_total, balcony, airport, citycenter, days_exposition на целочисленный тип. Тип studio и open_plan на bool. 

In [None]:
df['images'] = df['images'].astype('int')
df['rooms'] = df['rooms'].astype('int')
df['floor'] = df['floor'].astype('int')
df['price'] = df['price'].astype('int')
df['floors_total'] = df['floors_total'].astype('int')
df['balcony'] = df['balcony'].astype('int')
df['airport'] = df['airport'].astype('int')
df['citycenter'] = df['citycenter'].astype('int')
df['days_exposition'] = df['days_exposition'].astype('int')
df['studio'] = df['studio'].astype('bool')
df['open_plan'] = df['open_plan'].astype('bool')

### Выбросы

Согласно полученным данным, выбросы можно наблюдать в:
- price, где максимальное значение равно 763 млн. Необходимо определить где находится эта квартира. Если она находится в Питере и в единственном экземпляре, то такая цена имеет место быть (дворец четырехэтажный).
- total_area, максимальная площадь равна 900. С такой площадью даже частных домов практически нет. При этом минимальная площадь равна 12, а это невозможно, так как минимальная площадь жилой комнаты равна 14.
- rooms, максимально 19. Это невозможно, если, конечно, какой-нибудь вдохновленный дизайнер из Питера не решил построить себе многокомнатную нору. 
- living_area, выброс 5555 который мы поставили сами.
- почти то же самое происходит и с kitchen_area: маркер 5555.
- days_exposition, маркер 5555.

## Расчёты и добавление результатов в таблицу

На данном этапе будет важно решить следующие задачи, а именно найти:
- цену квадратного метра;
- день недели, месяц и год публикации объявления;
- этаж квартиры; варианты — первый, последний, другой;
- соотношение жилой и общей площади, а также отношение площади кухни к общей.

Добавим столбец с расчетом цены квадратного метра.

In [None]:
df['price_per_m'] = df['price'] / df['total_area']
df['price_per_m'] = df['price_per_m'].astype('int').round()

- Найдем день недели, месяца и года публикации объявления и создадим отдельные столбцы.

In [None]:
df['first_day_exposition'] = df['first_day_exposition'].dt.round('1D') #предварительно округлю до одного дня

In [None]:
df['weekday'] = df['first_day_exposition'].dt.weekday
df['month'] = df['first_day_exposition'].dt.month
df['year'] = df['first_day_exposition'].dt.year

- Напишем функцию для определения этажа квартиры и создадим отдельный столбце по этажам.

In [None]:
df['type_floor'] = df.apply(lambda x: "первый" if x['floor']==1 
                            else "последний" if x['floor'] == x['floors_total']
                            else "другой", axis=1)

- Найдем соотношение жилой и общей площади, а также отношение площади кухни к общей и создадим соответствующие столбцы.

In [None]:
df['ratio_living_area_to_total_area'] = df['living_area'] / df['total_area']
df['ratio_kitchen_area_to_total_area'] = df['kitchen_area'] / df['total_area']

## Исследовательский анализ данных

### 

**Построим диаграммы размаха для площади, цены, числа комнат и высоты потолков.**

In [None]:
def information(data, i):
    print('Исследуемый параметр {}'.format(i))
    display(data[i].describe())
    fig = px.box(data, y=i, width=400, height=400)
    fig.update_layout(
    margin=dict(l=20, r=20, t=20, b=20),
    paper_bgcolor="LightSteelBlue")
    fig.show()
    
for x in ['total_area', 'price', 'rooms', 'ceiling']:
    information(df, x)

***Total area***
- Судя по диаграмме, основное количество площади приходится на 40 - 70 квадратов. Эти показатели соотвествуют таблице корреляции и распределение соответсвует действительности, а значит, не смотря на то что есть выбросы - их не так много. В дальнейшем, то, что больше, например, 115 квадратов можно убрать.

***Price***
- Цена, в среднем, больше всего варьируется от 3.4 млн до 6.8 млн. Здесь уже можно наблюдать небольшой сдвиг после 75%. Это происходит из-за чрезвычайно большого максимального значения в цене. Думаем, все что до 1 млн и после 12 млн можно убрать.

***Rooms***
- Здесь разброс данных соответсвует действительности. После 6 можно убрать оставшееся.

***Ceiling***
- Медиана наблюдается на отметке в 2.7 метра, соответсвует действительности. Выбросов мало, а потому их спокойно можно убрать до 2.5 (допустимый минимум) и после 4.

### 

- Изучим время продажи квартиры.

In [None]:
fig = px.box(df.query('days_exposition < 5555'), y='days_exposition')
fig.show()

- Медиана равна 95. Самая минимальная продажа = 1 день, максимальная = 1580. 

### 

- Уберем редкие и выбивающиеся значения. Для начала построим гистограммы распределения, чтобы определить допустимые диапазоны: 

In [None]:
def hist(data, i):
    print('Исследуемый параметр {}'.format(i))
    display(data[i].describe())
    fig = px.histogram(data, x=i, width=400, height=400)
    fig.update_layout(
    margin=dict(l=20, r=20, t=20, b=20),
    paper_bgcolor="LightSteelBlue")
    fig.show()
    
for x in ['total_area', 'price', 'rooms', 'ceiling', 'balcony']:
    hist(df, x)

In [None]:
df_filtered = df.query('20.00 <= total_area <= 150.00')
df_filtered = df_filtered.query('1500000 <= price <= 20000000')
df_filtered = df_filtered.query('1 <= rooms <= 5')
df_filtered = df_filtered.query('2.40 <= ceiling <= 4')
df_filtered = df_filtered.query('0 <= balcony <= 2')

**Теперь обработаем выбросы тех значений, где мы намеренно ставили 5555 - это living_area, kitchen_area, airport, citycenter и 'days_exposition'.**

In [None]:
for x in ['days_exposition', 'living_area', 'kitchen_area', 'airport', 'citycenter']:
    hist(df[df[:] != 5555], x)

In [None]:
df_filtered = df_filtered.query('8 <= days_exposition <= 600')
df_filtered = df_filtered.query('14.00 <= living_area <= 90.00')
df_filtered = df_filtered.query('0.00 <= kitchen_area <= 23.00')
df_filtered = df_filtered.query('5000 <= airport <= 65000')
df_filtered = df_filtered.query('1000 <= citycenter <= 34000')
pd.set_option('display.max_columns', None)
df_filtered.describe()

###   

- Какие факторы больше всего влияют на стоимость квартиры?
Зависит ли цена от площади, числа комнат, удалённости от центра? Зависимость цены от того, на каком этаже расположена квартира: первом, последнем или другом. Зависимость от даты размещения: дня недели, месяца и года

In [None]:
df_corr = df_filtered.loc[:, ['price', 'total_area', 'rooms', 'citycenter', 'floor', 'weekday', 'month', 'year']].corr()
df_corr.style\
    .format({f'{i}':"{:,.2f}" for i in df.columns})\
    .background_gradient(cmap='Blues')

- Как видно, цена больше всего зависит от общей площади. Меньше всего зависит от количества комнат, по минимуму зависит от этажа и никак не зависит от дня недели, месяца. Наблюдается отрицательная незначительная корреляция с расстоянием до центра и года. Это значит что чем дальше от центра, тем меньше цена и чем дольше стоит квартира на продаже, тем ниже ее цена со временем. (слабое влияние)

### 

- Выберем 10 населённых пунктов с наибольшим числом объявлений. Посчитаем среднюю цену квадратного метра в этих населённых пунктах. Выделим среди них населённые пункты с самой высокой и низкой стоимостью жилья.

In [None]:
top_10 = df_filtered.pivot_table(index='locality', values='price_per_m', aggfunc=('count', 'mean')).reset_index().sort_values(by='count', ascending=False).astype({'count':'int','mean':'int'}).head(10)
top_10

In [None]:
fig = go.Figure(data=[go.Pie(values=top_10['count'], pull=[0.2, 0, 0, 0, 0, 0, 0, 0, 0, 0], labels = top_10['locality'])])
fig.show()

- По итогу, Питер является самым дорогим в таблице по стоимости жилья за квадратный метр, а Выборг- самым дешевым по стоимости жилья за квадратный метр в данной выборке.

### 

- Изучим предложения квартир: для каждой квартиры есть информация о расстоянии до центра. Выделим квартиры в Санкт-Петербурге. Выясним, какая область входит в центр. 
1) Для начала создадим столбец с расстоянием до центра в километрах: округлим до целых значений. 
2) После этого посчитаем среднюю цену для каждого километра. + Построим график: он должен показывать, как цена зависит от удалённости от центра. 
3) Определим границу, где график сильно меняется — это и будет центральная зона.

In [None]:
spb = df_filtered.query('locality == "санкт-петербург"').copy() #дать понять python’у, что мы понимаем то, что создаем копию и что последующие изменения создаются именно в копии/срезе, а не в исходном датафрейме
spb['km'] = (spb['citycenter'] / 1000).astype('int')
mean_price_per_km = spb.groupby('km')['price'].mean().reset_index()
#mean_price_per_km.plot(x='km', y='price', grid=True)
fig = px.line(mean_price_per_km, x='km', y='price')
fig.show()

- Как видно, начинает происходить снижение после 7 км, при этом налюдается небольшой скачок на 20 и 28 км(возможно что там располагается основное количество достопримечательностей, то есть не в самом центре, а приблизтельно в радиусе 30 км от центра).

Следовательно, можно сделать вывод что граница проходит в районе 7 км.

### 

- Необходимо выделить сегмент квартир в центре. Проанализировать эту территорию и изучить следующие параметры: площадь, цена, число комнат, высота потолков. Также выделить факторы, которые влияют на стоимость квартиры (число комнат, этаж, удалённость от центра, дата размещения объявления). Отличаются ли они от общих выводов по всему городу?

In [None]:
result = spb.query('km <= 7 and locality == "санкт-петербург"')

- Теперь по отдельности изучим параметры: площадь, цена, число комнат, высота потолков.

In [None]:
for x in ['total_area', 'price', 'rooms', 'ceiling']:
    hist(result, x)

- Больше всего в центре квартир с общей площадью 49 - 85. То есть среднее это 66.
- Средняя цена в центре приходится на 7,5 млн.
- Больше всего 2х-комнатных квартир в центре. 
- Высота потолков составляет 2.70 м в среднем, что соотвествует действительности.

- Теперь выделим факторы, которые влияют на стоимость квартиры в центре Питера

In [None]:
for i in spb[['rooms', 'km', 'year', 'type_floor']]:
    print('Исследуемый параметр {}'.format(i))
    price = result.groupby(i)['price'].median().reset_index()
    fig = px.line(price, x=i, y="price", width=400, height=400)
    fig.show()

- Видно, что цена возрастает в зависимости от количества комнат.

- Согласно полученным данным, ожидаемо дороже оказались квартиры в центре, разброс в 7 км по цене примерно 500 тысяч.

- В 2014 году наблюдается самый пик цены. 
Конфликт вокруг Украины, ухудшение отношений с Западом, введение санкций, отток капитала, падение цен на нефть и девальвация рубля – все эти обстоятельства повлияли на недвижимость двояко.
Первая волна ажиотажа пришлась на начало 2014 года и длилась с января по середину апреля. Такова была реакция людей на ситуацию с присоединением Крыма и ухудшение отношений с западным миром. Тогда в равной мере повысилась активность как инвестиционных покупателей, так и людей, поспешивших побыстрее купить квартиру для жизни и решить квартирный вопрос по принципу «пока не стало хуже».
Постепенно ситуация улучшалась, а потому и снижался показатель цен.

- Можно заметить что цена сильно падает когда этаж первый. 
Самый верхний, последний этаж, обычно процентов на 5 дешевле чем этажи под ним. Дело все в том, что самый верхний этаж может стать проблемой: если крыша не в порядке, потечет все сразу к вам.
Квартиры на верхних этажах (не последний) всегда более востребованы покупателями. Это касается как новостроек, так и старого жилого фонда. Покупатели готовы доплачивать за жилье на таких этажах: не слышно уличного шума, более чистый воздух, обилие солнечного света, отсутствие соседей сверху.
А вот нижний этаж радости не прибавляет: возможное соседство с магазином, опасение форточников и т.п.

## Общий вывод

**Подводя итог, можно прийти к следующему заключению по общей таблице с отфильтрованными данными:**
- Основная площадь продаваемых квартир приходится на 50 м кв.
- Средняя цена наблюдается в районе 4.5 млн.
- Больше всего двухкомнатных квартир выставляют на продажу.
- Средняя высота потолка 2.7 м, что вполне реалистично, так как в новостройках это установленный стандарт.
- Где-то на 96й день квартиру продают и снимают с публикации. Самыми быстрыми продажами являются продажи на 8ой день с момента размещения объявления. А самыми медленными продажами являются объявления, которые висят на сайте польше чем 1.5 года.
- Цена больше всего зависит от общей площади. Меньше всего зависит от количества комнат, по минимуму зависит от этажа и никак не зависит от дня недели, месяца. Наблюдается отрицательная корреляция с расстоянием до центра и города. Это значит что чем дальше от центра, тем меньше цена и чем дольше стоит квартира на продаже, тем ниже ее цена со временем. 

**Что касается отфильтрованных данных для Питера, можно сделать следующие выводы:**
- Центральной зоной города является радиус 7 км.
- Больше всего в центре квартир с общей площадью 66. 
- Больше всего квартир на продажу выставлено двухкомнатных. 
- Высота потолков составляет 2.7 м, что соотвествует действительности.
- Самая распространенная цена на квартиры в центре это 7.5 млн.
- Наибольшая зависимость цены наблюдается от количества комнат. Меньше зависимость цены от этажа. Остальные данные об удаленности от центра и даты размещения никак не влияют на цену. Единственный всплеск налюдается в данных о годах, но то связано с экономическим кризисов 2014 года.