# Исследование объявлений о продаже квартир в Питере

Данное исследование ставит перед собой цель определить, как различные характеристики квартиры влияют на ее конечную стоимость, и выявить среди них наиболее сильные признаки для будущей автоматизированной системы отслеживания аномалий и мошеннической деятельности.

Исследование основывается на архивных данных сервиса Яндекс.Недвижимость. По каждой квартире на продажу доступно два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта, ближайшего парка и водоёма.

**Структура данных:**

Данные Яндекс.Недвижимости о недвижимости в Санкт-Петербурге находятся в файле `realty_data.csv`:

* `total_images` — число фотографий квартиры в объявлении

* `last_price` — цена на момент снятия публикации

* `total_area` — общая площадь квартиры в квадратных метрах

* `first_day_exposition` — дата публикации

* `rooms` — число комнат

* `ceiling_height` — высота потолков в метрах

* `floors_total` — всего этажей в доме

* `living_area` — жилая площадь в квадратных метрах

* `floor` — этаж

* `is_apartment` — является ли апартаментами (да/нет)

* `studio` — является ли студией (да/нет)

* `open_plan` — свободная планировка (да/нет)

* `kitchen_area` — площадь кухни в квадратных метрах

* `balcony` — число балконов

* `locality_name` — название населённого пункта

* `airports_nearest` — расстояние до ближайшего аэропорта в метрах

* `cityCenters_nearest` — рассторяние до ближайшего торгового центра в метрах

* `parks_around3000` — количество парков в радиусе 3 км

* `parks_nearest` — расстояние до ближайшего парка в метрах

* `ponds_around3000` — количество водоёмов в радиусе 3 км

* `ponds_nearest` — расстояние до ближайшего водоёма в метрах

* `days_exposition` — количество дней от публикации до снятия
															
**План:**

<div class="toc">
   <ul class="toc-item">
      <li><span><a href="#Setup" data-toc-modified-id="Setup-2">Setup</a></span></li>
      <li><span><a href="#Вспомогательные-функции" data-toc-modified-id="Вспомогательные-функции-3">Вспомогательные функции</a></span></li>
      <li>
         <span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-4">Предобработка данных</a></span>
         <ul class="toc-item">
            <li><span><a href="#Общее" data-toc-modified-id="Общее-4.1">Общее</a></span></li>
            <li><span><a href="#Удаление-столбцов" data-toc-modified-id="Удаление-столбцов-4.2">Удаление столбцов</a></span></li>
            <li>
               <span><a href="#Работа-с-пропусками-и-аномальными-значениями" data-toc-modified-id="Работа-с-пропусками-и-аномальными-значениями-4.3">Работа с пропусками и аномальными значениями</a></span>
               <ul class="toc-item">
                  <li><span><a href="#last_price" data-toc-modified-id="last_price-4.3.1">last_price</a></span></li>
                  <li><span><a href="#total_area" data-toc-modified-id="total_area-4.3.2">total_area</a></span></li>
                  <li><span><a href="#rooms" data-toc-modified-id="rooms-4.3.3">rooms</a></span></li>
                  <li><span><a href="#ceiling_height" data-toc-modified-id="ceiling_height-4.3.4">ceiling_height</a></span></li>
                  <li><span><a href="#floors_total" data-toc-modified-id="floors_total-4.3.5">floors_total</a></span></li>
                  <li><span><a href="#living_area" data-toc-modified-id="living_area-4.3.6">living_area</a></span></li>
                  <li><span><a href="#kitchen_area" data-toc-modified-id="kitchen_area-4.3.7">kitchen_area</a></span></li>
                  <li><span><a href="#balcony" data-toc-modified-id="balcony-4.3.8">balcony</a></span></li>
                  <li><span><a href="#airports_nearest" data-toc-modified-id="airports_nearest-4.3.9">airports_nearest</a></span></li>
                  <li><span><a href="#city_centers_nearest" data-toc-modified-id="city_centers_nearest-4.3.10">city_centers_nearest</a></span></li>
                  <li><span><a href="#parks_around_3000" data-toc-modified-id="parks_around_3000-4.3.11">parks_around_3000</a></span></li>
                  <li><span><a href="#ponds_around_3000" data-toc-modified-id="ponds_around_3000-4.3.12">ponds_around_3000</a></span></li>
                  <li><span><a href="#parks_nearest" data-toc-modified-id="parks_nearest-4.3.13">parks_nearest</a></span></li>
                  <li><span><a href="#ponds_nearest" data-toc-modified-id="ponds_nearest-4.3.14">ponds_nearest</a></span></li>
                  <li><span><a href="#days_exposition" data-toc-modified-id="days_exposition-4.3.15">days_exposition</a></span></li>
               </ul>
            </li>
         </ul>
      </li>
      <li>
         <span><a href="#Отбор-признаков" data-toc-modified-id="Отбор-признаков-5">Отбор признаков</a></span>
         <ul class="toc-item">
            <li><span><a href="#Общее" data-toc-modified-id="Общее-5.1">Общее</a></span></li>
            <li><span><a href="#locality_name" data-toc-modified-id="locality_name-5.2">locality_name</a></span></li>
            <li><span><a href="#first_day_exposition" data-toc-modified-id="first_day_exposition-5.3">first_day_exposition</a></span></li>
            <li><span><a href="#floor" data-toc-modified-id="floor-5.4">floor</a></span></li>
            <li><span><a href="#Отбор-признаков-с-sklearn" data-toc-modified-id="Отбор-признаков-с-sklearn-5.5">Отбор признаков с sklearn</a></span></li>
            <li><span><a href="#Вывод" data-toc-modified-id="Вывод-5.6">Вывод</a></span></li>
            <li><span><a href="#Отбор-признаков-в-центральной-части-Санкт-Петербурга" data-toc-modified-id="Отбор-признаков-в-центральной-части-Санкт-Петербурга-5.7">Отбор признаков в центральной части Санкт-Петербурга</a></span></li>
         </ul>
      </li>
   </ul>
</div>

# Setup

In [None]:
import warnings
from copy import deepcopy

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import plotly.express as px
import seaborn as sns
from matplotlib_inline.backend_inline import set_matplotlib_formats
from scipy.cluster import hierarchy
from scipy.spatial.distance import squareform
from scipy.stats import spearmanr
from sklearn.ensemble import HistGradientBoostingRegressor, RandomForestRegressor
from sklearn.feature_selection import (
    SelectFromModel,
    SelectKBest,
    SequentialFeatureSelector,
    f_regression,
    mutual_info_regression,
)
from sklearn.inspection import permutation_importance
from sklearn.linear_model import LassoCV
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

In [None]:
np.random.seed(42)
pd.set_option("display.max_columns", None)
pd.set_option("display.float_format", "{:,.2f}".format)
set_matplotlib_formats("svg")
sns.set(font_scale=1.25, style="whitegrid", rc={"figure.figsize": (8, 5), "figure.autolayout": True})

# Вспомогательные функции

**Note:** Пока я все это писал, я узнал, что plotly работает неидеально с кнопками, что-то не отображается или что-то не меняется при выборе другого столбца. Так что я не смог полностью привести графики к нормальному виду (например, подписать ось Х, потому что она не менялась при изменении столбца, также не меняется hovertemplate, так что пришлось заменить названия столбцов на x и y). Насколько я понял, plotly может менять не больше 3 параметров и их порядок важен (например, поменять местами аргументы - и уже название графика не будет меняться). Так же на графиках есть баги иногда. В общем, мне кажется, голый plotly не особо подходит для построения графиков с большим количеством задаваемых параметров.

In [None]:
def feature_histogram(df):
    df = df.select_dtypes(exclude=object)
    first_column = df.columns[0]

    fig = px.histogram(df, x=first_column, marginal="box")

    buttons = []
    for column in df:
        button = dict(
            method="update",
            label=column,
            args=[
                {"x": [df[column]]},
                {
                    "title": f'Feature histograms: "{column}" '
                    f"min - {df[column].min():,.2f} max - {df[column].max():,.2f} "
                    f"mean - {df[column].mean():,.2f} median - {df[column].median():,.2f} "
                    f"nan - {df[column].isna().sum():,} ({100*df[column].isna().sum()/len(df):.2f}%)"
                },
                {"xaxis": {"rangeslider": {"visible": True}}},
            ],
            # {'xaxis': {'rangeslider': {'visible': True}, 'title': column}}] не работает, хотя параметр верный
        )
        buttons.append(button)

    column_menu = dict(
        buttons=buttons,
        direction="down",
        showactive=True,
    )

    fig.update_layout(
        updatemenus=[column_menu],
        title_text=f'Feature histograms: "{first_column}" '
        f"min - {df[first_column].min():,.2f} max - {df[first_column].max():,.2f} "
        f"mean - {df[first_column].mean():,.2f} median - {df[first_column].median():,.2f} "
        f"nan - {df[first_column].isna().sum():,} ({100*df[first_column].isna().sum()/len(df):.2f}%)",
        xaxis={"title": None, "rangeslider": {"visible": True}},
        yaxis={"title": "Count"},
    )

    fig.update_traces(
        hovertemplate="x=%{x}<br>count=%{y}<extra></extra>",
    )

    return fig

In [None]:
def feature_scatterplot(df, range_color=(0, 15 * 10**6)):
    df = df.select_dtypes(exclude=object)
    first_column = df.columns[0]

    fig = px.scatter(df, x=first_column, y=first_column, color="last_price", range_color=range_color)
    column_menus = []

    for axis, y_pos in zip(["x", "y"], [0.7, 0.92]):

        column_buttons = []
        for column in df:
            button = dict(
                method="update",
                label=column,
                args=[{axis: [df[column]]}, {axis + "axis": {"title": column, "rangeslider": {"visible": True}}}],
            )
            column_buttons.append(button)

        column_menu = dict(
            buttons=column_buttons,
            direction="down",
            showactive=True,
            x=-0.12,
            y=y_pos,
        )

        column_menus.append(column_menu)

    color_buttons = []
    for label, value in zip([True, False], ["last_price", None]):
        button = dict(
            method="update",
            label=label,
            args=[{"marker": {"color": df[value] if value else value, "coloraxis": "coloraxis"}}],
        )
        color_buttons.append(button)

    color_menu = dict(
        buttons=color_buttons,
        direction="down",
        showactive=True,
        x=-0.19,
        y=0.48,
    )

    fig.update_layout(
        annotations=[
            dict(text="Y axis:", x=-0.29, y=1, xref="paper", yref="paper", showarrow=False),
            dict(text="X axis:", x=-0.29, y=0.78, xref="paper", yref="paper", showarrow=False),
            dict(text="Color by last_price:", x=-0.35, y=0.536, xref="paper", yref="paper", showarrow=False),
        ],
        updatemenus=column_menus + [color_menu],
        title_text="Feature scatterplots",
        xaxis={"rangeslider": {"visible": True}},
    )

    fig.update_traces(
        hovertemplate="x=%{x}<br>y=%{y}<br>last_price=%{marker.color:,.0f}<extra></extra>",
    )

    return fig

In [None]:
def histogram_by(df, **kwargs):
    fig = px.histogram(df, **kwargs, opacity=0.6)
    fig.update_layout(barmode="overlay")
    return fig

In [None]:
def feature_nan(df, column=None):
    if column:
        print(f"{df[column].isna().mean() * 100:.2f}%")
    else:
        info = str(df.isna().mean() * 100)
        print(info[: info.rfind("\n")].replace("\n", "%\n") + "%")

# Предобработка данных

## Общее

In [None]:
data = pd.read_csv("realty_data.csv", sep="\t")
data

In [None]:
data.rename(
    columns={
        "cityCenters_nearest": "city_centers_nearest",
        "parks_around3000": "parks_around_3000",
        "ponds_around3000": "ponds_around_3000",
    },
    inplace=True,
)

Меняем тип данных столбца `first_day_exposition`, потому что для удобной работы с данными был создан специальный тип данных `datetime`. Так же поменяем булев тип данных на `float`, потому что с ним удобнее работать.

In [None]:
data["first_day_exposition"] = pd.to_datetime(data["first_day_exposition"], format="%Y-%m-%dT%H:%M:%S")
data[["is_apartment", "studio", "open_plan"]] = data[["is_apartment", "studio", "open_plan"]].astype(float)

In [None]:
data.duplicated().sum()

In [None]:
data["locality_name"] = (
    data["locality_name"]
    .str.lower()
    .str.replace("ё", "е")
    .str.replace("деревня", "")
    .str.replace("поселок", "")
    .str.replace("городского типа", "")
    .str.replace("коттеджный", "")
    .str.replace("садовое товарищество", "")
    .str.replace("село", "")
    .str.strip()
)

In [None]:
data.info(memory_usage="deep")

In [None]:
feature_nan(data)

In [None]:
data.drop("locality_name", axis=1).describe(include="all", datetime_is_numeric=True).T

NB: иногда график лагает, иногда нет.

In [None]:
feature_histogram(data)

In [None]:
feature_scatterplot(data, range_color=(0, 20 * 10**6))

In [None]:
px.imshow(data.corr(), height=600)

Судя по диаграмме раcсеяния `first_day_exposition` и `days_exposed`, перед нами данные о квартирах, которые были проданы с середины июня 2016 года по начало мая 2019.

## Удаление столбцов

---
В столбце `is_apartment` пропуски занимают львиную долю, а значение `True` имеют всего 50 строк, так что этот параметр не будет оказывать влияние на ценообразование совокупной выборки. Его можно отбросить.

In [None]:
data.pivot_table(index="is_apartment", values="last_price", aggfunc=["count", "mean", "median"]).droplevel(1, axis=1)

In [None]:
sns.histplot(data.query("is_apartment == True"), x="last_price");

Видим, что причиной более высоких среднего и медианы `last_price` для `is_apartment = True` являются выбросы в значениях.

In [None]:
data.drop("is_apartment", axis=1, errors="ignore", inplace=True)

---
Столбец `studio` тоже выкинем, так там тоже большой дисбаланс значений - всего 149 значений `True`. 

In [None]:
data.pivot_table(index="studio", values="last_price", aggfunc=["count", "mean", "median"]).droplevel(
    1, axis=1
).rename_axis("last_price", axis=1)

Меньшие среднее и медиана во многом могут быть объяснены малой жилой площадью квартир-студий.

In [None]:
data.pivot_table(index="studio", values="total_area", aggfunc=["mean", "median"]).droplevel(1, axis=1).rename_axis(
    "total_area", axis=1
)

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(10, 4))
sns.histplot(data.query("studio == True"), x="last_price", ax=axes[0])
sns.histplot(data.query("total_area < 30"), x="last_price", ax=axes[1]);

In [None]:
data.drop("studio", axis=1, errors="ignore", inplace=True)

---
Столбец `open_plan` тоже выкидываем.

In [None]:
data.pivot_table(index="open_plan", values="last_price", aggfunc=["count", "mean", "median"]).droplevel(1, axis=1)

In [None]:
data.drop("open_plan", axis=1, errors="ignore", inplace=True)

## Работа с пропусками и аномальными значениями

### last_price

В распределении `last_price` есть как и очень большие, так и подозрительно маленькие значения.

In [None]:
data.query("last_price > 760 * 10**6")

Выбивающаяся точка - 763 миллиона, не ошибка, а просто выброс. Я отброшу все объявления с ценой выше 40 миллионов рублей.

In [None]:
data.drop(data.query("last_price > 40 * 10**6").index, inplace=True)

In [None]:
data.query("last_price < 500000")

А вот квартира за 12 тысяч - явно ошибка.

In [None]:
data.loc[data["last_price"] < 13000, "last_price"] *= 1000

Вообще интересно, насколько правдоподобно купить квартиру 30-50 квадратных метров за 450-500 тысяч рублей.

In [None]:
fig = px.histogram(data.query("29 < total_area < 50"), x="last_price")
fig

Как видим, квартиры площадью 30-50 квадратных метров чаще всего стоят 3.5 миллиона рублей, следовательно, 400-500 тысяч - весьма редкое явление. Однако стоит заметить, что все такие квартиры расположены в поселках и в деревнях, из-за этого стоимость недвижимости может быть сильно ниже. Я отсеку объявления с ценой ниже 1 миллиона.

In [None]:
data.drop(data.query("last_price < 10**6").index, inplace=True)

### total_area

В столбце `total_area` присутствуют и очень большие, и очень маленькие значения. Отсеку объявления, где площадь больше 200 или меньше 20 квадратных метров.

In [None]:
data.drop(data.query("total_area < 20 or total_area > 200").index, inplace=True)

### rooms

Вероятно, квартиры, у которых 0 комнат - какие-нибудь студии или еще какой-нибудь аналогичный тип жилья. Оставлю как есть.

### ceiling_height

А у кого-то потолок пробил крышу. Очень странный экземпляр, 25 квадратных метров, потолки 100 метров, 5 балконов.

In [None]:
data.query("ceiling_height == 100")

Судя по распределению, 2.5 метра - стандард высоты потолков. Уберем квартиры с высотой потолка выше 5 метров или ниже 2.

In [None]:
data.drop(data.query("ceiling_height > 5 or ceiling_height < 2").index, inplace=True)

In [None]:
feature_nan(data, "ceiling_height")

На самом деле, я даже не знаю, почему почти 39% людей не указали высоту потолка. Возможно, лень, но не 39 же процентов, в конце концов высота потолка - весьма важный параметр. Я не буду заполнять пропуски тут - это приведет к искажению данных.

### floors_total

In [None]:
feature_nan(data, "floors_total")

Уберем небоскребы и заменим пропуски в `floors_total` в соотвествии с тем, на каком этаже квартира находится.

In [None]:
data.drop(data.query("floors_total > 30").index, inplace=True)

Пропущенных значений в столбце `floor` нет, так что можно спокойно группировать по нему.

In [None]:
data["floors_total"] = data.groupby("floor")["floors_total"].apply(lambda x: x.fillna(x.median()))

Стоит посмотреть, целочисленные ли получились этажи и не остались ли где-нибудь NaN значения, так как медиана может быть нецелой или ее может вообще не быть (если все значения NaN).

In [None]:
data["floors_total"].isna().sum()

In [None]:
residuals = data["floors_total"] - data["floors_total"].astype(int)
residuals[residuals > 0]

Все нормально, везде этажи целые.

### living_area

In [None]:
feature_nan(data, "living_area")

По диаграмме рассеяния между `living_area` и `total_area` можно заметить зависимость, похожую на линейную. Это подтверждается высоким значением корреляции на графике выше. Так же `living_area` хорошо кореллирует с количеством комнат.

In [None]:
for column in ["total_area", "rooms"]:
    print(f"{column}: {data['living_area'].corr(data[column]):.2f}")

Заполним пропуски в столбце `living_area` линейной регрессией.

In [None]:
X = data[["total_area", "rooms"]]
y = data["living_area"]
X_train, X_predict = X[~y.isna()], X[y.isna()]
y_train = y.dropna()

In [None]:
model_ls = Pipeline([("standard_scaler", StandardScaler()), ("regressor", LassoCV(n_jobs=-1))])

model_gb = HistGradientBoostingRegressor(max_iter=1000)

In [None]:
cross_val_score(model_ls, X_train, y_train)

In [None]:
cross_val_score(model_gb, X_train, y_train)

Чуть лучше показал себя градиентный бустинг.

In [None]:
model_gb.fit(X_train, y_train)
y_predicted = model_gb.predict(X_predict)

In [None]:
print("Mean / Median")
print(f"y_train: {y_train.mean():.2f} / {np.median(y_train):.2f}")
print(f"y_redicted: {y_predicted.mean():.2f} / {np.median(y_predicted):.2f}")

Результаты удовлетворяют здравому смыслу.

In [None]:
data.loc[y.isna(), "living_area"] = y_predicted
feature_nan(data, "living_area")

### kitchen_area

In [None]:
feature_nan(data, "kitchen_area")

Посмотрим на пропуски в `kitchen_area`. Пропущенные значения могут обозначать, что кухни в квартире просто нет. Логично было бы предположить, что там, где кухни нет - сама площадь квартиры будет маленькой.

In [None]:
data[data["kitchen_area"].isna()][["total_area", "living_area"]].agg(["mean", "median", "max", "min"])

Видим, что 50% квартир имеют площадь больше 45 квадратных метров - больше, чем ожидал лично я. Однако из диаграммы раcсеяния видно, что даже у очень больших квартир бывает очень маленькая кухня (что весьма странно). Квартир без кухни - около 10%, не уверен, насколько это правдоподобно. Мне кажется, такие квартиры распространены меньше, так что я заменю пропуски, хотя в жизни я бы уточнил информацию у кого-нибудь.

In [None]:
for column in ["total_area", "living_area", "rooms"]:
    print(f"{column}: {data['kitchen_area'].corr(data[column]):.2f}")

In [None]:
X = data[["total_area", "living_area", "rooms"]]
y = data["kitchen_area"]
X_train, X_predict = X[~y.isna()], X[y.isna()]
y_train = y.dropna()

In [None]:
cross_val_score(model_ls, X_train, y_train)

In [None]:
cross_val_score(model_gb, X_train, y_train)

Результаты похуже, чем у `living_area`, но все равно неплохо - квадрат ошибки на 60% меньше, чем у простого среднего.

In [None]:
model_gb.fit(X_train, y_train)
y_predicted = model_gb.predict(X_predict)

In [None]:
print("Mean / Median")
print(f"y_train: {y_train.mean():.2f} / {np.median(y_train):.2f}")
print(f"y_redicted: {y_predicted.mean():.2f} / {np.median(y_predicted):.2f}")

In [None]:
data.loc[y.isna(), "kitchen_area"] = y_predicted
feature_nan(data, "kitchen_area")

### balcony

In [None]:
feature_nan(data, "balcony")

Пропусков по балконам - почти половина. Скорее всего, пропуски обозначают отсутствие балкона, так что я заменю пропуски на 0.

In [None]:
data["balcony"].fillna(0, inplace=True)

### airports_nearest

Минимальное расстояние до аэропорта - 0 м. Кто-то живет, видимо, в аэропорту.

In [None]:
data.drop(data.query("airports_nearest == 0").index, inplace=True)

In [None]:
feature_nan(data, "airports_nearest")

Попробуем заполнить пропуски медианными значениями по местности/области. Вероятно, в деревнях и поселках просто нет аэропорта, и система не определила аэропорт в Питере. Если же где-то расстояние указано, то результат будет точнее, если местность маленькая и компактная как, например, деревни или поселки. Если квартира расположена в Питере, то там может быть большой разброс квартир по городу, поэтому точность будет хуже.

In [None]:
data[data["airports_nearest"].isna()]["locality_name"].value_counts().head()

В основном это поселки и деревни. Вполне возможно, что расстояние до аэропорта отсутствует у всех квартир в данной области.

In [None]:
data.query('locality_name == "всеволожск"')["airports_nearest"].value_counts()

Есть еще одна проблема - в столбце `locality_name` есть пропущенные значения и группировка по ним не пройдет. В результате мы столбцу в котором 23071 присвоем столбец с 23022 значениями. А недостающие 49 значений станут NaN, даже если они изначально не были NaN. Поэтому присваивать нужно по индексам.

In [None]:
with warnings.catch_warnings():
    warnings.simplefilter("ignore", category=RuntimeWarning)
    filled = data.groupby("locality_name")["airports_nearest"].apply(lambda x: x.fillna(x.median()))
len(filled)

In [None]:
len(data)

In [None]:
data.loc[filled.index, "airports_nearest"] = filled

In [None]:
feature_nan(data, "airports_nearest")

Как ни грустно, но таким образом нам получилось заполнить лишь 3% пропущенных значений. Других географических признаков у нас нет, так что нам придется оставить пропущенные значения как есть.

### city_centers_nearest

In [None]:
feature_nan(data, "city_centers_nearest")

Пропусков по `city_centers_nearest` - около 23%, вероятнее всего, в поселках просто нет "центра города". Снова попробуем заполнить значения по области.

In [None]:
with warnings.catch_warnings():
    warnings.simplefilter("ignore", category=RuntimeWarning)
    filled = data.groupby("locality_name")["city_centers_nearest"].apply(lambda x: x.fillna(x.median()))
data.loc[filled.index, "city_centers_nearest"] = filled

In [None]:
feature_nan(data, "city_centers_nearest")

Снова кот наплакал. Причем число один в один совпадает с числом пропусков в столбце `airports_nearset`. Судя по всему, эти пропуски у один и тех же квартир, и что-то мне подсказывает, что так же будет и со всеми следующими столбцами. 

In [None]:
data[data["airports_nearest"].isna() & ~data["city_centers_nearest"].isna()]

In [None]:
data[~data["airports_nearest"].isna() & data["city_centers_nearest"].isna()]

Да, пропуски биективны. Судя по всему, это квартиры с каких-то далеких поселков и деревень.

### parks_around_3000

In [None]:
feature_nan(data, "parks_around_3000")

In [None]:
with warnings.catch_warnings():
    warnings.simplefilter("ignore", category=RuntimeWarning)
    filled = data.groupby("locality_name")["parks_around_3000"].apply(lambda x: x.fillna(x.median()))
data.loc[filled.index, "parks_around_3000"] = filled

In [None]:
feature_nan(data, "parks_around_3000")

И снова.

### ponds_around_3000

In [None]:
feature_nan(data, "ponds_around_3000")

Любопыства ради я хочу посмотреть, по какой области больше всего идет заполнение пропущенных данных. Не очень хорошо, если это Санкт-Петербург, так как там квартиры сильно разбросаны по всему городу. Лучше, если это деревня или небольшой поселок.

In [None]:
saved = deepcopy(data["ponds_around_3000"])

In [None]:
with warnings.catch_warnings():
    warnings.simplefilter("ignore", category=RuntimeWarning)
    filled = data.groupby("locality_name")["ponds_around_3000"].apply(lambda x: x.fillna(x.median()))
data.loc[filled.index, "ponds_around_3000"] = filled

In [None]:
changed = data["ponds_around_3000"].isna().astype(int) - saved.isna().astype(int)
indexes = changed[changed != 0].index

In [None]:
data.loc[indexes]["locality_name"].value_counts()

Самый большой вклад дает поселок Мурино - правда, всего квартир оттуда 588, а заполнились 586, то есть заполнение идет только по 2 квартирам.

In [None]:
data.query('locality_name == "мурино"')[
    ["airports_nearest", "city_centers_nearest", "parks_around_3000", "ponds_around_3000"]
].mean()

Результаты не такие уж и плохие. Если это небольшой поселок, то разница в пару сотен метров не особо повлияет на расстояние до аэропорта - примерно 50 км. Тоже самое с центром города. Парков в поселке нет, а озера 2.

NB: вообще, это стоило проверить раньше, чтобы не заполнить пропуски плохими значениями, но в нашем случае все нормально.

In [None]:
feature_nan(data, "ponds_around_3000")

### parks_nearest

In [None]:
feature_nan(data, "parks_nearest")

Пропусков в этом столбце значительно больше, чем в предыдущих, так что стоит посмотреть, откуда они идут.

In [None]:
data[data["parks_nearest"].isna()]["locality_name"].value_counts()

Посмотрим, насколько рационально заполнять пропуски в Санкт-Петербурге.

In [None]:
spb_parks_nearest = data.query('locality_name == "санкт-петербург"')["parks_nearest"].dropna()

In [None]:
px.histogram(x=spb_parks_nearest)

Питер состовляет 54% пропусков по столбцу `parks_nearest`, а распределение по городу в целом имеет относительно большой разброс, так что я не вижу смысла заполнять пропуски тут, это исказит данные.

### ponds_nearest

In [None]:
feature_nan(data, "ponds_nearest")

In [None]:
data[data["ponds_nearest"].isna()]["locality_name"].value_counts()

In [None]:
spb_ponds_nearest = data.query('locality_name == "санкт-петербург"')["ponds_nearest"].dropna()

In [None]:
px.histogram(x=spb_ponds_nearest)

Ну тут точно нет. Однако можно заметить, что в поселке Мурино пропущено 586 значений, а всего оттуда объявлений 588. Значит, есть 2 непропущенных значения.

In [None]:
data.query("locality_name == 'мурино'")["ponds_nearest"].dropna()

В поселке Мурино как минимум 588 квартир - значит, поселок относительно немаленький. Лучше не заполнять пропуски 2 значениями 133 м, так как разброс значений там, вероятно больше.

### days_exposition

In [None]:
feature_nan(data, "days_exposition")

In [None]:
data["days_exposition"].agg(["mean", "median", "std"])

В половине случаев продажа квартиры занимает порядка 3 месяцев, однако разброс значений весьма большой. Быстрее 1 месяца или дольше 8 месяцев продажи происходят весьма редко. Так как распределение имеет большой размах, то я не буду заполнять пропуски средним или медианой.

# Отбор признаков

## Общее

In [None]:
feature_nan(data)

Добавим новые столбцы, которые могут быть полезными в моделировании цен на квартиры.

In [None]:
def floor_category(row):
    if row["floor"] == 1:
        return "первый"
    if row["floor"] == row["floors_total"]:
        return "последний"
    return "другое"

In [None]:
data["price_per_meter"] = data["last_price"] / data["total_area"]
data["living_ratio"] = data["living_area"] / data["total_area"]
data["kitchen_ratio"] = data["kitchen_area"] / data["total_area"]

data["year_exposition"] = data["first_day_exposition"].dt.year
data["month_exposition"] = data["first_day_exposition"].dt.month
data["weekday_exposition"] = data["first_day_exposition"].dt.weekday

data["floor_category"] = data.apply(floor_category, axis=1)

Посмотрим на распределения после очистки данных и добавления новых признаков.

In [None]:
feature_histogram(data)

In [None]:
feature_scatterplot(data)

In [None]:
px.imshow(data.corr(), height=600)

Самые высокие корреляции `last_price` - с `total_area`, `living_area`, `kitchen_area`, `ceiling_height` и `rooms`. Хоть `price_per_meter` и коррелирует хорошо с ценой, но столбец не может быть использован в предсказании цены.

Если посмотреть на диаграмму рассеяния выше, то можно увидеть образ линейной зависимости между `last_price` и `total_area`, `living_area` и `kitchen_area`. Однако у последних двух признаков разброс точек от линии регрессии выше, чем у первого. У `ceiling_height` тоже просматривается линейная зависимость с большим разбросом.

Распределение цен на квартиры похоже на распределение Пуассона. Медианная цена равна примерно 4.6, а половина всех цен лежит в диапазоне от 3.4М до 6.7М.

Распределение общей площади похоже на логнормальное. Проверим это.

In [None]:
px.histogram(x=np.log(data["total_area"]))

Ну с натяжкой можно сказать, что распределение логарифмов похоже на нормальное. Медиана по площади равна 51 м2, а большинство значений лежит в диапазоне от 40 до 68 м2. Между ценой и площадью наблюдается сильная линейная зависимость.

Количество комнат ранжируется от 1 до 3 в большинстве случаев. Посмотрим, как столбец влияет на ценообразование.

In [None]:
px.box(data, y="last_price", color="rooms")

Видим, как отличаются распределения цен для разного количества комнат. Следовательно, признак хорошо коррелирует с ценой.

Высота потолков большинства квартир ранжируется от 2.5 до 2.8 метров, с медианой в 2.65 м. Между ценой и высотой потолков наблюдается несильная линейная зависимость.

## locality_name

Посмотрим, как цена зависит от местоположения.

In [None]:
price_locality_distr = data.pivot_table(
    index="locality_name", values="last_price", aggfunc=["count", "mean", "median"]
).droplevel(1, axis=1)
fig = px.bar(price_locality_distr.sort_values(by="count").tail(20), x=["mean", "median"])
fig.update_layout(barmode="overlay")

Видим, что цены в Санкт-Петербурге сильно выбиваются по сравнению с остальными. Однако в целом нельзя сказать, что чем меньше поселение (по количеству объявлений), тем меньше цена. Кроме того, возможно, что в деревнях площадь квартир больше, чем в городе. Самые высокие цены в Питере, поселке Пушкин и в Сестрорецке. Самые низкие цены в Киршах и в поселке Волхов.

In [None]:
price_locality_distr = data.pivot_table(
    index="locality_name", values="price_per_meter", aggfunc=["count", "mean", "median"]
).droplevel(1, axis=1)
fig = px.bar(price_locality_distr.sort_values(by="count").tail(20), x=["mean", "median"])
fig.update_layout(barmode="overlay")

Цена за квадратный метр более явно уменьшается. 

In [None]:
top_localities = data["locality_name"].value_counts(ascending=False).head(10).index.values
px.box(data.query("locality_name in @top_localities"), y="last_price", color="locality_name")

Видим, что "усы" у деревень и поселков небольшие - это хорошо и говорит о том, что распределения компактные и действительно отличаются от распределения Санкт-Петербурга. Признаком можно сделать, находится ли квартира в городе или нет.

In [None]:
data["in_city"] = data["locality_name"] == "санкт-петербург"

In [None]:
for column in ["last_price", "price_per_meter"]:
    histogram_by(data, x=column, color="in_city").show()

In [None]:
px.box(data, y="last_price", color="in_city")

Хорошо различимые распределения - признак действительно неплохой.

In [None]:
data["last_price"].corr(data["in_city"])

По диаграмее рассеяния выше видно, что после 18-20 километра макисмальная цена квартиры резко падает. Посмотрим поближе на распределение цены квартиры в зависимости от расстояния до центра .

In [None]:
center_distance = (data["city_centers_nearest"].dropna() / 1000).astype(int)
price_by_distance = data["last_price"][center_distance.index].groupby(center_distance).agg(["mean", "median"])
price_by_distance = price_by_distance.reset_index().melt(id_vars="city_centers_nearest", value_vars=["mean", "median"])
fig = px.scatter(price_by_distance, x="city_centers_nearest", y="value", color="variable")
fig.add_trace(px.line(x=[0, 10], y=[12 * 10**6, 6 * 10**6], color_discrete_sequence=["red"]).data[0])
fig.add_trace(px.line(x=[10, 20], y=[6 * 10**6, 4 * 10**6], color_discrete_sequence=["blue"]).data[0])
fig.add_trace(px.line(x=[20, 50], y=[4 * 10**6, 4 * 10**6], color_discrete_sequence=["green"]).data[0])

Видим 3 участка, где зависимость меняет свой наклон. Вероятно, центр Санкт-Петербурга лежит в радиусе 10 км, а граница города проходит в радиусе 20 км.

In [None]:
histogram_by(data, x="city_centers_nearest", color="in_city")

Среди `in_city == False` есть очень маленькие значения, посмотрим, откуда они. Так же есть и большие значения для `in_city == True`, заменим их `locality_name` на "окрестность санкт-петербурга".

In [None]:
data.query("in_city == False").sort_values(by="city_centers_nearest")[["locality_name", "city_centers_nearest"]].head(
    10
)

Видим, что в `in_city == False` вошли все NaN значения.

In [None]:
data.loc[data["locality_name"].isna() & (data["city_centers_nearest"] < 20000), "locality_name"] = "санкт-петербург"
data.loc[
    (data["locality_name"] == "санкт-петербург") & (data["city_centers_nearest"] > 20000), "locality_name"
] = "окрестность санкт-петербурга"
data["in_city"] = data["locality_name"] == "санкт-петербург"

In [None]:
histogram_by(data, x="city_centers_nearest", color="in_city")

Теперь столбец `in_city` достаточно хорошо соотвествует расстоянию до центра.

## first_day_exposition

По диаграмме рассеяния выше кажется, что цена практически не зависит от даты публикации объявления.

In [None]:
px.box(data, y="last_price", color="year_exposition")

Отлично разве что распределение за 2014 год, но оно нас не очень интересует (уже 2019 год на дворе).

In [None]:
px.box(data, y="last_price", color="month_exposition")

Красивая радуга.

In [None]:
px.box(data, y="last_price", color="weekday_exposition")

Аналогично.

## floor

Посмотрим на зависимость цены от категории этажа, на котором находится квартира.

In [None]:
histogram_by(data, x="last_price", color="floor_category")

In [None]:
px.box(data, y="last_price", color="floor_category")

Статистической разницы нет. Однако, если посмотреть на диаграмму рассеяния `last_price` и `floor`, то можно заметить, что если этаж больше 15, то средняя цена постепенно уменьшается. Посмотрим на диаграмму размаха.

In [None]:
px.box(data, y="last_price", color="floor")

Хотя немного неудобно, но в принципе видно, что у квартир на высоких этажах меньше выбросов. Тем не менее медиана и межквартильный размах везде примерно одинаковый. Но различия между распределениями не такие большие, чтобы считать столбец статистически значимым.

In [None]:
px.box(data, y="last_price", color="floors_total")

Не сильно отличаются дома с разным числом этажей.

## Отбор признаков с sklearn

Посмотрим на другие методы оценки важности столбцов. Посмотрим, какой вклад различные столбцы вносят в моделирование цены на недвижимость простыми моделям.

In [None]:
X = data.drop(
    columns=["first_day_exposition", "locality_name", "last_price", "floor_category", "price_per_meter"]
).dropna()
y = data.loc[X.index, "last_price"]

In [None]:
model_rf = RandomForestRegressor(n_jobs=-1)

In [None]:
for model, model_name in zip([model_ls, model_rf, model_gb], ["Lasso", "Random forest", "Gradient boosting"]):
    print(model_name, ": ", cross_val_score(model, X, y), sep="")

In [None]:
for model, model_name in zip([model_ls, model_rf, model_gb], ["Lasso", "Random forest", "Gradient boosting"]):
    print(model_name, ": ", -cross_val_score(model, X, y, scoring="neg_mean_absolute_error").astype(int), sep="")

Лучший результат дает в среднем ошибку в 1.5 миллиона.

In [None]:
for model, importance_getter, model_name in zip(
    [model_ls, model_rf], ["named_steps.regressor.coef_", "auto"], ["lasso", "random forest"]
):
    selector = SelectFromModel(model, importance_getter=importance_getter)
    selector.fit(X, y)
    print(model_name, ": ", X.columns[selector.get_support()].values, sep="")

Неожиданно мы видим, что одним из важных признаков является столбец `city_centers_nearest`, а `living_area` нет - то, что по корреляции сказать было нельзя. Однако проблема с таким выводом в том, что из него остается непонятно, какие из столбцов важнее. Выдается просто, условно, топ-5 важных столбцов, без порядка важности. К сожалению, не все селекторы sklearn предоставляют api для этого, так что придется вручную.

In [None]:
model_ls.fit(X, y)
scores = abs(model_ls["regressor"].coef_)
selected_columns = X.columns[scores.argsort()[-6:]]
px.bar(x=np.sort(scores)[-6:], y=selected_columns, title="Feature weights")

In [None]:
model_rf.fit(X, y)
scores = model_rf.feature_importances_
selected_columns = X.columns[scores.argsort()[-6:]]
px.bar(x=np.sort(scores)[-6:], y=selected_columns, title="MDI")

Для обоих моделей двумя важными столбцами являются `total_area` и `city_centers_nearest`, хотя для ансамбля решающих деревьев `total_area` имеет больший вес, чем остальные столбцы. Так же для обоих моделей важны `kitchen_area` и `ceiling_height`.

In [None]:
for metric, metric_name in zip([f_regression, mutual_info_regression], ["F-test", "Mutual informaion"]):
    selector = SelectKBest(metric)
    selector.fit(X, y)
    selected_columns = X.columns.values[selector.scores_.argsort()[-6:]]
    px.bar(x=np.sort(selector.scores_)[-6:], y=selected_columns, title=metric_name).show()

То, что мы видим, на самом деле неудивительный результат. Корреляция между `living_area` и `total_area` равна 0.92, то есть это взаимосвязанные столбцы и `living_area` на самом деле не вносит новой предсказательной силы в моделирование цены, поэтому для моделей этот столбец и не сильно важен. `SelectKBest()` в то же время проводит статистический тест, который проверяет столбцы независимо друг от друга, и тогда корреляция между `living_area` и `total_area` не учитывается. Так же видим, что взаимная информация выявила бОльшую зависимость между ценой и высотой потолков.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [None]:
for model in [model_ls, model_rf, model_gb]:
    model.fit(X_train, y_train)

In [None]:
result_ls = permutation_importance(model_ls, X_test, y_test, n_repeats=10, n_jobs=-1)
result_rf = permutation_importance(model_rf, X_test, y_test, n_repeats=10, n_jobs=-1)
result_gb = permutation_importance(model_gb, X_test, y_test, n_repeats=10, n_jobs=-1)

In [None]:
for result, model_name in zip([result_ls, result_rf, result_gb], ["Lasso", "Random forest", "Gradient boosting"]):
    scores = result["importances"]
    selected_idxs = result["importances_mean"].argsort()[-5:]
    result_table = pd.DataFrame(scores[selected_idxs].T, columns=X.columns[selected_idxs])
    px.box(result_table, x=result_table.columns, title=model_name, labels={"variable": "column", "value": "r2"}).show()

Вопреки ожиданиям, мы видим, что столбец `total_area` сильно влияет на результаты деревьев. Вопреки ожиданиям потому что, если мы считаем, что столбцы `total_area`, `living_area`, `kitchen_area`, `rooms` сильно коррелируют друг с другом, то перемешивание одного столбца не должно сильно повлиять на результат, так как модель сможет восстановить информацию из оставшихся столбцов. Однако этого не происходит. Вероятно, это связано с устройством модели дерева. Так как есть и другие важные столбцы, то они находятся выше в дереве, чем `living_area`, `kitchen_area` и `rooms` и, следовательно, последние меньше влияют на результат. 

In [None]:
# for model, model_name in tqdm(list(zip([model_ls, model_rf, model_gb], ['Lasso', 'Random Forest', 'Gradient boosting'])), desc='Model'):
#   selector = SequentialFeatureSelector(model, n_features_to_select=7, cv=10, n_jobs=-1)
#   selector.fit(X, y)
#   print(model_name, ': ', X.columns[selector.get_support()].values, sep='')

Код выше выполнялся час, так что я сохранил его вывод.

```
Lasso: ['total_area' 'rooms' 'ceiling_height' 'floor' 'kitchen_area'
 'city_centers_nearest' 'ponds_around_3000']
Random Forest: ['total_area' 'rooms' 'floors_total' 'kitchen_area' 'balcony'
 'airports_nearest' 'city_centers_nearest']
Gradient boosting: ['total_images' 'total_area' 'floors_total' 'airports_nearest'
 'city_centers_nearest' 'parks_nearest' 'ponds_around_3000']
```

Удивительные результаты дает `SequentialFeatureSelector()`. В список важных столбцов вошли количество прудов в радиусе 3 км, количество изображений и количество этажей. Градиентный бустинг вообще выбрал очень странную комбинацию признаков. Посмотрим, как количество прудов в радусе 3 км влияет на цены квартир.

In [None]:
px.box(data.dropna(subset=["ponds_around_3000"]), y="last_price", color="ponds_around_3000")

Странно, но добавление 1 пруда с 0 до 1 или с 1 до 2 не особо поднимает цену. Распределение цен значительно выше при 3 прудах, однако таких объявлений всего 1267, а для других объявлений, с количеством прудов меньше 3, особой разницы нет.

In [None]:
len(data.query("ponds_around_3000 == 3"))

In [None]:
px.box(data, y="last_price", color="balcony")

Ценя меняется значительно если количество балконов больше 2. Но их всего 527.

In [None]:
len(data.query("balcony > 2"))

In [None]:
px.box(data, y="last_price", color="total_images")

Количество изображений тоже сомнительный признак, распределение меняется только при количестве изображений больше ~30, но таких предложений крайне мало. Я бы не стал доверять градиентному бустингу, тем более он плохо интерпретируется. Наконец, попробуем построить дендрограмму признаков.

In [None]:
corr = spearmanr(X).correlation
corr = (corr + corr.T) / 2
np.fill_diagonal(corr, 1)

In [None]:
distance_matrix = 1 - np.abs(corr)
distance_linkage = hierarchy.ward(squareform(distance_matrix))
dendrogram = hierarchy.dendrogram(distance_linkage, labels=X.columns, leaf_rotation=90)
plt.tight_layout()
plt.show()

Удивительным образом `kitchen_area` и `ceiling_height` оказались соседями. А все остальное как ожидалось.

## Выводы

На удивление, отбор признаков с помощью различных моделей показал, что существенный вес несут не те признаки, которые можно было бы ожидать исходя из диаграмм рассеяния и корреляции. Несмотря на высокую корреляцию с ценой, ни одна модель не посчитала столбец `living_area` весомым. Зато значимым стал столбец `ponds_around_3000`. На самом деле, это неудивительно, потому что большинство признаков несут одну и ту же информацию. Например, столбцы `total_area`, `living_area`, `kitchen_area` и `rooms` взаимосвязаны и несут похожую информацию. А вот столбец `city_centers_nearest` уникален.

В целом, главными признаками можно выделить `total_area`, `city_centers_nearest`, `airports_nearest`, `ceiling_height`, `kitchen_area` и `rooms`. Столбец `floors_total` несильно помогает улучшить оценку, а `rooms` лишь немного улучшает результат столбцов `total_area` и `kitchen_area`. Столбец `living_area` практически не вносит ни какой новый вклад.

Остальные признаки, такие как `floor`, `balcony` и `ponds_around_3000` влияют лишь на очень малое количество квартир - меньше 5%. Параметр `in_city` скорее всего просто дублирует `city_centers_nearest`, его выбрала только линейная регрессия, вероятно, потому что она не может сравнить `city_centers_nearest > 20000`, а так как деревья могут выявлять нелинейности, то этот параметр для них был неважен. 

## Отбор признаков в центральной части Санкт-Петербурга

Посмотрим, отличается ли ценообразование в Питере от общего ценообразования. У меня гипотеза, что нет, так как Санкт-Петербург занимает большую часть всех объявлений, изменится разве что связь с расстоянием от центра - как мы видели, после 10 км наклон линейной зависимости меняется. Сейчас проверим.

In [None]:
columns_to_drop = [
    "in_city",
    "in_center",
    "weekday_exposition",
    "days_exposition",
    "year_exposition",
    "month_exposition",
    "first_day_exposition",
]
data["in_center"] = data["city_centers_nearest"] < 10000
data_spb_center = data[data["in_center"] == True].drop(columns_to_drop, axis=1)
len(data_spb_center) / len(data)

In [None]:
for column in ["last_price", "total_area", "kitchen_area", "ceiling_height", "rooms", "airports_nearest"]:
    histogram_by(data, x=column, color="in_center").show()

Распределение цен здесь отличается, большинство квартир стоят в диапазоне от 5.6М до 11.8М, то есть примерно в 2 раза дороже. Остальные распределения - площадей, количества комнат, высоты потолков отличаются несильно. Значительно отличаются распределения расстояния до аэропорта.

In [None]:
data.groupby("in_center")["airports_nearest"].agg(["mean", "median"])

Расстояние до аэропорта в среднем на 5 км ближе.

In [None]:
px.imshow(data_spb_center.corr(), height=600)

In [None]:
feature_scatterplot(data_spb_center)

In [None]:
X = data_spb_center.drop(columns=["locality_name", "last_price", "floor_category", "price_per_meter"]).dropna()
y = data_spb_center.loc[X.index, "last_price"]

In [None]:
for model, model_name in zip([model_ls, model_rf, model_gb], ["Lasso", "Random forest", "Gradient boosting"]):
    print(model_name, ": ", cross_val_score(model, X, y), sep="")

In [None]:
for model, model_name in zip([model_ls, model_rf, model_gb], ["Lasso", "Random forest", "Gradient boosting"]):
    print(model_name, ": ", -cross_val_score(model, X, y, scoring="neg_mean_absolute_error").astype(int), sep="")

Результаты хуже, чем для всей выборки.

In [None]:
model_ls.fit(X, y)
print(X.columns.values[abs(model_ls["regressor"].coef_).argsort()[:11:-1]])

In [None]:
model_ls.fit(X, y)
scores = abs(model_ls["regressor"].coef_)
selected_columns = X.columns[scores.argsort()[-6:]]
px.bar(x=np.sort(scores)[-6:], y=selected_columns, title="Feature weights")

In [None]:
model_rf.fit(X, y)
scores = model_rf.feature_importances_
selected_columns = X.columns[scores.argsort()[-6:]]
px.bar(x=np.sort(scores)[-6:], y=selected_columns, title="MDI")

Видим, что для центра Питера все так же важны общая площадь квартиры, расстояние до аэропорта, до центра, высота потолков. БОльшую роль теперь играет, сколько этажей в доме, но в целом сильных различий в ценообразовании в Питере и в окрестности Питера нет.