## Импорт и предварительный анализ данных

In [1]:
# Имортируем файл с данными, выгруженными с t-s.by и преобразовываем его в Pandas DataFrame:
import json
import pandas as pd
import numpy as np

with open('result_.json') as data_file:    
    data = json.load(data_file)
    
df = pd.io.json.json_normalize(data)

IOError: [Errno 2] No such file or directory: 'result.json'

In [None]:
# Изменяем максимальное кол-во отображаемых строк и столбцов:
pd.set_option('display.max_columns', 200)
pd.set_option('display.max_rows', 25)

In [None]:
# Кол-во записей и кол-во признаков:
df.shape

In [None]:
# Шапка датафрейма:
df.head(3)

In [None]:
# В качестве индекса используем 'Код объекта', а сам столбец - удаляем:
df.index = df[u'Код объекта'].apply(pd.to_numeric)
del df[u'Код объекта']

In [None]:
# Теперь можем получать все данные по коду квартиры
df.ix[818272]

In [None]:
# Или только нужную их часть:
df.ix[818272][{u'Адрес',u'Цена',u'Этаж / Этажность'}]

In [None]:
# Это полезно, потому что в силу устройства сайта t-s.by код квартиры учавствует в url:
# http://www.t-s.by/buy/flats/818272/
# поэтому при необходимости можно быстро посмотреть детали заинтересовавшей квартиры в браузере

In [None]:
# Названия столбцов:
df.columns

In [None]:
# Частотное распределение значений в столбце 'Город':
df[u'Город'].value_counts()[:10]

In [None]:
# Поскольку исследование проводится для Минска, оставим только эти записи:
df = df[df[u'Город'] == u'Минск']
del df[u'Город']

In [None]:
# Выведем сводную информацию:
df.info()

## Разбираемся с пропусками

Некоторые столбцы не будут участвовать в конечной модели, но не удаляем их раньше времени

###  Описание
В итоговой модели этот столбец использоваться не будет, решено полагаться на реальные параметры квартиры, а не ее субъективное описание владельцем/риелтором

### Адрес
Содержит название улицы и номер дома, в итоговой модели также не используется, локация влиять на цену будет посредством столбцов 'Район' и 'Микрорайон'

### Балкон

In [None]:
df[u'Балкон'].fillna(u'нету', inplace=True)
df[u'Балкон'].value_counts()

In [None]:
def common_converter(mapping, param):
    if param in mapping:
        return mapping[param]
    return param

balcony_mapping = {
        u'балкон застекленный':u'балкон',
        u'лоджия застекленная':u'лоджия',
        u'лоджия застекленная + вагонка':u'лоджия',
        u'балкон застекленный + вагонка':u'балкон',
        u'2 балкона застекленные':u'2 балкона',
        u'2 лоджии застекленные':u'2 лоджии',
        u'3лз':u'3 лоджии',
        u'3л':u'3 лоджии'        
    }

df[u'Балкон'] = df[u'Балкон'].map(lambda x: common_converter(balcony_mapping, x))
df[u'Балкон'].value_counts()

### Ближайшее метро

In [None]:
df[u'Ближайшее метро'].fillna(u'нету', inplace=True)
df[u'Ближайшее метро'].value_counts()

Закономерно: в Уручье и Грушевке много новостроек, а в районе Каменной горки и Кунцевщины не так давно строилось много льготного жилья, которое продают теперь уже нельготники :)

### Год постройки и Год капитального ремонта

In [None]:
# Вместо данных столбцов введем другие: 'Лет дому' и 'Лет с последнего ремонта':

df[u'Год постройки'] = df[u'Год постройки'].apply(pd.to_numeric)
df[u'Год капитального ремонта'] = df[u'Год капитального ремонта'].apply(pd.to_numeric)

import datetime
current_year = datetime.datetime.now().year

def years_from_last_repair(row):
    if row[u'Год капитального ремонта'] == 0:
        row[u'Год капитального ремонта'] = row[u'Год постройки']
    return current_year - row[u'Год капитального ремонта']

df[u'Лет дому'] = df[u'Год постройки'].map(lambda x: current_year - x)
df[u'Лет с момента ремонта'] = df.apply(lambda row: years_from_last_repair(row), axis=1)
df[u'Был капремонт'] = df[u'Год капитального ремонта']!=0

# Исходные два столбца удаляем:
df.drop({u'Год постройки', u'Год капитального ремонта'}, axis=1, inplace=True)

### Комнаты

In [None]:
df[u'Комнаты'].value_counts()

Если в этом столбце первое число меньше второго - есть подозрение на то, что это продается комната, а не квартира. Проверим это: 

In [None]:
df[df[u'Комнаты'] == '1/2']

\- действительно комната. Отбрасываем такие записи:

In [None]:
df = df[df[u'Комнаты'] != '1/2']

In [None]:
# Выделяем кол-во комнат:

df[u'Комнаты'] = df[u'Комнаты'].map(lambda x: x if x.find('/') == -1 else x.split('/')[0])
df[u'Комнаты'] = df[u'Комнаты'].apply(pd.to_numeric)
df[u'Комнаты'].value_counts()

\- больше всего продается 2,3,1-комнатных

In [None]:
# Среднее кол-во комнат:
np.mean(df[u'Комнаты'])

### Материал стен

In [None]:
df[u'Материал стен'].value_counts()

\- здесь все в порядке, пропусков нет

### Район и Микрорайон

In [None]:
df[u'Район'].value_counts()

\- указан у всех записей

In [None]:
df[u'Микрорайон'].value_counts()

In [None]:
# Заменим пропущенные значения строкой 'Не указан':
df[u'Микрорайон'].fillna(u'Не указан', inplace=True)

### Площади

In [None]:
df[u'Общая площадь'] = df[u'Площади'].map(lambda x: float(x.split(' / ')[0]))
df[u'Жилая площадь'] = df[u'Площади'].map(lambda x: float(x.split(' / ')[1]))
df[u'Площадь кухни'] = df[u'Площади'].map(lambda x: float(x.split(' / ')[2]))

# Удаляем столбец 'Площади':
df = df.drop(u'Площади', axis=1)

In [None]:
# Среднияя площадь типичной квартиры на рынке
np.mean(df[u'Общая площадь']), np.mean(df[u'Жилая площадь']), np.mean(df[u'Площадь кухни'])

### Полы

In [None]:
df[u'Полы'].value_counts()

In [None]:
df[u'Полы'].fillna(u'Не указано', inplace=True)

### Санузел

In [None]:
df[df[u'Санузел'].isnull()]

Судя по дому - да, санузла там действительно нету, его функции выполняет здание на улице рядом. Дом 1949го года, без капремонта, поэтому отбрасываем его:

In [None]:
df.drop(821155, inplace=True)

In [None]:
toilet_mapping = {
    u'2 сан.узла':u'раздельный',
    u'3 сан.узла':u'раздельный'
    }

df[u'Санузел'] = df[u'Санузел'].map(lambda x: common_converter(toilet_mapping, x))
df[u'Санузел'].value_counts()

### Телефон

In [None]:
df[u'Телефон'].value_counts()

In [None]:
df[u'Телефон'] = df[u'Телефон'].map(lambda x: common_converter({u'2 телефона':u'есть'}, x))

### Тип дома

In [None]:
df[u'Тип дома'].value_counts()

In [None]:
df[u'Тип дома'].fillna(u'не указан', inplace=True)

### Условия продажи

In [None]:
df[u'Условия продажи'].value_counts()

In [None]:
df[u'Условия продажи'].fillna(u'не указан', inplace=True)
df[u'Условия продажи'] = df[u'Условия продажи'].map(lambda x: common_converter({u'обмен - разъезд':u'обмен'}, x))

### Цена

In [None]:
# Очищаем столбец 'price' и приводим к числовому:
# u'12 000 у. е. somestring' -> u'12 000' -> u'12000' -> 12000.0
df[u'Цена'] = df[u'Цена'].map(lambda x: float(x[:x.find(u' у. е.')].replace(' ','')))


In [None]:
%matplotlib inline
import seaborn as sns
print df[u'Цена']
# Распределение квартир по цене:
sns.distplot(df[u'Цена']);

In [None]:
# Квартир в правой части "хвоста" распределения слишком мало.
# Ограничим выборку только квартирами стоимостью ниже некого порога, скажем 150 тыс у.е.:
df = df[df[u'Цена'] < 150000]

Позже выяснилось, что среди данных есть также записи, соответствующие комнатам, а не квартирам. Поэтому было решено отбросить записи с ультранизкой ценой. В качестве порога было выбрано значение 30 тыс у.е.:

In [None]:
df[df[u'Цена'] < 35000][u'Описание']

\- видим, что здесь действительно либо комнаты, либо 'кирпичный дом', что не является целью нашего анализа

In [None]:
# Оставляем только квартиры стоимостью выше порога:
df = df[df[u'Цена'] > 35000]

In [None]:
# Распределение квартир теперь выглядит так:
sns.distplot(df[u'Цена']/1000);

### Этаж/этажность

In [None]:
df[df[u'Этаж / Этажность'].isnull()]

Для одной из квартир этаж не указан. Судя из того, что тип дома - чешский, этажей в доме 9. Этаж укажем в середине дома, т.к. судя цене в 52 тыс. он не крайний:

In [None]:
df.loc[df[u'Этаж / Этажность'].isnull(), u'Этаж / Этажность'] = u'5/9'

In [None]:
df.ix[847125]

In [None]:
df[u'Этаж'] = df[u'Этаж / Этажность'].map(lambda x: int(x.split('/')[0]))
df[u'Этажность'] = df[u'Этаж / Этажность'].map(lambda x: int(x.split('/')[1]))

In [None]:
df[u'Этаж'].value_counts()

In [None]:
sns.distplot(df[u'Этаж'], kde=False, bins=20);

\- Преобладают квартиры на нижних этажах по 5й

In [None]:
df[u'Этажность'].value_counts()

In [None]:
sns.distplot(df[u'Этажность'], kde=False);

\- больше всего квартир в 9 и 5-этажках

In [None]:
np.median(df[u'Этаж']), np.median(df[u'Этажность'])

\- т.е. в среднем квартира расположена на 5 этаже 9-этажного дома

In [None]:
df[u'Первый этаж'] = df[u'Этаж'].map(lambda x: 1 if x==1 else 0)

In [None]:
df[u'Первый этаж'].value_counts()

In [None]:
df[u'Последний этаж'] = df[u'Этаж / Этажность'].map(lambda x: 1 if x.split('/')[0] == x.split('/')[1] else 0)

In [None]:
df[u'Последний этаж'].value_counts()

In [None]:
# Удаляем столбец 'Этаж / Этажность':
df = df.drop(u'Этаж / Этажность', axis=1)

In [None]:
df.info()

In [None]:
# Формируем вектора X и Y:
X = df.drop({u'Цена', u'Описание', u'Адрес'}, axis=1)
Y = df[u'Цена']

На этом закончим подготовку данных, а начнем собственно

## Обучение модели

In [None]:
# Добавим несколько методов для создания енкодеров:

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# Добавляет в DataFrame df новый столбец с именем column_name+'_le', содержащий номера категорий, 
# соответствующие столбцу column_name. Исходный столбец column_name удаляется
#
def encode_with_LabelEncoder(df, column_name):
    label_encoder = LabelEncoder()
    label_encoder.fit(df[column_name])
    df[column_name+'_le'] = label_encoder.transform(df[column_name])
    df.drop([column_name], axis=1, inplace=True)
    return label_encoder

# Кодирование с использованием ранее созданного LabelEncoder
#
def encode_with_existing_LabelEncoder(df, column_name, label_encoder):
    df[column_name+'_le'] = label_encoder.transform(df[column_name])
    df.drop([column_name], axis=1, inplace=True)

# Вначале кодирует столбец column_name при помощи LabelEncoder, потом добавляет в DataFrame df новые столбцы 
# с именами column_name=<категория_i>. Столбцы column_name и column_name+'_le' удаляются
# Usage: df, label_encoder = encode_with_OneHotEncoder_and_delete_column(df, column_name)
#
def encode_with_OneHotEncoder_and_delete_column(df, column_name):
    le_encoder = encode_with_LabelEncoder(df, column_name)
    return perform_dummy_coding_and_delete_column(df, column_name, le_encoder), le_encoder

# То же, что предыдущий метод, но при помощи уже существующего LabelEncoder
#
def encode_with_OneHotEncoder_using_existing_LabelEncoder_and_delete_column(df, column_name, le_encoder):
    encode_with_existing_LabelEncoder(df, column_name, le_encoder)
    return perform_dummy_coding_and_delete_column(df, column_name, le_encoder)

# Реализует Dummy-кодирование
#
def perform_dummy_coding_and_delete_column(df, column_name, le_encoder):
    oh_encoder = OneHotEncoder(sparse=False)
    oh_features = oh_encoder.fit_transform(df[column_name+'_le'].values.reshape(-1,1))
    ohe_columns=[column_name + '=' + le_encoder.classes_[i] for i in range(oh_features.shape[1])]

    df.drop([column_name+'_le'], axis=1, inplace=True)

    df_with_features = pd.DataFrame(oh_features, columns=ohe_columns)
    df_with_features.index = df.index
    return pd.concat([df, df_with_features], axis=1)

In [None]:
# Кодируем категориальные признаки при помощи Label и Dummy-кодирования:
#
phone_le_converter = encode_with_LabelEncoder(X,u'Телефон')
X, balcony_le_encoder = encode_with_OneHotEncoder_and_delete_column(X,u'Балкон')
X, metro_le_encoder = encode_with_OneHotEncoder_and_delete_column(X,u'Ближайшее метро')
X, wall_materials_le_encoder = encode_with_OneHotEncoder_and_delete_column(X,u'Материал стен')
X, ground_le_encoder = encode_with_OneHotEncoder_and_delete_column(X,u'Полы')
X, region_le_encoder = encode_with_OneHotEncoder_and_delete_column(X,u'Район')
X, subregion_le_encoder = encode_with_OneHotEncoder_and_delete_column(X,u'Микрорайон')
X, toilet_le_encoder = encode_with_OneHotEncoder_and_delete_column(X,u'Санузел')
X, house_type_le_encoder = encode_with_OneHotEncoder_and_delete_column(X,u'Тип дома')
X, sell_conditions_le_encoder = encode_with_OneHotEncoder_and_delete_column(X,u'Условия продажи')

In [2]:
X.shape
X.head()

NameError: name 'X' is not defined

\- столбцов с признаками хоть и стало более сотни, но еще терпимо

In [74]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.cross_validation import KFold
from sklearn.cross_validation import cross_val_score

records_count = Y.count()
kf = KFold(n = records_count, n_folds=5, shuffle=True, random_state=1)



In [75]:
# В качестве алгоритма для решения был выбран случайный лес
from sklearn.model_selection import GridSearchCV

def determine_forest_quality(trees_count):
    clf = RandomForestRegressor(n_estimators = trees_count, random_state=1)
    return cross_val_score(clf, X, Y, scoring='r2', cv=kf).mean()

for k in range(1,75,5):
    quality = determine_forest_quality(k)
    print (k, quality)

(1, 0.52030399213798784)
(6, 0.78408930021238521)
(11, 0.77670005453090307)
(16, 0.7768642836394235)
(21, 0.78408041490733349)
(26, 0.78620421428818033)
(31, 0.78902652992194366)
(36, 0.78733229366765278)
(41, 0.78844165910326591)
(46, 0.78772597694981916)
(51, 0.79053299052554316)
(56, 0.78934052514939657)
(61, 0.78879625272969778)
(66, 0.78759528635105114)
(71, 0.7900711517951875)


Уже 6 деревьев дали точность в районе 78%! Решено было выбрать кол-во деревьев равное 51, при котором обеспечивалась точность 79% 

In [76]:
clf = RandomForestRegressor(n_estimators = 51, random_state=1)
clf.fit(X, Y)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_split=1e-07, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           n_estimators=51, n_jobs=1, oob_score=False, random_state=1,
           verbose=0, warm_start=False)

In [77]:
# Определим десятку самых важных признаков:
#
features = X.columns.values
importances = clf.feature_importances_
indices = np.argsort(importances)[::-1]

num_to_plot = 10
feature_indices = [ind+1 for ind in indices[:num_to_plot]]

for i in range(num_to_plot):
    print i, features[feature_indices[i]], round(importances[indices[i]],2)

0 Жилая площадь 0.66
1 Площадь кухни 0.05
2 Район=Заводской район 0.03
3 Материал стен=силикатно-блочный 0.02
4 Этаж 0.02
5 Был капремонт 0.02
6 Микрорайон=Дзержинского, Хмелевского, Щорса 0.02
7 Полы=паркет 0.02
8 Лет с момента ремонта 0.01
9 Первый этаж 0.01


Такие параметры, как 'Жилая площадь', 'Площадь кухни', 'Этаж' и 'Был капремонт' выглядят ожидаемо, 
а вот некоторые из остальных в топ-10 выглядят немного забавно - это 'Заводской район', 'микрорайон=Дзержинского' и 'Материал стен=силикатно-блочный'

In [78]:
# Делаем предсказания:
predictions = pd.Series(clf.predict(X), index=Y.index)

In [97]:
# Интерес представляют записи, для которых модель сильно ошибается в ту или иную сторону
#
res_info = pd.DataFrame(columns=[u'Ошибка,%',u'Ошибка,$',u'Цена м.кв.', u'URL'])
for i in Y.index:
    error = Y[i] - predictions[i]
    rel_error = error/predictions[i]*100
    #if np.abs(rel_error)>15:
    res_info.loc[i] = pd.Series({
            u'Ошибка,%':round(rel_error,1),
            u'Ошибка,$':int(error),
            u'Цена м.кв.':int(Y[i]/X[u'Общая площадь'][i]),
            u'URL':'{}/{}/'.format('http://www.t-s.by/buy/flats', i)
    })
    
# Недооцененные квартиры:
res_info.sort_values(by=u'Ошибка,%')[:15]

Unnamed: 0,"Ошибка,%","Ошибка,$",Цена м.кв.,URL
845979,-15.6,-9252.0,906.0,http://www.t-s.by/buy/flats/845979/
838613,-15.4,-7649.0,961.0,http://www.t-s.by/buy/flats/838613/
806952,-15.1,-9988.0,896.0,http://www.t-s.by/buy/flats/806952/
830893,-13.7,-10979.0,891.0,http://www.t-s.by/buy/flats/830893/
798393,-13.1,-13560.0,1232.0,http://www.t-s.by/buy/flats/798393/
823311,-12.9,-9313.0,801.0,http://www.t-s.by/buy/flats/823311/
829662,-11.3,-7782.0,777.0,http://www.t-s.by/buy/flats/829662/
832950,-10.3,-7027.0,896.0,http://www.t-s.by/buy/flats/832950/
836354,-9.7,-6117.0,865.0,http://www.t-s.by/buy/flats/836354/
816805,-9.2,-8129.0,998.0,http://www.t-s.by/buy/flats/816805/


In [90]:
# Переоцененные квартиры:
res_info.sort_values(by=u'Ошибка,%', ascending=False)[:5]

Unnamed: 0,"Ошибка,%","Ошибка,$",Цена м.кв.
777692,20.7,23452.0,2242.0
795105,18.1,10582.0,1703.0
843263,16.0,18209.0,1668.0
812051,15.4,15362.0,2065.0
810427,14.9,16735.0,2057.0


Как было сказано ранее, детали можно посмотреть в браузере по адресу http://www.t-s.by/buy/flats/{id}/, где id - код квартиры

Стоит признать, что по сумме факторов данные квартиры выделяются из основной массы

На этом все!

P.S. Как оказалось, за время с момента выгрузки данных с http://www.t-s.by до окончания написания статьи, данное агенство немного изменило шаблон страницы с детальной информацией о квартире: часть полей убрали, остальные переехали. Ну и сайт стал несколько тормозить (надеюсь временно). Поэтому не думаю, что сильно им помешаю, предоставив код crawler-а, парсящего прошлую версию их сайта. Исходный выгруженный json со всеми исходными полями остался невредим и находится в git-репозитории. 