## Load libraries

In [1]:
import pandas as pd
import numpy as np
import helper as h

import xgboost as xgb
from sklearn.model_selection import cross_val_score, KFold
from sklearn.metrics import mean_absolute_error

import eli5

## Upload data

In [2]:
df_train = pd.read_hdf("../input/train_data.h5")
df_train['price'] = df_train['price'].map(h.parse_price)

df_test = pd.read_hdf("../input/test_data.h5")

## Combine data
Combine `df_train` and` df_test` and save the result to `df`.

In [3]:
df = pd.concat([df_train, df_test])
print(df.shape, df.shape)

(34180, 8) (34180, 8)


In [4]:
df.sample(5)

Unnamed: 0,geo_block,breadcrumbs,price,owner,params,date,user_block,id
12951,"[г. Москва, Хорошёво-Мнёвники, г. Москва, Хоро...","[Москва, Хорошёво-Мнёвники, м. Полежаевская, М...",12.152,[],"{'Охрана:': 'предусмотрена', 'Тип здания:': 'М...","[11 апреля, 13, (+1 за сегодня), Обновлено 16 ...","[<div class=""block-user__name"">Донстрой</div>,...",52118
18303,"[г. Москва, Южное Медведково, г. Москва, Южное...","[Москва, Южное Медведково, м. Бабушкинская, МЦ...",8.26848,[],"{'Лифт:': 'да', 'Тип здания:': 'Монолитное', '...","[2 апреля, 8, (+1 за сегодня), Обновлено 14 мая]","[<div class=""block-user__name"">Группа ПИК</div...",20925
810,"[г. Москва, ул Маршала Катукова, г. Москва, ул...","[Москва, МЦК Лихоборы, ул. Маршала Катукова]",,[],"{'Охрана:': 'огороженная территория', 'Тип зда...","[21 апреля, 11, (+2 за сегодня), Обновлено 18 ...","[<div class=""block-user__name"">Агент</div>, <d...",36987
2742,"[г. Москва, г. Москва]","[Москва, МЦК Локомотив]",,[],"{'Охрана:': 'видеонаблюдение', 'Тип здания:': ...","[23 апреля, 4, (+2 за сегодня), Обновлено 18 мая]","[<div class=""block-user__name"">Level Group</di...",39552
11640,"[г. Москва, Рязанский, г. Москва, Рязанский]","[Москва, Рязанский, м. Рязанский проспект, МЦК...",12.75797,[],"{'Охрана:': 'предусмотрена', 'Тип здания:': 'М...","[20 октября 2018, 25, (+2 за сегодня), Обновле...","[<div class=""block-user__name"">Группа ПИК</div...",24948


### Categorization of the Params feature

In [5]:
params = df["params"].apply(pd.Series)
params = params.fillna(-1)

if "Охрана:" not in df:  #prevents params from being added again 
    df = pd.concat([df, params], axis=1)
    
    obj_feats = params.select_dtypes(object).columns

    for feat in obj_feats:
        df["{}_cat".format(feat)] = df[feat].factorize()[0]

cat_feats = [x for x in df.columns if "_cat" in x]
cat_feats

['Охрана:_cat',
 'Тип здания:_cat',
 'Тип объекта:_cat',
 'Количество корпусов:_cat',
 'Тип объявления:_cat',
 'Застройщик:_cat',
 'Общая площадь:_cat',
 'Дата публикации:_cat',
 'Количество комнат:_cat',
 'Парковка:_cat',
 'Дата  обновления:_cat',
 'Количество этажей:_cat',
 'Сдача:_cat',
 'Комиссия агенту:_cat',
 'Высота потолков:_cat',
 'Этаж:_cat',
 'Этап строительства:_cat',
 'Новостройка:_cat',
 'Количество квартир:_cat',
 'Класс жилья:_cat',
 'Адрес:_cat',
 'Лифт:_cat',
 'Вид из окна:_cat',
 'Возможна ипотека:_cat',
 'Год постройки:_cat',
 'Этажность:_cat',
 'Мусоропровод:_cat',
 'Ремонт:_cat',
 'Площадь кухни:_cat',
 'Жилая комната:_cat',
 'Тип санузла:_cat',
 'Тип балкона:_cat',
 'Мебель на кухне:_cat',
 'Холодильник:_cat',
 'Интернет:_cat',
 'Мебель:_cat',
 'Телефон:_cat',
 'Свободная планировка:_cat',
 'Управляющая компания:_cat',
 'Количество подъездов:_cat',
 'Тип дома:_cat',
 'Тип комнат:_cat',
 'Покрытие пола:_cat',
 'Серия:_cat',
 'Тип перекрытия:_cat',
 'Возможен торг:

### Features of area 

In [6]:
def parse_area(val):
    if isinstance(val, int): return val
    if isinstance(val, float): return val
    
    return float(val.split("м")[0].replace(" ", ""))

df["area"] = df["Общая площадь:"].map(h.parse_area)
df["kitchen_area"] = df["Площадь кухни:"].map(parse_area)

### model evaluation 

Two functions: `check_model`, `check_log_model`. 

In [7]:
def check_model(df, feats, model, cv=5, scoring="neg_mean_absolute_error"):
    df_train = df[ ~df["price"].isnull() ].copy()
    df_test = df[ df["price"].isnull() ].copy()

    X_train = df_train[feats]
    y_train = df_train["price"]
    
    scores = cross_val_score(model, X_train, y_train, cv=cv, scoring=scoring)
    return np.mean(scores), np.std(scores)


def check_log_model(df, feats, model, cv=5, scoring="neg_mean_absolute_error"):
    df_train = df[ ~df["price"].isnull() ].copy()

    X = df_train[feats]
    y = df_train["price"]
    y_log = np.log(y)
    
    cv = KFold(n_splits=5, shuffle=True, random_state=0)
    scores = []
    for train_idx, test_idx in cv.split(X):
        X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
        y_log_train, y_test = y_log.iloc[train_idx], y.iloc[test_idx]

        model = xgb.XGBRegressor(max_depth=5, n_estimators=50, random_state=0)
        model.fit(X_train, y_log_train)
        y_log_pred = model.predict(X_test)
        y_pred = np.exp(y_log_pred)

        score = mean_absolute_error(y_test, y_pred)
        scores.append(score)

    return np.mean(scores), np.std(scores)

## Features of area 
Selected features: `geo_block` i `breadcrumbs`.

### geo_block

In [8]:
df["geo_block"].values

array([list(['г. Москва', 'Лианозово', 'г. Москва', 'Лианозово']),
       list(['г. Москва', 'Ховрино', 'г. Москва', 'Ховрино']),
       list(['г. Москва', 'ул Лобачевского', 'г. Москва', 'ул Лобачевского']),
       ..., list(['г. Москва', 'Ховрино', 'г. Москва', 'Ховрино']),
       list(['Новая Москва', 'п. Внуковское', 'г. Москва', 'Новая Москва', 'п. Внуковское', 'г. Москва']),
       list(['г. Москва', 'Ярославский', 'ул Красная Сосна', 'г. Москва', 'Ярославский', 'ул Красная Сосна'])],
      dtype=object)

Removal of duplicates, because in the lines we have two elements repeated twice. 

In [9]:
df["geo_block_norm"] = df["geo_block"].map(lambda x: x[:int(len(x)/2)])

df["geo_block_norm"]

0                            [г. Москва, Лианозово]
1                              [г. Москва, Ховрино]
2                      [г. Москва, ул Лобачевского]
3                  [г. Москва, Ховрино, ул Дыбенко]
4                          [г. Москва, Даниловский]
                            ...                    
11443                                   [г. Москва]
11444                [г. Москва, Хорошёво-Мнёвники]
11445                          [г. Москва, Ховрино]
11446      [Новая Москва, п. Внуковское, г. Москва]
11447    [г. Москва, Ярославский, ул Красная Сосна]
Name: geo_block_norm, Length: 34180, dtype: object

Create `DataFrame`.

In [None]:
geo_block = (
df["geo_block"]
    .map(lambda x: x[:int(len(x)/2) ])
    .map(lambda x: {"geo_block_{}".format(idx):val for idx,val in enumerate(x) })
    .apply(pd.Series)
)

geo_block

Categorization of the `geo_block` feature

In [None]:

for feat in geo_block.columns:
    print(feat)
    print(geo_block[feat].value_counts().head(20))
    print("="*100)
    print()
    

    df["{}_cat".format(feat)] = geo_block[feat].factorize()[0]

In [None]:
geo_cat_feats = [x for x in df.columns if "geo_block" in x and "_cat" in x]
geo_cat_feats

### Check result

In [None]:
feats = ["area", "kitchen_area"] + geo_cat_feats + cat_feats

check_log_model(df, feats, xgb.XGBRegressor(max_depth=5, n_estimators=50, learning_rate=0.3, random_state=0))

### Breadcrumbs 


In [None]:
breadcrumbs = (
    df["breadcrumbs"]
        .map(lambda x: {"breadcrumbs_{}".format(idx):val for idx,val in enumerate(x) })
        .apply(pd.Series)
)

breadcrumbs

Categorization of the `breadcrumbs` feature

In [None]:
for feat in breadcrumbs.columns:
    print(feat)
    print(breadcrumbs[feat].value_counts().head(20))
    print("="*100)
    print()
    

    df["{}_cat".format(feat)] = breadcrumbs[feat].factorize()[0]

In [None]:
breadcrumbs_cat_feats = [x for x in df.columns if "breadcrumbs" in x and "_cat" in x]
breadcrumbs_cat_feats

A selection of the 7 best features from `breadcrumbs`. 

In [None]:
beast_feats = ['Общая площадь:_cat',
 'Класс жилья:_cat',
 'Этаж:_cat',
 'Количество комнат:_cat',
 'Высота потолков:_cat',
 'Дата публикации:_cat',
 'Тип балкона:_cat',
 'Застройщик:_cat',
 'Парковка:_cat',
 'Количество квартир:_cat',
 'Количество этажей:_cat',
 'Площадь кухни:_cat',
 'Жилая комната:_cat',
 'Охрана:_cat',
 'Тип здания:_cat',
 'Год постройки:_cat',
 'Сдача:_cat'
              ]

### Check result

In [None]:
feats = ["area", "kitchen_area"] + geo_cat_feats + beast_feats + breadcrumbs_cat_feats;
check_log_model(df, feats, xgb.XGBRegressor(max_depth=10, n_estimators=50, learning_rate=0.3, random_state=0))

## Kaggle submit
I zgodnie z tradycją - tworzymy plik do wgrania do Kaggle :) 

In [36]:
feats = ["area", "kitchen_area"] + geo_cat_feats + beast_feats + breadcrumbs_cat_feats

df_train = df[ ~df["price"].isnull() ].copy()
df_test = df[ df["price"].isnull() ].copy()

X_train = df_train[feats]
y_train = df_train["price"]
y_log_train = np.log(y_train)

X_test = df_test[feats]

model = xgb.XGBRegressor(max_depth=10, n_estimators=50, learning_rate=0.3, random_state=0)
model.fit(X_train, y_log_train)
y_log_pred = model.predict(X_test)
y_pred = np.exp(y_log_pred)


df_test["price"] = y_pred
df_test[ ["id", "price"] ].to_csv("../output/xgb_location_log_area.csv", index=False)

## Co dalej? 

Dalej warto poeksperymentować, konkurs trwa do końca dnia - 4 lipiec 23:59 (CEST). Warto zawalczyć o wygraną przede wszytskim dla siebie - dużo się uczysz i co najważniejsze utrwalasz wiedzę. 

Konkurs jest tylko pewną formą, która ma celu zmotywowanie Cię do działania w ramach zdrowej grywalizacji. 

Pamiętaj, że najważniejsze są Twoje umiejętności i delta rozwoju. Dziś kończy się konkurs i dostęp do konta wraz z końcem dnia, ale Twoja nauka, rozwój umiejętności nie musi się kończyć dziś ;) 


### 1. Planujemy spotkanie podsumowujące 

O szczegółach dowiesz się na mailu, ale już teraz zapowiadamy, że w środę wieczorem planujemy się spotkać na webinarium, aby podsumować ten master class. Chcemy to spotkanie zorganizować w taki sposób, aby osoby, które zajmą 5 pierwsz miejsc podzilili się swoimi wynikami i tym, jak udało się je osiągnąć. A więc masz kolejny zastrzyk wiedzy. 


### 2. Przedużenie Twego konta 

Skoro jesteś w tym starterze, to oznacza, że udało Ci się nieźle rozkręcić przez te dwa dni ;) Jeśli chcesz kontynuować to rozkręcenie, to dajemy taką możliwość. Dodatkowo w zależności od opcji, którą wybierzesz masz także dostęp do nowych materiałów (które w ramach tego wydarzenie się nie pojawiły), szczegóły pojawią się na mailu i na slacku. 

### 3. Twój feedback 

Czy jest sens organizować kolejne master class? Czy taka forma jest dla Ciebie ok? A może masz jeszcze inne potrzeby edukacyjne? Daj nam znać poprzez [ANKIETĘ](https://stat.dataworkshop.eu/r?u=https://docs.google.com/forms/d/e/1FAIpQLSdd_jUwebccAcDhHsQarOMfj4fLW106pR-6x5WSb3FegvhtHw/viewform). 

