## Load libraries

In [1]:
import pandas as pd
import numpy as np
import helper as h

import xgboost as xgb
from sklearn.model_selection import cross_val_score, KFold
from sklearn.metrics import mean_absolute_error

import eli5

## Upload data

In [2]:
df_train = pd.read_hdf("../input/train_data.h5")
df_train['price'] = df_train['price'].map(h.parse_price)

df_test = pd.read_hdf("../input/test_data.h5")

## Combine data
Combine `df_train` and` df_test` and save the result to `df`.

In [3]:
df = pd.concat([df_train, df_test])
print(df.shape, df.shape)

(34180, 8) (34180, 8)


In [4]:
df.sample(5)

Unnamed: 0,geo_block,breadcrumbs,price,owner,params,date,user_block,id
9441,"[г. Москва, Некрасовка, г. Москва, Некрасовка]","[Москва, Некрасовка, м. Выхино, МЦК Шоссе Энту...",6.07104,[],"{'Лифт:': 'да', 'Тип здания:': 'Панельное', 'Т...","[26 апреля, 5, (+1 за сегодня), Обновлено 14 мая]","[<div class=""block-user__name"">Азбука Жилья</d...",22814
724,"[г. Москва, Филёвский Парк, г. Москва, Филёвск...","[Москва, Филёвский Парк, м. Пятницкое шоссе, М...",,[],"{'Охрана:': 'предусмотрена', 'Тип здания:': 'М...","[30 октября 2017, 95, (+1 за сегодня), Обновле...","[<div class=""block-user__name"">ООО 'Рождествен...",16912
7369,"[г. Москва, Хорошёво-Мнёвники, г. Москва, Хоро...","[Москва, Хорошёво-Мнёвники, м. Октябрьское пол...",,[],"{'Охрана:': 'предусмотрена', 'Тип здания:': 'М...","[8 мая, 10, (+2 за сегодня), Обновлено 15 мая]","[<div class=""block-user__name"">Недвижимость от...",16326
2664,"[г. Москва, Ростокино, г. Москва, Ростокино]","[Москва, Ростокино, м. Ботанический сад, МЦК Б...",,[],"{'Общая площадь:': '55.2 м²', 'Дата публикации...","[1 октября 2018, 31, (+1 за сегодня), Обновлен...","[<div class=""block-user__name"">Группа ПИК</div...",59047
5226,"[г. Москва, Свиблово, г. Москва, Свиблово]","[Москва, Свиблово, м. Ботанический сад, МЦК Бо...",,[],"{'Лифт:': 'да', 'Охрана:': 'закрытая территори...","[12 мая, 8, (+1 за сегодня), Обновлено сегодня...","[<div class=""block-user__name"">Центр продаж Бо...",1484


### Categorization of the Params feature

In [5]:
params = df["params"].apply(pd.Series)
params = params.fillna(-1)

if "Охрана:" not in df:  #prevents params from being added again 
    df = pd.concat([df, params], axis=1)
    
    obj_feats = params.select_dtypes(object).columns

    for feat in obj_feats:
        df["{}_cat".format(feat)] = df[feat].factorize()[0]

cat_feats = [x for x in df.columns if "_cat" in x]
cat_feats

['Охрана:_cat',
 'Тип здания:_cat',
 'Тип объекта:_cat',
 'Количество корпусов:_cat',
 'Тип объявления:_cat',
 'Застройщик:_cat',
 'Общая площадь:_cat',
 'Дата публикации:_cat',
 'Количество комнат:_cat',
 'Парковка:_cat',
 'Дата  обновления:_cat',
 'Количество этажей:_cat',
 'Сдача:_cat',
 'Комиссия агенту:_cat',
 'Высота потолков:_cat',
 'Этаж:_cat',
 'Этап строительства:_cat',
 'Новостройка:_cat',
 'Количество квартир:_cat',
 'Класс жилья:_cat',
 'Адрес:_cat',
 'Лифт:_cat',
 'Вид из окна:_cat',
 'Возможна ипотека:_cat',
 'Год постройки:_cat',
 'Этажность:_cat',
 'Мусоропровод:_cat',
 'Ремонт:_cat',
 'Площадь кухни:_cat',
 'Жилая комната:_cat',
 'Тип санузла:_cat',
 'Тип балкона:_cat',
 'Мебель на кухне:_cat',
 'Холодильник:_cat',
 'Интернет:_cat',
 'Мебель:_cat',
 'Телефон:_cat',
 'Свободная планировка:_cat',
 'Управляющая компания:_cat',
 'Количество подъездов:_cat',
 'Тип дома:_cat',
 'Тип комнат:_cat',
 'Покрытие пола:_cat',
 'Серия:_cat',
 'Тип перекрытия:_cat',
 'Возможен торг:

### Features of area 

In [6]:
def parse_area(val):
    if isinstance(val, int): return val
    if isinstance(val, float): return val
    
    return float(val.split("м")[0].replace(" ", ""))

df["area"] = df["Общая площадь:"].map(h.parse_area)
df["kitchen_area"] = df["Площадь кухни:"].map(parse_area)

### model evaluation 

Two functions: `check_model`, `check_log_model`. 

In [7]:
def check_model(df, feats, model, cv=5, scoring="neg_mean_absolute_error"):
    df_train = df[ ~df["price"].isnull() ].copy()
    df_test = df[ df["price"].isnull() ].copy()

    X_train = df_train[feats]
    y_train = df_train["price"]
    
    scores = cross_val_score(model, X_train, y_train, cv=cv, scoring=scoring)
    return np.mean(scores), np.std(scores)


def check_log_model(df, feats, model, cv=5, scoring="neg_mean_absolute_error"):
    df_train = df[ ~df["price"].isnull() ].copy()

    X = df_train[feats]
    y = df_train["price"]
    y_log = np.log(y)
    
    cv = KFold(n_splits=5, shuffle=True, random_state=0)
    scores = []
    for train_idx, test_idx in cv.split(X):
        X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
        y_log_train, y_test = y_log.iloc[train_idx], y.iloc[test_idx]

        model = xgb.XGBRegressor(max_depth=5, n_estimators=50, random_state=0)
        model.fit(X_train, y_log_train)
        y_log_pred = model.predict(X_test)
        y_pred = np.exp(y_log_pred)

        score = mean_absolute_error(y_test, y_pred)
        scores.append(score)

    return np.mean(scores), np.std(scores)

### Features of area 
Selected features: `geo_block` i `breadcrumbs`.

### geo_block

In [8]:
df["geo_block"].values

array([list(['г. Москва', 'Лианозово', 'г. Москва', 'Лианозово']),
       list(['г. Москва', 'Ховрино', 'г. Москва', 'Ховрино']),
       list(['г. Москва', 'ул Лобачевского', 'г. Москва', 'ул Лобачевского']),
       ..., list(['г. Москва', 'Ховрино', 'г. Москва', 'Ховрино']),
       list(['Новая Москва', 'п. Внуковское', 'г. Москва', 'Новая Москва', 'п. Внуковское', 'г. Москва']),
       list(['г. Москва', 'Ярославский', 'ул Красная Сосна', 'г. Москва', 'Ярославский', 'ул Красная Сосна'])],
      dtype=object)

Removal of duplicates, because in the lines we have two elements repeated twice. 

In [9]:
df["geo_block_norm"] = df["geo_block"].map(lambda x: x[:int(len(x)/2)])

df["geo_block_norm"]

0                            [г. Москва, Лианозово]
1                              [г. Москва, Ховрино]
2                      [г. Москва, ул Лобачевского]
3                  [г. Москва, Ховрино, ул Дыбенко]
4                          [г. Москва, Даниловский]
                            ...                    
11443                                   [г. Москва]
11444                [г. Москва, Хорошёво-Мнёвники]
11445                          [г. Москва, Ховрино]
11446      [Новая Москва, п. Внуковское, г. Москва]
11447    [г. Москва, Ярославский, ул Красная Сосна]
Name: geo_block_norm, Length: 34180, dtype: object

Create `DataFrame`.

In [10]:
geo_block = (
df["geo_block"]
    .map(lambda x: x[:int(len(x)/2) ])
    .map(lambda x: {"geo_block_{}".format(idx):val for idx,val in enumerate(x) })
    .apply(pd.Series)
)

geo_block

Unnamed: 0,geo_block_0,geo_block_1,geo_block_2,geo_block_3,geo_block_4,geo_block_5
0,г. Москва,Лианозово,,,,
1,г. Москва,Ховрино,,,,
2,г. Москва,ул Лобачевского,,,,
3,г. Москва,Ховрино,ул Дыбенко,,,
4,г. Москва,Даниловский,,,,
...,...,...,...,...,...,...
11443,г. Москва,,,,,
11444,г. Москва,Хорошёво-Мнёвники,,,,
11445,г. Москва,Ховрино,,,,
11446,Новая Москва,п. Внуковское,г. Москва,,,


Categorization of the `geo_block` feature

In [11]:

for feat in geo_block.columns:
    print(feat)
    print(geo_block[feat].value_counts().head(20))
    print("="*100)
    print()
    

    df["{}_cat".format(feat)] = geo_block[feat].factorize()[0]

geo_block_0
г. Москва             29049
Новая Москва           4531
г. Зеленоград           318
п. Свиблово             138
п. Некрасовка           134
п. Новобратцевский        3
д. Сколково               1
п. Рублево                1
пгт Акулово               1
п. Крюково                1
п. Алабушево              1
п. Главмосстроя           1
п. Подушкино              1
Name: geo_block_0, dtype: int64

geo_block_1
п. Сосенское              2522
Хорошёво-Мнёвники         1142
Филёвский Парк             945
п. Московский              919
Ховрино                    829
Раменки                    811
Люблино                    666
Некрасовка                 654
Кунцево                    537
Орехово-Борисово Южное     534
ул Дыбенко                 525
Выхино-Жулебино            496
Зябликово                  492
ул Лобачевского            442
п. Внуковское              430
Рязанский                  425
Марьино                    407
Пресненский                378
Лефортово            

In [12]:
geo_cat_feats = [x for x in df.columns if "geo_block" in x and "_cat" in x]
geo_cat_feats

['geo_block_0_cat',
 'geo_block_1_cat',
 'geo_block_2_cat',
 'geo_block_3_cat',
 'geo_block_4_cat',
 'geo_block_5_cat']

### Check result

In [13]:
feats = ["area", "kitchen_area"] + geo_cat_feats + cat_feats

check_log_model(df, feats, xgb.XGBRegressor(max_depth=5, n_estimators=50, learning_rate=0.3, random_state=0))

(3.25358809911422, 0.3150982251982633)

# Breadcrumbs 


Posunęliśmy się trochę dalej, to cieszy. Tutaj możesz jeszcze trochę pogrzebać - w `geo_block`, ale zostawię to dla Ciebie.  Chcę Ci pomóc jeszcze "ugryźć" `breadcrumbs` 


In [18]:
breadcrumbs = (
    df["breadcrumbs"]
        .map(lambda x: {"breadcrumbs_{}".format(idx):val for idx,val in enumerate(x) })
        .apply(pd.Series)
)

breadcrumbs

Unnamed: 0,breadcrumbs_0,breadcrumbs_1,breadcrumbs_2,breadcrumbs_3,breadcrumbs_4,breadcrumbs_5,breadcrumbs_6,breadcrumbs_7
0,Москва,Лианозово,м. Алтуфьево,МЦК Лихоборы,,,,
1,Москва,Ховрино,м. Ховрино,МЦК Коптево,,,,
2,Москва,МЦК Кутузовская,ул. Лобачевского,,,,,
3,Москва,Ховрино,м. Ховрино,МЦК Коптево,ул. Дыбенко,,,
4,Москва,Даниловский,м. Автозаводская,МЦК Автозаводская,,,,
...,...,...,...,...,...,...,...,...
11443,Москва,МЦК Кутузовская,,,,,,
11444,Москва,Хорошёво-Мнёвники,м. Октябрьское поле,МЦК Зорге,,,,
11445,Москва,Ховрино,м. Ховрино,МЦК Коптево,,,,
11446,Москва,Новая Москва,п. Внуковское,МЦК Кутузовская,,,,


Tutaj okazuje się, że maksymalna głębokość wynosi 7 (w przeciwieństwie do `geo_block`). Zobaczmy, co jeszcze jest w środku.


In [19]:
for feat in breadcrumbs.columns:
    print(feat)
    print(breadcrumbs[feat].value_counts().head(20))
    print("="*100)
    print()
    

    df["{}_cat".format(feat)] = breadcrumbs[feat].factorize()[0]

breadcrumbs_0
Москва    34180
Name: breadcrumbs_0, dtype: int64

breadcrumbs_1
Новая Москва              4531
МЦК Лужники               1245
МЦК Кутузовская           1237
Хорошёво-Мнёвники         1142
Филёвский Парк             945
МЦК Крымская               932
МЦК Шелепиха               842
Ховрино                    829
Раменки                    811
МЦК Коптево                800
Люблино                    666
МЦК Хорошёво               633
Некрасовка                 608
МЦК Нижегородская          564
МЦК Лихоборы               549
Кунцево                    537
Орехово-Борисово Южное     534
Выхино-Жулебино            494
Зябликово                  492
МЦК Ростокино              453
Name: breadcrumbs_1, dtype: int64

breadcrumbs_2
п. Сосенское             2522
п. Московский             919
м. Октябрьское поле       864
м. Выхино                 856
м. Ховрино                829
м. Братиславская          649
м. Рязанский проспект     600
м. Пятницкое шоссе        558
м. Фили     

Możesz zobaczyć wiele przydatnych informacji - na przykład nazwę stacji metra.


### `МЦК` - to jest skrót od  **Московское центральное кольцо** (ang. Moscow Central Circle) 

![](https://img.gazeta.ru/files3/393/10190393/TASS_17572950-pic905-895x505-29643.jpg)

In [20]:
breadcrumbs_cat_feats = [x for x in df.columns if "breadcrumbs" in x and "_cat" in x]
breadcrumbs_cat_feats

['breadcrumbs_0_cat',
 'breadcrumbs_1_cat',
 'breadcrumbs_2_cat',
 'breadcrumbs_3_cat',
 'breadcrumbs_4_cat',
 'breadcrumbs_5_cat',
 'breadcrumbs_6_cat',
 'breadcrumbs_7_cat']

Dodajemy 7 cech z `breadcrumbs` do tych wszystkich, które już mieliśmy  i przeliczamy. 


In [26]:
beast_feats = ['Общая площадь:_cat',
 'Класс жилья:_cat',
 'Этаж:_cat',
 'Количество комнат:_cat',
 'Высота потолков:_cat',
 'Дата публикации:_cat',
 'Тип балкона:_cat',
 'Застройщик:_cat',
 'Парковка:_cat',
 'Количество квартир:_cat',
 'Количество этажей:_cat',
 'Площадь кухни:_cat',
 'Жилая комната:_cat',
 'Охрана:_cat',
 'Тип здания:_cat',
 'Год постройки:_cat',
 'Сдача:_cat'
              ]

In [42]:
feats = ["area", "kitchen_area"] + geo_cat_feats + beast_feats + breadcrumbs_cat_feats
check_log_model(df, feats, xgb.XGBRegressor(max_depth=10, n_estimators=50, learning_rate=0.3, random_state=0))

(3.299736126784508, 0.31571204852743395)

Udało nam się ulepszyć wynik! 

## Kaggle submit
I zgodnie z tradycją - tworzymy plik do wgrania do Kaggle :) 

In [36]:
feats = ["area", "kitchen_area"] + geo_cat_feats + beast_feats + breadcrumbs_cat_feats

df_train = df[ ~df["price"].isnull() ].copy()
df_test = df[ df["price"].isnull() ].copy()

X_train = df_train[feats]
y_train = df_train["price"]
y_log_train = np.log(y_train)

X_test = df_test[feats]

model = xgb.XGBRegressor(max_depth=10, n_estimators=50, learning_rate=0.3, random_state=0)
model.fit(X_train, y_log_train)
y_log_pred = model.predict(X_test)
y_pred = np.exp(y_log_pred)


df_test["price"] = y_pred
df_test[ ["id", "price"] ].to_csv("../output/xgb_location_log_area.csv", index=False)

## Co dalej? 

Dalej warto poeksperymentować, konkurs trwa do końca dnia - 4 lipiec 23:59 (CEST). Warto zawalczyć o wygraną przede wszytskim dla siebie - dużo się uczysz i co najważniejsze utrwalasz wiedzę. 

Konkurs jest tylko pewną formą, która ma celu zmotywowanie Cię do działania w ramach zdrowej grywalizacji. 

Pamiętaj, że najważniejsze są Twoje umiejętności i delta rozwoju. Dziś kończy się konkurs i dostęp do konta wraz z końcem dnia, ale Twoja nauka, rozwój umiejętności nie musi się kończyć dziś ;) 


### 1. Planujemy spotkanie podsumowujące 

O szczegółach dowiesz się na mailu, ale już teraz zapowiadamy, że w środę wieczorem planujemy się spotkać na webinarium, aby podsumować ten master class. Chcemy to spotkanie zorganizować w taki sposób, aby osoby, które zajmą 5 pierwsz miejsc podzilili się swoimi wynikami i tym, jak udało się je osiągnąć. A więc masz kolejny zastrzyk wiedzy. 


### 2. Przedużenie Twego konta 

Skoro jesteś w tym starterze, to oznacza, że udało Ci się nieźle rozkręcić przez te dwa dni ;) Jeśli chcesz kontynuować to rozkręcenie, to dajemy taką możliwość. Dodatkowo w zależności od opcji, którą wybierzesz masz także dostęp do nowych materiałów (które w ramach tego wydarzenie się nie pojawiły), szczegóły pojawią się na mailu i na slacku. 

### 3. Twój feedback 

Czy jest sens organizować kolejne master class? Czy taka forma jest dla Ciebie ok? A może masz jeszcze inne potrzeby edukacyjne? Daj nam znać poprzez [ANKIETĘ](https://stat.dataworkshop.eu/r?u=https://docs.google.com/forms/d/e/1FAIpQLSdd_jUwebccAcDhHsQarOMfj4fLW106pR-6x5WSb3FegvhtHw/viewform). 

