In [1]:
import pandas as pd
import numpy as np
import helper as h

from sklearn.tree import DecisionTreeRegressor
import xgboost as xgb
from sklearn.model_selection import cross_val_score
import eli5
from tqdm import tqdm

import gc
from sklearn.metrics import mean_absolute_error

ModuleNotFoundError: No module named 'helper'

## Upload data

In [None]:
df_train = pd.read_hdf("../input/train_data.h5")
df_train['price'] = df_train['price'].map(h.parse_price)

df_test = pd.read_hdf("../input/test_data.h5")

print(df_train.shape, df_test.shape)

## Połączenie

Łączymy `df_train` i ` df_test` i zapisujemy wynik do `df`.

In [3]:
df = pd.concat([df_train, df_test])

In [4]:
df.sample(5)

Unnamed: 0,geo_block,breadcrumbs,price,owner,params,date,user_block,id
8981,"[г. Москва, г. Москва]",[Москва],,"[ЖК ""Крылья"". Доп. скидка 5%!]","{'Лифт:': 'да', 'Охрана:': 'закрытая территори...","[17 января, 11, (+1 за сегодня), Обновлено 16 ...",[],53716
13117,"[г. Москва, г. Москва]","[Москва, м. Солнцево, МЦК Лужники]",6.870549,[],"{'Лифт:': 'да', 'Охрана:': 'предусмотрена', 'Т...","[22 апреля, 21, (+2 за сегодня), Обновлено сег...","[<div class=""block-user__name"">Недвижимость от...",1123
6328,"[г. Москва, Бутырский, г. Москва, Бутырский]","[Москва, Бутырский, м. Дмитровская, МЦК Владык...",21.0,[],"{'Охрана:': 'предусмотрена', 'Тип здания:': 'М...","[15 мая, 3, (+1 за сегодня)]","[<div class=""block-user__name"">МИЭЛЬ-Сеть офис...",58995
1937,"[г. Москва, Митино, г. Москва, Митино]","[Москва, Митино, м. Пятницкое шоссе, МЦК Балти...",7.338658,[],"{'Лифт:': 'да', 'Охрана:': 'предусмотрена', 'Т...","[6 марта, 16, (+1 за сегодня), Обновлено 13 мая]","[<div class=""block-user__name"">Рождествено</di...",29631
7401,"[г. Москва, Беговой, г. Москва, Беговой]","[Москва, Беговой, м. Динамо, МЦК Хорошёво]",24.071821,[],"{'Общая площадь:': '86 м²', 'Мусоропровод:': '...","[16 мая, 2, (+1 за сегодня)]","[<div class=""block-user__name"">MR-Group</div>,...",14180


In [5]:
params = df["params"].apply(pd.Series)
params = params.fillna(-1)

if "Охрана:" not in df:
    df = pd.concat([df, params], axis=1)

Można podejrzeć, ile unikalnych wartości mamy w każdej cesze. Nie musisz za bardzo rozumieć kodu na tym etapie, lepiej spojrzeć na wynik.

In [6]:
feats_nunique = {feat:params[feat].nunique() for feat in params.columns}
{k: v for k, v in sorted(feats_nunique.items(), key=lambda item: item[1])};

In [7]:
obj_feats = params.select_dtypes(object).columns

for feat in obj_feats:
    df["{}_cat".format(feat)] = df[feat].factorize()[0]
    
cat_feats = [x for x in df.columns if "_cat" in x]
#cat_feats

In [8]:
df_train = df[ ~df["price"].isnull() ].copy()
df_test = df[ df["price"].isnull() ].copy()

df_train.shape, df_test.shape

((22732, 118), (11448, 118))

## X, y 

Teraz przygotowujemy macierz cech (od razu `X_train` i` X_test`) oraz naszą odpowiedź (`y_train`).


In [9]:
X_train = df_train[cat_feats]
y_train = df_train["price"]

X_test = df_test[cat_feats]

In [10]:
cat_feats_best = ["Класс жилья:_cat",
"Дата публикации:_cat",
"Лифт:_cat",
"Количество комнат:_cat",
"Общая площадь:_cat",
"Высота потолков:_cat",
"Этаж:_cat",
"Застройщик:_cat",
"Этап строительства:_cat",
"Мебель на кухне:_cat",
"Парковка:_cat",
"Тип объекта:_cat"]
#"Количество квартир:_cat",
#"Тип объявления:_cat",
#"Количество этажей:_cat",
#"Этажность:_cat",
#"Площадь кухни:_cat",
#"Свободная планировка:_cat",
#"Серия:_cat",
#"Год постройки:_cat" ]

X_train = df_train[cat_feats_best]
y_train = df_train["price"]

X_test = df_test[cat_feats_best]


## Walidacja modelu

Lokalne sprawdzenie jakości modelu.


In [11]:
model = xgb.XGBRegressor(max_depth=7, n_estimators=50, random_state=0)
scores = cross_val_score(model, X_train, y_train, scoring="neg_mean_absolute_error")
np.mean(scores), np.std(scores)

(-4.9606091147841855, 0.455170182322432)

## Тrenujemy model i prognozujemy 

Zacznijmy od prostego modelu - drzewa decyzyjnego.

In [12]:
model = xgb.XGBRegressor(max_depth=7, n_estimators=50, random_state=0)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

#mean_absolute_error(y_train, y_pred)

## Zapis wyniku 



In [13]:
df_test["price"] = y_pred
df_test[ ["id", "price"] ].to_csv("../output/xgb.csv", index=False)

## Аnalizujemy


Korzystając z biblioteki `eli5`, możesz spróbować zobaczyć, jakie funkcje są najbardziej „interesujące” dla modelu (wpłynęły na wynik modelu).

### ☝️Uwaga! 


Nie należy "ufać" temu rankingowi. Istnieje wiele pułapek, które musisz umieć poprawnie zinterpretować. Dlatego traktuj te dane z pewnym dystansem i założeniem, że prawdopodobnie powinieneś patrzeć oczami 👀, ale i wyczuć rękami, jak jest  💪.



In [14]:
eli5.show_weights(model, feature_names=cat_feats)

ValueError: feature_names has a wrong length: expected=12, got=55

## Rodzaj balkonu:

Przyjrzyjmy się bliżej temu, co kryje się pod „rodzajem balkonu”.

In [None]:
df["Тип балкона:"].value_counts(normalize=True)

Może być: balkon i loggia i różne kombinacje.

Przyjrzyjmy się tabeli przestawnej.

In [None]:
pd.pivot_table(df, index=["Тип балкона:"], values=["price"], aggfunc=["mean", "median", "min", "max", len])

Możemy wyciągnąć różne wnioski, zacznijmy od:
- w większości przypadków (ponad 75%) brak informacji o „rodzaju balkonu” (gdzie wartość wynosi -1)
- obecność dwóch balkonów znacznie zwiększa średnią i medianę



### 🧐 Jakie inne wnioski można wyciągnąć?

Podziel się swoimi przemyśleniami na ten temat w tym kanale [#master_class_ideas](https://stat.dataworkshop.eu/r?u=https://app.slack.com/client/TCCTN4HU3/C0275U2T64C) 🤝.

## Klasa mieszkaniowa

Spójrzmy podobnie jak ostatnio.

In [None]:
pd.pivot_table(df, index=["Класс жилья:"], values=["price"], aggfunc=["mean", "median", "min", "max", len])

Jak ciekawie 😉.

### 🧐 Jakie wnioski można wyciągnąć?

Podziel się swoimi przemyśleniaami w kanale  [#master_class_ideas](https://app.slack.com/client/TCCTN4HU3/C0275U2T64C) 🤝.

## Co dalej?

Mam ndzieję, że udało mi się przekazać Ci pewien sposób myślenia. Teraz trzeba zagłębić się w dane (na przykład sprawdzić 10-30 znaków) i wyciągnąć wnioski (najlepiej te wnioski zapisać, nasza uwaga i myślenie działa wtedy najlepiej, gdy nie trzeba przechowywać wielu monotonnych informacji w naszej głowie).


Koniecznie podziel się swoimi przemyśleniami w kanale  - [#master_class_ideas](https://stat.dataworkshop.eu/r?u=https://app.slack.com/client/TCCTN4HU3/C0275U2T64C) 🤝. Razem można wymyślić więcej :) 
