In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

from collections import Counter
from matplotlib import pyplot as plt
%matplotlib inline

In [None]:
data = pd.read_csv('train.csv', parse_dates=['timestamp'])
data = data.set_index('id')

Ставится задача по всем признакам предсказать целевую переменную `price_doc`. Более подробнную информацию о признаках можно найти в `data.txt`

In [None]:
data.head()

### Обработка признаков 


Посмотрим, какие типы данных присутствуют в нашей выборке

In [None]:
ddf = data.dtypes.reset_index()
ddf.columns = ['Count columns', 'Type']
ddf.groupby('Type').count()

Посмотрим на корреляцию в данных

In [None]:
sns.heatmap(data.corr())

#### Обработка временных признаков

Комбинированный признак, отвечающий за время мы можем разделить на год, месяц и день недели.

In [None]:
data['year'] = data['timestamp'].apply(lambda x: x.year)
data['month'] = data['timestamp'].apply(lambda x: x.month)
data['day'] = data['timestamp'].apply(lambda x: x.day_name())
data = data.drop('timestamp', axis=1)

In [None]:
ddf = data.dtypes.reset_index()
ddf.columns = ['cols', 'Type']
ddf.groupby('Type').count()

### Обработка категориальных значений

In [None]:
ddf = data.dtypes.reset_index()
ddf.columns = ['cols', 'Type']

Категориальные признаки как правило имеют тип `'object'`. Поэтому достанем их и посмотрим глазами на них

In [None]:
cat_bin_columns = ddf[ddf.Type == 'object'].cols.values

In [None]:
cat_bin_columns

In [None]:
data[cat_bin_columns].head()

Как видно, среди выбранных признаков есть категориальные и бинарные. Разделим их, чтобы правильно анализировать

In [None]:
!pip install --user scikit-learn==0.21.2

In [None]:
cat_columns = ['product_type', 'sub_area', 'ecology', 'day']
bin_columns = list(set(cat_bin_columns) - set(cat_columns))

Категориальные признаки обработаем с помощью OneHotEncoder (get_dummies делает тоже самое)

In [None]:
data = pd.get_dummies(data, columns=cat_columns)

Бинарные признаки обработаем с помощью OrdinalEncoder

In [None]:
from sklearn.preprocessing import OrdinalEncoder

In [None]:
lbl = OrdinalEncoder()
lbl.fit(data[bin_columns])
data[bin_columns] = lbl.transform(data[bin_columns])

In [None]:
data[bin_columns].head()

In [None]:
ddf = data.dtypes.reset_index()
ddf.columns = ['Count columns', 'Type']
ddf.groupby('Type').count()

### Разделение выборки на Train и Test

In [None]:
from sklearn.model_selection import train_test_split

Посмотрим на распределение целевой переменной

In [None]:
plt.hist(data['price_doc'], bins=300)
plt.xlim([-1e5, 3e7])
plt.show()

In [None]:
train_data, test_data = train_test_split(data, test_size=0.3,
                                          shuffle=True,
                                          random_state=42)
train_data = train_data.copy()
test_data = test_data.copy()

Посмотрим на распределение целевой переменной на train и test

In [None]:
plt.figure(figsize=(16, 4))

plt.subplot(121)
plt.hist(train_data['price_doc'], bins=300)
plt.xlim([-1e5, 3e7])

plt.subplot(122)
plt.hist(test_data['price_doc'], bins=300)
plt.xlim([-1e5, 3e7])

plt.show()

In [None]:
y_train = train_data['price_doc']
X_train = train_data.drop('price_doc', axis=1)

y_test = test_data['price_doc']
X_test = test_data.drop('price_doc', axis=1)

### Пропущенные значения

Можно просто убрать все строчки, где есть пропущенные значения. Но это не совсем хорошо, можем потерять много данных

In [None]:
X_train.shape, X_train.dropna().shape, 

Попробуем заполнить значения одни из 3 предложенных способов

In [None]:
null_vals = X_train.mean()

X_train = X_train.fillna(null_vals)
X_test = X_test.fillna(null_vals)

### Нормализация

In [None]:
from sklearn.preprocessing import (StandardScaler, Normalizer,
                                  MinMaxScaler, QuantileTransformer)

In [None]:
scaler = MinMaxScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

### Модель

In [None]:
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import mean_squared_log_error

rmsle = lambda y1, y2: np.sqrt(mean_squared_log_error(y1, y2))

In [None]:
reg = Ridge(alpha=100)
reg.fit(X_train, y_train)
y_pred = reg.predict(X_test)
y_pred[y_pred<=0] = 1e-8
rmsle(y_test, y_pred)

In [None]:
from sklearn.ensemble import RandomForestRegressor

In [None]:
reg = RandomForestRegressor()
reg.fit(X_train, y_train)
y_pred = reg.predict(X_test)
rmsle(y_test, y_pred)

### Подбор параметров

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import ElasticNet

In [None]:
gs = GridSearchCV(estimator=ElasticNet(),
                  param_grid={'alpha': [0.1, 1, 10],
                              'l1_ratio': [0.01, 0.05, 0.1]},
                  scoring='neg_mean_squared_error', n_jobs=-1, cv=3)

In [None]:
gs.fit(X_train, y_train)

In [None]:
reg = gs.best_estimator_
reg.fit(X_train, y_train)

In [None]:
y_pred = reg.predict(X_test)
rmsle(y_test, y_pred)

In [None]:
from sklearn.metrics import mean_squared_log_error
rmsle = lambda y1, y2: np.sqrt(mean_squared_log_error(y1, y2))

In [None]:
y_pred = estimator.predict(X_test)
y_pred[y_pred <= 0] = 1e-9
rmsle(y_test, y_pred)

## Задание

1) Exploratory data analysis: поискать интересные фичи, интересные корреляции, распределения,

2) Генерация новых признаков

3) Эксперименты с алгоритмами бустинга, изученными на лекции

4) Выбор лучшей модели 

5) Отправка на платформу kaggle и результат на тестовых данных

https://www.kaggle.com/c/sberbank-russian-housing-market/data