<center>
<img src="../../img/ods_stickers.jpg">
## Открытый курс по машинному обучению. Сессия № 2
Автор материала: программист-исследователь Mail.ru Group, старший преподаватель Факультета Компьютерных Наук ВШЭ Юрий Кашницкий. Материал распространяется на условиях лицензии [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). Можно использовать в любых целях (редактировать, поправлять и брать за основу), кроме коммерческих, но с обязательным упоминанием автора материала.

# <center>Домашнее задание № 10
## <center> Прогнозирование задержек вылетов

Ваша задача – побить как минимум 2 бенчмарка в [соревновании](https://www.kaggle.com/c/flight-delays-2017) на Kaggle Inclass. Подробных инструкций не будет, будет только тезисно описано, как получен второй – с помощью Xgboost. Надеюсь, на данном этапе курса вам достаточно бросить полтора взгляда на данные, чтоб понять, что это тот тип задачи, в которой затащит градиентный бустинг. Скорее всего Xgboost, но тут у нас еще немало категориальных признаков...

<img src='../img/xgboost_meme.jpg' width=40% />

In [1]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV

ModuleNotFoundError: No module named 'xgboost'

In [None]:
train = pd.read_csv('../data/flight/flight_delays_train.csv')
test = pd.read_csv('../data/flight/flight_delays_test.csv')

In [None]:
train.head()

In [None]:
test.head()

Итак, надо по времени вылета самолета, коду авиакомпании-перевозчика, месту вылета и прилета и расстоянию между аэропортами вылета и прилета предсказать задержку вылета более 15 минут. В качестве простейшего бенчмарка возьмем логистическую регрессию и два признака, которые проще всего взять: `DepTime` и `Distance`. У такой модели результат – 0.68202 на LB. 

In [None]:
X_train, y_train = train[['Distance', 'DepTime']].values, train['dep_delayed_15min'].map({'Y': 1, 'N': 0}).values
X_test = test[['Distance', 'DepTime']].values

X_train_part, X_valid, y_train_part, y_valid = train_test_split(X_train, y_train, test_size=0.3, random_state=17)

scaler = StandardScaler()
X_train_part = scaler.fit_transform(X_train_part)
X_valid = scaler.transform(X_valid)

In [None]:
logit = LogisticRegression()

logit.fit(X_train_part, y_train_part)
logit_valid_pred = logit.predict_proba(X_valid)[:, 1]

roc_auc_score(y_valid, logit_valid_pred)

In [None]:
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)

logit.fit(X_train_scaled, y_train)
logit_test_pred = logit.predict_proba(X_test_scaled)[:, 1]

pd.Series(logit_test_pred, name='dep_delayed_15min').to_csv('logit_2feat.csv', index_label='id', header=True)

Второй бенчмарк, представленный в рейтинге соревнования, был получен так:
- Признаки `Distance` и  `DepTime` брались без изменений
- Создан признак "маршрут" из исходных `Origin` и `Dest`
- К признакам `Month`, `DayofMonth`, `DayOfWeek`, `UniqueCarrier` и "маршрут" применено OHE-преобразование (`LabelBinarizer`)
- Выделена отложенная выборка
- Обучалась логистическая регрессия и градиентный бустинг (xgboost), гиперпараметры бустинга настраивались на кросс-валидации, сначала те, что отвечают за сложность модели, затем число деревьев фиксировалось равным 500 и настраивался шаг градиентного спуска
- С помощью `cross_val_predict` делались прогнозы обеих моделей на кросс-валидации (именно предсказанные вероятности), настраивалась линейная смесь ответов логистической регрессии и градиентного бустинга вида $w_1 * p_{logit} + (1 - w_1) * p_{xgb}$, где $p_{logit}$ – предсказанные логистической регрессией вероятности класса 1, $p_{xgb}$ – аналогично. Вес $w_1$ подбирался вручную. 
- В качестве ответа для тестовой выборки бралась аналогичная комбинация ответов двух моделей, но уже обученных на всей обучающей выборке.

Описанный план ни к чему не обязывает – это просто то, как решение получил автор задания. Возможно, вы не захотите следовать намеченному плану, а добавите, скажем, пару хороших признаков и обучите лес из тысячи деревьев.

Удачи!

## baseline

In [None]:
y_train = train['dep_delayed_15min'].apply(lambda x: 0 if x == 'N' else 1)
train['path'] = train['Origin'] + train['Dest']
test['path'] = test['Origin'] + test['Dest']
train.drop(['Origin', 'Dest', 'dep_delayed_15min'], axis=1, inplace=True)
test.drop(['Origin', 'Dest'], axis=1, inplace=True)

cat_cols = ['Month', 'DayofMonth', 'DayOfWeek', 'UniqueCarrier', 'path']
dummy_train = pd.get_dummies(train[cat_cols])
dummy_new = pd.get_dummies(test[cat_cols])
dummy_new = dummy_new.reindex(columns = dummy_train.columns, fill_value=0)
train = pd.concat([train[['DepTime', 'Distance']], dummy_train], axis=1)
test = pd.concat([test[['DepTime', 'Distance']], dummy_new], axis=1)

train['DepHour'] = train['DepTime'] // 100
test['DepHour'] = test['DepTime'] // 100
train.drop('DepTime', axis=1, inplace=True)
test.drop('DepTime', axis=1, inplace=True)

from scipy import sparse
train_sp = sparse.csr_matrix(train)
test_sp = sparse.csr_matrix(test)

In [None]:
train.head()

In [None]:
xgbc = XGBClassifier(max_depth=6, n_estimators=500, silent=False)
xgbc.fit(train_sp, y_train)

In [None]:
answer = xgbc.predict_proba(test_sp)
sub = pd.read_csv('data/flight/sample_submission.csv')
sub['dep_delayed_15min'] = answer[:, 1]
sub.to_csv('subm1.csv', index=None)

## Validation

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_tr, X_val, y_tr, y_val = train_test_split(train_sp, y_train, test_size=0.33)

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
import xgboost as xgb
from sklearn import metrics
def modelfit(alg, dtrain, target, useTrainCV=True, cv_folds=5, early_stopping_rounds=50):
    
    if useTrainCV:
        xgb_param = alg.get_xgb_params()
        xgtrain = xgb.DMatrix(dtrain, label=target)
        cvresult = xgb.cv(xgb_param, xgtrain, num_boost_round=alg.get_params()['n_estimators'], nfold=cv_folds,
            metrics='auc', early_stopping_rounds=early_stopping_rounds, verbose_eval=False)
        alg.set_params(n_estimators=cvresult.shape[0])
    
    #Fit the algorithm on the data
    alg.fit(dtrain, target, eval_metric='auc')
        
    #Predict training set:
    dtrain_predictions = alg.predict(dtrain)
    dtrain_predprob = alg.predict_proba(dtrain)[:,1]
        
    #Print model report:
    print ("\nModel Report")
    print ("Accuracy : %.4g" % metrics.accuracy_score(target, dtrain_predictions))
    print ("AUC Score (Train): %f" % metrics.roc_auc_score(target, dtrain_predprob))
                    
    #feat_imp = pd.Series(alg.booster().get_fscore()).sort_values(ascending=False)
    #feat_imp.plot(kind='bar', title='Feature Importances')
    #plt.ylabel('Feature Importance Score')

In [None]:
xgb1 = XGBClassifier(
    learning_rate =0.1,
    n_estimators=1000,
    max_depth=5,
    min_child_weight=1,
    gamma=0,
    subsample=0.8,
    colsample_bytree=0.8,
    objective= 'binary:logistic',
    nthread=4,
    scale_pos_weight=1,
    seed=27)
modelfit(xgb1, train_sp, y_train)

In [None]:
pred = xgb1.predict_proba(test_sp)[:, 1]

In [None]:
sub = pd.read_csv('data/flight/sample_submission.csv')
sub['dep_delayed_15min'] = pred
sub.to_csv('subm1.csv', index=None)

In [None]:
param_test = {
    'min_child_weight': [6,8,10],
    'n_estimators': [1000, 1200],
    'max_depth': [5, 6, 7]
}
gsearch = GridSearchCV(estimator = XGBClassifier(learning_rate=0.1, n_estimators=140, max_depth=4,
 min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4, scale_pos_weight=1), 
 param_grid=param_test, scoring='roc_auc', iid=False, cv=5, verbose=1)
gsearch.fit(train_sp, y_train)

In [None]:
gsearch.best_params_

In [None]:
modelfit(gsearch.best_estimator_, train_sp, y_train)

In [None]:
pred = gsearch.best_estimator_.predict_proba(test_sp)[:, 1]
sub = pd.read_csv('data/flight/sample_submission.csv')
sub['dep_delayed_15min'] = pred
sub.to_csv('subm1.csv', index=None)

## catboost

In [None]:
train_cat = pd.read_csv('data/flight/flight_delays_train.csv')
test_cat = pd.read_csv('data/flight/flight_delays_test.csv')

y_train = train_cat['dep_delayed_15min'].apply(lambda x: 0 if x == 'N' else 1)
train_cat['path'] = train_cat['Origin'] + train_cat['Dest']
test_cat['path'] = test_cat['Origin'] + test_cat['Dest']
train_cat.drop(['Origin', 'Dest', 'dep_delayed_15min'], axis=1, inplace=True)
test_cat.drop(['Origin', 'Dest'], axis=1, inplace=True)

In [None]:
train_cat['DepHour'] = train_cat['DepTime'] // 100

test_cat['DepHour'] = test_cat['DepTime'] // 100

train_cat.drop('DepTime', axis=1, inplace=True)
test_cat.drop('DepTime', axis=1, inplace=True)

In [None]:

test_cat.head()

In [None]:
from catboost import CatBoostClassifier

In [None]:
model = CatBoostClassifier(iterations=1000, depth=6)

In [None]:
model.fit(train_cat, y_train, cat_features=[0, 1, 2, 3, 5], plot=True)

In [None]:
param_test = {
    'iterations': [1000],
    'depth': [6]
}

param_fit = {
    'cat_features': [0, 1, 2, 3, 5]
}

gsearch = GridSearchCV(estimator = model, 
    param_grid=param_test, scoring='roc_auc', iid=False, cv=5, verbose=1)
gsearch.fit(train_cat, y_train, fit_params=param_fit)

In [None]:
pred = model.predict_proba(test_cat)[:, 1]
sub = pd.read_csv('data/flight/sample_submission.csv')
sub['dep_delayed_15min'] = pred
sub.to_csv('subm1.csv', index=None)

In [None]:
gsearch.best_params_

In [None]:
train_cat.head()