# <center>Тема 6
## <center> Прогнозирование задержек вылетов

Ваша задача – побить бенчмарки в [соревновании](https://www.kaggle.com/c/flight-delays-2017) на Kaggle Inclass. Подробных инструкций не будет, будут только рекомендации. Конечно, с помощью Xgboost. Надеюсь, на данном этапе курса вам достаточно бросить полтора взгляда на данные, чтоб понять, что это тот тип задачи, в которой затащит Xgboost.

In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.metrics import roc_auc_score

from sklearn.preprocessing import LabelBinarizer
from tqdm.notebook import tqdm
from sklearn.model_selection import GridSearchCV

from hyperopt import hp
from hyperopt import fmin, tpe, hp, STATUS_OK, Trials
from sklearn.metrics import log_loss
import xgboost as xgb

In [2]:
train = pd.read_csv('data/flight_delays_train.csv')
test = pd.read_csv('data/flight_delays_test.csv')

In [3]:
train.head()

Unnamed: 0,Month,DayofMonth,DayOfWeek,DepTime,UniqueCarrier,Origin,Dest,Distance,dep_delayed_15min
0,c-8,c-21,c-7,1934,AA,ATL,DFW,732,N
1,c-4,c-20,c-3,1548,US,PIT,MCO,834,N
2,c-9,c-2,c-5,1422,XE,RDU,CLE,416,N
3,c-11,c-25,c-6,1015,OO,DEN,MEM,872,N
4,c-10,c-7,c-6,1828,WN,MDW,OMA,423,Y


In [4]:
test.head()

Unnamed: 0,Month,DayofMonth,DayOfWeek,DepTime,UniqueCarrier,Origin,Dest,Distance
0,c-7,c-25,c-3,615,YV,MRY,PHX,598
1,c-4,c-17,c-2,739,WN,LAS,HOU,1235
2,c-12,c-2,c-7,651,MQ,GSP,ORD,577
3,c-3,c-25,c-7,1614,WN,BWI,MHT,377
4,c-6,c-6,c-3,1505,UA,ORD,STL,258


Итак, надо по времени вылета самолета, коду авиакомпании-перевозчика, месту вылета и прилета и расстоянию между аэропортами вылета и прилета предсказать задержку вылета более 15 минут. В качестве простейшего бенчмарка возьмем логистическую регрессию и два признака, которые проще всего взять: `DepTime` и `Distance`. У такой модели результат – 0.68202 на LB. 

In [5]:
X_train, y_train = train[['Distance', 'DepTime']].values, train['dep_delayed_15min'].map({'Y': 1, 'N': 0}).values
X_test = test[['Distance', 'DepTime']].values

X_train_part, X_valid, y_train_part, y_valid = train_test_split(X_train, 
                                                                y_train, 
                                                                test_size=0.3, 
                                                                random_state=17)

In [6]:
logit = LogisticRegression(random_state=17)

logit.fit(X_train_part, y_train_part)
logit_valid_pred = logit.predict_proba(X_valid)[:, 1]

roc_auc_score(y_valid, logit_valid_pred)

0.6795697123357751

In [7]:
logit.fit(X_train, y_train)
logit_test_pred = logit.predict_proba(X_test)[:, 1]

pd.Series(logit_test_pred, 
          name='dep_delayed_15min').to_csv('logit_2feat.csv', 
                                           index_label='id', 
                                           header=True)

Рекомендации:
- признаки `Distance` и  `DepTime` можно использовать  без изменений
- создать признак "маршрут" из исходных `Origin` и `Dest`
- к признакам `Month`, `DayofMonth`, `DayOfWeek`, `UniqueCarrier` и "маршрут" применить OHE-преобразование (`LabelBinarizer`)
- выделить отложенную выборку
- обучать логистическую регрессию и градиентный бустинг (xgboost), гиперпараметры бустинга настраивать на кросс-валидации, сначала те, что отвечают за сложность модели, затем число деревьев фиксировалось равным 500 и настраивался шаг градиентного спуска
- с помощью `cross_val_predict` делать прогнозы обеих моделей на кросс-валидации (именно предсказанные вероятности), настраивать линейную смесь ответов логистической регрессии и градиентного бустинга вида $w_1 * p_{logit} + (1 - w_1) * p_{xgb}$, где $p_{logit}$ – предсказанные логистической регрессией вероятности класса 1, $p_{xgb}$ – аналогично. Вес $w_1$ подбирать вручную. 
- в качестве ответа для тестовой выборки брать аналогичную комбинацию ответов двух моделей, но уже обученных на всей обучающей выборке.


Удачи!

In [8]:
train = pd.read_csv('data/flight_delays_train.csv')
test = pd.read_csv('data/flight_delays_test.csv')

In [9]:
train['Weekend'] = train['DayOfWeek'].copy().apply(lambda x: 1 if int(x[2:]) > 5 else 0)
test['Weekend'] = test['DayOfWeek'].copy().apply(lambda x: 1 if int(x[2:]) > 5 else 0)

In [10]:
def MultiLabelBinarizer(train, test, feature):
    lb = LabelBinarizer()
    
    lb.fit(train[feature])
    train_transformed = lb.transform(train[feature])
    test_transformed = lb.transform(test[feature])
    
    for i in range(train_transformed.shape[1]):
        train[f'{feature}_{i}'] = train_transformed.T[i]
        test[f'{feature}_{i}'] = test_transformed.T[i]
        
    train = train.drop([feature], axis=1);
    test = test.drop([feature], axis=1);
    
    return (train, test)

In [11]:
for feature in ['Month', 'DayofMonth', 'DayOfWeek', 'UniqueCarrier', 'Dest', 'Origin']:
    train, test = MultiLabelBinarizer(train, test, feature)
train.shape, test.shape

((100000, 654), (100000, 653))

In [12]:
X_train, y_train = train.drop(['dep_delayed_15min'], axis=1).values, train['dep_delayed_15min'].map({'Y': 1, 'N': 0}).values
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=0.3, random_state=17)

## XGBoost

In [13]:
def score(params):
    dtrain = xgb.DMatrix(X_train, label=y_train)
    dvalid = xgb.DMatrix(X_valid, label=y_valid)
    
    model = xgb.train(params, dtrain) 
    predictions = model.predict(dvalid) 
    score = roc_auc_score(y_valid, predictions)
    
    return {'loss': 1 - score, 'status': STATUS_OK}

In [14]:
variable_params = {
    'learning_rate': hp.quniform('learning_rate', 0.001, 100, 0.001),
    'n_estimators': hp.quniform('n_estimators', 100, 1000, 1),
    'eta': hp.quniform('eta', 0.025, 0.5, 0.025),
    'max_depth':  hp.choice('max_depth', np.arange(1, 14, dtype=int)),
    'min_child_weight': hp.quniform('min_child_weight', 1, 6, 1),
    'subsample': hp.quniform('subsample', 0.5, 1, 0.05),
    'gamma': hp.quniform('gamma', 0.5, 1, 0.05),
    'colsample_bytree': hp.quniform('colsample_bytree', 0.5, 1, 0.05),
}

static_params = {
    'eval_metric': 'auc',
    'objective': 'binary:logistic',
    'nthread': 4,
    'booster': 'gbtree',
    'tree_method': 'exact',
    'silent': 1,
    'verbosity': 0,
}

In [15]:
trials = Trials()
best_params = fmin(score, variable_params | static_params, algo=tpe.suggest, trials=trials, max_evals=250)
best_params

100%|█████████████████████████████████████████████| 250/250 [14:11<00:00,  3.41s/trial, best loss: 0.27207613426228594]


{'colsample_bytree': 0.7000000000000001,
 'eta': 0.375,
 'gamma': 0.8500000000000001,
 'learning_rate': 0.101,
 'max_depth': 12,
 'min_child_weight': 3.0,
 'n_estimators': 126.0,
 'subsample': 0.6000000000000001}

In [16]:
params = best_params | static_params

dtrain = xgb.DMatrix(X_train, label=y_train)
dvalid = xgb.DMatrix(X_valid, label=y_valid)

xgb_classifier = xgb.train(params, dtrain) 
xgb_valid_pred = xgb_classifier.predict(dvalid) 
xgb_score = roc_auc_score(y_valid, xgb_valid_pred)
xgb_score

0.7275651482116261

In [17]:
best_w = 0;
best_score = 0;

for w in np.arange(0.25, 0.26, 0.00001):
    pred = w * logit_valid_pred + (1 - w) * xgb_valid_pred
    score = roc_auc_score(y_valid, pred)
    
    if score > best_score:
        best_score = score
        best_w = w
        
print(f'best_w: {best_w}\nbest_score: {best_score}')

best_w: 0.25
best_score: 0.721265510777321


## Predict

In [22]:
X = np.vstack([X_train, X_valid])
y = np.hstack([y_train, y_valid])

In [23]:
logit = LogisticRegression(C=0.1, random_state=17)
logit.fit(X, y)

LogisticRegression(C=0.1, random_state=17)

In [24]:
dmatrix = xgb.DMatrix(X, label=y)
xgb_classifier = xgb.train(params, dmatrix)

In [25]:
test.columns=['f' + str(i) for i in range(653)]
dtest = xgb.DMatrix(test)
prediction = best_w * logit.predict_proba(test)[:, 1] + (1 - best_w) * xgb_classifier.predict(dtest)

pd.Series(prediction, name='dep_delayed_15min').to_csv('result.csv', index_label='id', header=True)