# Лабораторная работа 2. Метод ближайших соседей и решающие деревья.

ФИО: Севастопольский Артем

Группа: 317

In [84]:
from functools import partial
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from scipy.spatial.distance import cdist
from sklearn import metrics, cross_validation, tree, ensemble

Все эксперименты в этой лабораторной работе предлагается проводить на данных соревнования Amazon Employee Access Challenge: https://www.kaggle.com/c/amazon-employee-access-challenge

В данной задаче предлагается предсказать, будет ли одобрен запрос сотрудника на получение доступа к тому или иному ресурсу. Все признаки являются категориальными.

Для удобства данные можно загрузить по ссылке: https://www.dropbox.com/s/q6fbs1vvhd5kvek/amazon.csv

Сразу прочитаем данные и создадим разбиение на обучение и контроль:

In [2]:
data = pd.read_csv('amazon.csv')
data.head()

Unnamed: 0,ACTION,RESOURCE,MGR_ID,ROLE_ROLLUP_1,ROLE_ROLLUP_2,ROLE_DEPTNAME,ROLE_TITLE,ROLE_FAMILY_DESC,ROLE_FAMILY,ROLE_CODE
0,1,39353,85475,117961,118300,123472,117905,117906,290919,117908
1,1,17183,1540,117961,118343,123125,118536,118536,308574,118539
2,1,36724,14457,118219,118220,117884,117879,267952,19721,117880
3,1,36135,5396,117961,118343,119993,118321,240983,290919,118322
4,1,42680,5905,117929,117930,119569,119323,123932,19793,119325


In [3]:
data.shape

(32769, 10)

In [4]:
# доля положительных примеров
data.ACTION.mean()

0.94210992096188473

In [5]:
# число значений у признаков
for col_name in data.columns:
    print col_name, len(data[col_name].unique())

ACTION 2
RESOURCE 7518
MGR_ID 4243
ROLE_ROLLUP_1 128
ROLE_ROLLUP_2 177
ROLE_DEPTNAME 449
ROLE_TITLE 343
ROLE_FAMILY_DESC 2358
ROLE_FAMILY 67
ROLE_CODE 343


In [6]:
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data.iloc[:, 1:], data.iloc[:, 0],
                                                    test_size=0.3, random_state=241)
features = X_train.shape[1]

## Часть 1: kNN и категориальные признаки

#### 1. Реализуйте три функции расстояния на категориальных признаках, которые обсуждались на втором семинаре. Реализуйте самостоятельно метод k ближайших соседей, который будет уметь работать с этими функциями расстояния. Подсчитайте для каждой из них качество на тестовой выборке `X_test` при числе соседей $k = 10$. Метрика качества — AUC-ROC.

Какая функция расстояния оказалась лучшей?

In [103]:
import bisect

class CategoricalDistanceCounter(object):
    def __init__(self, X_train):
        self.objects, self.features = X_train.shape
        self.counts = [pd.value_counts(X_train[col]) for col in X_train.columns]
        # `counts[i]` is a Series that shows how many times value `i` appears in col № i.
        # `counts` depends on X_train.
        self.counts_dict = [cnt.to_dict() for cnt in self.counts]
        self.prob = [(cnt / len(X_train)).sort(inplace=False).to_dict() 
                     for cnt in self.counts]
        self.prob_vals = map(lambda d: np.array(d.values()), self.prob)
        self.prob_hit = [cnt * (cnt - 1) / self.objects / (self.objects - 1) 
                         for cnt in self.counts]
        # `prob_hit` is estimate of probability that two objects have the same feature value.
        self.prob_hit_cumsum = [np.hstack(([0], np.array(ar).cumsum()))
                                for ar in self.prob_hit]
    
    def dist(self, p, q, weights=None, dist_type=None):
        '''Accepts dist_type=1, 2 or 3.
        p, q and weights should be numpy vectors of the same length.
        '''
        dist = None
        if dist_type == 1:
            diff = (p != q).astype(int)
        elif dist_type == 2:
            p_prob = [self.prob[i].get(p[i], 0)
                      for i in range(self.features)]
            last_pos = [bisect.bisect_right(self.prob_vals[i], p_prob[i])
                        for i in range(self.features)]
            appr_prob = [self.prob_hit_cumsum[i][last_pos[i]]
                         for i in range(self.features)]
            diff = np.where(p != q, 1, appr_prob)
        elif dist_type == 3:
            diff = (p != q).astype(int) * np.log([self.counts_dict[i].get(p[i], 0)
                                                  for i in range(self.features)]) * \
                np.log([self.counts_dict[i].get(q[i], 0)
                        for i in range(self.features)])
        else:
            raise Exception('Wrong metric')
        dist = np.sum(weights * diff)
        return dist


def knn_predict(X_train, y_train, X_test, pairwise_dist, K=10):
    '''Returns predictions on X_test w.r.t. X_train, y_train, 
    X_test, matrix of pairwise distances pairwise_dist and K neighbors.
    pairwise_dist -- matrix, (ij) = dist from X_test.iloc[i] to X_train.iloc[j].
    '''
    # for each row in X_test,
    #    get k closest rows in X_train and
    #    see which class presents the majority of neighbors
    #    this is the answer for this row of X_test
    print "knn_predict started"
    y_pred = pd.Series(index=X_test.index)
    handled = 0
    for obj_idx in X_test.index:
        knn = np.argpartition(pairwise_dist[handled, :], K, axis=0)
        knn_class = y_train.iloc[knn]
        y_pred[obj_idx] = knn_class.value_counts().idxmax()
        handled += 1
        print '\r{}'.format(handled),
    print
    return y_pred

In [None]:
#dist_cntr = CategoricalDistanceCounter(X_train)
#print dist_cntr.dist(np.array([1, 3, 1]), np.array([3, 2, 1]), np.ones(3), dist_type=1)
#for k in range(1, 4):
#    print dist_cntr.dist(np.array(X_train.iloc[0]), np.array(X_train.iloc[1]), 
#                         np.ones(X_train.shape[1]), dist_type=k)

dist_cntr = CategoricalDistanceCounter(X_train[:20])
y_pred = []
for d in range(1, 4):
    pairwise_dist = cdist(X_test, X_train, 
                          partial(dist_cntr.dist, weights=np.ones(features), dist_type=d))
    y_pred.append(knn_predict(X_train, y_train, X_test, pairwise_dist))


#import cProfile
#cProfile.run('knn_predict(X_train, y_train, X_test[:1], '
#             '            metric=partial(dist_cntr.dist, weights=np.ones(features), '
#             '                           dist_type=2))')

#print(X_test.iloc[3])
#print(sorted(list(dist_cntr.prob[0].index)))
#print dist_cntr.dist(X_test.iloc[3], X_train.iloc[0], np.ones(features), 2)

In [9]:
for d in range(1, 4):
    score = roc_auc_score(y_test, y_pred[d])
    print "AUC-ROC score for dist_type={}: {}".format(d, score)


'\nfor d in range(1, 4):\n    score = roc_auc_score(y_test, y_pred[d])\n    print "AUC-ROC score for dist_type={}: {}".format(d, score)\n'

#### 2 (бонус). Подберите лучшее (на тестовой выборке) число соседей $k$ для каждой из функций расстояния. Какое наилучшее качество удалось достичь?

#### 3. Реализуйте счетчики (http://blogs.technet.com/b/machinelearning/archive/2015/02/17/big-learning-made-easy-with-counts.aspx), которые заменят категориальные признаки на вещественные.

А именно, каждый категориальный признак нужно заменить на три: 
1. Число `counts` объектов в обучающей выборке с таким же значением признака.
2. Число `clicks` объектов первого класса ($y = 1$) в обучающей выборке с таким же значением признака.
3. Сглаженное отношение двух предыдущих величин: (`clicks` + 1) / (`counts` + 2).

Поскольку признаки, содержащие информацию о целевой переменной, могут привести к переобучению, может оказаться полезным сделать *фолдинг*: разбить обучающую выборку на $n$ частей, и для $i$-й части считать `counts` и `clicks` по всем остальным частям. Для тестовой выборки используются счетчики, посчитанный по всей обучающей выборке. Реализуйте и такой вариант. Можно использовать $n = 3$.

#### Посчитайте на тесте AUC-ROC метода $k$ ближайших соседей с евклидовой метрикой для выборки, где категориальные признаки заменены на счетчики. Сравните по AUC-ROC два варианта формирования выборки — с фолдингом и без. Не забудьте подобрать наилучшее число соседей $k$.

In [200]:
def counts(X_train, y_train, X_test):
    smooth_X_test = pd.DataFrame(index=X_test.index, columns=X_test.columns) 
    for col in X_train.columns:
        vc = X_train[col].value_counts()
        vc_dict = vc.to_dict()
        counts = map(lambda el: vc.get(el, 0), X_test[col])
        
        vc_pos = X_train.ix[y_train == 1, col].value_counts()
        vc_pos_dict = vc_pos.to_dict()
        clicks = map(lambda el: vc_pos.get(el, 0), X_test[col])
        
        counts = np.array(counts)
        clicks = np.array(clicks)
        smooth_X_test[col] = (clicks + 1).astype(float) / (counts + 2)
        # storing smooth version of feature in a col with the same name.
    return smooth_X_test


def knn_folded_with_counts(X_train, y_train, X_test, n_folds=3, K=10):
    print "Preparing folded data set with counts..."
    kf = cross_validation.KFold(n=X_train.shape[0], n_folds=n_folds, shuffle=False)
    fold_no = 0
    smooth_X_train = pd.DataFrame(index=X_train.index, columns=X_train.columns, data=0.5)
    for fold_index, rest_index in kf:
        # For fold of train set, counts and clicks are counted based on other parts.
        # For test set, counts and clicks are counted based on a whole train set.
        Xt_fold, Xt_rest = X_train.iloc[fold_index], X_train.iloc[rest_index]
        yt_rest = y_train.iloc[rest_index]
        smooth_Xt_fold = counts(Xt_rest, yt_rest, Xt_fold)
        smooth_X_train.iloc[fold_index, :] = smooth_Xt_fold
    
    smooth_X_test = counts(X_train, y_train, X_test)
    pairwise_dist_f = cdist(smooth_X_test, smooth_X_train, metric='euclidean')
    y_pred_fc = knn_predict(smooth_X_train, y_train, smooth_X_test, pairwise_dist_f, K)
    fold_no += 1
    score = roc_auc_score(y_test, y_pred_fc)
    print 'AUC-ROC with folding: {}'.format(score)
    return smooth_X_train, smooth_X_test

In [201]:
#smooth_X_train = counts(X_train, y_train, X_train)
#smooth_X_test = counts(X_train, y_train, X_test)
#pairwise_dist = cdist(smooth_X_train, smooth_X_test, metric='euclidean')
#y_pred_c = knn_predict(X_train, y_train, X_test, pairwise_dist)
print "AUC-ROC w/o folding: ", roc_auc_score(y_test, y_pred_c)
smooth_X_train, smooth_X_test = knn_folded_with_counts(X_train, y_train, X_test)

AUC-ROC w/o folding:  0.5
Preparing folded data set with counts...
knn_predict started
9831
AUC-ROC with folding: 0.5


In [197]:
# Choosing the best k

# TODO


#### 4. Добавьте в исходную выборку парные признаки — то есть для каждой пары $f_i$, $f_j$ исходных категориальных признаков добавьте новый категориальный признак $f_{ij}$, значение которого является конкатенацией значений $f_i$ и $f_j$. Посчитайте счетчики для этой выборки, найдите качество метода $k$ ближайших соседей с наилучшим $k$ (с фолдингом и без).

In [185]:
def paired(X):
    new_X = pd.DataFrame(index=X.index, columns=[])
    for i in range(features):
        for j in range(i + 1, features):
            new_col_name = X.columns[i] + '+' + X.columns[j]
            new_X[new_col_name] = (X.iloc[:, i].astype(str) + X.iloc[:, j].astype(str)).astype(int)
    return new_X

Xp_train = paired(X_train)
Xp_test = paired(X_test)

In [202]:
#dc = CountsDistCounter(Xp_train, y_train)
#pairwise_dist_p = dc.dist_for_set(Xp_test)
#y_pred_cp = knn_predict(Xp_train, y_train, Xp_test, pairwise_dist_p)
#print "AUC-ROC w/o folding: ", roc_auc_score(y_test, y_pred_cp)
smooth_X_train_p, smooth_X_test_p = knn_folded_with_counts(Xp_train, y_train, Xp_test)

Preparing folded data set with counts...
knn_predict started
9831
AUC-ROC with folding: 0.5


In [204]:
# TODO choose best k


## Часть 2: Решающие деревья и леса

#### 1. Возьмите из предыдущей части выборку с парными признаками, преобразованную с помощью счетчиков без фолдинга. Настройте решающее дерево, подобрав оптимальные значения параметров `max_depth` и `min_samples_leaf`. Какой наилучший AUC-ROC на контроле удалось получить?

In [209]:
clf = tree.DecisionTreeClassifier(max_depth=None, min_samples_leaf=1, random_state=243)
clf.fit(Xp_train, y_train)
yp_pred = clf.predict(Xp_test)
print "Score on Decision Tree: ", roc_auc_score(y_test, yp_pred)

Score on Decision Tree:  0.68646931144


#### 2. Настройте случайный лес, подобрав оптимальное число деревьев `n_estimators`. Какое качество на тестовой выборке он дает?

In [None]:
clf = ensemble.RandomForestClassifier(n_estimators=500, random_state=243)
clf.fit(Xp_train, y_train)
y_pred = clf.predict(Xp_test)
print "Score on Random Forest: ", roc_auc_score(y_test, y_pred)

Score on Random Forest:  0.669502509128


#### 3. Возьмите выборку с парными признаками, для которой счетчики посчитаны с фолдингом. Обучите на ней случайный лес, подобрав число деревьев. Какое качество на тестовой выборке он дает? Чем вы можете объяснить изменение результата по сравнению с предыдущим пунктом?

In [None]:
clf = ensemble.RandomForestClassifier(n_estimators=5000, random_state=243)
clf.fit(smooth_X_train_p, y_train)
y_pred_c = clf.predict(smooth_X_test_p)
print "Score on Random Forest using set of counts: ", roc_auc_score(y_test, y_pred_c)