# Лабораторная работа 2. Метод ближайших соседей и решающие деревья.

ФИО: Севастопольский Артем

Группа: 317

In [10]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.metrics import roc_auc_score
from scipy.spatial.distance import cdist
from functools import partial

Все эксперименты в этой лабораторной работе предлагается проводить на данных соревнования Amazon Employee Access Challenge: https://www.kaggle.com/c/amazon-employee-access-challenge

В данной задаче предлагается предсказать, будет ли одобрен запрос сотрудника на получение доступа к тому или иному ресурсу. Все признаки являются категориальными.

Для удобства данные можно загрузить по ссылке: https://www.dropbox.com/s/q6fbs1vvhd5kvek/amazon.csv

Сразу прочитаем данные и создадим разбиение на обучение и контроль:

In [4]:
data = pd.read_csv('amazon.csv')
data.head()

Unnamed: 0,ACTION,RESOURCE,MGR_ID,ROLE_ROLLUP_1,ROLE_ROLLUP_2,ROLE_DEPTNAME,ROLE_TITLE,ROLE_FAMILY_DESC,ROLE_FAMILY,ROLE_CODE
0,1,39353,85475,117961,118300,123472,117905,117906,290919,117908
1,1,17183,1540,117961,118343,123125,118536,118536,308574,118539
2,1,36724,14457,118219,118220,117884,117879,267952,19721,117880
3,1,36135,5396,117961,118343,119993,118321,240983,290919,118322
4,1,42680,5905,117929,117930,119569,119323,123932,19793,119325


In [5]:
data.shape

(32769, 10)

In [6]:
# доля положительных примеров
data.ACTION.mean()

0.94210992096188473

In [7]:
# число значений у признаков
for col_name in data.columns:
    print col_name, len(data[col_name].unique())

ACTION 2
RESOURCE 7518
MGR_ID 4243
ROLE_ROLLUP_1 128
ROLE_ROLLUP_2 177
ROLE_DEPTNAME 449
ROLE_TITLE 343
ROLE_FAMILY_DESC 2358
ROLE_FAMILY 67
ROLE_CODE 343


In [8]:
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data.iloc[:, 1:], data.iloc[:, 0],
                                                    test_size=0.3, random_state=241)
features = X_train.shape[1]

## Часть 1: kNN и категориальные признаки

#### 1. Реализуйте три функции расстояния на категориальных признаках, которые обсуждались на втором семинаре. Реализуйте самостоятельно метод k ближайших соседей, который будет уметь работать с этими функциями расстояния. Подсчитайте для каждой из них качество на тестовой выборке `X_test` при числе соседей $k = 10$. Метрика качества — AUC-ROC.

Какая функция расстояния оказалась лучшей?

In [35]:
import bisect

class CategoricalDistanceCounter(object):
    def __init__(self, X_train):
        self.objects, self.features = X_train.shape
        self.counts = [pd.value_counts(X_train.ix[:, col]) for col in X_train.columns]
        # `counts[i]` is a Series that shows how many times value `i` appears in col № i.
        # `counts` depends on X_train.
        self.prob = [(cnt / len(X_train)).sort(inplace=False) for cnt in self.counts]
        self.prob_hit = [cnt * (cnt - 1) / self.objects / (self.objects - 1) for cnt in self.counts]
        # `prob_hit` is estimate of probability that two objects have the same feature value.
    
    def dist(self, p, q, weights=None, dist_type=None):
        '''Accepts dist_type=1, 2 or 3.
        p, q and weights should be numpy vectors of the same length.
        '''
        dist = None
        if dist_type == 1:
            diff = (p != q).astype(int)
        elif dist_type == 2:
            last_pos = [bisect.bisect_right(np.array(self.prob[i]), self.prob[i].ix[p[i]])
                        for i in range(self.features)]
            appr_prob = [np.sum(self.prob_hit[i][:last_pos[i]])
                         for i in range(self.features)]
            diff = (p != q).astype(int) + (p == q).astype(int) * appr_prob
        elif dist_type == 3:
            diff = (p != q).astype(int) * np.log([self.counts[i][p[i]]
                                                  for i in range(self.features)])
        else:
            raise Exception('Wrong metric')
        dist = np.sum(weights * diff)
        return dist


def knn_predict(X_train, y_train, X_test, metric, K=10):
    '''Returns predictions on X_test w.r.t. X_train, y_train, 
    metric dist and K neighbors.'''
    
    # for each row in X_test,
    #    get k closest rows in X_train and
    #    see which class presents the majority of neighbors
    #    this is the answer for this row of X_test
    print "knn_predict started\n"
    y_pred = pd.Series(index=X_test.index)
    X_train_array = np.array(X_train)
    handled = 0
    for obj_idx, obj in X_test.iterrows():
        obj = np.array(obj)
        # calculating distance from obj to all objects from X_train
        dist = cdist(obj[np.newaxis, :], X_train_array, metric)[0]
        knn = np.argpartition(dist, K, axis=0)
        knn_class = y_train.iloc[knn]
        y_pred[obj_idx] = knn_class.value_counts().idxmax()
        handled += 1
        print handled,
    return y_pred
    

#dist_cntr = CategoricalDistanceCounter(X_train)
#print dist_cntr.dist(np.array([1, 3, 1]), np.array([3, 2, 1]), np.ones(3), dist_type=1)
#for k in range(1, 4):
#    print dist_cntr.dist(np.array(X_train.iloc[0]), np.array(X_train.iloc[1]), 
#                         np.ones(X_train.shape[1]), dist_type=k)

dist_cntr = CategoricalDistanceCounter(X_train)
#y_pred = [knn_predict(X_train, y_train, X_test, 
#                      metric=partial(dist_cntr.dist, weights=np.ones(features), 
#                                   dist_type=d))
#          for d in range(2, 4)]    # Starts from 2!!!

print dist_cntr.dist(X_test.iloc[3], X_train.iloc[0], np.ones(features), 2)

KeyError: 40158

In [28]:
print dist_cntr.prob_hit

'''
for d in range(1, 4):
    score = roc_auc_score(y_test, y_pred[d])
    print "AUC-ROC score for dist_type={}: {}".format(d, score)
'''

[4675      0.000654
79092     0.000208
75078     0.000168
3853      0.000162
25993     0.000148
75834     0.000094
32270     0.000084
6977      0.000083
42085     0.000059
17308     0.000057
1020      0.000052
13878     0.000042
42093     0.000042
18418     0.000035
7543      0.000031
278393    0.000024
23921     0.000024
34924     0.000023
79121     0.000022
28149     0.000019
20364     0.000019
14354     0.000019
18072     0.000017
23096     0.000013
39262     0.000013
15064     0.000011
33054     0.000011
20897     0.000010
33642     0.000010
75901     0.000009
            ...   
41111     0.000000
19295     0.000000
70335     0.000000
30842     0.000000
38809     0.000000
78848     0.000000
79709     0.000000
75631     0.000000
78832     0.000000
84975     0.000000
35815     0.000000
20338     0.000000
80865     0.000000
42879     0.000000
28550     0.000000
36746     0.000000
30629     0.000000
40904     0.000000
74690     0.000000
43955     0.000000
35751     0.000000
934       0

'\nfor d in range(1, 4):\n    score = roc_auc_score(y_test, y_pred[d])\n    print "AUC-ROC score for dist_type={}: {}".format(d, score)\n'

#### 2 (бонус). Подберите лучшее (на тестовой выборке) число соседей $k$ для каждой из функций расстояния. Какое наилучшее качество удалось достичь?

#### 3. Реализуйте счетчики (http://blogs.technet.com/b/machinelearning/archive/2015/02/17/big-learning-made-easy-with-counts.aspx), которые заменят категориальные признаки на вещественные.

А именно, каждый категориальный признак нужно заменить на три: 
1. Число `counts` объектов в обучающей выборке с таким же значением признака.
2. Число `clicks` объектов первого класса ($y = 1$) в обучающей выборке с таким же значением признака.
3. Сглаженное отношение двух предыдущих величин: (`clicks` + 1) / (`counts` + 2).

Поскольку признаки, содержащие информацию о целевой переменной, могут привести к переобучению, может оказаться полезным сделать *фолдинг*: разбить обучающую выборку на $n$ частей, и для $i$-й части считать `counts` и `clicks` по всем остальным частям. Для тестовой выборки используются счетчики, посчитанный по всей обучающей выборке. Реализуйте и такой вариант. Можно использовать $n = 3$.

#### Посчитайте на тесте AUC-ROC метода $k$ ближайших соседей с евклидовой метрикой для выборки, где категориальные признаки заменены на счетчики. Сравните по AUC-ROC два варианта формирования выборки — с фолдингом и без. Не забудьте подобрать наилучшее число соседей $k$.

In [None]:
class CountersDistCounter(object):
    def __init__(self, X_train):
        #self.counts = 
        #self.clicks =
    def dist(self, p, q):
        

#### 4. Добавьте в исходную выборку парные признаки — то есть для каждой пары $f_i$, $f_j$ исходных категориальных признаков добавьте новый категориальный признак $f_{ij}$, значение которого является конкатенацией значений $f_i$ и $f_j$. Посчитайте счетчики для этой выборки, найдите качество метода $k$ ближайших соседей с наилучшим $k$ (с фолдингом и без).

## Часть 2: Решающие деревья и леса

#### 1. Возьмите из предыдущей части выборку с парными признаками, преобразованную с помощью счетчиков без фолдинга. Настройте решающее дерево, подобрав оптимальные значения параметров `max_depth` и `min_samples_leaf`. Какой наилучший AUC-ROC на контроле удалось получить?

#### 2. Настройте случайный лес, подобрав оптимальное число деревьев `n_estimators`. Какое качество на тестовой выборке он дает?

#### 3. Возьмите выборку с парными признаками, для которой счетчики посчитаны с фолдингом. Обучите на ней случайный лес, подобрав число деревьев. Какое качество на тестовой выборке он дает? Чем вы можете объяснить изменение результата по сравнению с предыдущим пунктом?