# Машинное обучение и майнинг данных
## Домашнее задание №2 - Линии безразличия, RandomForest


<hr\>
**Общая информация**

**Срок сдачи:** 28 февраля 2017, 23:59 <br\>
**Штраф за опоздание:** -1 за каждый день

При отправлении ДЗ указывайте фамилию в названии файла<br\>

Сопровождайте ваш код изображеними, комментариями и выводами. <br\>
Иммейте ввиду, что на некоторые задачи нет единственного верного и полного ответа. Чем больше информации вы сможете извлечь, аргументированных выводов сформулировать, тем лучше.

Используйте данный Ipython Notebook при оформлении домашнего задания.
<hr\>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (16,6)

# Линии безразличия (iso-lines)
Немного углубимся в пространство ROC-кривых.

Напоминание:

Пусть $y^{(i)}$ - истинная метка класса для $i$-го объекта, а $\hat{y}^{(i)}=a(x^{(i)})$ - метка, полученная алгоритмом. Матрица перемешивания имеет вид:


<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;border:none;}
.tg td{font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:0px;overflow:hidden;word-break:normal;}
.tg th{font-family:Arial, sans-serif;font-size:14px;font-weight:normal;padding:10px 5px;border-style:solid;border-width:0px;overflow:hidden;word-break:normal;}
.tg .tg-s6z2{text-align:center}
.tg .tg-baqh{text-align:center;vertical-align:top}
.tg .tg-yw4l{vertical-align:top}
</style>
<table class="tg">
  <tr>
    <th class="tg-031e" colspan="2" rowspan="2"><br></th>
    <th class="tg-s6z2" colspan="2">Истинное значение</th>
  </tr>
  <tr>
    <td class="tg-s6z2">1</td>
    <td class="tg-baqh">0</td>
  </tr>
  <tr>
    <td class="tg-031e" rowspan="2">Предсказание</td>
    <td class="tg-s6z2">1</td>
    <td class="tg-s6z2">TP<br></td>
    <td class="tg-baqh">FP</td>
  </tr>
  <tr>
    <td class="tg-baqh">0</td>
    <td class="tg-baqh">FN<br></td>
    <td class="tg-baqh">TN</td>
  </tr>
  <tr>
    <td class="tg-yw4l"></td>
    <td class="tg-baqh"></td>
    <td class="tg-baqh">Pos<br></td>
    <td class="tg-baqh">Neg</td>
  </tr>
</table>

* $TP$ (true positive) - количество верно предсказанных объектов класса 1
* $FP$ (false positive) - количестно неверно  предсказанных объектов класса 0 (ошибка первого рода)
* $FN$ (false negative) - количестно неверно  предсказанных объектов класса 1 (ошибка второго рода)
* $TN$ (true negative) - количестно верно  предсказанных объектов класса 0
* $TPR = \frac{TP}{TP + FN}=\frac{TP}{Pos}$
* $FPR = \frac{FP}{FP + TN} = \frac{FP}{Neg}$

Вспомним, что такое accuracy и добавим немного базовой алгебры:
* $ \text{accuracy} = \frac{TP + TN}{Pos+Neg} = \frac{Pos}{Pos + Neg}\frac{TP}{Pos} + \frac{Neg}{Pos+Neg}\frac{TN}{Neg} = r_P \cdot TPR + r_N (1-FPR)$
* $r_P$ и  $r_N$ - это доли положительного и отрицательного класса в данных, мы их можем посчитать

Как мы знаем, ROC-кривая строится в пространстве $TPR$ и $FPR$ при различных порогах. То есть, по сути для каждого значения порога $t$ переопределяется матрица перемешивания, а значит в зависимости от $t$ будут разные значения $TPR$ и $FPR$. Учтем этот факт в формуле для $\text{accuracy}$ следующим образом:
* $ \text{accuracy} = r_P \cdot TPR(t) + r_N (1-FPR(t))$

Теперь завиксируем какое-то конкретное значение $\text{accuracy} = a$ и мы сможем получить линии безразличия в пространстве $TPR$, $FPR$:

$$ TPR(t) = \frac{a - r_N}{r_P}  + \frac{r_N}{r_P}FPR(t)$$

Для любой точке, в которой выполняется это равенство метрика $\text{accuracy}$ будет одинаковой и равной `a`.

#### Задание

Изобраизите линии безразличия для `rn = [0.2, 0.5, 0.7]` и `accuracy` от `0.1` до `1` c шагом `0.1` (для каждого `rn` отдельный график)

In [None]:
fig, ax = plt.subplots(1,3)

for i, rn in enumerate([0.2, 0.5, 0.7]):
    # Your Code Here
        
    ax[i].set_title('rn = %.1f' % rn)
    ax[i].set_xlabel('FPR')
    ax[i].set_ylabel('TPR')

Если вы все сделали правильно, то вы должны увидеть следующее:
* Чем выше `rn` тем сильнее возрастание линии
* Чем выше линия, тем `accuracy` выше

Рассмотрим пример ниже:

Пусть есть два алгоритма со следующими показателями $FPR$ и $TPR$:

* `alg1: 0.6, 0.8375`
* `alg2: 0.4, 0.72`

Построим линию безразличия для `accuracy = 0.75`

Если доля отрицательного класса в данных равна `20%` то:
* `alg1` лучше `alg2` (по метрике `accuracy`), так как он находится ниже линии безразличия
* любой алгоритм лежаший на соответствующей линии безразличия будет лучше `alg2` (по метрике `accuracy`)
* любой алгоритм лежаший над линией безразличия будет лучше `alg1` (по метрике `accuracy`)

In [None]:
plt.figure(figsize=(6,6))

rn = 0.2 # Доля отрицательного класса
rp = 1-rn

a = 0.75

alg1 = (0.6, 0.8375)
alg2 = (0.4, 0.72)

plt.scatter(alg1[0], alg1[1], color='r', marker='*', s=200)
plt.text(alg1[0], alg1[1], 'Algorithm 1', )

plt.scatter(alg2[0], alg2[1], color='g', marker='s', s=200)
plt.text(alg2[0], alg2[1], 'Algorithm 2', )

fpr = np.linspace(0,1,10)
tpr = (a - rn)/rp + (rn/rp)*fpr
plt.plot(fpr, tpr, label='accuracy = %.2f' %a)
plt.xlim(0,1)
plt.ylim(0,1)
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.legend()

#### Задание

При какой доле отрицательных примеров (`rn`) алгоритм `alg2` окажется лучше `alg1` (по метрике `accuracy`)

In [None]:
## Your Code Here

Можно вывести аналогичные формулы линий безразличия для других метрик качества бинарной классификации и произвольной функции полезности, после чего можно выбирать модель и/или оптимальный порог.

### Полезные ссылки:

* http://blog.mldb.ai/blog/posts/2016/01/ml-meets-economics/

# Задача об отклике клиентов

В этом домашнем задании мы поработаем с данными, которые использовались на [старом конкурсе по анализу данных](http://www.machinelearning.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BE%D1%82%D0%BA%D0%BB%D0%B8%D0%BA%D0%B0_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%9E%D0%A2%D0%9F_%D0%91%D0%B0%D0%BD%D0%BA%D0%B0_%28%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81%29):

```
Один из способов повышения эффективности взаимодействия банка с клиентами заключается в том, чтобы отправлять предложение о новой услуге не всем клиентам банка, а только некоторой части, выбираемой по принципу наибольшей склонности к отклику на данное предложение.

Конкурсное задание заключается в том, чтобы предложить алгоритм, который будет выдавать оценку склонности клиента к положительному отклику по его признаковому описанию. 
Эта оценка может (хотя и не обязана) интерпретироваться как вероятность положительного отклика. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем клиентам, у которых значение оценки выше некоторого порога. 

Целевая мера качества - ROC-AUC
```


Я немного перемешал данные и запустил конкурс на Kaggle (ссылка скоро будет). О том, как с ним работать - расскажу на занятии, если будут вопросы.

## Задайте random seed

Это очень важно и нужно для репродуктивности ваших результатов.

Используйте заданное значение во всех функциях и методах где есть "случайность"

In [None]:
RND_SEED = ...

## Загрузите данные
Исходные данные лежат в excel - для загрузки в pandas есть соответствующая функция.

* Поле AGREEMENT_RK - идентификатор пользователя (не забудьте исключить из признаков)
* Поле TARGET - целевая переменная
* Описание остальных полей можно найти в файле `descr.txt`.

In [None]:
## Your Code Here

## Предобработка

####  Задание

Подготовьте процедуры предобработки данных:

* Используйте только "простые" признаки - все кроме `['EDUCATION', 'FACT_ADDRESS_PROVINCE', 'FAMILY_INCOME', 'GEN_INDUSTRY', 'GEN_TITLE', 'JOB_DIR', 'MARITAL_STATUS', 'ORG_TP_FCAPITAL', 'REGION_NM', 'REG_ADDRESS_PROVINCE', 'ORG_TP_STATE', 'POSTAL_ADDRESS_PROVINCE', 'TP_PROVINCE']`
* Заполните пропуски

Затем разбейте обработанный `DataFrame` на обучающую и валидационную часть в пропорции 80/20
Получите переменные `X_train`, `X_test` - матрицы объект признак, и `y_train`, `y_test` - вектора с ответами.

In [None]:
## Your Code Here

## Дисбаланс классов - взвешивание

Первое, что можно обнаружить - довольно сильный дисбаланс классов.

#### Задание

Выведите долю объектов положительного класа

In [None]:
## Your Code Here

Есть много методов работы с несбалансированной выборкой. Одна группа таких методов - взвешивание объектов обучающей выборки.

Каждому объекты присваивается вещественное число - вес объекта. Например, если в данных $r_P/r_N = 1/3$, то каждому объекту из положительного класса присваивается вес $w_P=1$, а объекту отрицательного класса - $w_N=0.333$. Таким образом, один объект положительного класса будет соответствовать трем объектам отрицательного класса.

Веса органично встраиваются во многие методы машинного обучения:
* В линейной регрессии - взвешивается ошибка на соответствующем объекте
* В kNN - модифицируется вклад объекта в предсказание класса
* В деревьях решений - модифицируются $p_k$ в мерах неопределенности и в листах
* ...

Посмотрим, как предсказание случайного леса изменится при такой балансировке:

#### Задание

Обучите 3 варианта случайного леса с разными способами задания весов:
* `class_weight=None`
* `class_weight='balanced'`
* `class_weight='balanced_subsample'`

При этом задайте `max_depth=4`. Для каждой модели выведите гистограмму распределения "вероятности" положительного класса на тех же данных. В чем отличие полученных результатов?

In [None]:
## Your Code Here

P.S.

* Такая балансировка иногда может улучить результаты метода машинного обучения - если не с точки зрения меры качества (на AUC может влиять слабо), то хотя бы с точки зрения адекватности предсказания.
* Вы можете вводить произвольные веса объектов с помощью аргумента  `sample_weight` в методе `.fit()`.


### Дисбаланс классов - кросс-валидация

В sklearn есть [много](http://scikit-learn.org/stable/modules/classes.html#splitter-classes) способов делить данные для кросс-валидации. Сейчас мы рассмотрим 2: обычный `KFold` и `StratifiedKFold`. Особенность последнего заключается в том, что в каждом фолде, пропорция классов в обучающей валидационной частях будет одинаковой.

#### Задание

Проверьте, что пропорции классов в `KFold` разные, а в `StratifiedKFold` одинаковы (незначительно отличаются).

In [None]:
try:
    from sklearn.model_selection import StratifiedKFold, KFold
except ImportError:
    from sklearn.cross_validation import StratifiedKFold, KFold

In [None]:
## Your Code Here

## Оценка гипер-параметров

#### Задание

* С помощью `RandomSearchCV` или `GridSearchCV` подберите гиперпараметры случайного леса на `X_train`
* Сравните полученное значение `roc-auc` 
    * при кросс-валидации c выбранными вами гиперпараметрами
    * при валидации на `X_test`. <br/>Они должны получится похожими
* Сравните полученное значение `roc-auc` на `X_train` и `X_test`, постройте roc-кривые. Скорее всего значение на `X_train` будет значительно (примерно на 0.2) выше. Это признаки переобучения (Если вы ничего похожего не замечаете - вам повезло =) )

Тут возникает двоякая ситуация. С одной стороны, кросс-валидационная (и оценка на `X_test`) модели максимальна, но модель явно переобучена. В "продакшн" такую модель выдавать опасано, но на конкурсе она может оказаться одной из лучших..

Если переобучение для вас критично - понижайте сложность модели (для случайного леса это следующие параметры: глубина, количество деревьев, количество признаков, критерии ветвления)

In [None]:
## Your Code Here

## Важность признаков

#### Задание
Выведите важность признаков выбранной модели

In [None]:
## Your Code Here

## Добавление остальных признаков

#### Задание

Подготовте процедуры, дополнительно включающие предобработку признаков, которые были ранее исключены.

Обратите внимание, что не для всего обязательно делать OneHotEncoding: например, для уровня образования или уровня дохода семьи достаточно (для деревьев) упорядочить категории и присвоить каждой из них "позицию" в этом ранжировании:

`EDUCATION: 
(Неполное среднее < Среднее < Среднее специальное < Неоконченное высшее < Высшее < Два и более высших образования < Ученая степень) <=>
(0 < 1 < 2 < 3 < 4 < 5 < 6)`

* Все категориальные переменные включать необязательно
* Изменяйте категориальные переменные, например заменяйте редкие категории на "Другое", чтобы избежать переобучения

In [None]:
## Your Code Here

## Подбор гиперпараметров и подготовка файла с ответами
#### Задание

* Подберите гиперпараметры модели
* Загрузите файл `data_test_nolabel.xlsx`
* Используйте написанные процедуры для предобработки этой таблицы
* Примените обученную модель на навых данных и подготовьте файл следующего формата:

`
AGREEMENT_RK,TARGET
13408,0.1
6132,0.4
10826,0.4
`

* Загрузите файл на страницу соревнования (скоро будет ссылка)
* Рвитесь к победе =)

In [None]:
## Your Code Here