<center>
<img src="../img/ml_theme.png">
# Майнор "Интеллектуальный анализ данных" 
# Курс "Анализ данных"
<img src="../img/faculty_logo.jpg" height="240" width="240">
## Автор материала: преподаватель ФКН НИУ ВШЭ Кашницкий Юрий
</center>
Материал распространяется на условиях лицензии <a href="http://www.microsoft.com/en-us/openness/default.aspx#Ms-RL">Ms-RL</a>. Можно использовать в любых целях, но с обязательным упоминанием автора курса и аффилиации.

# Семинар 1. Введение
## Часть 2. Соревнование Kaggle Inclass по автострахованию

<a href="https://inclass.kaggle.com/c/hse-minor-20152">Соревнование</a>, исходное <a href="http://microsoftbi.ru/2015/06/06/hackathon2015ml/">описание</a> задачи. 

Задача бинарной классификации. Имеются автомобили, для которых указан регистрационный номер и марка, и выплаты страховой компании по инцидентам с участием данного автомобиля. Страховая компания для себя решает, много она заплатила или мало. 

Объекты - автомобили.

Признаки:

- Регистрационный номер автомобиля (auto_number, уникальный, строка)
- Марка автомобиля (auto_brand, строка)
- Тип выплаты (too_much) (много/мало, 1 или 0)
- Сумма выплаты при попадании водителя в аварию (compensated, целое положительное число)

### Загрузка и первичный анализ данных

In [1]:
from __future__ import division, print_function
# отключим всякие предупреждения Anaconda
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV
from sklearn.metrics import roc_auc_score, accuracy_score, confusion_matrix
%pylab inline
import seaborn as sns
figsize(12, 8)

Populating the interactive namespace from numpy and matplotlib


**Считаем обучающую и тестовую выборку, создав объекты Pandas DataFrame.**

In [2]:
train_df = pd.read_csv("../data/car_insurance_train.csv",
                      header=0, index_col=0)
test_df = pd.read_csv("../data/car_insurance_test.csv",
                           header=0, index_col=0)

In [3]:
train_df.describe(include='all')

Unnamed: 0,auto_number,auto_brand,compensated,too_much
count,817,817,817.0,817.0
unique,497,13,,
top,9499KX178RUS,Ford Focus,,
freq,5,658,,
mean,,,7939.779682,0.516524
std,,,15688.445587,0.500033
min,,,100.0,0.0
25%,,,1000.0,0.0
50%,,,3000.0,1.0
75%,,,8000.0,1.0


In [4]:
train_df.head(10)

Unnamed: 0_level_0,auto_number,auto_brand,compensated,too_much
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Y163O8161RUS,Ford Focus,3200,1
2,E432XX77RUS,Toyota Camry,6500,0
3,7184TT36RUS,Ford Focus,2100,0
4,X582HE161RUS,Ford Focus,2000,1
5,E34877152RUS,Ford Focus,6100,1
6,92918M178RUS,Ford Focus,5700,0
7,E53488152RUS,Ford Focus,1800,1
8,X4128H125RUS,Ford Focus,500,0
9,C593EY154RUS,Ford Focus,1000,0
10,8049HT125RUS,Ford Focus,500,0


In [5]:
test_df.describe(include='all')

Unnamed: 0,auto_number,auto_brand,compensated
count,100,100,100.0
unique,95,9,
top,O718MM163RUS,Ford Focus,
freq,3,81,
mean,,,6712.0
std,,,11093.92663
min,,,100.0
25%,,,1000.0
50%,,,3000.0
75%,,,7050.0


In [6]:
test_df.head()

Unnamed: 0_level_0,auto_number,auto_brand,compensated
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,E29677161RUS,Ford Focus,6000
2,T020MM116RUS,Skoda Octavia,3000
3,C798ET50RUS,Ford Focus,5000
4,Y7719C197RUS,Ford Focus,4600
5,9502XX38RUS,Skoda Octavia,3000


**Распределение признака "марка авто".**

In [7]:
train_df['auto_brand'].value_counts()

Ford Focus            658
Skoda Octavia          51
Volkswagen Golf        24
Volkswagen Passat      21
Toyota Corolla         18
Toyota Camry           17
Ford Mondeo             8
Volkswagen Jetta        7
Volkswagen Touareg      4
BMW                     3
Volkswagen              3
Volvo                   2
Audi                    1
Name: auto_brand, dtype: int64

In [None]:
train_df['auto_brand'].value_counts().plot(kind='bar')

<matplotlib.axes._subplots.AxesSubplot at 0x1f5c9438>

In [None]:
test_df['auto_brand'].value_counts()

In [None]:
test_df['auto_brand'].value_counts().plot(kind='bar', color='green')

**Распределение признака "сумма выплат".**

In [None]:
train_compensated = train_df['compensated'].value_counts()
train_compensated.head()

In [None]:
train_compensated.plot(kind='bar')

**Распределение степенное. Отсортируем по выплатам.**

In [None]:
train_df.sort_index(by='compensated')['compensated'].value_counts().sort_index().plot(kind="bar")

**То же самое, только для выплат < 2000.**

In [None]:
train_df[train_df['compensated'] < 2000]['compensated'].value_counts().plot(kind='bar', by='compensated')

In [None]:
train_df[train_df['compensated'] < 2000].sort_index(by='compensated')['compensated']\
.value_counts().sort_index().plot(kind="bar")

In [None]:
test_df.sort_index(by='compensated')['compensated'].value_counts().sort_index().plot(kind="bar", 
                                                                                     color='green')

**Посмотрим на распеределение классов в обучающей выборке.**

In [None]:
train_df['too_much'].value_counts()

**Распределение сумм выплат при разных марках автомобиля с указанием целевого класса.**

In [None]:
target_groups = train_df.groupby('too_much')
for name, group in target_groups:
    auto_brand_cat = pd.Categorical(group['auto_brand'], categories=group['auto_brand'].unique())
    plot(auto_brand_cat.codes, group['compensated'], marker='o', linestyle='', ms=12, label=name)
    legend()

In [None]:
num_unique_brands = len(train_df['auto_brand'].unique())
fig, axes = subplots(nrows=num_unique_brands, ncols=1)

brand_groups = train_df.groupby('auto_brand')
for brand_id, (brand_name, sub_df) in enumerate(brand_groups):
    colors = ['red' if too_much else 'green' 
              for too_much in sub_df['too_much']]
    sub_df['compensated'].value_counts().sort_index().plot(kind="bar", color=colors, 
                                                     ax=axes[brand_id], 
                                                     figsize=(16, 10 * num_unique_brands))
    axes[brand_id].set_title(brand_name)

**Видно, что целевой класс плохо предсказывается только суммой выплат.**

In [None]:
train_df['too_much'].corr(train_df['compensated'])

Значит, есть какие-то неучтенные факторы. Можно, например, попробовать извлечь из номера автомобиля номер регион. Но это позже. Пока поработаем с тем, что есть. Построим на имеющейся выборке дерево решений.

### Подготовка данных

In [None]:
train_df = pd.concat(ap, axis=1)
test_df = pd.concat([test_df, pd.get_dummies(test_df['auto_brand'], prefix='brand')], axis=1)

In [None]:
train_df.head()

In [None]:
test_df.head()

In [None]:
train_df.shape, test_df.shape

**В тестовой выборке нет некоторых марок автомобилей. Создадим для них явно dummy-признаки с нулями.**

In [None]:
set(train_df.columns) - set(test_df.columns)

In [None]:
test_df['brand_Audi'] = [0] * test_df.shape[0]
test_df['brand_Volkswagen'] = [0] * test_df.shape[0]
test_df['brand_Volkswagen Touareg'] = [0] * test_df.shape[0]
test_df['brand_Volvo'] = [0] * test_df.shape[0]

**Больше не нужны признаки `auto_number` и `auto_brand`. Также вынесем целевой признак в отдельный вектор (точнее, объект pandas Series).**

In [None]:
y = train_df['too_much']

train_df.drop(['auto_number', 'auto_brand', 'too_much'], axis=1, inplace=True)
test_df.drop(['auto_number', 'auto_brand'], axis=1, inplace=True)

In [None]:
train_df.head()

In [None]:
test_df.head()

In [None]:
train_df.shape, test_df.shape

### Обучение дерева решений sklearn.tree.DecisionTreeClassifier

**Пока используем дерево решений без настройки параметров ("из коробки"). <a href="http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html">Документация</a> Scikit-learn по данному классу.**

In [None]:
# make an instance of decision tree classifier
first_tree = DecisionTreeClassifier(max_depth=5)

# fit feautures and target (train set and corresponding labels) to the classifier
first_tree.fit(train_df, y)

### Предсказание выплат для тестовой выборки

**Предсказываем метки для объектов тестовой выборки.** 

In [None]:
predicted_labels = first_tree.predict(test_df)

**Запишем ответы в csv-файл (для отправки в Kaggle). Для этого напишем специальную функцию.**

In [None]:
def write_to_submission_file(predicted_labels, out_file,
                             target='too_much', index_label="id"):
    # turn predictions into data frame and save as csv file
    predicted_df = pd.DataFrame(predicted_labels,
                                index = np.arange(1, predicted_labels.shape[0] + 1),
                                columns=[target])
    predicted_df.to_csv(out_file, index_label=index_label)

In [None]:
write_to_submission_file(predicted_labels, "../output/first_tree_prediction.csv")

In [None]:
# export tree visualization
# after that $ dot -Tpng tree.dot -o tree.png (PNG format)
export_graphviz(first_tree, out_file="../output/first_tree.dot")

<img src="../img/first_tree.png">

Картинка в формате pdf: `../img/first_tree.pdf`

**Сравним сразу с ответами (в качестве демонстрации, в реальной задаче ответы, конечно, неизвестны).**

In [None]:
try:
    expected_labels_df = pd.read_csv("../data/car_insurance_test_labels.csv",
                                     header=0, index_col=0)
    expected_labels = expected_labels_df['too_much']
    print(roc_auc_score(predicted_labels, expected_labels))
except IOError:
    print("You shouldn't know the answers, but this results in ~ 0.65 ROC AUC")

### Настройка параметров GridSearch

**Указываем наборы параметров дерева решений (критерий поиска лучшего разбиения, максимальная глубина, минимальное число объектов в листе), каждое их сочетание будет проверяться в процессе кросс-валидации (о ней чуть позже).**

In [None]:
# tree params for grid search
tree_params = {'criterion': ('gini', 'entropy'), 
               'max_depth': list(range(1,11)), 
               'min_samples_leaf': list(range(1,11))}

locally_best_tree = GridSearchCV(DecisionTreeClassifier(), 
                                 tree_params, 
                                 verbose=True, n_jobs=1, cv=5)
locally_best_tree.fit(train_df, y)

**Лучшая из перебранных комбинаций параметров:**

In [None]:
locally_best_tree.best_estimator_

In [None]:
locally_best_tree.best_params_

In [None]:
locally_best_tree.best_score_

In [None]:
try:
    predicted_labels = locally_best_tree.predict(test_df)
    print(roc_auc_score(predicted_labels, expected_labels))
except NameError:
    print("You shouldn't know the answers, but this results in ~ 0.75 ROC AUC")

**На Kaggle у этого решения результат - 0.64. Это на половине тестовой выборки, вторая половина откроется в самом конце соревнования.**

In [None]:
write_to_submission_file(predicted_labels, "../output/tuned_tree_prediction.csv")

In [None]:
export_graphviz(locally_best_tree.best_estimator_, out_file="../output/locally_best_tree.dot")

<img src="../img/locally_best_tree.png">

Картинка в формате pdf: `../img/locally_best_tree.pdf`

In [None]:
try:
    print(accuracy_score(predicted_labels, expected_labels))
    print(confusion_matrix(y_pred=predicted_labels, y_true=expected_labels))
except NameError:
    print("You shouldn't know the answers, but this results in ~ 0.71 accuracy score")

### Обучение cлучайного леса sklearn.ensemble.RandomForestClassifier

Про случайный лес подробней поговорим позже. Интуитивно: улучшение качества классификации по сравнению с одни деревом решений происходит потому, что разделяющая поверхность одного дерева - многомерный параллелепипед, тогда как граница, построенная Random Forest, получается более сложной.  

In [None]:
# tree params for grid search
forest_params = {'n_estimators': [100, 500],
                'criterion': ('gini', 'entropy'), 
               'max_depth': list(range(1,5)), 
               'min_samples_leaf': list(range(1,5))}

locally_best_forest = GridSearchCV(RandomForestClassifier(), 
                                 forest_params, 
                                 verbose=True, n_jobs=1, cv=5)
locally_best_forest.fit(train_df, y)

In [None]:
locally_best_forest.best_params_, locally_best_forest.best_score_

In [None]:
try:
    predicted_labels = locally_best_forest.predict(test_df)
    print(roc_auc_score(predicted_labels, expected_labels))
except NameError:
    print("You shouldn't know the answers, but this results in ~ 0.72 ROC AUC")

**Здесь проявляется эффект переобучения, который будет рассмотрен позже в этом курсе.**

## Ссылки
- <a href="https://inclass.kaggle.com/c/hse-minor-20152">Соревнование</a> на сайте Kaggle Inclass
- Исходное <a href="http://microsoftbi.ru/2015/06/06/hackathon2015ml/">описание</a> задачи
-  Документация Scikit-learn по классам <a href="http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html">DecisionTreeClassifier</a> и <a href="http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html">RandomForestClassifier</a>