# День 3. Классификация, деревья решений

## 1. Теория

В машинном обучении выделяют 2 типа обучения: с учителем (supervised) и без учителя (unsupervised).<br>
Для обучения с учителем данные должны содержать вектор меток (целевой признак), по которому и происходит обучение алгоритма. Получение вектора меток - это отдельная задача, которая может быть весьма трудозатратной и не всегда прозрачной.<br>
Основные представители обучения с учителем - это классификация и регрессия:
 - Задачи классификация выполняют распределение наблюдений к тем или иным заданным группам (меткам). Количество таких меток счетно и ограничено. В зависимости от количества значений выделяют бинарную и множественная классификацию. Иногда в задачах классификации помимо замого значения метки требуется дополнительно рассчитать вероятность для этой метки для исследуемого наблюдения. Типичная задача: кредитный скорин.<br>
 - Задачи регрессии выполняют расчет фактического значения искомого параметра по заданным значениям признаков. В задачах регрессии значения меток вещественны. 

Основные методы классификации: 
 - метрические: <b>kNN</b>, ядра;
 - "деревянные": <b>деревья</b>, бустинг, случайных лес;
 - линейные: <b>логистическая регрессия</b>.<br>

В качестве первых моделей при анализе рекомендуется использовать типичных представителей каждого вида. Это позволит быстро получить первый вариант, от которого можно отталкиваться для дальнейшего улучшения модели.<br>
<i>Например, деревья отлично работают, если в наборе есть киллер-фича (с высокой точностью определяет целевой показатель) и много "шума": дерево, скорее всего, будет низким ("пенёк") и с хорошей точностью. Метод ближайших соседей на том же наборе, скорее всего, покажет куда более низкую эффективность из-за неспособности отделить полезный признак от "шума".

### 1.1. Дерево решений (decision tree)

Дерево решений - наиболее простой и часто используемый метод классификации. Метод выполняет формирование дерева решений (графа), в кажддом из узлов которого задется проверяемое условие. На каждом шаге происходит поиск признака, который лучшим образом разбивает выборку.<br>
На обучающей выборке деревья могут достигать высокой точности, которая, однако, не обязательно сохранится и на тестовой из-за проблемы переобучения (модель очень точно подстраивается под обучающую выборку, которая может не совпадать с тестовой; на обучающей выборке модель будет показывать результаты лучше, чем на любой другой). Для уменьшения риска переобучения, как правило, ограничивают глубину дерева (гиперпараметр max_depth): при этом дерево учитывает основные признаки, но не уходит глубоко в детали. Поиск оптимальной глубины обычно выполняется с помощью кросс-валидации для деревьев с разными значениями гиперпараметра.

Основные плюсы:
 - Быстро обучаются;
 - Почти не чувствительны к выбросам;
 - Не требуется масштабирование;
 - Интерпретируемы (понимание принципов работы алгоритма человеком);
 - Очень быстро строятся;
 - Используются в основе случайного леса и бустинга.

Основные минусы:
 - Склонно к переобучению;
 - Легко перестраивается при изменении входных данных (может достаточно сильно);
 - Плохое качество;
 - Из-за своих недостатков в чистом виде деревья почти не применяются.

### 1.2. Метод ближайших соседей (kNN)

Метод ближайших соседей оперирует пространством признаков, в котором каким-то образом располагаются налюдения. Метод базируется на гипотезе компактности (объекты одного класса находятся близко друг к другу в пространстве признаков). В основе метода лежит алгоритм поиска k-ближайших соседей (гиперпараметр, обычно нечетное количество для уменьшения вероятности спорных событий) для проверяемого наблюдения. В качестве метрики используется либо "принцип большинства", либо другие расчетные метрики (второй гиперпараметр, по-умолчанию, это евклидово расстояние между объектами). На метод оказывает сильное влияние "масштаб" признаков (больший разброс приводит к большей значимости признака), поэтому часто используется в совокупности с заданными весами (третий гиперпараметр. по-умолчанию, все веса одинаковые).<br>
Метод является метрическим (производится расчет расстояния) и относится к группе ленивых (lazy) - до момента появляения исследуемого объекта никаких вычислений не производится.<br>
Настройка метода выполняется с помощью подборки весов, метрики и/или количества соседей с помощью кросс-валидации, что негативно сказывается на времени расчета. При мальньком значении гиперпараметра k склонно к переобучению, при больших - к недообучение.

Основные плюсы:
 - Быстрый;
 - "Интерпретируемый".

Основные минусы:
 - Чувствителен к выбросам;
 - Нужна нормализация признаков (выравнивание масштаба);
 - Плохое качество.

### 1.3. Кросс-валидация

Для проверки модели с учителем используют принцип разбиения выборки на обучающую и тестовую (отложенную, holdout), как правило в соотношении 70/30 (при достаточном объеме данных). При разбиении выборки на обучающую и отложенную стараются соблюсти 2 основных принципа: перемешать данные (на случай, если в исходной выборке была сортировка по какому-либо признаку) и статифицировать (stratify, обеспечить одинаковое распредление целевого показателя в общей выборке, обучающей и отложенной).

В случаях, когда данных мало или их не удаётся корректно разбить только на 2 выборки, используется кросс-валидация (k-fold cross-validation). Данный метод разбивает весь набор на k-поднаборов (фолдов, обычно 5 или 10), и выполняет оценку модели k раз, при этом каждый раз используя k-1 фолдов для обучения и 1 фолд для проверки. В результате получается k оценок модели. Кросс-валидация также имеет параметр srtatify.

Кросс-валидация используется для сравнения как одинаковых моделей (с разными параметрами), так и разных. В первом случае необходимо фиксировать random_state при формировании модели, во втором - random_state разбиения наборов. Помимо этого кросс-валидация также используется при добавлении новых признаков.

Крайний случай кросс-валидации - LeaveOneOut: при этом k устанавливается равным количеству строк в наборе. При выполнении такой кросс-валидации выполняется проверка модели по каждому наблюдению.

При построении моделей рекомендуется выделять обучающую и отложенную выборки, а по обучающей выборке дополнительно выполнять крос-валидацию. При таком подходе отложенна выборка используется для финальной проверки модели.

## 2. Практика

### 2.1. Подготовка данных

In [84]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier #Decision tree
from sklearn.model_selection import train_test_split, cross_val_score #DF split, CV
from sklearn.neighbors import KNeighborsClassifier #kNN
from sklearn.model_selection import GridSearchCV #model selection
from sklearn.metrics import accuracy_score 
from sklearn.tree import export_graphviz #drawing decision tree

In [85]:
df = pd.read_csv('../../mlcourse_open/data/telecom_churn.csv')

In [87]:
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,No,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,No,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,Yes,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,Yes,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


<b>Примечание:</b> Sklearn принимает только численные признаки, поэтому необходимо избавиться от всех строковых (категориальных):

In [88]:
df.drop(['State', 'Voice mail plan'], axis=1, inplace=True)

In [89]:
df['International plan'] = df['International plan'].map({'Yes':1,'No':0})

In [90]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 18 columns):
Account length            3333 non-null int64
Area code                 3333 non-null int64
International plan        3333 non-null int64
Number vmail messages     3333 non-null int64
Total day minutes         3333 non-null float64
Total day calls           3333 non-null int64
Total day charge          3333 non-null float64
Total eve minutes         3333 non-null float64
Total eve calls           3333 non-null int64
Total eve charge          3333 non-null float64
Total night minutes       3333 non-null float64
Total night calls         3333 non-null int64
Total night charge        3333 non-null float64
Total intl minutes        3333 non-null float64
Total intl calls          3333 non-null int64
Total intl charge         3333 non-null float64
Customer service calls    3333 non-null int64
Churn                     3333 non-null bool
dtypes: bool(1), float64(8), int64(9)
memory usage

Создание вектора меток:

In [18]:
y = df['Churn'].astype('int')

Создание набора объектов:

In [19]:
X = df.drop('Churn', axis=1)

In [20]:
y.shape, y.shape

((3333,), (3333,))

### 2.2. Моделирование

#### 2.2.1.Split

Разбиение на обучающую и отложенную выборки:

In [22]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.3, random_state=17)

In [23]:
X_train.shape, X_valid.shape

((2333, 17), (1000, 17))

#### 2.2.2. Decision tree

Cоздание экземпляра дерева (без параметров):

In [92]:
first_tree = DecisionTreeClassifier(random_state = 17)

Выполнение кросс-валидации модели на обучающей выборке:

In [93]:
cross_val_score(first_tree, X_train, y_train, cv=5)

array([ 0.9143469 ,  0.91220557,  0.92291221,  0.90772532,  0.91416309])

In [29]:
np.mean(cross_val_score(first_tree, X_train, y_train, cv=5))

0.91427061602227722

#### 2.2.3. kNN

In [37]:
first_knn = KNeighborsClassifier()

In [38]:
np.mean(cross_val_score(first_knn, X_train, y_train, cv=5))

0.86712740439845226

#### 2.2.4. Настройка гиперпараметров моделей

По-умолчанию дерево строится максимальной глубины. Поиск оптимальных параметров выполняется с помощью метода GridSearchCV из библиотеки sklearn.model_selection:

In [94]:
# словарь параметро для подбора:
tree_param = {'max_depth': np.arange(1,11), 'max_features': (0.5, 0.7, 1)}

In [95]:
tree_grid = GridSearchCV(first_tree, tree_param, cv=5, n_jobs=4)

In [96]:
%%time
tree_grid.fit(X_train, y_train)

Wall time: 30.7 s


GridSearchCV(cv=5, error_score='raise',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=17, splitter='best'),
       fit_params={}, iid=True, n_jobs=4,
       param_grid={'max_depth': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]), 'max_features': (0.5, 0.7, 1)},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=None, verbose=0)

Вывод результатов лучшей модели и её параметров:

In [49]:
tree_grid.best_score_, tree_grid.best_params_

(0.93913416202314615, {'max_depth': 6, 'max_features': 0.7})

Можно порисовать heatmap

То же самое для kNN:

In [97]:
knn_param = {'n_neighbors': [1,2,3,4] + list(range(50,100, 10))}

In [1]:
knn_grid = GridSearchCV(first_knn, knn_param, cv=5)

NameError: name 'GridSearchCV' is not defined

In [59]:
knn_grid.fit(X_train, y_train)

GridSearchCV(cv=5, error_score='raise',
       estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform'),
       fit_params={}, iid=True, n_jobs=1,
       param_grid={'n_neighbors': [1, 2, 3, 4, 50, 60, 70, 80, 90]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=None, verbose=0)

In [60]:
knn_grid.best_score_, knn_grid.best_params_

(0.86583797685383623, {'n_neighbors': 4})

In [53]:
knn_param = {'n_neighbors': list(range(5, 30, 5))}

In [54]:
knn_grid = GridSearchCV(first_knn, knn_param, cv=5)

In [55]:
knn_grid.fit(X_train, y_train)

GridSearchCV(cv=5, error_score='raise',
       estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform'),
       fit_params={}, iid=True, n_jobs=1,
       param_grid={'n_neighbors': [5, 10, 15, 20, 25]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=None, verbose=0)

In [56]:
knn_grid.best_score_, knn_grid.best_params_

(0.8701243034719246, {'n_neighbors': 10})

#### 2.3. Проверка

In [62]:
tree_valid_pred = tree_grid.predict(X_valid)

In [63]:
tree_grid.score(X_valid, y_valid)

0.93600000000000005

In [65]:
accuracy_score(y_valid, tree_valid_pred)

0.93600000000000005

Baseline:

In [68]:
1-np.mean(y)

0.8550855085508551

Если всех клиентов считать лояльными, то точность будет 85,5%. Модель должна давать точность не меньше. Дерево дает 93,6%

Отрисовка дерева:

In [70]:
export_graphviz(tree_grid.best_estimator_, out_file='telekom3.dot', feature_names=X.columns, filled=True)

In [75]:
!dot -Tpng 'telekom3.dot' -o 'telekom3.png'

"dot" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [72]:
<img src='telekom3.png'>

SyntaxError: invalid syntax (<ipython-input-72-c8f2145657b1>, line 1)

In [73]:
!pip install dot

Collecting dot


  Could not find a version that satisfies the requirement dot (from versions: )
No matching distribution found for dot
