# Введение в машинное обучение

## Семинар #5

### Екатерина Кондратьева

ekaterina.kondrateva@skoltech.ru

## Деревья решений (Decision Trees). Случайный лес (Random Forest)

## 1. Деревья решений (Decision Trees)

Дерево принятия решений (также может называться деревом классификации или регрессионным деревом) — средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение.  

Источники:
1. Лекция https://ru.coursera.org/lecture/supervised-learning/rieshaiushchiie-dieriev-ia-HZxD1 
2. https://chrisalbon.com/machine_learning/trees_and_forests/visualize_a_decision_tree/
3. https://habr.com/ru/post/171759/
4. https://www.hse.ru/mirror/pubs/share/215285956

In [None]:
#linear algebra
import numpy as np
#data structures
import pandas as pd
#ml models
import scipy as sp
import sklearn
from sklearn import datasets
from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn.metrics import accuracy_score
from sklearn.svm import SVR
#plots
import matplotlib.pyplot as plt
%matplotlib inline
#beautiful plots
import seaborn as sns
#linear regression
import statsmodels.api as sm
#set style for plots
sns.set_style('darkgrid')
#off the warnings
import warnings
warnings.filterwarnings("ignore")

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.neighbors import KNeighborsClassifier     #KNN
from sklearn.linear_model import LogisticRegression    #Logistic Regression
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

### Recap прошлого занятия: классификация на выборке ирисов kNN

In [None]:
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)


clf = KNeighborsClassifier()
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))

In [None]:
pair=[0, 1]
X = iris.data[:, [0, 1]]
y = iris.target

n_classes = 3
plot_colors = ['g', 'gold', 'black']
plot_step = 0.005

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
                     np.arange(y_min, y_max, plot_step))


clf = KNeighborsClassifier(n_neighbors=10).fit(X, y)

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
cs = plt.contourf(xx, yy, Z, cmap='Accent')

plt.xlabel(iris.feature_names[pair[0]])
plt.ylabel(iris.feature_names[pair[1]])

for i, color in zip(range(n_classes), plot_colors):
    idx = np.where(y == i)
    plt.scatter(X[idx, 0], X[idx, 1], c=color, label=iris.target_names[i],
                cmap=plt.cm.Paired);

In [None]:
clf = DecisionTreeClassifier(random_state = 42)
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))

In [None]:
pair=[0, 1]
X = iris.data[:, [0, 1]]
y = iris.target

n_classes = 3
plot_colors = ['g', 'gold', 'black']
plot_step = 0.005

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
                     np.arange(y_min, y_max, plot_step))


clf = DecisionTreeClassifier(random_state=42).fit(X, y)

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
cs = plt.contourf(xx, yy, Z, cmap='Accent')

plt.xlabel(iris.feature_names[pair[0]])
plt.ylabel(iris.feature_names[pair[1]])


for i, color in zip(range(n_classes), plot_colors):
    idx = np.where(y == i)
    plt.scatter(X[idx, 0], X[idx, 1], c=color, label=iris.target_names[i],
                cmap=plt.cm.Paired);

In [None]:
clf

#### Деревья решений можно визуализировать:

Пример классификации данного датасета
    
!['деревьеярешений'](https://scikit-learn.org/stable/_images/iris.png)

### Как переобучиться на Деревьях Решений?

Далее в коде закомментирована рисовалка решающего правила для деревьев решений. Если у вас она не ставится с первого раза - оставьте попытки, она не пригодится дальше нигде.

In [None]:
pair = [0, 1]
X = X_train[:, pair]
y = y_train

clf = DecisionTreeClassifier(max_depth = 30, random_state = 42).fit(X, y)  # min_samples_split --?

# dot_data = tree.export_graphviz(clf, out_file=None, 
#                                  feature_names=['petal length', 
#                                                 'petal width'],  
#                                  class_names=iris.target_names,  
#                                  filled=True, rounded=True,
#                                  special_characters=True)  
# graph = pydotplus.graph_from_dot_data(dot_data)  
print(clf.score(X_test[:, pair], y_test))

In [None]:
clf

In [None]:
clf = DecisionTreeClassifier(min_samples_leaf = 5, min_samples_split = 5, random_state = 42).fit(X, y)

# dot_data = tree.export_graphviz(clf, out_file=None, 
#                                  feature_names=['petal length', 
#                                                 'petal width'],  
#                                  class_names=iris.target_names,  
#                                  filled=True, rounded=True,
#                                  special_characters=True)  
# graph = pydotplus.graph_from_dot_data(dot_data)  
print(clf.score(X_test[:, pair], y_test))

Посмотрим на справку функции в `sklearn`:

In [None]:
DecisionTreeClassifier()

Выбор критерия:
    http://www.machinelearning.ru/wiki/images/8/89/Sem3_trees.pdf

In [None]:
plt.rcParams['figure.figsize'] = (10,7)
xx = np.linspace(0,1,50)
plt.plot(xx, [2 * x * (1-x) for x in xx], label='gini')
plt.plot(xx, [-x * np.log2(x) - (1-x) * np.log2(1 - x)  for x in xx], label='entropy')
plt.plot(xx, [1 - max(x, 1-x) for x in xx], label='missclass')
plt.xlabel('p+')
plt.ylabel('criterion')
plt.title('Критерии качества как функции от p (бинарная классификация)')
plt.legend();

### Регрессия на Деревьях Решений:

In [None]:
# Recap KNN 
from sklearn.neighbors import KNeighborsRegressor

rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80, 1), axis=0)
y = np.sin(X).ravel() 
y[::2] += 1 * (0.5 - rng.rand(40))

X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]

clf = KNeighborsRegressor(n_neighbors = 5, 
                         ).fit(X, y)
y_ = clf.predict(X_test)
plt.figure(figsize=(15, 10))
plt.scatter(X, y, c='darkorange', label='data')
plt.scatter(X_test, y_, c='red', label='data')
plt.plot(X_test, y_, c='cornflowerblue', label='prediction');

In [None]:
X.shape, y.shape

In [None]:
y_.shape, X_test.shape

In [None]:
from sklearn.svm import SVR

rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80, 1), axis=0)
y = np.sin(X).ravel() 
y[::2] += 1 * (0.5 - rng.rand(40))

X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]

clf = SVR().fit(X, y)
y_ = clf.predict(X_test)
plt.figure(figsize=(15, 10))
plt.scatter(X, y, c='darkorange', label='data')
plt.plot(X_test, y_, c='cornflowerblue', label='prediction');

In [None]:
from sklearn.tree import DecisionTreeRegressor

rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80, 1), axis=0)
y = np.sin(X).ravel()
y[::2] += 1 * (0.5 - rng.rand(40))

X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]

clf = DecisionTreeRegressor().fit(X, y)
y_ = clf.predict(X_test)
plt.figure(figsize=(15, 10))
plt.scatter(X, y, c='darkorange', label='data')
plt.plot(X_test, y_, c='cornflowerblue', label='prediction');

In [None]:
clf = DecisionTreeRegressor(min_samples_split = 10, min_samples_leaf = 5).fit(X, y)
y_ = clf.predict(X_test)
plt.figure(figsize=(15, 10))
plt.scatter(X, y, c='darkorange', label='data')
plt.plot(X_test, y_, c='cornflowerblue', label='prediction');

В каком из этих трех случаев модель переобучилась? Почему?

Почему не воспроизводится результат DTC на дефолтных параметрах?

In [None]:
DecisionTreeClassifier()

# 2. Леса решений: Random Forest Classification (Regression)

In [None]:
from sklearn.datasets import load_wine
wine = load_wine()

X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target,test_size=0.3, stratify=wine.target, random_state=42)

In [None]:
print(wine.DESCR)

In [None]:
wine.data.shape

In [None]:
log_reg = LogisticRegression(random_state=42) 
log_reg.fit(X_train, y_train)

print('Accuracy on the training set: {:.3f}'.format(log_reg.score(X_train,y_train)))
print('Accuracy on the test set: {:.3f}'.format(log_reg.score(X_test,y_test)))

In [None]:
dtc = DecisionTreeClassifier(random_state=42) 
dtc.fit(X_train, y_train)

print('Accuracy on the training set: {:.3f}'.format(dtc.score(X_train,y_train)))
print('Accuracy on the test set: {:.3f}'.format(dtc.score(X_test,y_test)))

In [None]:
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=10000, random_state = 42, warm_start=True) 
rfc.fit(X_train, y_train)

print('Accuracy on the training set: {:.3f}'.format(rfc.score(X_train,y_train)))
print('Accuracy on the test set: {:.3f}'.format(rfc.score(X_test,y_test)))

In [None]:
# посмотрим на выбранные характеристики модели
rfc.feature_importances_

In [None]:
# посмотрим на выбранные характеристики модели
rfc.feature_importances_

In [None]:
#Feature Importance
n_feature = wine.data.shape[1]
plt.barh(range(n_feature), rfc.feature_importances_, align='center')
plt.yticks(np.arange(n_feature), wine.feature_names)
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
#plt.ylim(1)
#plt.xlim(0.5)
plt.show()

In [None]:
X_train=pd.DataFrame(X_train, columns=wine.feature_names)
X_train.drop(['color_intensity','alcohol'], axis=1, inplace=True)

X_test=pd.DataFrame(X_test, columns=wine.feature_names)
X_test.drop(['color_intensity','alcohol'], axis=1, inplace=True)

In [None]:
dtc = DecisionTreeClassifier(random_state=42) 
dtc.fit(X_train, y_train)

print('Accuracy on the training set: {:.3f}'.format(dtc.score(X_train,y_train)))
print('Accuracy on the test set: {:.3f}'.format(dtc.score(X_test,y_test)))

In [None]:
#Feature Importance
n_feature = X_train.shape[1]
plt.barh(range(rfc.feature_importances_.shape[0]), rfc.feature_importances_, align='center')
plt.yticks(np.arange(n_feature), X_train.columns)
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
#plt.ylim(1)
#plt.xlim(0.5)
plt.show()

In [None]:
sns.set(style="white")

# Generate a large random dataset
rs = np.random.RandomState(33)
d = pd.DataFrame(X_train)

# Compute the correlation matrix
corr = d.corr()

# Generate a mask for the upper triangle
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(corr, mask=mask, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

In [None]:
wine.feature_names[10]

In [None]:
wine.feature_names

In [None]:
X_train = pd.DataFrame(X_train)
X_train = X_train[X_train.columns[:2]]
X_test = pd.DataFrame(X_test)
X_test = X_test[X_test.columns[:2]]
dtc = DecisionTreeClassifier(random_state=42) 
dtc.fit(X_train, y_train)

print('Accuracy on the training set: {:.3f}'.format(dtc.score(X_train,y_train)))
print('Accuracy on the test set: {:.3f}'.format(dtc.score(X_test,y_test)))

In [None]:
dtc.feature_importances_

In [None]:
#Feature Importance
n_feature = X_train.shape[1]
plt.barh(range(n_feature), dtc.feature_importances_, align='center')
#plt.yticks(np.arange(n_feature), X_train.columns)
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
plt.show()

In [None]:
from sklearn.model_selection import KFold

In [None]:
kfold = KFold(n_splits = 10, shuffle= True)
for train_index, test_index in kfold.split(X, y):
    print(test_index)

In [None]:
i = 0
list_ = []
kfold = KFold(n_splits = 10)
X = wine.data
y = wine.target

dtc = DecisionTreeClassifier()
for train_index, test_index in kfold.split(X, y):
    #print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print('Fold #', i)
    i+=1
    dtc.fit(X_train,y_train)
    list_.append(dtc.score(X_test,y_test))
    print(dtc.score(X_test,y_test))    

In [None]:
i = 0
list_1 = []
kfold = KFold(n_splits = 10)
X = wine.data
y = wine.target

dtc = RandomForestClassifier()
for train_index, test_index in kfold.split(X, y):
    #print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print('Fold #', i)
    i+=1
    dtc.fit(X_train,y_train)
    list_1.append(dtc.score(X_test,y_test))
    print(dtc.score(X_test,y_test))   

In [None]:
np.mean(list_), np.std(list_)

In [None]:
np.mean(list_1), np.std(list_1)

In [None]:
import scipy

scipy.stats.ttest_rel(list_1,list_)

#### Вопрос: как данную модель интерпретировать? Как Дерево решений построило решающее правило?

### Задача 1.  
Сравнить решающее правило на Деревьях Решений и Случайных Лесов Решений для регрессионной задачи на выборке `sklearn.datasets.diabets`

In [None]:
# Визуализации Линейной Регрессии по одному признаку
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

# Load the diabetes dataset
diabetes = datasets.load_diabetes()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.3, random_state=42)

In [None]:
y

In [None]:
print(diabetes.DESCR)

In [None]:
X_train.shape, X_test.shape

In [None]:
y_test.max(), y_test.min()

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
y_train = scaler.fit_transform(pd.DataFrame(y_train))
y_test = scaler.transform(pd.DataFrame(y_test))

In [None]:
# non sclaed
from sklearn.tree import DecisionTreeRegressor

dtc = DecisionTreeRegressor(random_state=42) 
dtc.fit( X_train, y_train)

print('Accuracy on the training set: {:.3f}'.format(dtc.score(X_train,y_train)))
print('Accuracy on the test set: {:.3f}'.format(dtc.score(X_test,y_test)))

In [None]:
dtc.score(X_test,y_test)

In [None]:
# non scaled
from sklearn.ensemble import RandomForestRegressor

dtc = RandomForestRegressor(random_state=42) 
dtc.fit(X_train, y_train)

print('Accuracy on the training set: {:.3f}'.format(dtc.score(X_train,y_train)))
print('Accuracy on the test set: {:.3f}'.format(dtc.score(X_test,y_test)))

##  Вопросы для самопроверки:

1. В чем отличие Decision Trees от Random Forest?
2. На что влияют критерии построения решающего правила в деревьях?
3. Как интерпретировать результат модели RFC?
4. Почему  важно варьировать `max_depth` дерева?

## Выводы:

1. Дерево – интерпретируемый алгоритм (пока оно не очень глубокое). Random Forest – не интерпретируемый алгоритм
1. Параметр глубины дерева max_depth нужно находить исходя из компромисс между underfitting и overfitting! Можно переобучиться и на тестовом датасете
4. Random Forest борется с изъянами Decision Tree путем построения большого количества разных деревьев и их коллективного голосования.
2. Построение дерева DTC и качество модели сильно зависит от того, удачно ли были выбраны сплиты в начале построения!  
3. Стандартной реализации для задачи регрессии вам доступны критерии gini, entropy 
5. Качество Random Forest неубывает с увеличением деревьев (не происходит переобучения)

## Задача 2. 
Мы уже знаем 4 принципаильно разных классификатора: LR, KNN, SVC, RFC. 
Сравнить их точности предсказания на датасете `breast cancer`. Использовать классификаторы с натройками по умолчанию. Разбить данные на `train`  и  `test`.

In [None]:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

random_state  = 42

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.3, random_state=42)

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()

from sklearn.svm import SVC
svc= SVC()

from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV

random_state = 42
models = <YOUR CODE>

for model in models:
    <YOUR CODE># fit the model
    predictions = model.predict(X_test)
    print(str(model)[:10], accuracy_score(y_test, predictions))   

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline, FeatureUnion
pipe = Pipeline(<YOUR CODE>
)

# Create space of candidate values
search_space = [<YOUR CODE>
]
# Create grid search 

clf = GridSearchCV(<YOUR CODE>
                  ).fit(X_train, y_train)

In [None]:
clf.best_estimator_.score(X_test, y_test)

#### Посомтреть результаты поиска по гиперапараметрам:

Вопрос: какая модель называется лучшей (по каким критериям)?

## Задача 3 (Домашнее задание).

1. Построить `feature importances` для каждого классифкатора, посмотреть, какие признаки учавствуют в построении решающего правила
2. Вывести индексы пациентов тестовой выборки, на которых ошибаются классификаторы
3. Вывести все параметры пациентов, сравнить со средними значениями по выборке

## Задача 4 (Домашнее задание). 
Варьировать параметры классификатора для достижения лучшего `score` на тестовой выборке. Внести результат в турнирную таблицу.

Что можно сказать по поводу переобучения при таком дизайне эксперимента?    