## 1. Построение дерева решений

In [1]:
import numpy as np
import pandas as pd

Возьмем задачу предсказания наличия диабета по результатам медицинских анализов.

In [4]:
data = pd.read_csv('diabetes.csv')
data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [5]:
data.shape

(768, 9)

Поделим выборку на обучение и контроль с помощью функции `train_test_split`.

In [6]:
from sklearn.model_selection import train_test_split

In [7]:
X = data.drop('Outcome', axis=1)
y = data['Outcome']

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

Реализация решающего дерева представлена в модуле `sklearn.tree`. Для решения задачи классификации воспользуемся функцией `DecisionTreeClassifier` из данного модуля.

In [9]:
from sklearn.tree import DecisionTreeClassifier

Для обучения дерева решений необходимо поместить его в отдельную переменную, после чего применить метод `fit` к обучающей выборке.

In [10]:
clf = DecisionTreeClassifier(random_state=42)

In [11]:
clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=42)

Оценим качество модели с помощью метрики `accuracy`.

In [12]:
from sklearn.metrics import accuracy_score

In [13]:
y_pred = clf.predict(X_test)

In [14]:
accuracy_score(y_test, y_pred)

0.70995670995671

## 2. Визуализация

Для визуализации деревьев решений можно воспользоваться функцией `export_graphviz`.

In [15]:
from sklearn.tree import export_graphviz

In [16]:
export_graphviz(clf, out_file='decision_tree.dot', 
                filled=True,
                feature_names=X.columns,
                class_names=['0','1'])

Для визуализации полученного дерева решений воспользуемся сервисом http://www.webgraphviz.com/.

В папке, в которой находится данный ноутбук, появится файл decision_tree.dot. Его можно открыть с помощью текстового редактора, скопировать содержимое, поместить скопированный код в текстовое поле на webgraphviz и нажать на "Generate Graph!".

## 3. Случайный лес

**Задание.** Реализуйте свой случайный лес. 
1. В качестве базового алгоритма возьмите дерево решений максимальной глубины с числом признаков равным 5.
2. Размер бутстрэп выборки выберите равным размеру исходной выборки.
3. Количество деревьев возьмите равным 50. 
4. В каждом дереве решений не забывайте указывать `random_state`. Пусть для каждого нового дерева `random_state` будет увеличиваться на 1.

Какого качества классификации удалось достичь на тестовой выборке?

In [189]:
from sklearn.base import BaseEstimator

class RandomForest(BaseEstimator):
    def __init__(self, max_features: int=5, 
                 n_estimators: int=50, 
                 max_depth: int=None,
                 bootstrap_size: int=-1):
        self.n_estimators = n_estimators
        self.max_features = max_features
        self.max_depth = max_depth
        self.bootstrap_size = bootstrap_size
        self.classificators = []
        self.features = []
        
    def fit(self, X: np.ndarray, y: np.ndarray):
        n, x = X.shape
        if self.bootstrap_size < 0:
            self.bootstrap_size = n
        n_range, x_range = np.arange(n), np.arange(x)
        for i in np.arange(self.n_estimators):
            model = DecisionTreeClassifier(random_state=i, 
                                           max_depth=self.max_depth,
                                           criterion='entropy')
            n_indices = np.random.choice(n_range, 
                                         size=self.bootstrap_size,
                                         replace=True)
            feature_indices = np.random.choice(x_range,
                                               size=self.max_features)
            model.fit(X[:, feature_indices][n_indices], y[n_indices])
            self.classificators.append(model)
            self.features.append(feature_indices)
    def predict(self, X: np.ndarray):
        y_pred = np.array([classifier.predict(X[:, feature]) for classifier, 
                           feature in zip(self.classificators, self.features)])
        return np.round(np.mean(y_pred, axis=0))

In [195]:
acc = []
for _ in np.arange(100):
    _RF = RandomForest(max_features=5, 
                       n_estimators=50, 
                       max_depth=None)
    _RF.fit(X_train.values, y_train.values)
    y_pred= _RF.predict(X_test.values)
    acc.append(accuracy_score(y_test.values, y_pred))
print(f'accuracy: {np.mean(acc):.5}')

accuracy: 0.76766


В sklearn случайный лес находится в модуле `sklearn.ensemble`. Какое качество показывает `RandomForecastClassifier` из данного модуля?

In [166]:
from sklearn.ensemble import RandomForestClassifier
cls = RandomForestClassifier(n_estimators=50, 
                             max_features=5, 
                             bootstrap=True, 
                             random_state=42)
cls.fit(X_train, y_train)
y_pred = cls.predict(X_test)
print(f'accuracy: {accuracy_score(y_test, y_pred):.5}')

accuracy: 0.80087
