## 1. Построение дерева решений

In [1]:
import numpy as np
import pandas as pd

Возьмем задачу предсказания наличия диабета по результатам медицинских анализов.

In [2]:
data = pd.read_csv('diabetes.csv')
data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
data.shape

Поделим выборку на обучение и контроль с помощью функции `train_test_split`.

In [3]:
from sklearn.model_selection import train_test_split

In [4]:
X = data.drop('Outcome', axis=1)
y = data['Outcome']

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

Реализация решающего дерева представлена в модуле `sklearn.tree`. Для решения задачи классификации воспользуемся функцией `DecisionTreeClassifier` из данного модуля.

In [6]:
from sklearn.tree import DecisionTreeClassifier

Для обучения дерева решений необходимо поместить его в отдельную переменную, после чего применить метод `fit` к обучающей выборке.

In [None]:
clf = DecisionTreeClassifier(random_state=42)

In [None]:
clf.fit(X_train, y_train)

Оценим качество модели с помощью метрики `accuracy`.

In [7]:
from sklearn.metrics import accuracy_score

In [None]:
y_pred = clf.predict(X_test)

In [None]:
accuracy_score(y_test, y_pred)

## 2. Визуализация

Для визуализации деревьев решений можно воспользоваться функцией `export_graphviz`.

In [None]:
from sklearn.tree import export_graphviz

In [None]:
export_graphviz(clf, out_file='decision_tree.dot', 
                filled=True,
                feature_names=X.columns,
                class_names=['0','1'])

Для визуализации полученного дерева решений воспользуемся сервисом http://www.webgraphviz.com/.

В папке, в которой находится данный ноутбук, появится файл decision_tree.dot. Его можно открыть с помощью текстового редактора, скопировать содержимое, поместить скопированный код в текстовое поле на webgraphviz и нажать на "Generate Graph!".

## 3. Случайный лес

**Задание.** Реализуйте свой случайный лес. 
1. В качестве базового алгоритма возьмите дерево решений максимальной глубины с числом признаков равным 5.
2. Размер бутстрэп выборки выберите равным размеру исходной выборки.
3. Количество деревьев возьмите равным 50. 
4. В каждом дереве решений не забывайте указывать `random_state`. Пусть для каждого нового дерева `random_state` будет увеличиваться на 1.

Какого качества классификации удалось достичь на тестовой выборке?

In [8]:
from sklearn.base import BaseEstimator

In [9]:
class RandomForest(BaseEstimator):
    
    def __init__(self, T=50, max_depth=None, max_features=None, bootstrap_size=-1):
        self.T = T
        self.max_depth = max_depth
        self.max_features = max_features
        self.bootstrap_size = bootstrap_size
        self.estimator = []
        self.features = []

    def fit(self, X, y):
        if self.bootstrap_size < 0:
            self.bootstrap_size = len(X)
        for i in range(self.T):
            cls = DecisionTreeClassifier(random_state=i, max_depth=self.max_depth)
            self.max_features =  min(X.shape[1], self.max_features) #максимальное количество признаков
            
            ind = np.random.choice(np.arange(X.shape[0]), size=self.bootstrap_size, replace=True)
            fts = np.random.choice(np.arange(X.shape[1]), size=self.max_features, replace=False)
            cls.fit(X[:, fts][ind], y[ind])
            
            self.estimator.append(cls)
            self.features.append(fts)
        return self
    
    def predict(self, X):
        a = np.zeros(len(X))
        for i in range(self.T):
            a += self.estimator[i].predict(X[:, self.features[i]])
        return np.array(np.round(a / self.T), dtype='int64')

In [10]:
cls = RandomForest(T=50, max_depth=None, max_features=5).fit(X_train.values, y_train.values)

In [11]:
y_pred = cls.predict(X_test.values)
accuracy_score(y_test.values, y_pred)

0.7792207792207793

В sklearn случайный лес находится в модуле `sklearn.ensemble`. Какое качество показывает `RandomForestClassifier` из данного модуля?

In [12]:
from sklearn.ensemble import RandomForestClassifier

In [13]:
cls = RandomForestClassifier(n_estimators=50, max_features=5, bootstrap=True, random_state=42)
cls.fit(X_train, y_train)

RandomForestClassifier(max_features=5, n_estimators=50, random_state=42)

In [14]:
y_pred = cls.predict(X_test)
accuracy_score(y_test, y_pred)

0.8008658008658008