### Дерево принятия решений и Случайный лес [Домашнее задание]

Следуйте следующим инструкциям:

1. Загрузите набор данных ```"wine"``` из библиотеки ```sklearn```. (Подсказка: ```sklearn.datasets.load_wine```)

2. Выполните анализ, очистку и всю необходимую предварительную обработку набора данных. Примечание: вам не разрешено отбрасывать точки данных.

3. Разделите данные на ```train``` и ```validation``` со следующим соотношением 8-2, используя функцию ```train_test_split()``` из библиотеки ```sklearn```. Обратите внимание, вы должны установить ```random_state = 1```.

4. Используя алгоритмы ```Дерево принятия решений``` и ```Случайный лес``` из библиотеки ```sklearn```, постройте модели для классификации вина.

5. Реализуйте алгоритм с нуля ```Случайный лес``` как класс RandomForest(), **использовать ```Дерево принятия решений``` из библиотеки sklearn можно.**

6. Используя загруженный набор данных, сравните предоставленные sklearn алгоритмы и ваш реализованный алгоритм, они должны иметь **похожие** прогнозы.

8. Сравните среднее время выполнения одного прогноза с помощью библиотеки ```time```.


Вы можете использовать шаблон кода ниже.

```python
class RandomForest:
    def __init__(self, n_estimators=10, max_sample=1):
        '''
        n_estimators: размер случайного леса
        max_sample: размер выборки для обучения одного дерева принятия решений (0 < max_sample < 1)
        '''
        # ваш код
    
    def fit(self, X, y):
        # ваш код
    
    def predict(self, X):
        # ваш код

```

**Примечание:** На всех этапах, пожалуйста, включайте пояснения.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from warnings import filterwarnings
filterwarnings('ignore')

In [2]:
from sklearn.datasets import load_wine

data = load_wine()

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data['data'], data['target'], random_state=1, train_size=0.8)

In [4]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

tree_clf = DecisionTreeClassifier()
tree_clf.fit(X_train, y_train)
y_pred = tree_clf.predict(X_test)
print((y_pred == y_test).sum() / len(y_test))

forest_clf = RandomForestClassifier()
forest_clf.fit(X_train, y_train)
y_pred = forest_clf.predict(X_test)
print((y_pred == y_test).sum() / len(y_test))

0.8888888888888888
0.9722222222222222


In [5]:
from scipy.stats import mode

class RandomForest:
    
    def __init__(self, n_estimators=100, max_sample=1):
        
        self.n_estimators = n_estimators
        self.max_sample = max_sample
        self.estimators = [DecisionTreeClassifier(splitter='random') for i in range(n_estimators)]
        
    def fit(self, X, y):
        
        size = len(X)
        indeces = np.arange(size)
        size = np.int(size*self.max_sample)
        for estimator in self.estimators:
            np.random.shuffle(indeces)
            estimator.fit(X[indeces[:size]], y[indeces[:size]])
        return self
            
    def predict(self, X):
        
        y_pred = []
        for estimator in self.estimators:
            y_pred.append(estimator.predict(X))
        return mode(np.array(y_pred)).mode.reshape(-1)
        
(RandomForest().fit(X_train, y_train).predict(X_test) == y_test).sum() / len(y_test)

0.9722222222222222

__Результаты одинакоовые__

In [6]:
%timeit (RandomForest().fit(X_train, y_train).predict(X_test) == y_test).sum() / len(y_test)
%timeit (RandomForestClassifier().fit(X_train, y_train).predict(X_test) == y_test).sum() / len(y_test)

48.8 ms ± 1.18 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
141 ms ± 2.6 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


__Реализованная модель случайного леса оказаалась быстрее модели из библиотеки sklearn__