# SLIDE (1) Энтропия и критерий Джини

$p_i$ - вероятность нахождения системы в _i_-ом состоянии. 

`Энтропия Шеннона` определяется для системы с _N_ возможными состояниями следующим образом 
$$ S = - \sum_{i=1}^{N} p_i \log_2 p_i $$

`Критерий Джини (Gini Impurity)`. Максимизацию этого критерия можно интерпретировать как максимизацию числа пар объектов одного класса, оказавшихся в одном поддереве. 

В общем случае критерий Джини считается как
$$ G = 1 - \sum_{k} (p_k)^2 $$

Необходимо посчитать, значения `Энтропии` и `критерия Джини`

### Sample 1
#### Input:
```python
y = np.array([1,1,1,1,1,1,0,0,0,0])
```
#### Output
```python
0.971, 0.480
```
Результат проверяется с точность до 3ех цифр после запятой.

# TASK

In [2]:
def gini_impurity(y: np.ndarray) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

def entropy(y: np.ndarray) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

def calc_criteria(y: np.ndarray) -> (float, float):
    assert y.ndim == 1
    return entropy(y), gini_impurity(y)


In [3]:
######################################################
y = np.array([1,1,1,1,1,1,0,0,0,0])
assert_almost_equal(calc_criteria(y), (0.971, 0.480), decimal=3)
######################################################
assert_almost_equal(calc_criteria(np.zeros(10)), (0, 0))
assert_almost_equal(calc_criteria(np.ones(10)), (0, 0))
######################################################
y = np.array([1,0,1,0,1,0,1,0])
assert_almost_equal(calc_criteria(y), (1, 0.5), decimal=2)
######################################################

# SLIDE (1) Information gain

Вам надо реализовать функцию `inform_gain`, которая будет вычислять прирост информации для критерия (энтропия или критерий Джини) при разбиении выборки по признаку (threshold). 

Прирост информации при разбиении выборки по признаку _Q_ (например $ x \leq 12$) определяется как.
$$ IG(Q) = S_0 - \sum_{i=1}^{q} \frac{N_i}{N} S_i $$ 
где $q$ - число групп после разбиения. $N_i$ - число элементов выборки, у которых признак _Q_ имеет _i_-ое значение.  

И написать функцию `get_best_threshold`, которая будет находить наилучшее разбиение выборки.

Не забудьте добавить свои функции из предыдущей задачи.

На вход подается:

* $X$ - одномерный массив - значения признака.
* $y$ - значения бинарных классов.
* **criteria\_func** - функция критерия, для которой вычисляется наилучшее разбиение.
* **thr** - значение разбиения 

### Sample 1 (Inform gain)

#### Input:
```python
X = np.array([3, 9, 0, 4, 7, 2, 1, 6, 8, 5])
y = np.array([0, 1, 0, 0, 1, 0, 0, 1, 1, 1])
threshold=3,
criteria_func=entropy
```
#### Output:
```python
0.61
```

### Sample 2 (Get best threshold)

#### Input:
```python
X = np.array([3, 9, 0, 4, 7, 2, 1, 6, 8, 5])
y = np.array([0, 1, 0, 0, 1, 0, 0, 1, 1, 1])
criteria_func=entropy
```
#### Output:
```python
4, 1
```
P.S.
`theshold` разбивает выборку по правилу `X <= threshold`, `X > threshold`

Для примера 2 допустимо значение `threshold` в диапазоне $[4,5)$


# TASK

In [9]:
def entropy(y: np.ndarray) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

def gini_impurity(y: np.ndarray) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

def inform_gain(X: np.ndarray, y: np.ndarray, threshold: float, criteria_func=entropy) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

def get_best_threshold(X: np.ndarray, y: np.ndarray, criteria_func=entropy) -> (float, float):
    assert X.ndim == 1
    assert y.ndim == 1
    best_threshold = 0
    best_score = 0
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ            
    return best_threshold, best_score

In [5]:
######################################################
X = np.array([3, 9, 0, 4, 7, 2, 1, 6, 8, 5])
y = np.array([0, 1, 0, 0, 1, 0, 0, 1, 1, 1])

assert_almost_equal(entropy(y), 1)

assert_almost_equal(inform_gain(X, y, 4.5, entropy), 1)
assert_almost_equal(inform_gain(X, y, 3, entropy), 0.61, decimal=2)

thr, score = get_best_threshold(X, y, entropy)
assert 4 <= thr < 5
assert_almost_equal(score, 1)
######################################################
assert_almost_equal(inform_gain(X, y, 4.5, gini_impurity), 0.5)
assert_almost_equal(inform_gain(X, y, 2, gini_impurity), 0.21, decimal=2)

thr, score = get_best_threshold(X, y, gini_impurity)
assert 4 <= thr < 5
assert_almost_equal(score, 0.5)
######################################################
assert_almost_equal(inform_gain(np.ones(10), np.zeros(10), 1, entropy), 0)
assert_almost_equal(inform_gain(np.ones(10), np.ones(10), 1, entropy), 0)
thr, score = get_best_threshold(np.ones(10), np.zeros(10), entropy)
assert_almost_equal(1, 1)

# SLIDE (1) Best Split 

Реализуйте функцию `find_best_split`, которая находит наилучшее разбиение по всем признакам. На вход подается обучающая выборка и функция критерий. Необходимо вернуть: индекс фичи, значение границы (threshold) и результат разбиение (information gain).

Добавьте сюда все свои функции из предыдущих задач.

### Sample 1

#### Input:
```python
X = np.array([[1, 1], [1, -1], [-1,-1], [-1, 1]])
y = np.array([1, 1, 0, 0])
criteria_func=entropy
```
#### Output:
```python
0, -1.0, 1.0
```


# TASK

In [7]:
def entropy(y: np.ndarray) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

def gini_impurity(y: np.ndarray) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

def inform_gain(X: np.ndarray, y: np.ndarray, threshold: float, criteria_func=entropy) -> float:
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

def get_best_threshold(X: np.ndarray, y: np.ndarray, criteria_func=entropy) -> (float, float):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ            
    return best_threshold, best_score

def find_best_split(X, y, criteria_func=entropy):
    assert X.ndim == 2
    assert y.ndim == 1
    best_feature = 0
    best_score = 0
    best_threshold = 0
    
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ    
    
    return best_feature, best_threshold, best_score


In [7]:
######################################################
X_clf = np.array([[1, 1], [1, -1], [-1,-1], [-1, 1]])
y_clf = np.array([1, 1, 0, 0])

ftr, thr, scr = find_best_split(X_clf, y_clf, entropy)
assert ftr == 0
assert -1 <= thr < 1
assert scr == 1
######################################################
from sklearn.datasets import make_classification

random_state = 42
X, y = make_classification(n_samples=30, n_features=4, n_informative=2,
                           scale=5, random_state=random_state)
X = X.astype(np.int)
ftr, _, scr = find_best_split(X, y, entropy)
assert ftr == 2
assert_almost_equal(scr, 0.71, decimal=2)

# SLIDE (1) Мое дерево решений

Ваша задача реализовать свой простой `DecisionTreeClassifier` для бинарных данных. Вам нужно реализовать 3 метода:

* `fit` - обучение классификатора
* `predict` - предсказание для новых объектов
* `predict_proba` - предсказание вероятностей новых объектов

У нашего классификатора будет лишь два гиперпараметра - максимальная глубина дерева `max_depth` и критерий разбиения `criterion`. Энтропия или Джини.

**Все** функции из предыдущих заданий нужно добавить в этот код.

На вход будет подаваться выборка объектов $X$. $y$ - результат бинарной классификации $0$ или $1$.

### Sample 1
#### Input:
```python
X_clf = np.array([[1, 1], [1, -1], [-1,-1], [-1, 1]])
y_clf = np.array([1, 1, 0, 0])

model = MyDecisionTreeClassifier(max_depth=2, criterion='entropy').fit(X_clf, y_clf)
y_pred = model.predict(np.array([[2, 2], [-2, -2]]))
y_prob = model.predict_proba(np.array([[2, 2], [-2, -2]]))
```
#### Output:
```python
y_pred = np.array([1, 0])
y_prob = np.array([[0.0, 1.0], [1.0, 0.0]])
```

# TASK

In [23]:
from sklearn.base import BaseEstimator, ClassifierMixin

class MyDecisionTreeClassifier(BaseEstimator, ClassifierMixin):
    def __init__(self, max_depth=4, criterion='entropy'): 
        self.max_depth = max_depth
        self.criterion = criterion # 'entropy' or 'gini' 
        self.tree = {}
        self._criteria_func = {
            'gini': _gini_impurity,
            'entropy': _entropy
        }
    def _entropy(y: np.ndarray) -> float:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass

    def _gini_impurity(y: np.ndarray) -> float:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass
        
    def _build_tree(self, X, y, depth=0):
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        return {}
        
    def fit(self, X: np.ndarray, y: np.ndarray):
        self.tree = self._build_tree(X, y, depth=0)
        return self        
    
    def predict_proba(self, X: np.ndarray):
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass
    
    def predict(self, X: np.ndarray): # получаем 
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass

In [9]:
######################################################
X_clf = np.array([[1, 1], [1, -1], [-1,-1], [-1, 1]])
y_clf = np.array([1, 1, 0, 0])

model = MyDecisionTreeClassifier(max_depth=2).fit(X_clf, y_clf)

assert_equal(model.predict(np.array([[2, 2], [-2, -2]])), np.array([1, 0]))

assert_almost_equal(model.predict_proba(np.array([[2, 2], [-2, -2]])),
                    np.array([[0, 1.0], [1.0, 0.0]]))
######################################################
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification
from sklearn.metrics import accuracy_score 
from sklearn.tree import DecisionTreeClassifier

random_state = 42
X, y = make_classification(n_samples=500, n_features=4, n_informative=2,
                           scale=5, random_state=random_state)
X = X.astype(np.int)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
                                                    random_state=random_state, stratify=y)
######################################################
my_dtc = MyDecisionTreeClassifier(max_depth=4, criterion='entropy').fit(X_train, y_train)
my_acc = accuracy_score(y_test, my_dtc.predict(X_test))

dtc = DecisionTreeClassifier(max_depth=4, criterion='entropy').fit(X_train, y_train)
dtc_acc = accuracy_score(y_test, dtc.predict(X_test))
assert_almost_equal(my_acc, dtc_acc, decimal=2)
######################################################
my_dtc = MyDecisionTreeClassifier(max_depth=4, criterion='gini').fit(X_train, y_train)
my_acc = accuracy_score(y_test, my_dtc.predict(X_test))

dtc = DecisionTreeClassifier(max_depth=4, criterion='gini').fit(X_train, y_train)
dtc_acc = accuracy_score(y_test, dtc.predict(X_test))
assert_almost_equal(my_acc, dtc_acc, decimal=2)

######################################################

# SLIDE (1) Bootstrap.

На вход массив чисел $X$ и число бутстрепных выборок $B$. Необходимо реализовать свой бутстреп и найти матожидание и стандартную ошибку у бутстрепных выборок.

### Sample 1
#### Input:
```python
X = np.array([37,43,38,36,17,40,40,45,41,84])
B = 100000
```
#### Output:
```python
42.1, 4.56
```


# TASK

In [122]:
import numpy as np
from scipy.stats import sem # ищет SE среднего

def get_stats(X: np.array, B:int)->tuple:
    '''
        .∧＿∧ 
        ( ･ω･｡)つ━☆・*。 
        ⊂  ノ    ・゜+. 
        しーＪ   °。+ *´¨) 
                .· ´¸.·*´¨) 
                (¸.·´ (¸.·'* ☆  <YOUR CODE>
    '''
    return mean, SE

In [11]:
######################################################
X = np.array([37,43,38,36,17,40,40,45,41,84])
B = 100000

mean, se = get_stats(X, B)

assert np.abs(mean - 42.1) < 0.05
assert np.abs(se - 4.56) < 0.03
######################################################

# SLIDE (1) Bias-variance

На вход подается **один** объект $(x, y)$ и список из нескольких **обученных** моделей. 

Необходимо найти $error$, $bias^2$, $variance$ для данного объекта.

Теперь все аккуратно запишем, чтобы не запутаться.

* $(x, y)$ - тестировачная выборка
* $a_1(\cdot), \ldots, a_M(\cdot)$ - модели (это не обученные на бутстрепе модели, а просто возможные модели из пространства $\mathbb{A}$, которое мы выбрали)

Как настоящие статистики мы можем ~~забить~~ оценить матожидание как среднее. **Это не смешанная модель, а именно оценка матожидания через среднее**
$$\mathbb{E}a(x) = \frac{1}{M}\sum_{i=1}^{M}a_i(x)$$

**Error** (берем матожидание от квадрата разности)

$$error = \mathbb{E}_{a}(a(x)-y)^2 = \frac{1}{M}\sum_{i=1}^{M}(a_i(x) - y)^2$$

**Bias** (заметьте, что возвращаем квадрат bias, а не просто bias)

$$bias^2 = \Big(y - \mathbb{E}_{a}[a(x)]\Big)^2 = \Big(y - \frac{1}{M}\sum_{i=1}^{M}a_i(x)\Big)^2$$  


**Variance** (ищем смещенную оценку)

$$variance = \mathbb{D}_{a}a(x)= \mathbb{E}_{a}(a(x) - \mathbb{E}_{a}a(x))^2 = \frac{1}{M}\sum_{i=1}^{M}\Big(a_i(x)-\frac{1}{M}\sum_{r=1}^{M}a_r(x)\Big)^2$$

### Sample 1
#### Input:
```python
x, y = np.array([[0,0,0]]), 0
estimators = [DecisionTreeRegressor(max_depth=3, random_state=1),  #already fitted estimators
              DecisionTreeRegressor(max_depth=5, random_state=1)]
```
#### Output:
```python
error, bias2, var = 3.574, 3.255, 0.319
```

# TASK

In [525]:
import numpy as np

def bias_variance_decomp(x_test:np.array, y_test:int, estimators:list)->tuple:
    '''
        .∧＿∧ 
        ( ･ω･｡)つ━☆・*。 
        ⊂  ノ    ・゜+. 
        しーＪ   °。+ *´¨) 
                .· ´¸.·*´¨) 
                (¸.·´ (¸.·'* ☆  <YOUR CODE>
    '''

    return error, bias2, var

In [13]:
def generate(n_samples, noise, f):
    X = np.linspace(-4, 4, n_samples)
    y = f(X)
    X = X.reshape((n_samples, 1))

    return X, y
######################################################

n_train = 150        
noise = 0.1

# Generate data
def f(x):
    x = x.ravel()
    return np.exp(-x ** 2) + 1.5 * np.exp(-(x - 2) ** 2)

X, y = generate(n_samples=n_train, noise=noise, f=f)

estimators = [DecisionTreeRegressor(max_depth=2, random_state=1).fit(X, y), 
              DecisionTreeRegressor(max_depth=4, random_state=1).fit(X, y)]

x, y = np.array([[2]]), 1.5

error, bias, var = bias_variance_decomp(x, y, estimators)

assert_array_almost_equal(np.array([error, bias, var]), 
                          np.array([0.108, 0.083, 0.025]), decimal=3)

x, y = np.array([[-0.7]]), 0.8
error, bias, var = bias_variance_decomp(x, y, estimators)

assert_array_almost_equal(np.array([error, bias, var]), 
                          np.array([0.045, 0.002, 0.043]), decimal=3)

######################################################

X, y = make_regression(n_samples=1000, n_features=3, n_informative=3, bias=2, noise=10, 
                       n_targets=1, shuffle=False, random_state=10)

estimators = [DecisionTreeRegressor(max_depth=3, random_state=1).fit(X, y), 
              DecisionTreeRegressor(max_depth=5, random_state=1).fit(X, y)]

x, y = np.array([[0,0,0]]), 0
error, bias, var = bias_variance_decomp(x, y, estimators)

assert_array_almost_equal(np.array([error, bias, var]), 
                          np.array([3.574, 3.255, 0.319]), decimal=3)


# SLIDE (1) Bias-variance v2

А теперь тоже самое, только для нескольких объектов

На вход подается тестовая выборка объект $(X_{test}, y_{test})$ и список из нескольких **обученных** моделей. 

Необходимо найти $error$, $bias^2$, $variance$, $noise$ для данного объекта.

$$error = \mathbb{E}_{x,y}\mathbb{E}_{a}(a(x)-y)^2 = \frac{1}{N}\sum_{i=1}^{N}\frac{1}{M}\sum_{j=1}^{M}(a_j(x_i) - y_i)^2$$

$$bias^2 = \mathbb{E}_{x,y}\Big(y - \mathbb{E}_{a}[a(x)]\Big)^2 = \frac{1}{N}\sum_{i=1}^{N}\Big(y_i - \frac{1}{M}\sum_{j=1}^{M}a_j(x_i)\Big)^2$$  

$$variance = \mathbb{E}_{x,y}\mathbb{D}_{a}a(x)= \mathbb{E}_{x,y}\mathbb{E}_{a}(a(x) - \mathbb{E}_{a}a(x))^2 = \frac{1}{N}\sum_{i=1}^{N}\frac{1}{M}\sum_{j=1}^{M}\Big(a_j(x_i)-\frac{1}{M}\sum_{r=1}^{M}a_r(x_i)\Big)^2$$


### Sample 1
#### Input:
```python
x = np.array([[  0,   0,   0],
              [0.1, 0.1, 0.1]])
y = np.array([0, 0.1])

estimators = [DecisionTreeRegressor(max_depth=3, random_state=3), 
              DecisionTreeRegressor(max_depth=5, random_state=3)]
```
#### Output:
```python
error, bias2, var = 3.399, 3.079, 0.319
```

# TASK

In [525]:
import numpy as np

def bias_variance_decomp2(x_test:np.array, y_test:np.array, estimators:list)->tuple:
    '''
        .∧＿∧ 
        ( ･ω･｡)つ━☆・*。 
        ⊂  ノ    ・゜+. 
        しーＪ   °。+ *´¨) 
                .· ´¸.·*´¨) 
                (¸.·´ (¸.·'* ☆  <YOUR CODE>
    '''

    return error, bias2, var

In [15]:
def generate(n_samples, noise, f):
    X = np.linspace(-4, 4, n_samples)
    y = f(X)
    X = X.reshape((n_samples, 1))

    return X, y
######################################################

n_train = 150        
noise = 0.1

# Generate data
def f(x):
    x = x.ravel()
    return np.exp(-x ** 2) + 1.5 * np.exp(-(x - 2) ** 2)

X, y = generate(n_samples=n_train, noise=noise, f=f)

estimators = [DecisionTreeRegressor(max_depth=2, random_state=1).fit(X, y), 
              DecisionTreeRegressor(max_depth=4, random_state=1).fit(X, y)]

x = np.array([[2], [-0.7]]) 
y = np.array([1.5, 0.8])

error, bias, var = bias_variance_decomp2(x, y, estimators)

assert_array_almost_equal(np.array([error, bias, var]), 
                          (np.array([0.108, 0.083, 0.025]) + np.array([0.045, 0.002, 0.043])) / 2, decimal=3)

######################################################

X, y = make_regression(n_samples=1000, n_features=3, n_informative=3, bias=2, noise=10, 
                       n_targets=1, shuffle=False, random_state=10)

estimators = [DecisionTreeRegressor(max_depth=3, random_state=1).fit(X, y), 
              DecisionTreeRegressor(max_depth=5, random_state=1).fit(X, y)]

x = np.array([[  0,   0,   0]])
y = np.array([0])

error, bias, var = bias_variance_decomp2(x, y, estimators)

assert_array_almost_equal(np.array([error, bias, var]), 
                          np.array([3.574, 3.255, 0.319]), decimal=3)


x = np.array([[  0,   0,   0],
              [0.1, 0.1, 0.1]])
y = np.array([0, 0.1])

error, bias, var = bias_variance_decomp2(x, y, estimators)


assert_array_almost_equal(np.array([error, bias, var]), 
                          np.array([3.399, 3.079, 0.319]), decimal=3)


# SLIDE (1) Bagging

На вход подается лист **необученных** алгоритмов регрессии, тренировочная и тестовые выборки. 

Необходимо 

* бустингом сделать несколько выборок $X_1, \ldots, X_B$
* обучить алгоритмы на этих выборках: $a_1(\cdot), \ldots, a_B(\cdot)$
* реализовать бэггинг алгоритмов и найти собственно предсказания, $error$, $bias^2$ и $variance$.

Вот теперь аккуратно. Это - **не матожидание**! Это модель такая.
$$a(x) = \frac{1}{B}\sum_{b=1}^{B}a_b(x)$$

А вот ее матожидание равно для всех алгоритмов:
$$\mathbb{E}_aa(x) = \mathbb{E}_a\frac{1}{B}\sum_{b=1}^{B}a_b(x) = \mathbb{E}_aa_1(x)$$

Но так как теперь, нам нужно посчитать матожидание, мы воспользуемся нашим множеством алгоритмов, обученных на бутстрепе, чтобы получить оценку матожидания единичного алгоритма.

$$\mathbb{E}_aa_1(x) = \frac{1}{B}\sum_{j=1}^{B}a_j(x)$$

Остальные формулы берутся из предыдущей задачи.

P.S.

* Так как тут есть вероятности, в целом тесты могут `редко` не взлететь. Перезашлите задачу в этом случае.

### Sample 1
#### Input:
```python
boot_count = 1000
estimators = [DecisionTreeRegressor(max_depth=2) for _ in range(boot_count)]
X_train = np.array([[0, 0], [1, 1], [5, 5], [8, 8], [10, 10]])
y_train = np.array([0, 1, 5, 8, 10])
X_test  = np.array([[4, 4], [6, 6]])
y_test  = np.array([4, 6])

```
#### Output:
```python
y_pred = np.array([3.656 6.039])
error  = 3.7 
bias^2 = 0.1
var    = 3.7
```

# TASK

In [590]:
import numpy as np

def bagging(estimator, X_train, y_train, X_test, y_test):
    '''
        .∧＿∧ 
        ( ･ω･｡)つ━☆・*。 
        ⊂  ノ    ・゜+. 
        しーＪ   °。+ *´¨) 
                .· ´¸.·*´¨) 
                (¸.·´ (¸.·'* ☆  <YOUR CODE>
    '''

    return y_pred, loss, bias, var

In [21]:
import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

######################################################
boot_count=1000
estimators = [DecisionTreeRegressor(max_depth=2) for _ in range(boot_count)]
X_train = np.array([[0, 0], [1, 1], [5, 5], [8, 8], [10, 10]])
y_train = np.array([0, 1, 5, 8, 10])
X_test  = np.array([[4, 4], [6, 6]])
y_test  = np.array([4, 6])


y_pred, loss, bias, var = bagging(estimators, X_train, y_train, X_test, y_test)

# Да я в курсе что очень грубые ограничения, просто пример игрушечный на таком малом количестве данных
assert_array_almost_equal(y_pred, np.array([4, 6]), decimal=0)

assert_almost_equal(loss, 3.7, decimal=0) 
assert_almost_equal(bias, 0.1, decimal=1) 
assert_almost_equal(var,  3.7, decimal=0) 

######################################################

from sklearn.datasets import load_boston
X, y = load_boston(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.3,
                                                    random_state=123,
                                                    shuffle=True)



boot_count=1000
estimators = [DecisionTreeRegressor(max_depth=7) for _ in range(boot_count)]


y_pred, loss, bias, var = bagging(
        estimators, X_train, y_train, X_test, y_test)

assert_almost_equal(loss, 32, decimal=0) 
assert_almost_equal(bias, 14, decimal=0) 
assert_almost_equal(var,  18, decimal=0) 

# SLIDE (1) RF Classification

Осталось переделать чуток предыдущую задачу в `RandomForest`. 
Но теперь мы наконец попробуем классификацию. (Пока только бинарную)

План

* Также делаем бутстрепные выборки (для каждого дерева своя выборка, соответственно кол-во выборок - `n_estimators`, в каждой элементов как в начальной выборке `X_train`)
* Бэггинг теперь будет только по деревьям классификации
* Будем передавать параметр `n_estimators`, `max_depth` и `max_features`

Как выбирать ответ в задаче классификации?

* Для каждого внутреннего дерева решений находим веротности обоих классов для каждого объекта $X_test$:
  * Вызываем `predict_proba` у `DecisionTreeClassifier`
* Усредняем вероятности класса и объекта по деревьям:
  * $P(n_{class}=d, object=x_k) = \frac{1}{B}\sum_{i=1}^{B}P(n_{class}=d, object=x_k, tree=b_i)$
* Для каждого объекта выбираем тот класс, у которого выше вероятность



### Sample 1
#### Input:
```python
X_train = np.array([[0, 0], [4, 4], [5, 5], [10, 10]])
y_train = np.array([0, 0, 1, 1])
X_test  = np.array([[3, 3], [6, 6]])
y_test  = np.array([0, 1])

B = 1000
```
#### Output:
```python
model.predict(X_test) == np.array([0, 1])
```

# TASK

In [None]:
class MyRFC():
    def __init__(self, n_estimators=10, max_features=None, max_depth=None):
        self.estimators_ = ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        
    def fit(self, X_train: np.array, y_train: np.array):
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        return self
        
    def predict(self, X_test) -> np.array:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass
    
    def predict_proba(self, X_test)-> np.array:
        ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
        pass

In [19]:
######################################################
X_train = np.array([[0, 0], [4, 4], [5, 5], [10, 10]])
y_train = np.array([0, 0, 1, 1])
X_test  = np.array([[3, 3], [6, 6]])
y_test  = np.array([0, 1])

B = 1000

y_pred_my = MyRFC(n_estimators = 100, max_depth=3).fit(X_train, y_train).predict(X_test)

assert_array_almost_equal(y_pred_my, np.array([0, 1]))
######################################################
from random import gauss
from sklearn.metrics import accuracy_score

num_samples = 1000
theta = np.linspace(0, 2*np.pi, num_samples)

r1 = 1
r2 = 2

rng = np.random.RandomState(1)

circle = np.hstack([np.cos(theta).reshape((-1, 1)) + (rng.randn(num_samples)[:,np.newaxis] / 8), 
                    np.sin(theta).reshape((-1, 1)) + (rng.randn(num_samples)[:,np.newaxis] / 8)])
lil = r1 * circle
big = r2 * circle
X = np.vstack([lil, big])
y = np.hstack([np.zeros(num_samples), np.ones(num_samples)])

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.3,
                                                    random_state=123,
                                                    shuffle=True)

y_test = y_test.astype('int')


y_pred_my = MyRFC(n_estimators = 100, 
                  max_depth=1).fit(X_train, y_train).predict(X_test)

assert accuracy_score(y_pred_my, y_test) > 0.85


# SLIDE (1) Feature Importance

Просто верните отсортированный массив важности фич, полученные из обученного RandomForest. Фичи нумеруются с 1.

### Sample 1
#### Input:
```python
X = np.array([[0, 0], [0,1], [1, 0], [1, 1]])
y = np.array([0,0,1,1])
```
#### Output:
```python
features= np.array([1, 2])
importance = np.array([0.75, 0.25])

```

# TASK

In [None]:
def feature_importance(X, y):
    '''
        .∧＿∧ 
        ( ･ω･｡)つ━☆・*。 
        ⊂  ノ    ・゜+. 
        しーＪ   °。+ *´¨) 
                .· ´¸.·*´¨) 
                (¸.·´ (¸.·'* ☆  <YOUR CODE>
    '''
    return features, importance

In [21]:
######################################################
X = np.array([[0, 0], [0,1], [1, 0], [1, 1]])
y = np.array([0,0,1,1])

f, i = feature_importance(X, y)

assert_array_equal(f , np.array([1, 2]))
assert i[0] > 0.74
######################################################
X, y = make_classification(n_samples=1000, 
                           n_features=4,
                           n_informative=2,
                           shuffle=False, 
                           random_state=10)

n = 10
a = np.zeros((n, X.shape[1]))
for i in range(n):
    a[i], _ = feature_importance(X, y) 

assert_array_equal(np.round(a.mean(axis=0)), np.array([2,3,4,1]))

######################################################