# 7.1. Разнообразие

Как известно, для формирования случайного леса необходимо разнообразие каждого из решающих деревьев в его составе. Добиться такого разнообразия можно как при помощи варьирования параметров деревьев, так и при помощи варьирования обучающих выборок. Это обычно делается при помощи комбинирования методов случайных подпространств и беггинга. Метод случайных подпространств состоит в случайном выборе подмножества признаков. Бэггинг - это техника отбора подмножества объектов из исходной выборки, которая состоит в последовательном случайном выборе объектов выборки [**с возвращением**](https://ru.wikipedia.org/wiki/Размещение#Размещение_с_повторениями).

Для ясности приведём следующий пример:

Пусть  наша выборка - это черный мешок с пронумерованными шарами. Каждый шар символизирует некоторый объект нашей выборки с соответствующим номером. Процедура бэггинга предлагает нам последовательно хорошо перемешав шары в мешке вытаскивать их один за другим не глядя, записывать их номера на лист бумаги, а затем возвращать их назад в мешок, повторяя эту операцию столько раз, сколько объектов содержится в нашей выборке. Затем мы вынем из мешка все те шары, номер которых хотя бы раз возник в нашем списке. Понятно, что скорее всего среди этих номеров будут повторяющиеся, то есть какие-то шары мы вытянем несколько раз, а какие-то - вообще ни разу. Именно поэтому наша подвыборка и получится случайной. Статистически обоснована оценка того, какой процент шаров из исходной выборки в среднем попадёт в итоговую подвыборку. Эта оценка приблизительно равна $62\%$.

Ваша задача - написать реализацию трёх функций и объединить их в класс `sample`, возвращающий по выборке некоторую случайную подвыборку, пригодную для обучения  одного из деревьев в ансамбле случайного леса.

**Замечание:** обратите внимание, что объекты в итоговой подвыборке не должны дублироваться. Мы предлагаем Вам ознакомиться с функциями [np.random.choice](https://numpy.org/doc/stable/reference/random/generated/numpy.random.choice.html) и [np.unique](https://numpy.org/doc/stable/reference/generated/numpy.unique.html), они могут оказаться полезны при выполнении этого задания.

Подробнее об этом методе можно прочитать в нашей [лекции](https://colab.research.google.com/drive/1LrqEyfmOKJQdvgxZ56qPcJ_YjJFnP_Ka#scrollTo=kYjii_stqfJo)


In [None]:
import numpy as np

class sample:
    def __init__(self, X, n_subspace):
        self.idx_subspace = self.random_subspace(X, n_subspace)

    def __call__(self, X, y):
        idx_obj = self.bootstrap_sample(X)
        X_sampled, y_sampled = self.get_subsample(X, y, self.idx_subspace, idx_obj)
        return X_sampled, y_sampled

    @staticmethod
    def bootstrap_sample(X):
        n_samples = X.shape[0]
        indices = np.random.choice(range(n_samples), size=n_samples, replace=True)
        return np.unique(indices)

    @staticmethod
    def random_subspace(X, n_subspace):
        n_features = X.shape[1]
        return np.random.choice(range(n_features), size=n_subspace, replace=False)

    @staticmethod
    def get_subsample(X, y, idx_subspace, idx_obj):
        X_sampled = X[idx_obj][:, idx_subspace]
        y_sampled = y[idx_obj]
        return X_sampled, y_sampled


In [None]:
import numpy as np

a = np.array([[1,2,3],
              [4,56,6], 
              [34,2,3], 
              [23,45,13], 
              [1,2,3], 
              [1,2,3]])

a = np.unique(a, axis=0)
print(a, end="\n\n")

idx_0 = np.unique(np.random.choice([i for i in range(a.shape[0])], size=a.shape[0]))
idx_1 = np.unique(np.random.choice([i for i in range(a.shape[1])], size=a.shape[1]))

a = a[idx_0, :]
a = a[:,idx_1]
a

[[ 1  2  3]
 [ 4 56  6]
 [23 45 13]
 [34  2  3]]



array([[ 1,  3],
       [23, 13],
       [34,  3]])

# Пример формата входных и выходных данных

In [3]:
X = np.array([[1,2,3], [4,5,6], [7,8,9], [1, 2,3 ], [4,5,6],[1,2,3]])
Y = np.array([1, 2, 3,1,2,1])
s = sample(X, 2)

bootstrap_indices = s.bootstrap_sample(X)
X_sampled, y_sampled = s.get_subsample(X, Y, s.idx_subspace, bootstrap_indices)
print(X_sampled, y_sampled, sep="\n\n")

[[1 2]
 [4 5]
 [7 8]
 [1 2]
 [4 5]
 [1 2]]

[1 2 3]


In [4]:
# Строки, выбранные из исходного массива X
bootstrap_indices

array([0, 1, 2])

In [5]:
# Столбцы, выбранные из исходного массива X
s.idx_subspace

array([0, 1])

In [9]:
# Матрица на выходе
X_sampled

array([[1, 2],
       [4, 5],
       [7, 8],
       [1, 2],
       [4, 5],
       [1, 2]])

In [7]:
# Вектор ответов на выходе
y_sampled

array([1, 2, 3])

## Примечания

1. Не забывайте, что в качестве ответа на задание нужно отправлять именно реализованный класс, соответствующиий [шаблону выше](https://colab.research.google.com/drive/1LoXr0Rwmcivgla2gAzOKuLgh2ISlokvv#scrollTo=juW_Uoo_ic0z&line=5&uniqifier=1).

2. Подумайте, что должны возвращать методы bootstrap_sample и random_subspace (одна из функций возвращает индексы строк, другая - индексы столбцов).

3. Пример из блокнота не обязан совпадать с входными данными из блокнота. Он дан лишь для проверки алгоритмов в указанном формате.

4. Подумайте, в каких реализуемых методах нужен numpy.unique(), а в каких - нет.

5. В реализуемых методах запрещается использовать вывод любой информации на экран (в частности, недопустимо использование print()).