## Случайные леса / Random Forest / RF

Основная идея - по имеющимся признакам принять решение. Например, если нам необходимо отличить млекопитающего животного от пресмыкающего, то основным признаком отбора будет - кормление детеныша молоком. 

### Универсальность метода

Универсальность метода заключается в том, что он подходит для решения любой задачи, кроме работы с изображениями. Мы можем использовать его для решения задачи регрессии, классификации.

### Принятие итогового решения

Случайные леса - это использование М деревьев принятия решений для разных данных из одного набора данных. После выполнения дерева принятия решения мы получаем М ответов. После этого нужно М решений свести к одному. Для решения задачи регрессии М ответов усредняют. Для решение задачи классификации используют голосование.

### Реализация
В библиотеке scikit-learn есть реализация RF. Мы сегодня рассмотрим решение задачи классификации с помощью нее.

In [None]:
# Подключение библиотеки для работы со случайными лесами
from sklearn.ensemble import RandomForestClassifier

1. Инициализация данных и предсказание класса, к которому относится новая точка

In [None]:
x_train = [ [1, 2], [5, 6], [3, 4],
           [7, 8], [-1, 2], [-5, 6],
           [-3, 4], [-7, 8], [0, 0]] # точки исходного множества/набор данных из точек

y_train = [1, 1, 1, 1, 0, 0, 0, 0, 1] # классы для каждой точки из x_train

# создание деревьев
clf_rf = RandomForestClassifier()

# обучение
clf_rf.fit(x_train, y_train)

# предсказание класса для новой точки
result = clf_rf.predict([[2, 2]])

print(result)  # это предсказанный класс
print(clf_rf.predict_proba([[2, 2]]))  # вероятности по классам

### Описание функции RandomForestClassifier()

У этой функции очень много параметров, которые можно изменять, задавать самостоятельно. При этом будет изменяться результат обучения, поэтому будет изменяться и качество решения. Подбор параметров для обучения является сложной задачей.

RandomForestClassifier(n_estimators=100, max_depth=None, min_samples_split=2, max_features='auto', min_impurity_split=None,  warm_start=False)

Мы разберем некоторые параметры. Вы можете при этом менять все, что посчитаете нужным.

1. n_estimators (целое число/int) - количество деревьев в лесу. По умолчанию == 100

2. max_depth (целое число/int или None) - максимальная глубина дерева. Обозначает сколько ярусов будет у дерева. Если Вы указываете None, то дерево будет расширяться вниз, пока такое возможно, то есть пока не будут рассмотрены все возможные признаки. По умолчанию == None

3. min_samples_split (целое число/int) - минимальное число данных для разбиения дерева и оценки признака. По умолчанию == 2

4. max_features (строка/string) - функция определения количества значимых признаков. Возможные варианты: auto/sqrt/log2. Если у вас n признаков в наборе данных, то при max_features == 'sqrt' число значимых признаков будет равно sqrt(n). По умолчанию == auto

5. min_impurity_split (вещественное число/float) - пороговое/минимальное значение постановки условия для признака. По умолчанию == None

6. warm_start (bool/true or false) - флаг на использование дерева для предыдущего набора данных. Если == True, то для текущего набора данных будет изменяться предыдущего (преддущее дерево сохраняется).  Если == False, то построение дерева происходит самостоятельно


Теперь необходимо разбить данные на 2 части: для обучения/построения деревьев и для проверки/тестов

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(x_train, y_train, test_size=0.2)
print(X_test, Y_test)  # при каждом запуске деление будет разным
print(X_train, Y_train)

### Задание 1.



1.1 Постройте случайный лес для X_train, Y_train с параметрами по умолчанию. И выведите результат обучения для X_test, Y_test. Необходимый код написан выше.

1.2 Посчитайте точность вашей модели

In [None]:
# Ваш код

### Задание 2.
Подберите параметры для построения случайных лесов, чтобы решение стало лучше, если это возможно. Потому что при дефолтных параметрах может получится наилучшая модель для этих данных. То есть Вам необходимо создать еще случайные леса с другими параметрами, так, чтобы точность стала больше, чем у предыдущего решения.

In [None]:
# Ваш код

### Автоматический поиск параметров

С помощью функции GridSearchCV можно найти оптимальные гиперпараметры для модели: например, напаметр k в методе ближайших соседей, число скрытых слоев в нейронных сетях. GridSearchCV – это очень мощный инструмент для автоматического подбирания параметров для моделей машинного обучения. GridSearchCV находит наилучшие параметры путем обычного перебора: он создает модель для каждой возможной комбинации параметров. Важно отметить, что такой подход может быть весьма времязатратным.

In [4]:
from sklearn.model_selection import GridSearchCV

# Задаем сетку, которую будем перебирать
grid_parameter = { 
    'n_estimators': [10,20,30,40,50,100],
    'max_depth': [10,20,100],
}

clf =  RandomForestClassifier()
grid_search = GridSearchCV(clf, grid_parameter) # передаем классификатор и параметры, из которых будем выбирать
grid_search.fit(X_train, Y_train)
clf_best = grid_search.best_estimator_
print('Best params = ', clf_best.get_params())



Best params =  {'bootstrap': True, 'ccp_alpha': 0.0, 'class_weight': None, 'criterion': 'gini', 'max_depth': 10, 'max_features': 'sqrt', 'max_leaf_nodes': None, 'max_samples': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'n_estimators': 10, 'n_jobs': None, 'oob_score': False, 'random_state': None, 'verbose': 0, 'warm_start': False}
