*Случайный лес* — алгоритм машинного обучения, представляющий собой ансамбль независимых решающих деревьев.

Алгоритм построения случайного леса, состоящего из N деревьев, выглядит следующим образом:

Для каждого n = 1, … , N:
1. Сгенерировать выборку $X_n$ с помощью бутстрэпа;
2. Построить решающее дерево bn по выборке $X_n$:
- по заданному критерию мы выбираем лучшии признак, делаем разбиение в дереве по нему и так до исчерпания выборки
- дерево строится, пока в каждом листе не более $n_{min}$ объектов или пока не достигнем определенной высоты дерева
- при каждом разбиении сначала выбирается m случайных признаков из n исходных,
и оптимальное разделение выборки ищется только среди них.







Для задачи кассификации финальное решение выбирается голосованием по большинству, а в задаче регрессии - средним.

**Постановка задачи:** Для набора данных по раку груди — Scikit-learn «breast cancer» построить классификационную модель прогнозирования рака, используя алгоритм "Случайный лес". Оценить точность модели.

**Имортируем библиотеки**

In [None]:
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import recall_score
from sklearn.metrics import confusion_matrix

**Импорт набора данных**

1. data - необходимые данные для предсказания.
2. target - это целевые данные, которые мы хотим предсказать.

Последний столбец "cancer"(рак) - это целевая переменная, значение которой мы хотим предсказать, используя модель. Если заболевания нет - пишем 0, иначе 1.

In [None]:
# Выбираем признаки
columns = ['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness', 'mean compactness', 'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 'concavity error', 'concave points error', 'symmetry error', 'fractal dimension error', 'worst radius', 'worst texture', 'worst perimeter', 'worst area', 'worst smoothness', 'worst compactness', 'worst concavity', 'worst concave points', 'worst symmetry', 'worst fractal dimension']
# Загружаем набор данных
dataset = load_breast_cancer()
# Считываем DataFrame
data = pd.DataFrame(dataset['data'], columns=columns)
data['cancer'] = dataset['target']

# Для представления набора данных, можно вывести первые 5 строчек
display(data.head())


Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,cancer
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


**Подготовка данных для обучения**

В этом разделе будут выполнены две задачи. Первая задача состоит в том, чтобы разделить данные на наборы “атрибутов” и “меток”. Полученные данные затем делятся на обучающие и тестовые наборы. 

Мы разделим набор на две равные части — 50% — учебные данные и 50% — тестовые.   Для обеспечения того, чтобы и в учебном, и в проверочном наборах данных присутствовало бы то же соотношение 0 и 1, что и в исходном наборе данных, устанавливаем stratify=y.

In [None]:
# Атрибуты
X = data.drop('cancer', axis=1) 
# Метки 
y = data['cancer'] 
# Делим на обучающие и тестовые
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.50, random_state = 2020, stratify=y)

**Масшабирование данных**

Перед тем, как приступать к моделированию, нужно масштабировать данные. 
У нас различные величины выражены в разных единицах измерения, поэтому надо выполнить масштабирование. Эта процедура позволяет организовать «честную схватку» между признаками при определении их важности. Кроме того, мы конвертируем y_train из типа данных Pandas Series в массив NumPy для того чтобы позже модель смогла бы работать с соответствующими целевыми показателями.

In [None]:
ss = StandardScaler()
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)
y_train = np.array(y_train)

**Обучение модели**

После масштабирования будем обучать модель на учебном наборе. Для этого сначала инициализируем модель. После этого обучим её на масштабированных данных. 

Далее оценим точность построенной модели. Создадим матрицы ошибок для модели и узнаем о том, как хорошо она смогла определить рак груди.

In [None]:
# Инициализация модели
rfc = RandomForestClassifier()
# Обучение модели
rfc.fit(X_train_scaled, y_train)

# Рассчет точности
y_pred = rfc.predict(X_test_scaled)
# Построение матрицы
conf_matrix_baseline = pd.DataFrame(confusion_matrix(y_test, y_pred), index = ['Фактически 0', 'Фактически 1'], columns = ['Предсказано 0', 'Предсказано 1'])
# Вывод на экран
display(conf_matrix_baseline)
display('Точность модели, построенной с помощью алгоритма \"Случайный лес\"', recall_score(y_test, y_pred))

Unnamed: 0,Предсказано 0,Предсказано 1
Фактически 0,100,6
Фактически 1,11,168


'Точность модели построенной с помощью алгоритма "Случайный лес"'

0.9385474860335196

**Итог**

Точность модели составляет более 90%, что очень хорошо, учитывая, что мы имеем дело с диагнозированием рака!

**Задача для самостоятельной работы**

Для набора данных о ценах на жилье в Бостоне(from sklearn.datasets import load_boston) построить классификационную модель прогнозирования цен на жилье на основе атрибутов: количество комнат, уровень преступности в городе.  Оценить точность модели. Для создания модели использовать алгоритм "Случайный лес".