# ML-5. Решающие деревья и случайный лес 
## Юнит 6. Основные алгоритмы машинного обучения. Часть II
### Skillfactory: DST-10
---

### Задача 5.2.3
---
Вам предложен датасет */data/bill_authentication.csv* с некоторыми характеристиками банкнот, по которым мы будем определять, является ли банкнота фальшивой или настоящей.

Более подробную информацию про датасет, а также сам датасет можно найти здесь: https://archive.ics.uci.edu/ml/datasets/banknote+authentication.

Также можете его скачать напрямую по этой ссылке: https://lms.skillfactory.ru/assets/courseware/v1/ad29ebf5005123a0f5f50399a7bb64fb/asset-v1:Skillfactory+DST-10+22JAN2020+type@asset+block/bill_authentication.csv.

Параметры решающего дерева, которые понадобятся для решения задачи:

- max_depth — максимальная глубина дерева.
- max_features — максимальное число признаков, по которым ищется лучшее разбиение в дереве. Это нужно потому, что при большом количестве признаков будет «дорого» искать лучшее (по критерию типа прироста информации) разбиение среди всех признаков.
- min_samples_leaf — минимальное число объектов в листе. У этого параметра есть понятная интерпретация: если он равен 5, то дерево будет порождать только те классифицирующие правила, которые верны как минимум для 5 объектов.

Обучите на данных из файла решающее дерево. Целевой переменной здесь является переменная Class. Размер тестовой выборки возьмите за 0.2, random_state = 17 для разбиения и дерева. Максимальную глубину дерева примите за 2, максимальное число признаков, по которым ищется лучшее разбиение в дереве — за 2. Какое значение f1-score вы получили? Округлите до трёх знаков

In [11]:
import pandas as pd
import numpy as np

In [2]:
RANDOM_SEED =17

In [3]:
# Прочитаем data set
df = pd.read_csv('./data/bill_authentication.xls', sep=',')  
df.sample(5)

Unnamed: 0,Variance,Skewness,Curtosis,Entropy,Class
682,3.7321,-3.884,3.3577,-0.006049,0
103,3.3397,-4.6145,3.9823,-0.23751,0
886,-1.6514,-8.4985,9.1122,1.2379,1
356,2.7206,9.0821,-3.3111,-0.96811,0
226,0.5706,-0.0248,1.2421,-0.5621,0


In [4]:
# Посмотрим на данные 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1372 entries, 0 to 1371
Data columns (total 5 columns):
Variance    1372 non-null float64
Skewness    1372 non-null float64
Curtosis    1372 non-null float64
Entropy     1372 non-null float64
Class       1372 non-null int64
dtypes: float64(4), int64(1)
memory usage: 53.7 KB


In [5]:
# Выделяем признаки и целевую переменную
X = df.drop(['Class'], axis=1)
Y = df['Class']

In [6]:
# Разделим выборку на обучающую и тренировочную
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, 
                                                    random_state=RANDOM_SEED)

In [7]:
# Модель для классификации на основе дерева решений
from sklearn.tree import DecisionTreeClassifier

clf_tree = DecisionTreeClassifier(max_depth=3, 
                                  max_features=2, random_state=RANDOM_SEED)
clf_tree.fit(X_train, Y_train)   # Обучаем

DecisionTreeClassifier(max_depth=3, max_features=2, random_state=17)

In [8]:
# Вычислим метрики качества
from sklearn.metrics import f1_score

Y_predicted = clf_tree.predict(X_test)  # Предсказываем
print('f1_score =', round(f1_score(Y_test, Y_predicted), 3))


f1_score = 0.866


In [20]:
# Проклассифицируем банкноту с вектором признаков 
# [2.04378,-0.38422,1.437292,0.76421]
# К какому классу она относится?
class_x0 = clf_tree.predict([[2.04378, -0.38422, 1.437292, 0.76421]])
print('Банкнота относится к классу', class_x0)

Банкнота относится к классу [0]


### Задача 5.2.5
---

Потренируемся реализовывать задачу регрессии с помощью решающих деревьев на реальных данных. В данной задаче мы попробуем предсказать потребление топлива. Датасет лежит здесь: https://lms.skillfactory.ru/assets/courseware/v1/fc8c2fb45f3b0b86d8fe409ff0f430af/asset-v1:Skillfactory+DST-10+22JAN2020+type@asset+block/petrol_consumption.csv.

Обучите решающее дерево для регрессии на предложенных данных, размер тестовой выборки возьмите за 0.3, random_state = 42 для разбиения и дерева. Вычислите RMSE, округлите до двух знаков после точки-разделителя. Какова глубина дерева?

In [25]:
# Прочитаем data set
df = pd.read_csv('./data/petrol_consumption.xls', sep=',')  
df.sample(5)

Unnamed: 0,Petrol_tax,Average_income,Paved_Highways,Population_Driver_licence(%),Petrol_Consumption
7,8.0,5126,2138,0.553,467
12,7.0,4817,6930,0.574,525
20,7.0,4593,7834,0.663,649
37,7.0,3897,6385,0.586,704
21,8.0,4983,602,0.602,540


In [26]:
# Посмотрим на данные 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48 entries, 0 to 47
Data columns (total 5 columns):
Petrol_tax                      48 non-null float64
Average_income                  48 non-null int64
Paved_Highways                  48 non-null int64
Population_Driver_licence(%)    48 non-null float64
Petrol_Consumption              48 non-null int64
dtypes: float64(2), int64(3)
memory usage: 2.0 KB


In [27]:
# Выделяем признаки и целевую переменную
X = df.drop(['Petrol_Consumption'], axis=1)
Y = df['Petrol_Consumption']

In [28]:
# Разделим выборку на обучающую и тренировочную
RANDOM_SEED = 42
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, 
                                                    random_state=RANDOM_SEED)

In [29]:
# Обучим решающее дерево для регрессии на предложенных данных
from sklearn.tree import DecisionTreeRegressor

reg_tree = DecisionTreeRegressor(random_state=RANDOM_SEED)
reg_tree.fit(X_train, Y_train)   # Обучаем

DecisionTreeRegressor(random_state=42)

In [31]:
# Подгружаем инструмент для оценки точности модели (MSE)
from sklearn.metrics import mean_squared_error

y_pred = reg_tree.predict(X_test)
rmse = mean_squared_error(Y_test, y_pred)**0.5
print(f'RMSE = {rmse:.2f}')

RMSE = 87.97


In [33]:
# Определим глубину дерева
print('Глубина дерева =', reg_tree.get_depth())

Глубина дерева = 11
