## Задача
Вам предложен датасет с некоторыми характеристиками банкнот, по которым мы будем определять, является ли банкнота фальшивой или настоящей.

Параметры решающего дерева, которые понадобятся для решения задачи:

- max_depth — максимальная глубина дерева.
- max_features — максимальное число признаков, по которым ищется лучшее разбиение в дереве. Это нужно потому, что при большом количестве признаков будет «дорого» искать лучшее (по критерию типа прироста информации) разбиение среди всех признаков.
- min_samples_leaf — минимальное число объектов в листе. У этого параметра есть понятная интерпретация: если он равен 5, то дерево будет порождать только те классифицирующие правила, которые верны как минимум для 5 объектов.

### Задание
Обучите на предложенных данных решающее дерево. Целевой переменной здесь является переменная Class. Размер тестовой выборки возьмите за 0.2, random_state = 17 для разбиения и дерева. Максимальную глубину дерева примите за 3, максимальное число признаков, по которым ищется лучшее разбиение в дереве — за 2. Какое значение f1-score вы получили? Округлите до трёх знаков после точки-разделителя.

In [1]:
import pandas as pd # библиотека для работы с файлами csv
import numpy as np # линейная алгебра

# Библиотеки для визулизации данных
import matplotlib.pyplot as plt
%matplotlib inline

# Библиотеки для работы с ML
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

# Библиотеки метрик
from sklearn.metrics import f1_score

In [2]:
vis_data = pd.read_csv('bill_authentication.csv')

In [3]:
vis_data

Unnamed: 0,Variance,Skewness,Curtosis,Entropy,Class
0,3.62160,8.66610,-2.8073,-0.44699,0
1,4.54590,8.16740,-2.4586,-1.46210,0
2,3.86600,-2.63830,1.9242,0.10645,0
3,3.45660,9.52280,-4.0112,-3.59440,0
4,0.32924,-4.45520,4.5718,-0.98880,0
...,...,...,...,...,...
1367,0.40614,1.34920,-1.4501,-0.55949,1
1368,-1.38870,-4.87730,6.4774,0.34179,1
1369,-3.75030,-13.45860,17.5932,-2.77710,1
1370,-3.56370,-8.38270,12.3930,-1.28230,1


In [4]:
y = vis_data['Class']
X = vis_data.drop('Class', axis=1)

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=17)

In [6]:
clf_tree = DecisionTreeClassifier(random_state=17, max_depth=3, max_features=2)
clf_tree.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=3, max_features=2, random_state=17)

In [7]:
y_pred_train = clf_tree.predict(X_train)
f1_train = f1_score(y_train,y_pred_train)

y_pred_test = clf_tree.predict(X_test)
f1_test = f1_score(y_test,y_pred_test)

print('f1_train', f1_train, 'f1_test', f1_test)

f1_train 0.903353057199211 f1_test 0.8663967611336032


### Задание
Проклассифицируйте банкноту с вектором признаков 2.04378,-0.38422,1.437292,0.76421. К какому классу она относится?

In [18]:
test = np.array([2.04378, -0.38422, 1.437292, 0.76421]).reshape(1, -1)
y_pred = clf_tree.predict(test)

In [19]:
y_pred

array([0], dtype=int64)

## Задача
Потренируемся реализовывать задачу регрессии с помощью решающих деревьев на реальных данных. В данной задаче мы попробуем предсказать потребление топлива. 

### Задание
Обучите решающее дерево для регрессии на предложенных данных, размер тестовой выборки возьмите за 0.3, random_state = 42 для разбиения и дерева. Вычислите RMSE, округлите до двух знаков после точки-разделителя.

In [51]:
import pandas as pd # библиотека для работы с файлами csv
import numpy as np # линейная алгебра

# Библиотеки для работы с ML
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

# Библиотеки метрик
from sklearn.metrics import mean_squared_error

In [52]:
data = pd.read_csv('petrol_consumption.csv')

In [53]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48 entries, 0 to 47
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Petrol_tax                    48 non-null     float64
 1   Average_income                48 non-null     int64  
 2   Paved_Highways                48 non-null     int64  
 3   Population_Driver_licence(%)  48 non-null     float64
 4   Petrol_Consumption            48 non-null     int64  
dtypes: float64(2), int64(3)
memory usage: 2.0 KB


In [54]:
y1 = data['Petrol_Consumption']
X1 = data.drop('Petrol_Consumption', axis=1)

In [55]:
X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y1, test_size=0.3, random_state=42)

In [56]:
clf1_tree = DecisionTreeRegressor(random_state=42)
clf1_tree.fit(X1_train, y1_train)

DecisionTreeRegressor(random_state=42)

In [57]:
y1_pred_test = clf1_tree.predict(X1_test)
rmse = mean_squared_error(y1_test, y1_pred_test, squared=False)

In [58]:
rmse

87.96514461232168

### Задание
Какова глубина дерева?

In [59]:
clf1_tree.get_depth()

11