**Шепелев Д.**

# **Постановка задачи машинного обучения. Метод решающих деревьев.**

## **I. Постановка задачи обучения по прецедентам.¶**

**1. Что такое объекты, признаки, ответы? Приведите пример.**

Объект $x_i \in X$ обладает некоторым набором признаков $f_i$. Каждому объекту $x_i$ соответсвует ответ $y_i \in Y$ определяющий решение поставленной задачи.<br>
Пример - Задача нахождения спам-писем:
- *объекты* - это письма
- *признаки* - слова в письме
- *ответы* - спам / обычное письмо<br>

**2. Какие данные содержатся в матрице «объектов–признаков»?**

Матрица «объектов–признаков» содержит векторное представление признаков всех объектов обучающей выборки, записанных в виде таблицы размера l×n, где l – количество объектов,  а  n – количество признаков.<br> 
$$\begin{pmatrix} f_1(x_1) & ... & f_n(x_1) \\ & ... &  \\ f_1(x_l) & ... & f_n(x_l) \end{pmatrix}$$
Ей соответствует вектор известных ответов:<br>
$$\begin{pmatrix} y(x_1) \\ ... \\ y(x_l) \end{pmatrix}$$

**3. Что такое модель алгоритмов и метод обучения?**

Моделью алгоритмов называется параметрическое семейство отображений
\begin{equation} A = \{g(x,\theta)|\theta\in\Theta\}, \end{equation}
где $g(x,\theta)$ некоторая фиксированная функция от $x$, с набором параметров $\theta\in\Theta$. $\Theta$ – называется  пространством  параметров  или  пространством  поиска.<br>
Метод обучения совершает подбор параметров $\theta$. 

**4. Какие два этапа можно выделить в задачах обучения?**

В задачах машинного обучения различают два этапа:<br>
1) На этапе обучения метод строит алгоритм $a$. <br>
2) На этапе применения алгоритм $a$ для новых объектов $x$ выдаёт ответы $y = a(x)$.<br>

**5. Что такое переобучение? Как с ним бороться?**

Когда качество работы алгоритма на новых объектах, не вошедших в состав обучения, оказывается существенно хуже, чем на обучающей выборке, говорят об эффекте переобучения (overtraining).<br>
Чтобы избежать переобучения, применяют методы регуляризации и нормализации данных. Обучающую выборку делят на mini-batch.

## **II. Метод решающих деревьев**

**1. Как строится решающее дерево?**

Метод решающих деревьев (decision tree) является универсальным алгоритмом машинного обучения, которым можно решать задачами классификации и регрессии, включая даже многовыходовые задачи.
Базируясь на признаках в обучающем наборе, модель на основе решающего дерева обучается последовательности вопросов, чтобы выводить метки классов в качестве выходных данных. <br>

Используя алгоритм принятия решения, мы начинаем с корня дерева и разбиваем данные по признаку, который дает в результате наибольший прирост информации information gain. <br>

В рамках итерационного процесса мы повторяем описанную процедуру разбиения в каждом узле, пока все образцы в каждом узле не будут принадлежать тому же самому классу. На практике результатом может оказаться очень глубокое дерево с многочисленными узлами, что легко способно привести к переобучению. Для предотвращения переобучения Воодятся ограничения на максимальную глубину дерева и другие параметры.

**2. Какие критерии разбиения используются при построении деревьев?**
Для того чтобы разделить узлы в самых информативных признаках, применяются 3 разных критерия:
- Критерий Джини ($I_G$),
- Энтропийный критерий ($I_H$) 
- Ошибка классификации ($I_E$)

Пусть $p(i|t)$ - доля объектов класса i попавших в вершину t.<br>
Данные критерии необходимо минимизировать.

**Критерий Джини**
\begin{equation} I_G(t) = \sum_{i=1}^{c}p(i|t)(1-p(i|t)) \end{equation}

**Энтропийный критерий**
\begin{equation} I_H(t) = -\sum_{i=1}^{c}p(i|t)\log_2p(i|t) \end{equation}

**Ошибка классификации**
\begin{equation} I_E(t) = 1 - \max\{p(i|t)\} \end{equation} 

**3. Какие преимущества и недостатки метода?**
Деревья позволяют восстанавливать нелинейные зависимости произвольной сложности. После построения дерева, можно оценить важность признаков (feature_importances), т.е. выделить те признаки, которые больше всего участвовали при построении дерева.

Недостатком решающих деревьев является их переобучение при отсутствии ограничений  на  деревья.

## **III. Выполните задание из в файла "2_statement-importance.pdf"**

In [17]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier

In [21]:
df = pd.read_csv('titanic.csv', index_col='PassengerId')
df.head(3)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [22]:
df = df.drop(["Name", "SibSp", "Ticket", "Cabin", "Embarked", "Parch"], axis=1)
df = df.dropna()
df.head(3)

Unnamed: 0_level_0,Survived,Pclass,Sex,Age,Fare
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0,3,male,22.0,7.25
2,1,1,female,38.0,71.2833
3,1,3,female,26.0,7.925


In [23]:
x = df[["Pclass", "Fare", "Age", "Sex"]].replace("male", 0).replace("female", 1)
x.head(3)

Unnamed: 0_level_0,Pclass,Fare,Age,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,3,7.25,22.0,0
2,1,71.2833,38.0,1
3,3,7.925,26.0,1


In [24]:
y = df['Survived']
y.head(3)

PassengerId
1    0
2    1
3    1
Name: Survived, dtype: int64

In [30]:
model = DecisionTreeClassifier(random_state=42)
model.fit(x, y)

In [31]:
model.feature_importances_

array([0.14651644, 0.30948502, 0.24348633, 0.30051221])

In [33]:
features = pd.DataFrame(model.feature_importances_, index = x.columns.to_list()).sort_values(by=0)
print(features.index.values[-1], features.index.values[-2], sep = ', ')

Fare, Sex
