# Важность признаков
#### Введение
Решающие деревья относятся к классу логических методов. Их основная идея состоит в объединении определенного количества простых решающих правил, благодаря чему итоговый алгоритм является интерпретируемым. Как следует из названия, решающее дерево представляет собой бинарное дерево, в котором каждой вершине сопоставлено некоторое правило вида "j-й признак имеет значение меньше b". В листьях этого дерева записаны числа-предсказания. Чтобы получить ответ, нужно стартовать из корня и делать переходы либо в левое, либо в правое поддерево в зависимости от того, выполняется правило из текущей вершины или нет.

Одна из особенностей решающих деревьев заключается в том, что они позволяют получать важности всех используемых признаков. Важность признака можно оценить на основе того, как сильно улучшился критерий качества благодаря использованию этого признака в вершинах дерева.

#### Данные
В этом задании мы вновь рассмотрим данные о пассажирах Титаника. Будем решать на них задачу классификации, в которой по различным характеристикам пассажиров требуется предсказать, кто из них выжил после крушения корабля. 

In [248]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

1. Загрузите выборку из файла titanic.csv с помощью пакета Pandas. Оставьте в выборке четыре признака: класс пассажира (Pclass), цену билета (Fare), возраст пассажира (Age) и его пол (Sex). 5. В данных есть пропущенные значения — например, для некоторых пассажиров неизвестен их возраст. Такие записи при чтении их в pandas принимают значение nan. Найдите все объекты, у которых есть пропущенные признаки, и удалите их из выборки.

In [249]:
data = pd.read_csv('titanic.csv')
sample = data.loc[:,['Pclass', 'Fare', 'Age', 'Sex']]
sample = sample.dropna()

2. Обратите внимание, что признак Sex имеет строковые значения.

In [252]:
sample['Sex'] = sample['Sex'].str.replace('female','1')
sample['Sex'] = sample['Sex'].str.replace('male','0')

3. Выделите целевую переменную — она записана в столбце Survived.

In [250]:
y = data['Survived']
y = y[sample.index]

4. Обучите решающее дерево с параметром random_state=241 и остальными параметрами по умолчанию.

In [253]:
clf = DecisionTreeClassifier(random_state=241)
clf.fit(sample, y)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=241, splitter='best')

5. Вычислите важности признаков и найдите два признака с наибольшей важностью. Их названия будут ответами для данной задачи (в качестве ответа укажите названия признаков через запятую или пробел, порядок не важен). 

In [259]:
importances = clf.feature_importances_
importances

array([0.14751816, 0.29538468, 0.25658495, 0.30051221])

In [256]:
def max_ind(x):
    for i in range (len(x)):
        if x[i] == max(x):
            i_max = i
            x[i] = 0
            break
    return x, i_max

In [257]:
s = max_ind(importances)
importance_1 = s[1]
importance_2 = max_ind(s[0])[1]

In [258]:
f = open('text.txt', 'w')
f.write(sample.columns[importance_1])
f.write(',')
f.write(sample.columns[importance_2])
f.close()