Данное задание основано на материалах лекций по логическим методам и направлено на знакомство c решающими деревьями (Decision Trees).

### Вы научитесь:
- обучать решающие деревья
- находить наиболее важные для них признаки

### Введение
Решающие деревья относятся к классу логических методов. Их основная идея состоит в объединении определенного количества простых решающих правил, благодаря чему итоговый алгоритм является интерпретируемым. Как следует из названия, решающее дерево представляет собой бинарное дерево, в котором каждой вершине сопоставлено некоторое правило вида "j-й признак имеет значение меньше b". В листьях этого дерева записаны числа-предсказания. Чтобы получить ответ, нужно стартовать из корня и делать переходы либо в левое, либо в правое поддерево в зависимости от того, выполняется правило из текущей вершины или нет.

Одна из особенностей решающих деревьев заключается в том, что они позволяют получать важности всех используемых признаков. Важность признака можно оценить на основе того, как сильно улучшился критерий качества благодаря использованию этого признака в вершинах дерева.

### Данные
В этом задании мы вновь рассмотрим данные о пассажирах Титаника. Будем решать на них задачу классификации, в которой по различным характеристикам пассажиров требуется предсказать, кто из них выжил после крушения корабля.

___
### Реализация в Scikit-Learn
В библиотеке scikit-learn решающие деревья реализованы в классах sklearn.tree.DecisionTreeСlassifier (для классификации) и sklearn.tree.DecisionTreeRegressor (для регрессии). Обучение модели производится с помощью функции fit.
___
#### Пример использования:

In [3]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier


X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([0, 1, 0])
clf = DecisionTreeClassifier()
clf.fit(X, y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

В этом задании вам также потребуется находить важность признаков. Это можно сделать, имея уже обученный классификатор:

In [5]:
importances = clf.feature_importances_
importances

array([0.25, 0.75])

Переменная importances будет содержать массив "важностей" признаков. Индекс в этом массиве соответствует индексу признака в данных.

Стоит обратить внимание, что данные могут содержать пропуски. Pandas хранит такие значения как nan (not a number). Для того, чтобы проверить, является ли число nan'ом, можно воспользоваться функцией np.isnan.

**Пример использования:**

In [6]:
np.isnan(X)

array([[False, False],
       [False, False],
       [False, False]])

### Материалы
- [Подробнее про решающие деревья в sklearn](http://scikit-learn.org/stable/modules/tree.html)
- [Работа с пропущенными значениями в pandas](http://pandas.pydata.org/pandas-docs/stable/missing_data.html)
- [Подробнее о деревьях и их построении](https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture07-trees.pdf)

___
___

In [57]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier

### Инструкция по выполнению
1. Загрузите выборку из файла titanic.csv с помощью пакета Pandas.

In [89]:
data = pd.read_csv("titanic.csv")
print(data.shape)
data.Sex = data.Sex.map({"female": 1, "male": 0})
data.head()

(891, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,,S


___
2. Оставьте в выборке четыре признака: класс пассажира (Pclass), цену билета (Fare), возраст пассажира (Age) и его пол (Sex).

3. Обратите внимание, что признак Sex имеет строковые значения.

**Предлагается перевести классификацию в бинарный признак?**

4. Выделите целевую переменную — она записана в столбце Survived.
 -  #### [Почтитать вот это](https://scikit-learn.org/stable/modules/tree.html)

5. В данных есть пропущенные значения — например, для некоторых пассажиров неизвестен их возраст. Такие записи при чтении их в pandas принимают значение nan. Найдите все объекты, у которых есть пропущенные признаки, и удалите их из выборки.

### <center> Нюанс!
**Если делать по порядку, то размерность work и target совпадать не будет, поэтому для начала выделим рабочие столбцы, уберем nan, раскидаем по переменным**

In [90]:
data = data[["Pclass", "Fare", "Age", "Sex", "Survived"]]
data = data.dropna()
data.head()

Unnamed: 0,Pclass,Fare,Age,Sex,Survived
0,3,7.25,22.0,0,0
1,1,71.2833,38.0,1,1
2,3,7.925,26.0,1,1
3,1,53.1,35.0,1,1
4,3,8.05,35.0,0,0


In [91]:
train = data[["Pclass", "Fare", "Age", "Sex"]].values
target = data.Survived.values
print(train.shape)
print(target.shape)
print()
print(train[:5])
print(target[:5])

(714, 4)
(714,)

[[ 3.      7.25   22.      0.    ]
 [ 1.     71.2833 38.      1.    ]
 [ 3.      7.925  26.      1.    ]
 [ 1.     53.1    35.      1.    ]
 [ 3.      8.05   35.      0.    ]]
[0 1 1 1 0]


AttributeError: 'numpy.ndarray' object has no attribute 'Sex'

___
6. Обучите решающее дерево с параметром random_state=241 и остальными параметрами по умолчанию (речь идет о параметрах конструктора DecisionTreeСlassifier).

In [58]:
my_clf = DecisionTreeClassifier(random_state=241)

In [59]:
my_clf.fit(X=work, y=target)

ValueError: could not convert string to float: 'male'