# Практическая работа № 1

Данное задание основано на материалах лекций по логическим методам и направлено на знакомство c решающими деревьями (Decision Trees).

### Вы научитесь:
* обучать решающие деревья
* находить наиболее важные для них признаки

### Введение
Решающие деревья относятся к классу логических методов. Их основная идея состоит в объединении определенного количества простых решающих правил, благодаря чему итоговый алгоритм является интерпретируемым. Как следует из названия, решающее дерево представляет собой бинарное дерево, в котором каждой вершине сопоставлено некоторое правило вида "j-й признак имеет значение меньше b". В листьях этого дерева записаны числа-предсказания. Чтобы получить ответ, нужно стартовать из корня и делать переходы либо в левое, либо в правое поддерево в зависимости от того, выполняется правило из текущей вершины или нет.

Одна из особенностей решающих деревьев заключается в том, что они позволяют получать важности всех используемых признаков. Важность признака можно оценить на основе того, как сильно улучшился критерий качества благодаря использованию этого признака в вершинах дерева.


## Задание 
Рассмотрим данные о пассажирах Титаника. Будем решать на них задачу классификации, в которой по различным характеристикам пассажиров **требуется предсказать, кто из них выжил после крушения корабля.**

### Реализация в Scikit-Learn
В библиотеке scikit-learn решающие деревья реализованы в классах sklearn.tree.DecisionTreeСlassifier (для классификации) и sklearn.tree.DecisionTreeRegressor (для регрессии). Обучение модели производится с помощью функции fit.


### Пример использования:

В этом задании вам также потребуется находить важность признаков. Это можно сделать, имея уже обученный классификатор:

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier
X = np.array([[-10, 0], [-5, 0], [10, 0], [10, 0]])
y = np.array([0, 1, 2, 3])
clf = DecisionTreeClassifier()
clf.fit(X, y)

DecisionTreeClassifier()

In [None]:
importances = clf.feature_importances_
importances

array([1., 0.])

Переменная importances будет содержать массив "важностей" признаков. Индекс в этом массиве соответствует индексу признака в данных.

Стоит обратить внимание, что данные могут содержать пропуски. Pandas хранит такие значения как nan (not a number). Для того, чтобы проверить, является ли число nan'ом, можно воспользоваться функцией np.isnan.

## Инструкция по выполнению

In [None]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier

#### 1. Загрузите выборку из файла train.csv с помощью пакета Pandas.


In [None]:
data = pd.read_csv('train.csv', index_col='PassengerId')
data.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### 2. Подготовка данных:
Оставим в выборке четыре признака: класс пассажира (Pclass), цену билета (Fare), возраст пассажира (Age) и его пол (Sex), сохраним столбец целевой переменной — Survived.


In [None]:
# Подготовка данных
df = pd.DataFrame(data=data, columns=['Pclass', 'Fare', 'Age', 'Sex', 'Survived'])
df.head()

Unnamed: 0_level_0,Pclass,Fare,Age,Sex,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,3,7.25,22.0,male,0
2,1,71.2833,38.0,female,1
3,3,7.925,26.0,female,1
4,1,53.1,35.0,female,1
5,3,8.05,35.0,male,0


#### 3. Обработка входных данных:



##### 1. В данных есть пропущенные значения — например, для некоторых пассажиров неизвестен их возраст. Такие записи при чтении их в pandas принимают значение nan. Удалим эти данные из выборки


In [None]:
df_filter = df.dropna()
df_filter.head()

Unnamed: 0_level_0,Pclass,Fare,Age,Sex,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,3,7.25,22.0,male,0
2,1,71.2833,38.0,female,1
3,3,7.925,26.0,female,1
4,1,53.1,35.0,female,1
5,3,8.05,35.0,male,0


In [None]:
# Исходный набор
df.count()

Pclass      891
Fare        891
Age         714
Sex         891
Survived    891
dtype: int64

In [None]:
# Отфильтрованный набор
df_filter.count()

Pclass      714
Fare        714
Age         714
Sex         714
Survived    714
dtype: int64

##### 2. Признак Sex имеет строковые значения, надо привести его в числовой

In [None]:
type(df_new.Sex)

pandas.core.series.Series

In [None]:
df_new = df_filter[['Pclass', 'Fare', 'Age', 'Sex']].replace('female', 0).replace('male', 1)
df_new.head()

Unnamed: 0_level_0,Pclass,Fare,Age,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,3,7.25,22.0,1
2,1,71.2833,38.0,0
3,3,7.925,26.0,0
4,1,53.1,35.0,0
5,3,8.05,35.0,1


#### 4. Выделение целевой переменной (Survived).


In [None]:
y = df_filter.Survived
y.head()

PassengerId
1    0
2    1
3    1
4    1
5    0
Name: Survived, dtype: int64

#### 5. Обучение решающего дерева с параметром random_state=241 и остальными параметрами по умолчанию (речь идет о параметрах конструктора DecisionTreeСlassifier).


In [None]:
clf = DecisionTreeClassifier(random_state=241)
# clf.fit(np.array(df.values), np.array(status.values))


In [None]:
X = df_new
print(X.columns)

Index(['Pclass', 'Fare', 'Age', 'Sex'], dtype='object')


In [None]:
clf.fit(X, y)

DecisionTreeClassifier(random_state=241)

#### 6. Вычисление важности признаков.
Найдите два признака с наибольшей важностью. Их названия будут ответами для данной задачи (в качестве ответа укажите названия признаков через запятую или пробел, порядок не важен).

In [None]:
importances = clf.feature_importances_
importances

array([0.14000522, 0.30343647, 0.2560461 , 0.30051221])

In [None]:
print(*(importances.sort_values(ascending=False).head(2).index), sep=', ')

Fare, Sex


## Вывод
Для определения шенсов человека на выживание необходимо учитывать цену билета (Fare) и его пол (Sex). Именно эти признаки обладают наибольшими коэффициентами значимости.