### Задачи к Лекции 4

__Исходные данные__ 

Дан файл **"mlbootcamp5_train.csv"**. В нем содержатся данные об опросе 70000 пациентов с целью определения наличия заболеваний сердечно-сосудистой системы (ССЗ). Данные в файле промаркированы и если у человека имееются ССЗ, то значение **cardio** будет равно 1, в противном случае - 0. Описание и значения полей представлены во второй лекции.

__Загрузка файла__

In [22]:
%matplotlib inline
import numpy as np
import pandas as pd
import seaborn as sns
import sklearn
import itertools as it
from matplotlib import pyplot as plt
import warnings
from sklearn.model_selection import cross_validate, cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
warnings.filterwarnings('ignore')


df = pd.read_csv("../data/mlbootcamp5_train.csv", 
                 sep=";", 
                 index_col="id")


df  = df[(df['ap_hi'] >= 50) & (df['ap_hi'] <= 220) & (df['ap_lo'] >= 50)\
         & (df['ap_lo'] <= 175) & (df['height'] >= 100) & (df['height'] <= 250)\
         & (df['weight'] >= 30) & (df['weight'] <= 220)]
df["gender_bin"] = df["gender"].map({1: 0, 2: 1})
target = df["cardio"]

# Делаем one-hot кодирование
chol = pd.get_dummies(df["cholesterol"], prefix="chol")
gluc = pd.get_dummies(df["gluc"], prefix="gluc")
data_onehot = pd.concat([df, chol, gluc], axis=1)
target_onehot = data_onehot["cardio"] 
# Делаем пол бинарным признаком
data_onehot["gender_bin"] = df["gender"].map({1: 0, 2: 1})
df.head()

Unnamed: 0_level_0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio,gender_bin
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
0,18393,2,168,62.0,110,80,1,1,0,0,1,0,1
1,20228,1,156,85.0,140,90,3,1,0,0,1,1,0
2,18857,1,165,64.0,130,70,3,1,0,0,0,1,0
3,17623,2,169,82.0,150,100,1,1,0,0,1,1,1
4,17474,1,156,56.0,100,60,1,1,0,0,0,0,0


## Классы в Python

Нередко, возникает необходимость создания объектов с каким-нибудь внутренним поведением и состоянием. Примерами таких объектов являются классификаторы sklearn, массивы numpy и много другое. Такой объект можно объявить с помощью ключевого слова **class**

```python
class SomeObject:
    def __init__(self, depth):
        self.a = depth
        self.target = None
        
    def fit(self, data, target):
        self.target = data
        # magic
        return 
    
    def predict(self, data):
        return self.target    
```

После этого в коде можно будет создать экземпляр данного класса
```python
a = SomeObject(depth=5)
a.fit(data, target)
a.predict(data)
```

## Задачи

**1. В sklearn на данный момент отсутствует функционал для построения деревьев решений из категориальных данных, поэтому его нужно сделать самостоятельно и проверить его работу. Что нужно сделать:**

* __создать классификатор используя только pandas, numpy и scipy. Необходимо его сделать самому, используя исключительно только numpy, pandas и scipy (запрещено использовать sklearn и прочие библиотеки). Напоминаю, что для категориальных данных операция < или > не имеют смысла (использовать только != и ==). Гиперпараметром данного классификатора должна быть максимальная глубина дерева.__
* __Проверить работу данного классификатора на наборе ("gender", "cholesterol", "gluc").__
* __С помощью кросс-валидации найти оптимальную глубину этого дерева. Для вашего классификатора GridSearchCV не подойдет, придется это сделать также самостоятельно.__
* __Нарисовать полученное дерево (я должен понять, как и откуда вы его нарисовали).__

Алгоритм работы классификатора:
 1. Перебираем все возможные признаки и смотрим либо неопределенность Джини, либо прирост информации. Это даст критерий разбиения в виде "признак == значение"
 2. Если выборка полученная при разбиении состоит из объектов одного класса (соответсвует нулевой энтропии), то данный лист просто возвращает значение этого класса.
 3. В противном случае, образуется новый узел и для него начинаем с пункта 1.
 4. Если достигли максимальной глубины, то вместа узла создаем лист, который возвращает самое вероятное значение.
 
__Замечание:__ в этой задаче не нужно использовать onehot-кодирование.

In [2]:
# A lot of code here

**Комментарии:** Ваши комментарии здесь.

**2. В этой задаче и далее можно использовать sklearn. Выше, данные были приведены либо к бинарным признакам, либо к количественным. Это позволяет воспользоваться классификатором DecisionTreeClassifier. Нужно с помощью кросс-валидации найти оптимальный набор признаков. Показать и объяснить, как данный набор был получен.**

In [30]:
df_no_cardio = df.drop(['cardio'],axis = 1)
df_no_cardio.head()
tree = DecisionTreeClassifier(max_depth=10, random_state=13)
# Создаем лист с названиями столбцов
ilist = [i for i in df_no_cardio.columns]
# Создаем датафрейм, куда будем писать названия полей и точность
cv_df = pd.DataFrame(columns = ['field_names','cv_accuracy'])
# Пробегаем все поля и при помощи комбинаиций 
# из итертулс находим все нужные нам комбинации полей
for i in range (2, df_no_cardio.shape[1] + 1):
    for j in it.combinations(ilist, i):
        cv = cross_val_score(tree, 
                    df[list(j)], 
                    target,
                    n_jobs=-1,
                    scoring='accuracy',
                    cv=5)
        cv_df.loc[len(cv_df.index)] = [list(j), cv.mean()]
cv_df.sort_values('cv_accuracy',ascending = False)

KeyboardInterrupt: 

**Комментарии:** Ваши комментарии здесь.

**3. Для набора признаков полученных в задаче 3, с помощью кросс-валидации найти оптимальный набор гиперпараметров.**

In [4]:
# A lot of code here

**Комментарии:** Ваши комментарии здесь.

**4. Сравнить с помощью кросс-валидации классификатор "наивный байес" и "решающее дерево" на количественных признаках. Показать, какой из них лучше.**

In [5]:
# Your code here

**Комментарии:** Ваши комментарии здесь.