# **Домашняя работа №4.**

Максимальная оценка - 10 баллов.

Если вы нашли решение какого-то из заданий (или его часть) в открытом источнике, необходимо указать ссылку на этот источник в отдельном блоке в конце вашей работы.

Задание состоит из двух разделов:
1. В первом разделе вам нужно вычислить энтропию и информационный выигрыш для простых примеров. Максимальный балл в этой части: **4 балла**.
2. Во втором разделе вы научитесь применять деревья из sklearn для задачи классификации. На примере различных метрик вы посмотрите на качество своей модели. Дополнительно вы посмотрите на стандартные примеры датасетов из sklearn и на то, как дерево с ними справится. Максимальный балл в этой части: **6 баллов**.

Загрузим необходимые библиотеки:

In [None]:
import math
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

import seaborn as sns
sns.set()

plt.rcParams['figure.figsize'] = (9, 6)
%config InlineBackend.figure_format = 'retina'
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

In [None]:
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor, plot_tree
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import roc_curve, auc
from sklearn.metrics import precision_recall_curve, average_precision_score
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import make_moons, make_circles, make_classification
from sklearn.model_selection import train_test_split

In [None]:
#!pip install mlxtend
from mlxtend.plotting import plot_decision_regions

## **Часть 1**

На лекции и семинарах вы изучали такие понятия, как энтропия и информационный выигрыш. Сейчас мы попрактикуемся в их вычислении.

Напомним, что **энтропия Шеннона** вычисляется следующим образом по N возможному числу состояний:

$$\large S = - \sum_{i=1}^N p_i log_2 p_i$$

где $p_i$ - вероятность найти систему в i-ом состоянии.

Рассмотрим пример. Пусть дана система (датасет), в которой определены два состояния (вероятности). Первое $\large p_1=\frac{3}{7}$ и второе $\large p_2=\frac{4}{7}$. Тогда энтропия вычисляется так:

$\large S_0=−\frac{3}{7} * log_2 \frac{3}{7} - \frac{4}{7} * log_2 \frac{4}{7} ≈ 0.9852$

Теперь рассмотрим случай, когда систему (датасет) поделили относительно некоторого признака. На левую часть и на правую. Чему теперь равна энтропия каждой из частей? И чему будет равен информационный выигрыш при таком делении?

Энтропия левой части равна: $\normalsize S_1=−\frac{1}{4} * log_2 \frac{1}{4} - \frac{3}{4} * log_2 \frac{3}{4} ≈ 0.8113$.

Энтропия правой части равна: $\normalsize S_2=−\frac{2}{3} * log_2 \frac{2}{3} - \frac{1}{3} * log_2 \frac{1}{3} ≈ 0.9183$.

Как вы можете видеть, значение энтропии стало меньше в двух группах. Особенно в левой группе. Посколько энтропия является мерой хаоса (или неопределённости) в системе, то мы говорим, что информационный выигрыш характеризуется уменьшением энтропии.

Информационный выигрыш (Information Gain, IG) для разделения на основе признака Q выглядит следующим образом:

$$\large IG(Q)=S_0 - \sum_{i=1}^q\frac{N_i}{N} S_i$$

где $q$ - число групп после деления, $N_i$ - количество объектов в выборке, в которой признак $Q$ равен i-ому значению.

**Информационный выигрыш = сколько энтропии мы удалили**, поэтому для нашего примера:

$$\normalsize IG=0.985 − (\frac{3}{7} * 0.9183 + \frac{4}{7} * 0.8113) ≈ 0.985 - 0.857 = 0.128 $$

Теперь напишем функции для вычисления энтропии и информационного выигрыша.

Рассмотрим следующий простой пример: у нас есть 9 синий и 11 жёлтых мячей. Пусть мяч будет иметь метку **1**, если он синий, **0** в противном случае.

In [None]:
balls = [1 for i in range(9)] + [0 for i in range(11)]
balls

<img src = 'https://habrastorage.org/webt/mu/vl/mt/muvlmtd2njeqf18trbldenpqvnm.png'>

Затем разделим мячи на две группы по некоторому признаку:

<img src='https://habrastorage.org/webt/bd/aq/5w/bdaq5wi3c4feezaexponvin8wmo.png'>

In [None]:
# две группы
balls_left  = [1 for i in range(8)] + [0 for i in range(5)] # 8 синих и 5 жёлтых
balls_right = [1 for i in range(1)] + [0 for i in range(6)] # 1 синий и 6 жёлтых
balls_left, balls_right

### **Задание 1 (1 балл).**

Напишите функцию, вычисляющую энтропию по Шеннону. И примените её для для следующих наборов данных.

In [None]:
def entropy(list_):
    pass
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

Проверка:

In [None]:
print(entropy(balls)) # 9 синих и 11 жёлтых
print(entropy(balls_left)) # 8 синих и 5 жёлтых
print(entropy(balls_right)) # 1 синий и 6 жёлтых

### **Задание 2 (1 балл).**

Чему равна энтропия бросания монетки (без учёта ребра и с равными вероятностями для сторон монетки)?

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

### **Задание 3 (1 балл).**

Чему равна энтропия игральной кости (мы рассматриваем игральную кость, как систему с 6 равновероятными состояниями)?

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

### **Задание 4 (1 балл).**

Напишите функцию, которая вычисляет информационный выигрыш при делении исходных данных на **balls_left** and **balls_right** ?

In [None]:
# вычисление информационного выигрыша

def information_gain(full_data, left, right):
    ''' full_data - исходные данные, left и right - две части исходных данных'''
    pass
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

Проверка:

In [None]:
print(round(information_gain(balls, balls_left, balls_right), 3))

## **Часть 2**

В этой части мы рассмотрим дерево из sklearn на примере задачи классификации. В качестве данных мы возьмём The "Adult" Dataset.

Сначала сделаем предобработку данных, затем приступим к обучению модели.

Описание датасета:

[Dataset](https://www.kaggle.com/datasets/sagnikpatra/uci-adult-census-data-dataset) UCI Adult (файлы не нужно загружать, они доступны в репозитории данного курса ): классификация людей на основе демографических данных - зарабатывает ли человек более \$50,000 в год или нет.

Описание входных признаков:

- **Age** – непрерывный признак
- **Workclass** –  непрерывный признак
- **fnlwgt** – конечный вес объекта, непрерывный признак
- **Education** –  категориальный признак
- **Education_Num** – количество лет образования, непрерывный признак
- **Martial_Status** –  категориальный признак
- **Occupation** –  категориальный признак
- **Relationship** – категориальный признак
- **Race** – категориальный признак
- **Sex** – категориальный признак
- **Capital_Gain** – непрерывный признак
- **Capital_Loss** – непрерывный признак
- **Hours_per_week** – непрерывный признак
- **Country** – категориальный признак

**Target** – уровень дохода, категориальный (бинарный) признак.

Датасет состоит из двух файлов: для обучения и для тестирования.

In [None]:
data_train = pd.read_csv('adult_train.csv')

In [None]:
data_train.head()

In [None]:
data_test = pd.read_csv('adult_test.csv')

In [None]:
data_test.head()

In [None]:
# удаляем строчки с неверными метками в тестовых данных
data_test = data_test[(data_test['Target'] == ' >50K.') | (data_test['Target']==' <=50K.')]

# кодируем целевую переменную как целое число
data_train.loc[data_train['Target']==' <=50K', 'Target'] = 0
data_train.loc[data_train['Target']==' >50K', 'Target'] = 1

data_test.loc[data_test['Target']==' <=50K.', 'Target'] = 0
data_test.loc[data_test['Target']==' >50K.', 'Target'] = 1

In [None]:
data_train.isna().sum()

In [None]:
data_test.isna().sum()

Первичный анализ датасета.

In [None]:
data_test.describe()

In [None]:
data_train['Target'].value_counts()

In [None]:
fig = plt.figure(figsize=(25, 15))
cols = 5
rows = int(np.ceil(float(data_train.shape[1]) / cols))
for i, column in enumerate(data_train.columns):
    ax = fig.add_subplot(rows, cols, i + 1)
    ax.set_title(column)
    if data_train.dtypes[column] == object:
        data_train[column].value_counts().plot(kind="bar", axes=ax)
    else:
        data_train[column].hist(axes=ax)
        plt.xticks(rotation="vertical")
plt.subplots_adjust(hspace=0.7, wspace=0.2)
plt.tight_layout()

Давайте посмотрим на типы данных в наших датасетах.

In [None]:
data_train.dtypes

In [None]:
data_test.dtypes

Как мы видим, в тестовых данных признак Age рассматривается, как тип **object**. Нам нужно это исправить.

In [None]:
data_test['Age'] = data_test['Age'].astype(int)

Также мы приведём все признаки с типами **float** к типам **int**, чтобы обеспечить согласованность типов между нашими обучающими и тестовыми данными.

In [None]:
data_test['fnlwgt'] = data_test['fnlwgt'].astype(int)
data_test['Education_Num'] = data_test['Education_Num'].astype(int)
data_test['Capital_Gain'] = data_test['Capital_Gain'].astype(int)
data_test['Capital_Loss'] = data_test['Capital_Loss'].astype(int)
data_test['Hours_per_week'] = data_test['Hours_per_week'].astype(int)

Мы заполним пропущенные значения медианами для непрерывных признаков и модами для категориальных.

In [None]:
# выбираем категориальные и непрерывные признаки из данных

categorical_columns = [c for c in data_train.columns
                       if data_train[c].dtype.name == 'object']
numerical_columns = [c for c in data_train.columns
                     if data_train[c].dtype.name != 'object']

print('categorical_columns:', categorical_columns)
print('numerical_columns:', numerical_columns)

In [None]:
# можно заметить пропущенные значения
data_train.info()

In [None]:
# заполняем пропущенные значения
for c in categorical_columns:
    data_train[c] = data_train[c].fillna(data_train[c].mode()[0])
    data_test[c] = data_test[c].fillna(data_test[c].mode()[0])

for c in numerical_columns:
    data_train[c] = data_train[c].fillna(data_train[c].median())
    data_test[c] = data_test[c].fillna(data_test[c].median())

In [None]:
# пропусков нет
data_train.info()

Закодируем некоторые категориальные признаки: **Workclass**, **Education**, **Martial_Status**, **Occupation**, **Relationship**, **Race**, **Sex**, **Country**. Это можно сделать с помощью метода `get_dummies` в pandas.

In [None]:
data_train = pd.concat([data_train[numerical_columns],
    pd.get_dummies(data_train[categorical_columns])], axis=1)

data_test = pd.concat([data_test[numerical_columns],
    pd.get_dummies(data_test[categorical_columns])], axis=1)

In [None]:
set(data_train.columns) - set(data_test.columns)

In [None]:
data_train.shape, data_test.shape

Тут вы можете заметить, что одного признака нет в тестовых данных. Можно создать новый нулевой признак.

In [None]:
data_test['Country_ Holand-Netherlands'] = 0

In [None]:
set(data_train.columns) - set(data_test.columns)

In [None]:
data_train.head(1)

In [None]:
data_test.head(1)

Однако теперь видим, что порядок признаков в двух наборах данных может быть нарушен. Чтобы модель при предсказании не ругалась на это (порядок признаков в обучении и тестировании должен совпадать), можно выполнить следующее действие.

In [None]:
data_train = pd.concat([data_train.drop(['Country_ Holand-Netherlands'], axis=1), data_train['Country_ Holand-Netherlands']], axis=1)

In [None]:
data_train.head(1)

In [None]:
data_test.head(1)

In [None]:
data_train.shape, data_test.shape

In [None]:
X_train = data_train.drop(['Target'], axis=1)
y_train = data_train['Target']

X_test = data_test.drop(['Target'], axis=1)
y_test = data_test['Target']

Рассмотрим решающее дерево без оптимизации гиперпараметров.

### **Задание 5 (2 балла).**

Обучите `DecisionTreeClassifier` с глубиной равной 3. Используйте параметр `random_state = 17` для воспроизводства результатов. Получите гиперпараметры из модели. Получите оценку меток классов и вероятностей классов. Для проверки качества модели посчитайте следующие метрики на тестовых данных: `Accuracy`, `Precision`, `Recall` и `F1`. Какой можно сделать вывод на основе полученных значений?

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

tree_clf = ...

Гиперпараметры вашей модели:

In [None]:
tree_clf.get_params()

Сделайте предсказание обученной модели на тестовых данных.

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

tree_predictions = ...
tree_predictions_proba = ...

In [None]:
tree_predictions[:5]

In [None]:
tree_predictions_proba[:5]

Какова точность (`Accuracy`) такого решающего дерева? Тоже самое сделайте для других метрик. Можно ли что-то сказать про сбалансированных классов?

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

### **Задание 6 (2 балла).**

* Нарисуйте ROC-кривую и посчитайте AUC ROC для неё. Какие можно сделать выводы?

* Также нарисуйте Precision-Recall-кривую и посчитайте Average Precision метрику для неё. Какие здесь можно сделать выводы?

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ

Теперь посмотрим на работу дерева на следующих стандартных датасетах.

### **Задание 7 (2 балла).**

Даны следующие датасеты из sklearn. Для начала нарисуйте их через `scatter`, каждый в отдельности. И обучите `DecisionTreeClassifier` с `random_state=17` на каждом датасете. Получите значения меток классов на тестовых данных. Чему равна метрика `Accuracy` для каждого случая? Затем покажите графически результат работы моделей через `plot_decision_regions`.

В этом задании предпочтительнее использовать цикл, чтобы не писать одинаковый код несколько раз. Попробуйте сделать именно так.

Какие выводы можно сделать? Есть ли признаки переобучения деревьев? Если да, то какие? И что можно сделать в случае, если дерево переобучается?

In [None]:
# уже готовые датасеты

datasets = [
    make_circles(n_samples=1000, noise=0.1, factor=0.5, random_state=17),
    make_moons(n_samples=1000, noise=0.1, random_state=17),
    make_classification(n_samples=1000, n_classes=3, n_clusters_per_class=1, n_features=2, class_sep=.8, random_state=17,
                        n_redundant=0)
]

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ