## Домашнее задание 3. Деревья решений на игрушечном примере и датасете UCI Adult

Начнём с загрузки необходимых библиотек:

In [None]:
%matplotlib inline
from matplotlib import pyplot as plt
plt.rcParams['figure.figsize'] = (10, 8)
import seaborn as sns
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import collections
from sklearn.model_selection import GridSearchCV
from sklearn import preprocessing
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from ipywidgets import Image
from io import StringIO
import pydotplus #pip install pydotplus

### Часть 1. Игрушечный датасет «Пойдёт — не пойдёт?»

Цель — разобраться в работе деревьев решений на игрушечном примере. Хотя одно дерево решений не даёт выдающихся результатов, другие мощные алгоритмы (градиентный бустинг, случайный лес) основаны на той же идее. Поэтому понимание работы деревьев решений весьма полезно.

Рассмотрим игрушечный пример бинарной классификации — Персона A решает, пойдёт ли она на второе свидание с Персоной B. Это зависит от внешности, красноречия, употребления алкоголя (только для примера) и суммы потраченных денег на первом свидании.

#### Создание датасета

In [None]:
# Создаём DataFrame с dummy-переменными
def create_df(dic, feature_list):
    out = pd.DataFrame(dic)
    out = pd.concat([out, pd.get_dummies(out[feature_list])], axis = 1)
    out.drop(feature_list, axis = 1, inplace = True)
    return out

# Некоторые значения признаков есть в train, но отсутствуют в test и наоборот.
def intersect_features(train, test):
    common_feat = list( set(train.keys()) & set(test.keys()))
    return train[common_feat], test[common_feat]

In [None]:
features = ['Looks', 'Alcoholic_beverage','Eloquence','Money_spent']

#### Обучающие данные

In [None]:
df_train = {}
df_train['Looks'] = ['handsome', 'handsome', 'handsome', 'repulsive',
                         'repulsive', 'repulsive', 'handsome'] 
df_train['Alcoholic_beverage'] = ['yes', 'yes', 'no', 'no', 'yes', 'yes', 'yes']
df_train['Eloquence'] = ['high', 'low', 'average', 'average', 'low',
                                   'high', 'average']
df_train['Money_spent'] = ['lots', 'little', 'lots', 'little', 'lots',
                                  'lots', 'lots']
df_train['Will_go'] = LabelEncoder().fit_transform(['+', '-', '+', '-', '-', '+', '+'])

df_train = create_df(df_train, features)
df_train

#### Тестовые данные

In [None]:
df_test = {}
df_test['Looks'] = ['handsome', 'handsome', 'repulsive'] 
df_test['Alcoholic_beverage'] = ['no', 'yes', 'yes']
df_test['Eloquence'] = ['average', 'high', 'average']
df_test['Money_spent'] = ['lots', 'little', 'lots']
df_test = create_df(df_test, features)
df_test

In [None]:
# Некоторые значения признаков есть в train, но отсутствуют в test и наоборот.
y = df_train['Will_go']
df_train, df_test = intersect_features(train=df_train, test=df_test)
df_train

In [None]:
df_test

#### Нарисуйте дерево решений (от руки или в любом графическом редакторе) для этого датасета. Опционально можно реализовать построение дерева и нарисовать его здесь.

1\. Чему равна энтропия $S_0$ начальной системы? Под состояниями системы понимаем значения бинарного признака "Will_go" — 0 или 1 — всего два состояния.

In [None]:
# ваш код здесь

2\. Разобьём данные по признаку "Looks_handsome". Чему равна энтропия $S_1$ левой группы — той, где "Looks_handsome"? Чему равна энтропия $S_2$ в противоположной группе? Каков информационный выигрыш (IG) при таком разбиении?

In [None]:
# ваш код здесь

#### Обучите дерево решений с помощью sklearn на обучающих данных. Можете выбрать любую глубину дерева.

In [None]:
# ваш код здесь

#### Дополнительно: отобразите полученное дерево с помощью graphviz. Можно использовать pydot или [веб-сервис](https://www.coolutils.com/ru/online/DOT-to-PNG) dot2png.

In [None]:
# ваш код здесь

### Часть 2. Функции для вычисления энтропии и информационного выигрыша.

Рассмотрим следующий разминочный пример: у нас 9 синих шаров и 11 жёлтых шаров. Пусть шар имеет метку **1**, если он синий, **0** — иначе.

In [None]:
balls = [1 for i in range(9)] + [0 for i in range(11)]

<img src = 'https://habrastorage.org/webt/mu/vl/mt/muvlmtd2njeqf18trbldenpqvnm.png'>

Далее разделим шары на две группы:

<img src='https://habrastorage.org/webt/bd/aq/5w/bdaq5wi3c4feezaexponvin8wmo.png'>

In [None]:
# две группы
balls_left  = [1 for i in range(8)] + [0 for i in range(5)] # 8 синих и 5 жёлтых
balls_right = [1 for i in range(1)] + [0 for i in range(6)] # 1 синий и 6 жёлтых

#### Реализуйте функцию для вычисления энтропии Шеннона

In [None]:
def entropy(a_list):
    # ваш код здесь
    pass

Тесты

In [None]:
print(entropy(balls)) # 9 синих и 11 жёлтых
print(entropy(balls_left)) # 8 синих и 5 жёлтых
print(entropy(balls_right)) # 1 синий и 6 жёлтых
print(entropy([1,2,3,4,5,6])) # энтропия честного шестигранного кубика

3\. Чему равна энтропия состояния, заданного списком **balls_left**?

4\. Чему равна энтропия честного кубика? (рассматриваем кубик как систему с 6 равновероятными состояниями)

In [None]:
# вычисление информационного выигрыша
def information_gain(root, left, right):
    ''' root - начальные данные, left и right - два разбиения начальных данных'''
    
    # ваш код здесь
    pass

5\. Чему равен информационный выигрыш при разбиении начального датасета на **balls_left** и **balls_right**?

In [None]:
def best_feature_to_split(X, y):
    '''Возвращает информационный выигрыш при разбиении по лучшему признаку'''
    
    # ваш код здесь
    pass

#### Опционально:
- Реализуйте алгоритм построения дерева решений, рекурсивно вызывая **best_feature_to_split**
- Визуализируйте полученное дерево

### Часть 3. Датасет "Adult"

#### Описание датасета:

[Датасет](http://archive.ics.uci.edu/ml/machine-learning-databases/adult) UCI Adult (скачивать не нужно, копия есть в репозитории курса): классифицировать людей по демографическим данным — зарабатывают ли они более \$50 000 в год или нет.

Описание признаков:

- **Age** — непрерывный признак
- **Workclass** — непрерывный признак
- **fnlwgt** — итоговый вес объекта, непрерывный признак
- **Education** — категориальный признак
- **Education_Num** — число лет обучения, непрерывный признак
- **Martial_Status** — категориальный признак
- **Occupation** — категориальный признак
- **Relationship** — категориальный признак
- **Race** — категориальный признак
- **Sex** — категориальный признак
- **Capital_Gain** — непрерывный признак
- **Capital_Loss** — непрерывный признак
- **Hours_per_week** — непрерывный признак
- **Country** — категориальный признак

**Target** — уровень дохода, категориальный (бинарный) признак.

#### Чтение обучающих и тестовых данных

In [None]:
data_train = pd.read_csv('../data/adult_train.csv')

In [None]:
data_train.tail()

In [None]:
data_test = pd.read_csv('../data/adult_test.csv')

In [None]:
data_test.tail()

In [None]:
# удаляем строки с некорректными метками в тестовом датасете
data_test = data_test[(data_test['Target'] == ' >50K.') | (data_test['Target']==' <=50K.')]

# кодируем целевую переменную как целое число
data_train.loc[data_train['Target']==' <=50K', 'Target'] = 0
data_train.loc[data_train['Target']==' >50K', 'Target'] = 1

data_test.loc[data_test['Target']==' <=50K.', 'Target'] = 0
data_test.loc[data_test['Target']==' >50K.', 'Target'] = 1

data_train['Target'] = data_train['Target'].astype(int)
data_test['Target'] = data_test['Target'].astype(int)

#### Первичный анализ данных

In [None]:
data_test.describe(include='all').T

In [None]:
data_train['Target'].value_counts()

In [None]:
fig = plt.figure(figsize=(25, 15))
cols = 5
rows = int(np.ceil(float(data_train.shape[1]) / cols))
for i, column in enumerate(data_train.columns):
    ax = fig.add_subplot(rows, cols, i + 1)
    ax.set_title(column)
    if data_train.dtypes[column] == object:
        data_train[column].value_counts().plot(kind="bar", axes=ax)
    else:
        data_train[column].hist(axes=ax)
        plt.xticks(rotation="vertical")
plt.subplots_adjust(hspace=0.7, wspace=0.2)

#### Проверка типов данных

In [None]:
data_train.dtypes

In [None]:
data_test.dtypes

Как видим, в тестовых данных возраст имеет тип **object**. Исправим это.

In [None]:
data_test['Age'] = data_test['Age'].astype(int)

Также приведём все **float**-признаки к типу **int**, чтобы типы были согласованы между обучающими и тестовыми данными.

In [None]:
data_test['fnlwgt'] = data_test['fnlwgt'].astype(int)
data_test['Education_Num'] = data_test['Education_Num'].astype(int)
data_test['Capital_Gain'] = data_test['Capital_Gain'].astype(int)
data_test['Capital_Loss'] = data_test['Capital_Loss'].astype(int)
data_test['Hours_per_week'] = data_test['Hours_per_week'].astype(int)

#### Заполним пропущенные данные: для непрерывных признаков — медианой, для категориальных — модой.

In [None]:
# выбираем категориальные и непрерывные признаки

categorical_columns = [c for c in data_train.columns 
                       if data_train[c].dtype.name == 'object']
numerical_columns = [c for c in data_train.columns 
                     if data_train[c].dtype.name != 'object']

print('categorical_columns:', categorical_columns)
print('numerical_columns:', numerical_columns)

In [None]:
# видим пропущенные значения
data_train.info()

In [None]:
# заполняем пропуски

for c in categorical_columns:
    data_train[c].fillna(data_train[c].mode()[0], inplace=True)
    data_test[c].fillna(data_train[c].mode()[0], inplace=True)
    
for c in numerical_columns:
    data_train[c].fillna(data_train[c].median(), inplace=True)
    data_test[c].fillna(data_train[c].median(), inplace=True)

In [None]:
# пропусков больше нет
data_train.info()

Закодируем категориальные признаки: **Workclass**, **Education**, **Martial_Status**, **Occupation**, **Relationship**, **Race**, **Sex**, **Country** — с помощью pandas-метода **get_dummies**.

In [None]:
data_train = pd.concat([data_train[numerical_columns],
    pd.get_dummies(data_train[categorical_columns])], axis=1)

data_test = pd.concat([data_test[numerical_columns],
    pd.get_dummies(data_test[categorical_columns])], axis=1)

In [None]:
set(data_train.columns) - set(data_test.columns)

In [None]:
data_train.shape, data_test.shape

#### В тестовых данных нет Голландии. Создадим новый признак с нулевыми значениями.

In [None]:
data_test['Country_ Holand-Netherlands'] = 0
data_test = data_test[data_train.columns]

In [None]:
set(data_train.columns) - set(data_test.columns)

In [None]:
data_train.head(2)

In [None]:
data_test.head(2)

In [None]:
X_train = data_train.drop(['Target'], axis=1)
y_train = data_train['Target']

X_test = data_test.drop(['Target'], axis=1)
y_test = data_test['Target']

### 3.1 Дерево решений без настройки параметров

Обучите дерево решений **(DecisionTreeClassifier)** с максимальной глубиной 3 и оцените accuracy на тестовых данных. Используйте **random_state = 17** для воспроизводимости.

In [None]:
# ваш код здесь
# tree = 
# tree.fit

Сделайте предсказание обученной моделью на тестовых данных.

In [None]:
# ваш код здесь
# tree_predictions = tree.predict 

In [None]:
# ваш код здесь
# accuracy_score 

6\. Какова accuracy на тестовой выборке для дерева решений с максимальной глубиной 3 и **random_state = 17**?

### 3.2 Дерево решений с настройкой параметров

Обучите дерево решений **(DecisionTreeClassifier, random_state = 17)**. Найдите оптимальную максимальную глубину с помощью 5-fold кросс-валидации **(GridSearchCV)**.

In [None]:
tree_params = {'max_depth': range(2,11)}

locally_best_tree = GridSearchCV # ваш код здесь                     

locally_best_tree.fit; # ваш код здесь 

Обучите дерево решений с максимальной глубиной 9 (лучшее значение **max_depth** в моём случае) и вычислите accuracy на тестовой выборке. Используйте **random_state = 17**.

In [None]:
# ваш код здесь 
# tuned_tree = 
# tuned_tree.fit 
# tuned_tree_predictions = tuned_tree.predict
# accuracy_score

7\. Какова accuracy на тестовой выборке для дерева решений с максимальной глубиной 9 и **random_state = 17**?

### 3.3 (Опционально) Случайный лес без настройки параметров

Забежим немного вперёд и попробуем использовать случайный лес для нашей задачи. Пока можно представлять случайный лес как набор деревьев решений, обученных на немного различающихся подвыборках обучающих данных.

Обучите случайный лес **(RandomForestClassifier)**. Установите число деревьев равным 100 и используйте **random_state = 17**.

In [None]:
# ваш код здесь 
# rf = 
# rf.fit

Сделайте предсказания для тестовых данных и оцените accuracy.

In [None]:
# ваш код здесь 

### 3.4 (Опционально) Случайный лес с настройкой параметров

Обучите случайный лес **(RandomForestClassifier)**. Настройте максимальную глубину и максимальное число признаков для каждого дерева с помощью **GridSearchCV**.

In [None]:
# forest_params = {'max_depth': range(10, 21),
#                 'max_features': range(5, 105, 20)}

# locally_best_forest = GridSearchCV # ваш код здесь 

# locally_best_forest.fit # ваш код здесь 

Сделайте предсказания для тестовых данных и оцените accuracy.

In [None]:
# ваш код здесь 