In [39]:
import os
print(os.listdir())

['5.5.pdf', '5.6.pdf', 'HR-dataset.csv.xls', '.ipynb_checkpoints', 'Untitled.ipynb']


# <b><span style='color:#F1A424'>5.7. Практика</span></b> 

<br>

<div style="color:white;display:fill;border-radius:8px;
            font-size:150%;background-image: url(https://i.imgur.com/ohv2A06.png);
            letter-spacing:1.0px">
    <p style="padding: 12px;color:white;"><b><span style='color:#F1A424'>
        Задание</span> </b></p></div>

- Разберёмся с `ансамблями алгоритмов` и со случайным лесом
- Рассмотрим данные о сотрудниках компании, где указывается, **ушёл сотрудник или нет** (Задача бинарной классификации)

**<mark style="background-color:#F1C40F;color:white;border-radius:5px;opacity:0.9">Базовая предобработка</mark>**

- удалим признак, который отвечает за идентификатор пользователя как нерепрезетативный признак

In [40]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn import datasets

# Загрузка данных
df = pd.read_csv('HR-dataset.csv.xls')

np.random.seed(42)
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

# Целевой признак
target = 'left'
features = df.columns.drop(target)

# Удалим идентификатор пользователя как нерепрезентативный признак
features = features.drop('empid')  
print(features)

# Распределяем фичеры
X, y = df[features].copy(), df[target]

Index(['satisfaction_level', 'last_evaluation', 'number_project',
       'average_montly_hours', 'time_spend_company', 'Work_accident',
       'promotion_last_5years', 'dept', 'salary'],
      dtype='object')


**<mark style="background-color:#F1C40F;color:white;border-radius:5px;opacity:0.9">Предобработка</mark>**

`Частотное кодирование`
- Заменим идентификатор отдела `dept`, к которому относился сотрудник, на количество людей в отделе

`Ординальноге кодирование`

- Зарплату `salary` — на ординальную категорию, используя `salary_ordinals`


- **Масштабируем** признаки для последующего сравнения результатов с помошью `StandardScaler`

In [41]:
# mappers
salary_ordinals = {'low': 1, 'medium': 2, 'high': 3}
dept_val_counts = X['dept'].value_counts()

X['dept'] = X['dept'].map(dept_val_counts)
X['salary'] = X['salary'].map(salary_ordinals)
# X = X.copy()

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X = pd.DataFrame(data=scaler.fit_transform(X), 
                 columns=X.columns)

**<mark style="background-color:#F1C40F;color:white;border-radius:5px;opacity:0.9">Оценка качества модели</mark>**

Как будем оценивать качество модели?

В дальнейшем будем оценивать качество модели
- на **кросс-валидации** 
- на пяти фолдах при помощи **точности** (`accuracy`).

In [42]:
def estimate_accuracy(clf, X, y, cv=5):
    return cross_val_score(clf, X, y, cv=5, scoring='f1').mean()

### Бэггинг
- Bootstrap aggregating
- Mетод построения композиции алгоритмов, в котором каждый алгоритм строится независимо от других на подвыборках обучающей выборки
- Итоговый алгоритм принимает решения посредством голосования среди всех алгоритмов (возвращается самый частый ответ)

- Посмотрим на точность **одного дерева решении** с **максимальной глубиной** 30
- Проведём `бэггинг` : для этого достаточно **обернуть исходный классификатор** в `BaggingClassifier`
- **Композиция отдельных деревьев** показывает себя лучше, чем одно дерево (0.94 -> 0.97)

In [43]:
tree = DecisionTreeClassifier(max_depth=30)
print("Decision tree:", estimate_accuracy(tree, X, y))

bagging_trees = BaggingClassifier(tree)
print("Decision tree bagging:", estimate_accuracy(bagging_trees, X, y))

#  Это явно улучшает результат не только беггинга но модель одного дерева

Decision tree: 0.9450045314500757
Decision tree bagging: 0.9745837353643367


### Приемущество бэггинг

Структура дерева серьёзно зависит от **обучающей выборки**
- Это значит, что если немного изменить обучающую выборку, то **дерево сильно изменится**
- Kомпозиция алгоритмов **при помощи голосования** работает наилучшим образом, когда модели различны
- Увеличить **различность построенных деревьев** можно, указав параметры `max_features` и `max_depth`


In [44]:
mfeats = int(np.sqrt(len(features)))
print(f'Number of features: {mfeats}')

random_tree = DecisionTreeClassifier(max_features=mfeats,
                                     max_depth=30)
print("Random tree:", estimate_accuracy(random_tree, X, y))

bagging_random_trees = BaggingClassifier(random_tree)
print("Random tree bagging:", estimate_accuracy(bagging_random_trees, X, y))

Number of features: 3
Random tree: 0.9540713833978115
Random tree bagging: 0.9791073387690844


Именно так внутри и работает так называемый **<mark style="background-color:#F1C40F;color:white;border-radius:5px;opacity:0.9">случайный лес</mark>**

Oн **обучает набор деревьев** (`n_esimators`), каждое из которых:
 
 - **обучается на подмножестве признаков** **<mark style="background-color:#F1C40F;color:white;border-radius:5px;opacity:0.9">Random Subspaces</mark>**
 - и **на подмножестве объектов** **<mark style="background-color:#F1C40F;color:white;border-radius:5px;opacity:0.9">Bootstrap</mark>** 
    
    
То есть **случайный лес** получается случайным по двум этим параметрам
- а **ответы аггрегируются** при помощи **голосования**


Стандартная эвристика: 
- в задаче классификации брать **квадратный корень числа признаков**, задаче регрессии — **треть числа признаков**

In [45]:
mfeats = int(np.sqrt(len(features)))
random_forest = RandomForestClassifier(n_estimators=100,
                                       n_jobs=-1,
                                       max_features=mfeats,
                                       max_depth=30)
print("Random Forest:", estimate_accuracy(random_forest, X, y))

Random Forest: 0.9829834277014811


Ещё одно преимущество использования **беггинга для аггрегации моделей**

Получение оценки работы классиф. без дополнительного проведения CV
- при помощи **обучается на подмножестве признаков** **<mark style="background-color:#F1C40F;color:white;border-radius:5px;opacity:0.9">out-of-bag score
</mark>**

- Это метод вычисления произвольной оценки качества во время обучения беггинга
- Для подсчёта требуется указать параметр **`oob_score = True`**

In [46]:
mfeats = int(np.sqrt(len(features)))
random_forest = RandomForestClassifier(n_estimators=100,
                                       max_features=mfeats,
                                       max_depth=30,
                                       oob_score=True,
                                       n_jobs=-1)
random_forest.fit(X, y)
random_forest.oob_score_

0.9929995333022201

### Бэггинг для линейных моделей 

Метод **беггинга** можно применять к произвольным алгоритмам, например, к **логистической регрессии**

In [47]:
from sklearn.linear_model import LogisticRegression
import warnings; warnings.filterwarnings('ignore')

lr = LogisticRegression(solver='saga', 
                        max_iter=200)
lr.fit(X, y)
print("LR:", estimate_accuracy(lr, X, y))

from sklearn.ensemble import BaggingClassifier

random_logreg = BaggingClassifier(lr,
                                  n_estimators=10,
                                  n_jobs=-1,
                                  random_state=42)
print("Bagging for LR:", estimate_accuracy(random_logreg, X, y))

LR: 0.44172459802488306
Bagging for LR: 0.4365451576623669


- В её случае он не так сильно повышает качество, поскольку **линейные модели не так сильно зависят от состава обучающей выборки**
- Попробуем убрать часть признаков с помощью `max_features`

В случае линейной регрессии:
- повышение разнообразности моделей не дает такого прироста, как с деревьями, поскольку модели сильно теряют в качестве. 
- Случайный лес на примере нашей задачи справляется лучше.

## Задание
 
<br> 
 
<div style="color:white;display:fill;border-radius:8px;font-size:100%; letter-spacing:1.0px;"><p style="padding: 5px;color:white;text-align:left;"><b><span style='color:#15C3BA;text-align:center'>Наш Датасет</span></b></p></div>
        
- Загрузите датасет digits с помощью функции `load_digits` из sklearn.datasets и подготовьте матрицу признаков  и ответы на обучающей выборке (вам потребуются поля data и target в объекте, который возвращает load_digits) 
- Информацию о датасете вы можете получить, обратившись к полю `DESCR` у возвращаемого объекта load_digits. Нам предстоит решать **задачу классификации изображений с цифрами по численным признакам**

<div style="color:white;display:fill;border-radius:8px;font-size:100%; letter-spacing:1.0px;"><p style="padding: 5px;color:white;text-align:left;"><b><span style='color:#15C3BA;text-align:center'>Оценка Качества</span></b></p></div>

- Для **оценки качества** мы будем использовать cross_val_score из sklearn.model_selection с параметром . Эта функция реализует k-fold cross validation c  равным значению параметра . Предлагается использовать k=10, чтобы полученные оценки качества имели небольшой разброс, и было проще проверить полученные ответы. На практике же часто хватает и k=5. Функция cross_val_score будет возвращать numpy.ndarray, в котором будет  чисел — качество в каждом из  экспериментов k-fold cross validation. Для получения среднего значения (которое и будет оценкой качества работы) вызовите метод .mean() у массива, который возвращает `cross_val_score`


- С небольшой вероятностью вы можете натолкнуться на случай, когда полученное вами качество в каком-то из пунктов не попадёт в диапазон, заданный для правильных ответов — в этом случае попробуйте перезапустить ячейку с cross_val_score несколько раз и выбрать наиболее «типичное» значение. Если это не помогает, то где-то была допущена ошибка.
- Чтобы ускорить вычисление `cross_val_score`, следует попробовать использовать параметр n_jobs. Число, которое вы подаёте в качестве этого параметра, соответствует количеству потоков вашего процессора, которое будет задействовано в вычислении.

        
### <b>Задание <span style='color:#F1A424'>5.7.1</span></b> 

Создайте DecisionTreeClassifier с настройками по умолчанию и измерьте качество его работы с помощью cross_val_score

In [1]:
import pandas as pd
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score

digits = load_digits()
X = digits.data
y = digits.target

# scaler = StandardScaler()
# X = pd.DataFrame(data=scaler.fit_transform(X), 
#                  columns=digits.feature_names)
features = digits.feature_names

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier

def estimate_accuracy(clf, X, y, cv=10):
    return cross_val_score(clf, X, y, cv=10, scoring='accuracy').mean()

random_tree = DecisionTreeClassifier()
print("Random tree:", estimate_accuracy(random_tree, X, y))

Random tree: 0.823032278088144


### <b>Задание <span style='color:#F1A424'>5.7.2</span></b> 

- Теперь давайте обучим `BaggingClassifier` на основе `DecisionTreeClassifier`
- Из sklearn.ensemble импортируйте `BaggingClassifier`, все параметры задайте по умолчанию
- Нужно изменить только количество **базовых моделей**, задав его равным **100**
- Подумайте, какие выводы можно сделать из соотношения качества **одиночного дерева** и **беггинга деревьев**?

In [51]:
def estimate_accuracy(clf, X, y, cv=10):
    return cross_val_score(clf, X, y, cv=10, scoring='accuracy').mean()

# Количество базовых моделей 100
bagging_random_trees = BaggingClassifier(random_tree,
                                         n_estimators=100)
print("Random Tree Bag:", estimate_accuracy(bagging_random_trees,
                                                X, y))

Random Tree Bag: 0.9214990689013035


### <b>Задание <span style='color:#F1A424'>5.7.3</span></b> 

Теперь изучите параметры `BaggingClassifier` и выберите их такими
- Чтобы каждый **базовый алгоритм** обучался не на всех **d** признаках, а на **sqrt(d)** случайных признаках

Корень из числа признаков - часто используемая эвристика в задачах классификации
- В задачах регрессии же часто берут число признаков, деленное на три, **log(d)** тоже имеет место быть


Но в общем случае ничто не мешает вам выбирать любое другое число случайных признаков, добиваясь лучшего качества на **кросс-валидации**

In [52]:
import warnings; warnings.filterwarnings('ignore')
import numpy as np

def estimate_accuracy(clf, X, y, cv=10):
    return cross_val_score(clf, X, y, cv=10, scoring='accuracy').mean()

mfeats = int(np.sqrt(len(features))
decision_tree = DecisionTreeClassifier(max_depth = 10)
    
print("Decision Tree:", estimate_accuracy(decision_tree,X,y))

bagging_random_trees = BaggingClassifier(decision_tree,
                                         n_estimators=100,
                                         max_features=mfeats,
                                         random_state=42)

print("Random Tree Bag:", estimate_accuracy(bagging_random_trees,X,y))
print('')

SyntaxError: invalid syntax (<ipython-input-52-1246f9e7730f>, line 8)

### <b>Задание <span style='color:#F1A424'>5.7.4</span></b> 

- В предыдущем пункте мы выбирали подмножество один раз для каждого очередного дерева
- Следующим нашим шагом будет построение беггинга на основе деревьев, **которые выбирают случайное подмножество признаков** для каждой вершины дерева


- Для этого нам потребуется перенести, отвечающий за это параметр из `BaggingClassifier` в `DecisionTreeClassifier` 
- Для этого вам из документации нужно выяснить, какой параметр `DecisionTreeClassifier` за это отвечает
- По-прежнему сэмплируем `sqrt(d)` признаков

In [None]:
'''
Decision Tree Arguments
criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, class_weight=None, ccp_alpha=0.0
'''

'''
BaggingClassifier Arguments
base_estimator=None, n_estimators=10, *, max_samples=1.0, max_features=1.0, bootstrap=True, bootstrap_features=False, oob_score=False, warm_start=False, n_jobs=None, random_state=None, verbose=0
'''

In [None]:
# mfeats = int(np.log(len(features)))
mfeats = int(np.sqrt(len(features)))

decision_tree = DecisionTreeClassifier(max_depth = 10)
print("Decision Tree:", estimate_accuracy(decision_tree,X,y))
    
bagging_random_trees = BaggingClassifier(base_estimator=random_tree,
                                         random_state=22,
                                         bootstrap_features=True,
                                         n_jobs=-1)
#                                          max_features=mfeats)
    
print("Random Tree Bag:", estimate_accuracy(bagging_random_trees,X,y))

### <b>Задание <span style='color:#F1A424'>5.7.5</span></b> 

In [3]:
import category_encoders as ce
