# HSE Машинное обучение и майнинг данных

## Семинар 6 Часть 2: Задачи классификации


### Екатерина Кондратьева

# Оценка качества алгоритмов машинного обучения. Кросс-валидация. 

![](attrition.jpg)

Мы попробуем на данных из Kaggle обучить модель машинного обучения, которая будет предсказывать отток сотрудников.
https://www.kaggle.com/patelprashant/employee-attrition

In [None]:
#linear algebra
import numpy as np
#data structures
import pandas as pd
#ml models
import scipy as sp
import sklearn
from sklearn import datasets
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn import metrics
from sklearn.metrics import accuracy_score
from sklearn.svm import SVR
#plots
import matplotlib.pyplot as plt
%matplotlib inline
#beautiful plots
import seaborn as sns
#linear regression
import statsmodels.api as sm
#set style for plots
sns.set_style('darkgrid')
#off the warnings
import warnings
warnings.filterwarnings("ignore")

**Шаг 1.2. Загрузим данные**

In [None]:
training_data = pd.read_csv('training_data.csv')

Посмотрим на данные 

In [None]:
training_data.shape

In [None]:
training_data.head()

In [None]:
training_data.describe().T

Из таких характеристик столбцов мы уже можем извлечь некоторую информацию о данных:
* **Attrition** среднее 0.160. Значит, в нашей выборке только 16% сотрудников ушли из компании.
* **MonthlyIncome** существенно отличается масштаб значений: минимальное значение дохода - 10090, максимальное - 199990.
* **NumCompaniesWorked** и **TotalWorkingYears** есть пропуски.

## 2. Обработать данные перед обучением модели

In [None]:
training_data.info()

**Заполнение пропусков**

Рассчитаем средние значения признаков в обучающей выборке, и заполним полученными
числами пропуски как в **тестовом наборе** данных, так и в **самой обучающей выборке**.

Мы будем заполнять средними значениями из обучающей выборки, так как при решении реальной задачи нам будут доступны только данные для обучения.

Для получения средних значений вызовем метод **`mean()`**. По умолчанию метод считает средним значения по столбцам. После выполнения ячейки средние значения записаны в переменной *`train_mean`*



In [None]:
train_mean = training_data.median()
train_mean

In [None]:
training_data.fillna(train_mean, inplace=True)

## Распределение таргетов в выборке

In [None]:
target_variable_name = 'Attrition'

In [None]:
training_values = training_data[target_variable_name]

In [None]:
training_data[target_variable_name].value_counts()

Отделим входные переменные от выходной (целевой), чтобы можно было построить модель предсказания целевой переменной по входным. Для это нужно у переменной *`training_data`* вызвать метод **`drop()`**.

In [None]:
training_points = training_data.drop(target_variable_name, axis=1)

In [None]:
training_points.shape

Видно, что столбца действительно нет, а количество строк не изменилось. 

## 3. Загрузить и предобработать данные для тестирования

In [None]:
test_data = pd.read_csv('test_data.csv')

In [None]:
test_data.fillna(train_mean, inplace=True)

#### Почему мы заполняем переменной из `train_data`?

In [None]:
test_values = test_data[target_variable_name]

Отделим переменные для модели от выходной переменной (целевой). Для это нужно у переменной *`test_data`* нужно вызвать метод **`drop()`**.

In [None]:
test_points = test_data.drop(target_variable_name, axis=1)

И проверяем результат записанный в test_points

In [None]:
test_points.head()

##  Обработаем текстовые переменные

В наших данных 6 столбцов имеют значения типа object. В нашем случае, это текстовые признаки. Чтобы можно было подавать их на вход алгоритму, нам необходимо закодировать их. Мы будем использовать самый простой метод **LabelEncoder()** из библиотеки **sklearn**. 
 

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
training_points['BusinessTravel'].value_counts()

In [None]:
text_features = ['BusinessTravel', 'Department', 'EducationField', 'Gender', 'JobRole', 'MaritalStatus']

Сперва создаем прототип кодировщика: 

In [None]:
label_encoder = LabelEncoder()

In [None]:
for col in text_features:
    training_points[col] = label_encoder.fit_transform(training_points[col])
    test_points[col] = label_encoder.transform(test_points[col])

Посмотрим на данные теперь:

In [None]:
training_points.head()

In [None]:
training_points.shape

### Корреляции?

## 2.1 Метрика

Какую будем использовать метрику?

## 2.2 Baseline model 

In [None]:
logistic_regression_model = LogisticRegression() # создаем модель

In [None]:
logistic_regression_model.fit(training_points, training_values)

##### Провалидировать модель на тестовой выборке

In [None]:
test_predictions_logistic_regression = logistic_regression_model.predict(test_points)

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
print(accuracy_score(test_values, test_predictions_logistic_regression))

In [None]:
print(accuracy_score(test_values, np.zeros_like(test_values)))

Как видно, значения точности для логистической регрессии равно точности для контстантного классификатора. И на самом деле, модель логистической регресси предсказывает только класс 0:

In [None]:
pd.value_counts(test_predictions_logistic_regression)

## 2.3 Проведем поиск модели

## 3 Тестируем модель на отложенных данных

# 4. Интерпретация. Посмотрим на вероятности принадлежности к классу

Вместо прогноза меток классов модель может с помощью метода **`predict_proba()`** выдавать метки вероятности принадлежности к классам.
Так как класса у нас 2: сотрудники, которые ушли и которые продолжили работать, то матрица будет размером **(количество объектов в тестовой выборке, 2)**.

In [None]:
test_probabilities = logistic_regression_model.predict_proba(test_points)

Посмотрим на первые пять значений этой матрицу: 

In [None]:
test_probabilities[:5, :]

Вероятность принадлежности ко второму классу - во втором столбце матрицы вероятностей.

In [None]:
test_probabilities = test_probabilities[:, 1]

Посмотрим на распределение предсказанной классификатором вероятности ухода сотрудника, метки `1`.

In [None]:
plt.figure(figsize=(10, 5))

plt.hist(test_probabilities, bins = 100, color= 'green')
plt.vlines(0.5, 0, 50)

plt.xlabel('Предсказание: Вероятность ухода сотрудника', fontsize=20)
plt.ylabel('Количество #', fontsize=20);

![](precision_recall.png)

In [None]:
from sklearn.metrics import confusion_matrix

confusion_matrix(test_values, test_predictions_logistic_regression)