<a class="anchor" id="0"></a>
# **Работа с признаками (feature engineering, конструирование признаков)**

# **1. Введение** <a class="anchor" id="1"></a>

Feature engineering- 
**это процесс использования знаний предметной области для извлечения признаков из «сырых» данных с помощью методов Data Mining. Эти признаки затем используются для улучшения работы алгоритмов машинного обучения. Можно сказать, что Feature Engineering — это само по себе «прикладное машинное обучение»**

или

**Создание признаков — это сложно, занимает много времени и требует экспертных знаний. «Прикладное машинное обучение» по сути и есть Feature Engineering**

— Andrew Ng, Machine Learning and AI via Brain simulations

# **2. Приемы работы с признаками** <a class="anchor" id="2"></a>

Основные методы :
1. Заполнение пропусков
2. Кодирование категориальных признаков
3. Трансформация переменных
7. Date and time engineering

# **3. Заполнение пропусков**  <a class="anchor" id="3"></a>

- Пропущенные данные, или пропущенные значения, возникают, когда для определенного наблюдения в переменной не хранятся данные или значение.
- Пропущенные данные – распространенное явление, которое может существенно повлиять на выводы, сделанные на основе этих данных. Неполные данные – неизбежная проблема при работе с большинством источников данных.

- **Заполнение (Imputation)** – это процесс замены пропущенных данных статистическими оценками пропущенных значений. Цель заполнения - получение полного набора данных, который можно использовать для обучения моделей машинного обучения.

- Существует несколько методов заполнения пропущенных данных:

1. Полный анализ наблюдений (complete case analysis)
2. Импутация по среднему/медиане/моде
3. Импутация случайной выборки
4. Замена произвольным значением
5. Импутация по концу распределения
6. Индикатор пропущенных значений
7. Многомерная импутация

## **Механизмы пропусков данных**

- Существует 3 механизма, приводящих к пропуску данных: два из них связаны со случайным или почти случайным пропуском данных, а третий – с систематической потерей данных.

#### **Полностью случайные пропуски (Missing Completely at Random, MCAR)**

- Переменная считается полностью случайной (MCAR), если вероятность её пропуска одинакова для всех наблюдений. Если данные относятся к MCAR, между пропущенными данными и любыми другими значениями, наблюдаемыми или пропущенными, в наборе данных нет абсолютно никакой связи. Другими словами, эти пропущенные точки данных представляют собой случайное подмножество данных. Нет никакой систематической связи, которая делала бы некоторые данные более вероятными, чем другие.

- Если значения наблюдений пропущены совершенно случайным образом, то игнорирование этих случаев не приведёт к искажению выводов.

#### **Случайные пропуски (Missing at Random, MAR)**

- MAR имеет место, когда существует систематическая связь между вероятностью появления пропущенных значений и наблюдаемыми данными. Другими словами, вероятность того, что наблюдение пропущено, зависит только от доступной информации (других переменных в датасете). Например, если мужчины чаще раскрывают свой вес, чем женщины, вес – это MAR. Информация о весе будет отсутствовать случайным образом для тех мужчин и женщин, которые решили не раскрывать свой вес, но поскольку мужчины чаще раскрывают свой вес, у женщин будет больше пропущенных значений, чем у мужчин.

- В ситуации, подобной описанной выше, если мы решим использовать переменную с пропущенными значениями (в данном случае вес), нам может быть полезно включить пол для контроля смещения веса для пропущенных наблюдений.

#### **Неслучайные пропуски (Missing Not at Random, MNAR)**

- Пропуски значений не являются случайными (MNAR), если их отсутствие зависит от информации, не записанной в датасете. Другими словами, существует механизм или причина, по которой в датасет вносятся пропущенные значения.

## **3.1 Анализ полного датасета (удаление строк) (Complete case analysis, CCA)** <a class="anchor" id="3.1"></a>

- **Полный анализ наблюдений** подразумевает анализ только тех наблюдений в датасете, которые содержат значения всех переменных. Другими словами, при полном анализе наблюдений мы удаляем все наблюдения с пропущенными значениями. Эта процедура подходит, когда в датасете мало наблюдений с пропущенными данными.

- **анализ наблюдений (CCA), также называемый удалением наблюдений по списку**, заключается в простом отбрасывании наблюдений, в которых отсутствуют значения какой-либо из переменных. Полный анализ (удаление строк) буквально означает анализ только тех наблюдений, для которых есть информация по всем переменным (X).

- Однако, если датасет содержит пропущенные данные по нескольким переменным или некоторые переменные содержат высокую долю пропущенных наблюдений, мы можем легко удалить большую часть датасета, что нежелательно.

- CCA можно применять как к категориальным, так и к числовым переменным.

- На практике CCA может быть приемлемым методом при небольшом объёме пропущенной информации. Во многих реальных датасетах объем пропущенных данных никогда не бывает малым, и поэтому CCA, как правило, никогда не является вариантом.

## **CCA на датасете Titanic**

In [None]:

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt # for data visualization
import seaborn as sns # for statistical data visualization
import pylab 
import scipy.stats as stats
import datetime
%matplotlib inline

pd.set_option('display.max_columns', None)

In [None]:
# ignore warnings

import warnings
warnings.filterwarnings('ignore')

In [None]:
# load the dataset
titanic = pd.read_csv('data/train.csv')
titanic.columns

In [None]:
# make a copy of titanic dataset
data1 = titanic.copy()

In [None]:
 # check the percentage of missing values per variable

data1.isnull().mean()

In [None]:
# check how many observations we would drop
print('total passengers with values in all variables: ', data1.dropna().shape[0])
print('total passengers in the Titanic: ', data1.shape[0])
print('percentage of data without missing values: ', data1.dropna().shape[0]/ np.float64(data1.shape[0]))

- Итак, только для 20% пассажиров доступна полная информация. Тогда, CCA - это не подходящий вариант.

## **3.2 Заполнение пропусков значениями среднего/медианы/моды** <a class="anchor" id="3.2"></a>
- для числовых переменных производится заполнение пропусков медианным или средним значением по датасету.
- для категориальных переменных замена модой также известна как замена наиболее частой категорией.
- ввод по среднему/медиане предполагает, что данные пропущены полностью случайным образом (missing completely at random, MCAR). В этом случае можно заменить NA наиболее частым вхождением переменной, которым является среднее значение, если переменная имеет гауссовское распределение, или медиана в противном случае.
- замене совокупности пропущенных значений наиболее частым значением обосновывается тем, что оно наиболее вероятное.
- При замене NA средним значением или медианой дисперсия переменной будет искажена, если количество NA велико по сравнению с общим числом объектов (поскольку значения не отличаются ни от среднего, ни друг от друга). Это приводит к занижению дисперсии.
- Кроме того, могут быть затронуты оценки ковариации и корреляций с другими переменными в датасете. Это связано с тем, что мы можем разрушить внутренние корреляции, поскольку среднее значение/медиана, которые теперь заменяют NA, не сохранят связь с остальными переменными.

**В итоге имеем**: мы можем заменить пропущенные значения средним значением, медианой или модой. Этот прием широко применяется в анализе данных, однако следует помнить, что чем больше данных мы "генерируем", тем сильнее искажаем датасет (связь с другими переменными). Искажение распределения переменной может повлиять на эффективность линейных моделей.

Мода:
- Для категориальных признаков (например, «город проживания»).
- Плюс: сохраняем наиболее популярный вариант.
- Минус: теряется разнообразие.

Медиана:
- Для числовых данных с выбросами.
- Плюс: устойчива к аномалиям.
- Минус: может сглаживать распределение.

Среднее:
- Для числовых данных без выбросов.
- Плюс: простота.
- Минус: искажается при наличии выбросов.
Пример: зарплаты сотрудников. Если у одного зарплата 10 млн, то лучше использовать медиану, а не среднее.

In [None]:
# make a copy of titanic dataset
data2 = titanic.copy()

In [None]:
# check the percentage of NA values in dataset
data2.isnull().mean()

### **Важное примечание**

- Замена должна быть выполнена на основе обучающего набора, а затем распространена на тестовый. Это означает, что величину среднего/медианы вычисляем на обучающем наборе и эту же велчину используем на тестовом. Это необходимо для предотвращения переобучения.

- В массиве данных Titanic мы видим, что `Age` содержит 19,8653%, `Cabin` содержит 77,10%, а `Embarked` содержит 0,22% пропущенных значений.

### **Замена Age**

- `Age` - непрерывная переменная. Рассмотрим ее распределение.

In [None]:
# plot the distribution of age to find out if they are Gaussian or skewed.

plt.figure(figsize=(12,8))
fig = data2.Age.hist(bins=10)
fig.set_ylabel('Number of passengers')
fig.set_xlabel('Age')

- We can see that the `age` distribution is skewed. So, we will use the median imputation.

In [None]:
# separate dataset into training and testing set

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data2, data2.Survived, test_size=0.3, 
                                                    random_state=0)
X_train.shape, X_test.shape

In [None]:
# calculate median of Age
median = X_train.Age.median()
median

In [None]:
# impute missing values in age in train and test set

for df in [X_train, X_test]:
    df['Age'].fillna(median, inplace=True)

In [None]:
plt.figure(figsize=(12,8))
fig = X_train.Age.hist(bins=10)
fig.set_ylabel('Number of passengers')
fig.set_xlabel('Age')

### **Check for missing values in `age` variable**

In [None]:
X_train['Age'].isnull().sum()

In [None]:
X_test['Age'].isnull().sum()

- теперь пропущенные значения для столбца `age` отсутсвуют в обоих датасетах.
- аналогично выполняется заполнение для `Cabin` и `Embarked`

## **3.3 Заполнение случайным значением из выборки** <a class="anchor" id="3.3"></a>

- подразумевает случайный выбор значений из переменной для замены пропущенных данных. Этот метод сохраняет распределение переменной и хорошо подходит для случайных пропущенных данных. Однако необходимо учитывать случайность, правильно установив начальное значение. В противном случае одно и то же пропущенное наблюдение может быть заменено разными значениями в разных запусках кода, что приведет к разным прогнозам модели. Это нежелательно при использовании наших моделей в организации.

- Замена NA случайной выборкой для категориальных переменных происходит точно так же, как и для числовых переменных.

- Случайная выборка заключается в выборе случайного наблюдения из пула доступных наблюдений переменной, то есть из пула доступных категорий, и использовании этого случайно извлеченного значения для заполнения NA. При случайной выборке берется столько случайных наблюдений, сколько пропущенных значений присутствует в переменной.

- Благодаря случайной выборке наблюдений текущих категорий мы гарантируем сохранение частоты различных категорий/меток внутри переменной.


## **Заполнение случайным значением из выборки on Titanic датасет**

In [None]:
# make a copy of titanic dataset

data3 = titanic.copy()

In [None]:
# check the percentage of NA values

data3.isnull().mean()

### **Важно**

Замена должна быть на обучающем датасете, а затем продолжена на тестовом. То есть в тестовый датасет попадают значание полученные из обучающего


In [None]:
# separate dataset into training and testing set

X_train, X_test, y_train, y_test = train_test_split(data3, data3.Survived, test_size=0.3,
                                                    random_state=0)
X_train.shape, X_test.shape

In [None]:
# write a function to create 3 variables from Age:

def impute_na(df, variable, median):
    
    df[variable+'_median'] = df[variable].fillna(median)
    df[variable+'_zero'] = df[variable].fillna(0)
    
    # random sampling
    df[variable+'_random'] = df[variable]
    
    # extract the random sample to fill the na
    random_sample = X_train[variable].dropna().sample(df[variable].isnull().sum(), random_state=0)
    
    # pandas needs to have the same index in order to merge datasets
    random_sample.index = df[df[variable].isnull()].index
    df.loc[df[variable].isnull(), variable+'_random'] = random_sample
    
    # fill with random-sample
    df[variable+'_random_sample'] = df[variable].fillna(random_sample)

In [None]:
impute_na(X_train, 'Age', median)

In [None]:
impute_na(X_test, 'Age', median)

## **3.4 Замена произвольным значением** <a class="anchor" id="3.4"></a>

- Замена произвольным значением, как следует из названия, означает замену пропущенных данных любым произвольно определенным значением, но одинаковым для всех пропущенных данных. Замена произвольным значением подходит, если данные пропущены не случайным образом или если доля пропущенных значений велика. Если все значения положительны, типичная замена равна -1. В качестве альтернативы, замена на 999 или -999 является обычной практикой. Необходимо учитывать, что эти произвольные значения не являются частым явлением в переменной. Однако замена может не подходить для линейных моделей, поскольку, скорее всего, исказит распределение переменных, и, следовательно, допущения модели могут не выполняться.

- Для категориальных переменных это эквивалентно замене пропущенных наблюдений меткой «Пропущено», что является широко распространённой процедурой.

– Замену NA на искусственные значения следует использовать, когда есть основания полагать, что NA не пропущены случайно. В подобных ситуациях мы не хотим заменять их медианой или средним значением, чтобы NA выглядели как большинство наших наблюдений.

– Вместо этого мы хотим их пометить. Мы хотим каким-то образом зафиксировать эти пропуски.

In [None]:
# make a copy of titanic dataset

data4 = titanic.copy()

In [None]:
# let's separate into training and testing set

X_train, X_test, y_train, y_test = train_test_split(data4, data4.Survived, test_size=0.3,
                                                    random_state=0)
X_train.shape, X_test.shape

In [None]:
def impute_na(df, variable):
    df[variable+'_zero'] = df[variable].fillna(0)
    df[variable+'_hundred']= df[variable].fillna(100)

In [None]:
# replace NA with the median value in the training and test set
impute_na(X_train, 'Age')
impute_na(X_test, 'Age')


- Произвольное значение должно быть определено для каждого признака отдельно. Например, для этого датасета замена NA в age на 0 или 100 допустима, поскольку ни одно из этих значений не встречается часто в исходном распределении переменной и находится в хвосте распределения.

- Однако, если заменить NA в fare, эти значения уже не подходят, поскольку, как мы видим, fare может принимать значения до 500. Поэтому мы можем рассмотреть возможность использования 500 или 1000 для замены NA вместо 100.

- Видно, что это совершенно произвольно. Однако это используется в отрасли. Типичные значения, которые выбирают, — это -9999 или 9999, или аналогичные.

In [None]:
plt.figure(figsize=(12,8))
fig = data4["Fare"].hist(bins=10)
fig.set_ylabel('Number of passengers')
fig.set_xlabel('Fare')

## **3.5 Индикатор пропущенных значений** <a class="anchor" id="3.6"></a>

- Метод пропущенных значений предполагает добавление бинарной переменной, указывающей, отсутствует ли значение для определенного наблюдения. Эта переменная принимает значение 1, если наблюдение отсутствует, и 0 в противном случае. Важно отметить, что нам по-прежнему необходимо заменить пропущенные значения в исходной переменной, что мы обычно делаем при импутации среднего или медианы. При совместном использовании этих двух методов, если пропущенное значение имеет предсказательную силу, оно будет учтено пропущенным значением, а если нет, то будет замаскировано импутацией среднего или медианы.

- Эти два метода в сочетании, как правило, хорошо работают с линейными моделями. Однако добавление пропущенного значения расширяет пространство признаков, и, поскольку несколько переменных, как правило, имеют пропущенные значения для одних и тех же наблюдений, многие из этих вновь созданных бинарных переменных могут быть идентичными или сильно коррелированными.

In [None]:
# make a copy of titanic dataset

data6 = titanic.copy()

In [None]:
# let's separate into training and testing set

X_train, X_test, y_train, y_test = train_test_split(data6, data6.Survived, test_size=0.3,
                                                    random_state=0)
X_train.shape, X_test.shape

In [None]:
# create variable indicating missingness

X_train['Age_NA'] = np.where(X_train['Age'].isnull(), 1, 0)
X_test['Age_NA'] = np.where(X_test['Age'].isnull(), 1, 0)

X_train.head()

In [None]:
# we can see that mean and median are similar. So I will replace with the median

X_train.Age.mean(), X_train.Age.median()

In [None]:
# let's replace the NA with the median value in the training set
X_train['Age'].fillna(X_train.Age.median(), inplace=True)
X_test['Age'].fillna(X_train.Age.median(), inplace=True)

X_train.head(10)

- столбец `Age_NA` создан и может быть учтен при обучении.

## **Вывод — выбор подходящего метода заполнения пропусков**

— Если пропущенные значения составляют менее 5% признака, используйте заполнение по среднему/медиане или замену случайной выборкой. Если пропущенные значения составляют более 5%, используйте заполнение по наиболее часто встречающейся категории. Используйте заполнение по среднему/медиане с добавлением дополнительной бинарной переменной для учета пропусков и метки «Пропущенные» для категориальных переменных.

— Если количество NA в переменной невелико, они вряд ли окажут сильное влияние на переменную/целевую переменную, которую вы пытаетесь предсказать. Поэтому их особая обработка, скорее всего, добавит шум к переменным. Поэтому для сохранения распределения переменной более эффективно использовать замену по среднему/случайной выборке.

# **4. Кодирование категориальных признаков** <a class="anchor" id="4"></a>

Категориальные признаки — это данные, принимающие лишь ограниченное количество значений.

Например, если вы ответили на опрос о марке своего автомобиля, результат будет категориальным (поскольку ответы будут такими, как Honda, Toyota, Ford, None и т. д.). Ответы попадают в фиксированный набор категорий.

Вы получите ошибку, если попытаетесь подключить эти переменные к большинству моделей машинного обучения без их предварительного кодирования. Здесь мы покажем наиболее популярный метод кодирования категориальных переменных.

Кодирование категориальных переменных — это общее название для ряда методов, используемых для преобразования строк или меток категориальных переменных в числа. Этот метод включает в себя несколько методов:

  1. One-Hot encoding (OHE)
  
  2. Ordinal encoding

  3. Count and Frequency encoding

  4. Target encoding / Mean encoding

  5. Weight of Evidence

  6. Rare label encoding

## **4.1 One-hot encoding (OHE)** <a class="anchor" id="4.1"></a>

- OHE — стандартный подход к кодированию категориальных данных.

- Однократное горячее кодирование (OHE) создаёт бинарную переменную для каждой из различных категорий, представленных в переменной. Эти бинарные переменные принимают значение 1, если наблюдение соответствует определённой категории, и 0 в противном случае. OHE подходит для линейных моделей. Однако OHE значительно расширяет пространство признаков, если категориальные переменные имеют высокую кардинальную плотность или если категориальных переменных много. Кроме того, многие производные фиктивные переменные могут быть сильно коррелированы.

- OHE заключается в замене категориальной переменной различными булевыми переменными, которые принимают значение 0 или 1, чтобы указать, присутствовала ли определённая категория/метка переменной для данного наблюдения. Каждая из булевых переменных также известна как фиктивная переменная или бинарная переменная.

- Например, из категориальной переменной «Пол» с метками «женский» и «мужской» мы можем сгенерировать булеву переменную «женский», которая принимает значение 1, если человек — женщина, и 0 в противном случае. Мы также можем сгенерировать переменную «мужской», которая принимает значение 1, если человек — мужчина, и 0 в противном случае.

<img src=data/onehot1.png></img> 

In [None]:
# make a copy of titanic dataset

data7 = titanic.copy()

In [None]:
data7['Sex'].head()

In [None]:
# one hot encoding

pd.get_dummies(data7['Sex']).head()

In [None]:
# for better visualisation
pd.concat([data7['Sex'], pd.get_dummies(data7['Sex'])], axis=1).head()

- Видно, что для представления исходной категориальной переменной «Пол» нам нужна только одна из двух фиктивных переменных. Любая из них подойдёт, и неважно, какую из них мы выберем, поскольку они эквивалентны. Следовательно, для кодирования категориальной переменной с двумя метками нам понадобится только одна фиктивная переменная.

- Чтобы расширить эту концепцию, для кодирования категориальной переменной с k метками нам понадобится k-1 фиктивных переменных. Эту задачу можно решить следующим образом:

In [None]:
# obtaining k-1 labels
pd.get_dummies(data7['Sex'], drop_first=True).head()

In [None]:
# Let's now look at an example with more than 2 labels

data7['Embarked'].head()

In [None]:
# check the number of different labels
data7.Embarked.unique()

In [None]:
# get whole set of dummy variables

pd.get_dummies(data7['Embarked']).head()

In [None]:
# get k-1 dummy variables

pd.get_dummies(data7['Embarked'], drop_first=True).head()

- API Scikt-Learn предоставляет класс для [кодирования One-Hot](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html).

- другие варианты кодирования доступны в пакете [Category Encoders](https://contrib.scikit-learn.org/categorical-encoding/) для использования с scikit-learn в Python.

- Оба вышеперечисленных варианта также можно использовать для кодирования One-Hot.

## **Важное замечание относительно OHE**

- Класс OHE Scikit-learn (https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder) принимает только числовые категориальные значения. Поэтому любое значение строкового типа должно быть сначала закодировано меткой.


## **4.2 Порядковое кодирование (Label encoding)** <a class="anchor" id="4.2"></a>

Категориальная переменная, категории которой можно осмысленно упорядочить, называется порядковой. Например:

- Оценка студента на экзамене (A, B, C или Неудовлетворительно).
- Дни недели могут быть порядковыми, где понедельник = 1, а воскресенье = 7.
- Уровень образования, категории: начальная школа, средняя школа, выпускник колледжа, докторская степень ранжируются от 1 до 4.

- Если категориальная переменная порядковая, наиболее простой подход — заменить метки каким-либо порядковым числом.

- При порядковом кодировании мы заменяем категории цифрами, либо произвольно, либо осознанно. При произвольном кодировании категорий каждой категории присваивается целое число от 1 до n, где n — количество уникальных категорий. Если вместо этого мы назначаем целые числа осознанно, то наблюдаем целевое распределение: мы упорядочиваем категории от 1 до n, присваивая 1 категории, для которой наблюдения показывают наивысшее среднее значение целевого значения, а n — категории с наименьшим средним значением целевого значения.

<img src=data/labelenco1.png></img> 

## **4.3 Кодирование по количеству и частоте (Frequency encoding)** <a class="anchor" id="4.3"></a>

Когда применять:
Если категорий много, но важна их частота встречаемости.
Преимущества: компактность, сохраняет распределение категорий.
Недостатки: не учитывает целевую переменную, разные категории могут иметь одинаковую частоту.
Пример: в датасете профессий «программист» встречается у 40% людей, «дизайнер» — у 30%, «менеджер» — у 30%. Тогда кодирование: программист=0.4, дизайнер=0.3, менеджер=0.3.

- При кодировании по количеству мы заменяем категории на количество наблюдений, которые представляют эту категорию в датасете. ...Или на частоту (или процент) наблюдений в датасете. То есть, если 10 из 100 наших наблюдений содержат синий цвет, мы заменим синий на 10 при кодировании по количеству или на 0,1 при замене по частоте. Эти методы позволяют зафиксировать представление каждой метки в датасете, но кодирование не обязательно позволяет предсказать результат.


In [None]:
#import dataset
#The dataset contains the production time for Mercedes manufacturing testbech.

df_train = pd.read_csv('data/mercedesbenz-greener-manufacturing/train.csv')
                       
df_test = pd.read_csv('data/mercedesbenz-greener-manufacturing/test.csv') 
                      

In [None]:
df_train.head()

In [None]:
# let's have a look at how many labels

for col in df_train.columns[2:9]:
    print(col, ': ', len(df_train[col].unique()), ' labels')

При выполнении преобразования количества категориальных переменных важно рассчитать количество (или частоту = количество/общее количество наблюдений) по обучающему набору, а затем использовать эти числа для замены меток в тестовом наборе.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df_train[['X1', 'X2', 'X3', 'X4', 'X5', 'X6']], df_train.y,
                                                    test_size=0.3,
                                                    random_state=0)
X_train.shape, X_test.shape

In [None]:
# let's obtain the counts for each one of the labels in variable X2
# let's capture this in a dictionary that we can use to re-map the labels

X_train.X2.value_counts().to_dict()

In [None]:
# lets look at X_train so we can compare then the variable re-coding

X_train.head()

In [None]:
# now let's replace each label in X2 by its count

# first we make a dictionary that maps each label to the counts
X_frequency_map = X_train.X2.value_counts().to_dict()

# and now we replace X2 labels both in train and test set with the same map
X_train.X2 = X_train.X2.map(X_frequency_map)
X_test.X2 = X_test.X2.map(X_frequency_map)

X_train.head()

## **4.4 Target / Mean Encoding** <a class="anchor" id="4.4"></a>


Функция с большим количеством категорий может вызывать проблемы с кодированием: однократное кодирование привело бы к появлению слишком большого количества функций, и альтернативные варианты, такие как кодировка меток, могут не подходить для этой функции. 
Целевая кодировка выводит номера для категорий, используя наиболее важное свойство объектов: их связь с целевой кодировкой. 

<img src=data/targetenco1.png></img>

- При кодировании целевой переменной, также называемом кодированием среднего значения, мы заменяем каждую категорию переменной средним значением целевой переменной для наблюдений, относящихся к определённой категории. Например, у нас есть категориальная переменная «город», и мы хотим предсказать, купит ли клиент телевизор, если мы отправим ему письмо. Если 30% жителей города «Лондон» купят телевизор, мы заменим Лондон на 0,3.

- Этот метод имеет 3 преимущества:

1. он не расширяет пространство признаков,

2. он фиксирует некоторую информацию о целевой переменной на момент кодирования категории, и

3. он создаёт монотонную связь между переменной и целевой переменной.

- Монотонные связи между переменной и целевой переменной, как правило, улучшают эффективность линейной модели.

 

In [None]:
# let's load again the titanic dataset

data = pd.read_csv('data/train.csv', usecols=['Cabin', 'Survived'])
data.head()

In [None]:
# let's fill NA values with an additional label

data.Cabin.fillna('Missing', inplace=True)
data.head()

In [None]:
# check number of different labels in Cabin

len(data.Cabin.unique())

In [None]:
# Now we extract the first letter of the cabin

data['Cabin'] = data['Cabin'].astype(str).str[0]
data.head()

In [None]:
# check the labels
data.Cabin.unique()

In [None]:
# Let's separate into training and testing set

X_train, X_test, y_train, y_test = train_test_split(data[['Cabin', 'Survived']], data.Survived, test_size=0.3,
                                                    random_state=0)
X_train.shape, X_test.shape

In [None]:
# let's calculate the target frequency for each label

X_train.groupby(['Cabin'])['Survived'].mean()

In [None]:
# and now let's do the same but capturing the result in a dictionary

ordered_labels = X_train.groupby(['Cabin'])['Survived'].mean().to_dict()
ordered_labels

In [None]:
# replace the labels with the 'risk' (target frequency)
# note that we calculated the frequencies based on the training set only

X_train['Cabin_ordered'] = X_train.Cabin.map(ordered_labels)
X_test['Cabin_ordered'] = X_test.Cabin.map(ordered_labels)

In [None]:
# view results

X_train.head()

In [None]:
# plot the original variable

fig = plt.figure(figsize=(8,6))
fig = X_train.groupby(['Cabin'])['Survived'].mean().plot()
fig.set_title('Normal relationship between variable and target')
fig.set_ylabel('Survived')

In [None]:
# plot the transformed result: the monotonic variable

fig = plt.figure(figsize=(8,6))
fig = X_train.groupby(['Cabin_ordered'])['Survived'].mean().plot()
fig.set_title('Monotonic relationship between variable and target')
fig.set_ylabel('Survived')

# **5. Преобразование переменных** <a class="anchor" id="5"></a>

Иногда на распределение переменной можно повлиять с помощью дополнительных преобразований:

1. Логарифмическое преобразование - log(x)

2. Обратное преобразование - 1 / x

3. Преобразование квадратного корня - sqrt(x)

4. Экспоненциальное преобразование - exp(x)

5. Преобразование Бокса-Кокса

- Теперь продемонстрируем вышеперечисленные преобразования на примере массива данных Titanic.

In [None]:
# load the numerical variables of the Titanic Dataset

data = pd.read_csv('data/train.csv', usecols = ['Age', 'Fare', 'Survived'])

data.head()

### **Fill missing data with random sample**

In [None]:
# first I will fill the missing data of the variable age, with a random sample of the variable

def impute_na(data, variable):
    # function to fill na with a random sample
    df = data.copy()
    
    # random sampling
    df[variable+'_random'] = df[variable]
    
    # extract the random sample to fill the na
    random_sample = df[variable].dropna().sample(df[variable].isnull().sum(), random_state=0)
    
    # pandas needs to have the same index in order to merge datasets
    random_sample.index = df[df[variable].isnull()].index
    df.loc[df[variable].isnull(), variable+'_random'] = random_sample
    
    return df[variable+'_random']

In [None]:
# fill na
data['Age'] = impute_na(data, 'Age')

## **Age**


### **Распределение из датасета**


- Мы можем визуализировать распределение переменной `Возраст`, построив гистограмму и график Q-Q.


График статистического распределения вероятностей Q-Q — это графический метод визуальной оценки соответствия набора данных заданному распределению вероятностей, например, нормальному, путём построения графика кумулятивного распределения или квантилей данных относительно соответствующих значений теоретического распределения. Если точки образуют почти прямую линию, это указывает на хорошее соответствие; отклонения указывают на то, что данные не следуют предполагаемому распределению. Такие графики полезны для проверки предположений о распределении, оценки параметров и сравнения различных моделей.
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.probplot.html

In [None]:
# plot the histograms to have a quick look at the distributions
# we can plot Q-Q plots to visualise if the variable is normally distributed

def diagnostic_plots(df, variable):
    # function to plot a histogram and a Q-Q plot
    # side by side, for a certain variable
    
    plt.figure(figsize=(15,6))
    plt.subplot(1, 2, 1)
    df[variable].hist()

    plt.subplot(1, 2, 2)
    stats.probplot(df[variable], dist="norm", plot=pylab)

    plt.show()
    
diagnostic_plots(data, 'Age')

- Переменная `Age` распределена практически линейно, за исключением некоторых наблюдений в нижней части распределения. Обратите внимание на небольшой наклон гистограммы влево и отклонение от прямой линии в сторону нижних значений на графике Q-Q.

- В следующих ячейках применим вышеупомянутые преобразования сравним распределения преобразованной переменной `Age`.

## **5.1 Logarithmic transformation** <a class="anchor" id="5.1"></a>

In [None]:
### Logarithmic transformation
data['Age_log'] = np.log(data.Age)

diagnostic_plots(data, 'Age_log')

- результат ухудшился.

## **5.2 Взаимное преобразование** <a class="anchor" id="5.2"></a>

In [None]:
### Reciprocal transformation
data['Age_reciprocal'] = 1 / data.Age

diagnostic_plots(data, 'Age_reciprocal')

- результат ухудшился.

## **5.3 Square root transformation** <a class="anchor" id="5.3"></a>

[Содержание](#0.1)

In [None]:
data['Age_sqr'] =data.Age**(1/2)

diagnostic_plots(data, 'Age_sqr')

- лучше, чем в предыдущих  методах, но не достаточно хорошо

## **5.4 Экспоненциальное преобразование** <a class="anchor" id="5.4"></a>

[Содержание](#0.1)

In [None]:
data['Age_exp'] = data.Age**(1/1.2) 

diagnostic_plots(data, 'Age_exp')

Данный вариант визуально лучше исходный

## **5.5 Преобразование Бокса-Кокса** <a class="anchor" id="5.5"></a>

- Преобразование Бокса-Кокса определяется как:

T(Y)=(Y exp(λ)−1)/λ

- где Y — отклик, а λ — параметр преобразования. λ изменяется от -5 до 5. При преобразовании рассматриваются все значения λ и выбирается оптимальное значение для заданной переменной.

- Вкратце, для каждого λ (преобразование проверяет несколько λ) рассчитывается коэффициент корреляции на графике вероятностей (график Q-Q ниже, корреляция между упорядоченными значениями и теоретическими квантилями).

- Значение λ, соответствующее максимальной корреляции на графике, является оптимальным выбором для λ.

- В Python мы можем оценить и получить наилучшее значение λ с помощью функции stats.boxcox из пакета scipy.

- Мы можем поступить следующим образом:

In [None]:
data['Age_boxcox'], param = stats.boxcox(data.Age) 

print('Optimal λ: ', param)

diagnostic_plots(data, 'Age_boxcox')

# **6. Работа с выбросами** <a class="anchor" id="7"></a>

Выбросы — это значения, которые необычно высоки или необычно низки по сравнению с остальными наблюдениями переменной. Существует несколько методов обработки выбросов:

  1. Удаление выбросов

  2. Обработка выбросов как пропусков

  3. Дискретизация

  4. Top / bottom / zero coding
 

#### **Выявление выбросов**

#### **Анализ экстремальных значений**

- Простейшей формой выявления выбросов является анализ экстремальных значений одномерных данных. Ключевым моментом этого метода является определение статистических «хвостов» распределения исходной переменной и последующее нахождение значений, находящихся в самом конце этого распределения.

- В типичном случае распределение переменной является гауссовым, поэтому выбросы будут находиться за пределами среднего значения плюс-минус 3 стандартного отклонения переменной.

- Если переменная распределена не нормально, общий подход заключается в расчете квантилей, а затем межквантильного размаха (МКР, IQR) следующим образом:

- IQR = 75th quantile - 25th quantile

- Выброс будет находиться за пределами следующих верхней и нижней границ:

- Upper boundary = 75th quantile + (IQR * 1.5)

- Lower boundary = 25th quantile - (IQR * 1.5)

или в крайних случаях:

- Upper boundary = 75th quantile + (IQR * 3)

- Lower boundary = 25th quantile - (IQR * 3)

## **6.1 Top /bottom / zero coding** <a class="anchor" id="7.4"></a>

- Кодирование сверху или снизу также известно как **Винсоризация** или **удержание выбросов**. Процедура включает ограничение максимального и минимального значений предопределенным значением. Это предопределенное значение может быть произвольным или выведено из распределения переменной.

- Если переменная распределена нормально, мы можем ограничить максимальное и минимальное значения средним значением плюс-минус 3 стандартного отклонения. Если переменная асимметрична, мы можем использовать правило близости межквантильного размаха или ограничение верхнего и нижнего процентилей.

- Это продемонстрировано на примере титанической даты ниже:

 



In [None]:
# load the numerical variables of the Titanic Dataset
data = pd.read_csv('data/train.csv', usecols = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived'])
data.head()

In [None]:
# divide dataset into train and test set
X_train, X_test, y_train, y_test = train_test_split(data, data.Survived,
                                                    test_size=0.3,
                                                    random_state=0)
X_train.shape, X_test.shape

In [None]:
# let's make boxplots to visualise outliers in the continuous variables 
# Age and Fare

plt.figure(figsize=(15,6))
plt.subplot(1, 2, 1)
fig = data.boxplot(column='Age')
fig.set_title('')
fig.set_ylabel('Age')

plt.subplot(1, 2, 2)
fig = data.boxplot(column='Fare')
fig.set_title('')
fig.set_ylabel('Fare')

- И возраст, и стоимость проезда содержат выбросы. Давайте выясним, какие значения являются выбросами.

In [None]:
# first we plot the distributions to find out if they are Gaussian or skewed.
# Depending on the distribution, we will use the normal assumption or the interquantile
# range to find outliers

plt.figure(figsize=(15,6))
plt.subplot(1, 2, 1)
fig = data.Age.hist(bins=20)
fig.set_ylabel('Number of passengers')
fig.set_xlabel('Age')

plt.subplot(1, 2, 2)
fig = data.Fare.hist(bins=20)
fig.set_ylabel('Number of passengers')
fig.set_xlabel('Fare')

Возраст достаточно нормализован, а стоимость искажена, поэтому стандартное отклонение для возраста и межквартильный размах для стоимости.

In [None]:
# find outliers

# Age
Upper_boundary = data.Age.mean() + 3* data.Age.std()
Lower_boundary = data.Age.mean() - 3* data.Age.std()
print('Age outliers are values < {lowerboundary} or > {upperboundary}'.format(lowerboundary=Lower_boundary, upperboundary=Upper_boundary))

# Fare
IQR = data.Fare.quantile(0.75) - data.Fare.quantile(0.25)
Lower_fence = data.Fare.quantile(0.25) - (IQR * 3)
Upper_fence = data.Fare.quantile(0.75) + (IQR * 3)
print('Fare outliers are values < {lowerboundary} or > {upperboundary}'.format(lowerboundary=Lower_fence, upperboundary=Upper_fence))

### **Age**

- Для возраста нам нужно удалить только правую часть, то есть используем top-coding.

In [None]:
# view the statistical summary of Age
data.Age.describe()

In [None]:
# Assuming normality

Upper_boundary = X_train.Age.mean() + 3* X_train.Age.std()
Upper_boundary

In [None]:
# top-coding the Age variable

X_train.loc[X_train.Age>73, 'Age'] = 73
X_test.loc[X_test.Age>73, 'Age'] = 73

X_train.Age.max(), X_test.Age.max()

### **Стоимость**

- Согласно представленному выше графику, все выбросы находятся в правой части распределения. Это означает, что некоторые люди заплатили за билеты чрезвычайно высокую цену. Следовательно, только чрезвычайно высокие значения этой переменной повлияют на эффективность наших моделей машинного обучения, и поэтому нам необходимо выполнить топ-кодирование.

In [None]:
# view statistical properties of Fare

X_train.Fare.describe()

In [None]:
# top coding: upper boundary for outliers according to interquantile proximity rule

IQR = data.Fare.quantile(0.75) - data.Fare.quantile(0.25)

Upper_fence = X_train.Fare.quantile(0.75) + (IQR * 3)

Upper_fence

The upper boundary, above which every value is considered an outlier is a cost of 100 dollars for the Fare.

In [None]:
# top-coding: capping the variable Fare at 100
X_train.loc[X_train.Fare>100, 'Fare'] = 100
X_test.loc[X_test.Fare>100, 'Fare'] = 100
X_train.Fare.max(), X_test.Fare.max()

Thus we deal with outliers from a machine learning perspective.

# **7. Конструирование дат и времени** <a class="anchor" id="8"></a>

Переменные даты — это особый тип категориальных переменных. По своей природе они содержат множество различных меток, каждая из которых соответствует конкретной дате, а иногда и времени. При правильной предварительной обработке могут значительно улучшить датасет. Например, из переменной даты мы можем извлечь:

- Месяц
- Квартал
- Семестр
- День (число)
- День недели
- Выходной?
- Часы
- Разница во времени в годах, месяцах, днях, часах и т. д.

Важно понимать, что переменные даты не следует использовать в качестве категориальных переменных, с которыми мы работали до сих пор при построении модели машинного обучения. Не только потому, что у них множество категорий, но и потому, что когда мы фактически используем модель для оценки нового наблюдения, это наблюдение, скорее всего, будет иметь место в будущем, и, следовательно, его метка даты будет отличаться от тех, которые содержатся в обучающем наборе и, следовательно, от тех, которые использовались для обучения алгоритма машинного обучения.

- Демо на датасете Lending Club.

In [None]:
# let's load the Lending Club dataset with selected columns and rows

use_cols = ['issue_d', 'last_pymnt_d']
data = pd.read_csv('data/loan/loan.csv', usecols=use_cols, nrows=10000)
data.head()

In [None]:
# now let's parse the dates, currently coded as strings, into datetime format

data['issue_dt'] = pd.to_datetime(data.issue_d)
data['last_pymnt_dt'] = pd.to_datetime(data.last_pymnt_d)

data[['issue_d','issue_dt','last_pymnt_d', 'last_pymnt_dt']].head()

In [None]:
# Extracting Month from date

data['issue_dt_month'] = data['issue_dt'].dt.month

data[['issue_dt', 'issue_dt_month']].head()

In [None]:
data[['issue_dt', 'issue_dt_month']].tail()

In [None]:
# Extract quarter from date variable

data['issue_dt_quarter'] = data['issue_dt'].dt.quarter

data[['issue_dt', 'issue_dt_quarter']].head()

In [None]:
data[['issue_dt', 'issue_dt_quarter']].tail()

In [None]:
# We could also extract semester

data['issue_dt_semester'] = np.where(data.issue_dt_quarter.isin([1,2]),1,2)
data.head()

In [None]:
# day - numeric from 1-31

data['issue_dt_day'] = data['issue_dt'].dt.day

data[['issue_dt', 'issue_dt_day']].head()

In [None]:
# day of the week - from 0 to 6

data['issue_dt_dayofweek'] = data['issue_dt'].dt.dayofweek

data[['issue_dt', 'issue_dt_dayofweek']].head()

In [None]:
data[['issue_dt', 'issue_dt_dayofweek']].tail()

In [None]:
data[['issue_dt', 'issue_dt_dayofweek']].tail()

In [None]:
# was the application done on the weekend?

data['issue_dt_is_weekend'] = np.where(data['issue_dt_dayofweek'].isin(['Sunday', 'Saturday']), 1,0)
data[['issue_dt', 'issue_dt_dayofweek','issue_dt_is_weekend']].head()

In [None]:
data[data.issue_dt_is_weekend==1][['issue_dt', 'issue_dt_dayofweek','issue_dt_is_weekend']].head()

In [None]:
# extract year 

data['issue_dt_year'] = data['issue_dt'].dt.year

data[['issue_dt', 'issue_dt_year']].head()

In [None]:
# extract the date difference between 2 dates

data['issue_dt'] - data['last_pymnt_dt']