# Loan Repayment / Default Risk

### Датасет

Датасет состоит из 7 разных таблиц:

* **application_train/application_test**: the main training and testing data with information about each loan application at Home Credit. Every loan has its own row and is identified by the SK_ID_CURR. The training application data comes with the TARGET with indicating 0: the loan was repaid and 1: the loan was not repaid.
* **bureau**: data concerning client's previous credits from other financial institutions. Each previous credit has its own row in bureau and is identified by the SK_ID_BUREAU, Each loan in the application data can have multiple previous credits.
* **bureau_balance**: monthly data about the previous credits in bureau. Each row is one month of a previous credit, and a single previous credit can have multiple rows, one for each month of the credit length.
* **previous_application**: previous applications for loans at Home Credit of clients who have loans in the application data. Each current loan in the application data can have multiple previous loans. Each previous application has one row and is identified by the feature SK_ID_PREV.
* **POS_CASH_BALANCE**: monthly data about previous point of sale or cash loans clients have had with Home Credit. Each row is one month of a previous point of sale or cash loan, and a single previous loan can have many rows.
* **credit_card_balance**: monthly data about previous credit cards clients have had with Home Credit. Each row is one month of a credit card balance, and a single credit card can have many rows.
* **installments_payment**: payment history for previous loans at Home Credit. There is one row for every made payment and one row for every missed payment.

Диаграмма ниже (предоставленная Home Credit) показывает, как связаны таблицы. Это будет очень полезно, когда нам нужно определить зависимости в featuretools.

![title](home_credit.png)

In [2]:
import pandas as pd
import numpy as np

import featuretools as ft
import featuretools.variable_types as vtypes

import sys
import psutil
import os

from timeit import default_timer as timer

In [3]:
# Read in the datasets and limit to the first 1000 rows (sorted by SK_ID_CURR) 
# This allows us to actually see the results in a reasonable amount of time! 
app_train = pd.read_csv('application_train.csv').sort_values('SK_ID_CURR').reset_index(drop = True)
app_test = pd.read_csv('application_test.csv').sort_values('SK_ID_CURR').reset_index(drop = True)
bureau = pd.read_csv('bureau.csv').sort_values(['SK_ID_CURR', 'SK_ID_BUREAU']).reset_index(drop = True)
bureau_balance = pd.read_csv('bureau_balance.csv').sort_values('SK_ID_BUREAU').reset_index(drop = True)
cash = pd.read_csv('POS_CASH_balance.csv').sort_values(['SK_ID_CURR', 'SK_ID_PREV']).reset_index(drop = True)
credit = pd.read_csv('credit_card_balance.csv').sort_values(['SK_ID_CURR', 'SK_ID_PREV']).reset_index(drop = True)
previous = pd.read_csv('previous_application.csv').sort_values(['SK_ID_CURR', 'SK_ID_PREV']).reset_index(drop = True)
installments = pd.read_csv('installments_payments.csv').sort_values(['SK_ID_CURR', 'SK_ID_PREV']).reset_index(drop = True)

In [4]:
app_train = app_train.replace({365243: np.nan})
app_test = app_test.replace({365243: np.nan})
bureau = bureau.replace({365243: np.nan})
bureau_balance = bureau_balance.replace({365243: np.nan})
cash = cash.replace({365243: np.nan})
credit = credit.replace({365243: np.nan})
previous = previous.replace({365243: np.nan})
installments = installments.replace({365243: np.nan})

In [5]:
# Add identifying column
app_test["TARGET"] = np.nan

# Append the dataframes
app = app_train.append(app_test, ignore_index = True, sort = True)

In [6]:
for index in ['SK_ID_CURR', 'SK_ID_PREV', 'SK_ID_BUREAU']:
    for dataset in [app, bureau, bureau_balance, cash, credit, previous, installments]:
        if index in list(dataset.columns):
            dataset[index] = dataset[index].fillna(0).astype(np.int64)

## Основы Featuretools

Featuretools - это библиотека Python с открытым исходным кодом, предназначенная для автоматического создания признаков из набора связанных таблиц с использованием метода **Deep Feature Synthesis**

Основные концепции Featuretools:

* **Entities и EntitySets**: наши таблицы и структура данных 
* **Relations between tables**: связи таблицы друг с другом
* **Feature Primitives**: агрегаты и преобразования, составленные для построения признаков
* **Deep Feature Synthesis**: метод, использующий примитивы объектов для создания тысяч новых признаков

### 1. Entity and EntitySets / Сущности и наборы сущностей

Entity - это просто таблица или датафрейм в Pandas. Объекты должны быть в строках, а признаки - в столбцах.

Entity (cущность) в featuretools должна иметь уникальный индекс, в котором ни один из элементов не дублируется. В настоящее время только app, bureau и previous имеют уникальные индексы (SK_ID_CURR, SK_ID_BUREAU и SK_ID_PREV, соответственно).

Для других датареймов данных, когда мы создаем сущности из них, мы должны передать make_index = True и затем указать имя индекса.

Сущности также могут иметь **временные индексы**, которые отражают, когда информация в строке стала известной (доступной во времени). (Ни в одной из данных нет даты-времени, но есть относительные времена в месяцах или днях, которые можно рассматривать как переменные времени, хотя мы не будем использовать их как время в нашем случае, представляя их независимыми).

EntitySet - это набор таблиц и взаимосвязей между ними. Это можно представить как структуру данных со своими собственными методами и атрибутами. Использование EntitySet позволяет нам группировать несколько таблиц и значительно упростит создание признаков, чем отслеживание отдельных таблиц и связей. EntitySet и Entities (Cущности) - это абстракции, которые можно применять к любому набору данных, поскольку они не зависят от базовых данных.

Сначала мы создадим пустой набор сущностей с именами клиентов для отслеживания всех данных.

In [8]:
# Entity set with id applications
es = ft.EntitySet(id = 'clients')

### 2. Типы переменных

Featuretools автоматически распознает типы переменных.

Однако могут быть случаи, когда нам нужно явно указать featuretools тип переменной, например, когда boolean переменная представляется в виде целого числа.

Типы переменных в featuretools можно указывать в виде словаря.

Сначала мы будем работать с данными app, чтобы указать правильные типы переменных. Чтобы идентифицировать булевы переменные, которые записаны как числа (1.0 или 0.0), мы можем перебрать данные и найти любые столбцы, в которых есть только 2 уникальных значения и тип данных числовой. Мы также можем использовать определения столбцов, чтобы найти любые другие типы данных, которые должны быть идентифицированы, такие как Порядковые переменные. Определение правильных типов переменных важно, потому что Featuretools применяет различные операции к разным типам данных (так же, как мы это делаем при ручном проектировании признаков).

In [10]:
app_types = {}

# Handle the Boolean variables:
for col in app:
    if (app[col].nunique() == 2) and (app[col].dtype == float):
        app_types[col] = vtypes.Boolean

# Remove the `TARGET`
del app_types['TARGET']

print('There are {} Boolean variables in the application data.'.format(len(app_types)))

There are 32 Boolean variables in the application data.


In [11]:
# Ordinal variables
app_types['REGION_RATING_CLIENT'] = vtypes.Ordinal
app_types['REGION_RATING_CLIENT_W_CITY'] = vtypes.Ordinal
app_types['HOUR_APPR_PROCESS_START'] = vtypes.Ordinal

Таблица previous - единственная сущность, которая имеет признаки, которые должны быть записаны как логические. Правильное определение типа столбца предотвратит создание инструментальными средствами ненужных объектов, таких как среднее или максимальное значение от булевых переменных

In [12]:
previous_types = {}

# Handle the Boolean variables:
for col in previous:
    if (previous[col].nunique() == 2) and (previous[col].dtype == float):
        previous_types[col] = vtypes.Boolean

print('There are {} Boolean variables in the previous data.'.format(len(previous_types)))

There are 2 Boolean variables in the previous data.


В дополнение к идентификации булевых переменных, мы хотим убедиться, что featuretools не создает бессмысленных функций, таких как статистические агрегации (среднее, максимальное и т. Д.) айдишников. Все данные credit, cash, installments имеют переменную SK_ID_CURR. Однако нам на самом деле не нужна эта переменная в этих кадрах данных, поскольку мы связываем их с app через таблицу previous с помощью переменной SK_ID_PREV.

Мы не хотим создавать признаки и из SK_ID_CURR, так как это произвольный идентификатор и не должен обладать предсказательной силой. Наши опции для обработки этих переменных - либо указывать featuretools игнорировать их, либо отбрасывать признаки перед их включением в набор сущностей. Мы примем последний подход.

In [43]:
installments = installments.drop(columns = ['SK_ID_CURR'])
credit = credit.drop(columns = ['SK_ID_CURR'])
cash = cash.drop(columns = ['SK_ID_CURR'])

Saved all files in partition 1 to partitions/p1.
Saved all files in partition 11 to partitions/p11.
Saved all files in partition 21 to partitions/p21.
Saved all files in partition 31 to partitions/p31.
Saved all files in partition 41 to partitions/p41.
Saved all files in partition 51 to partitions/p51.
Saved all files in partition 61 to partitions/p61.
Saved all files in partition 71 to partitions/p71.
Saved all files in partition 81 to partitions/p81.
Saved all files in partition 91 to partitions/p91.
Saved all files in partition 101 to partitions/p101.
Partitioning took 3 seconds.


### 3. Добавление сущностей

Теперь мы определяем каждую сущность или таблицу данных и добавляем ее в EntitySet. Нам нужно передать индекс, если в таблице он есть, или make_index = True, если нет. В случаях, когда нам нужно создать индекс, мы должны предоставить имя для индекса. Нам также нужно передать словарь переменных типов, если есть какие-то конкретные переменные, которые мы должны идентифицировать. Следующий код добавляет все семь таблиц в EntitySet.

In [14]:
# Entities with a unique index
es = es.entity_from_dataframe(entity_id = 'app', dataframe = app, index = 'SK_ID_CURR',
                              variable_types = app_types)

es = es.entity_from_dataframe(entity_id = 'bureau', dataframe = bureau, index = 'SK_ID_BUREAU')

es = es.entity_from_dataframe(entity_id = 'previous', dataframe = previous, index = 'SK_ID_PREV',
                              variable_types = previous_types)

# Entities that do not have a unique index
es = es.entity_from_dataframe(entity_id = 'bureau_balance', dataframe = bureau_balance, 
                              make_index = True, index = 'bureaubalance_index')

es = es.entity_from_dataframe(entity_id = 'cash', dataframe = cash, 
                              make_index = True, index = 'cash_index')

es = es.entity_from_dataframe(entity_id = 'installments', dataframe = installments,
                              make_index = True, index = 'installments_index')

es = es.entity_from_dataframe(entity_id = 'credit', dataframe = credit,
                              make_index = True, index = 'credit_index')

In [15]:
# Display entityset so far
es

Entityset: clients
  Entities:
    app [Rows: 356255, Columns: 122]
    bureau [Rows: 1716428, Columns: 17]
    previous [Rows: 1670214, Columns: 37]
    bureau_balance [Rows: 27299925, Columns: 4]
    cash [Rows: 10001358, Columns: 9]
    installments [Rows: 13605401, Columns: 9]
    credit [Rows: 3840312, Columns: 24]
  Relationships:
    No relationships

EntitySet позволяет нам сгруппировать все наши таблицы в одну структуру данных. Это намного проще, чем манипулировать таблицами по одной (как мы должны делать при ручном проектировании признаков).

### 4. Связи / Relationships

Отношения являются фундаментальной концепцией не только в FeatureTools, но и в любой реляционной базе данных. Наиболее распространенный тип отношений - один-ко-многим. Лучший способ думать об отношениях «один ко многим» - это аналогия родителей с ребенком. Родитель - единственный человек, но может иметь несколько детей. В контексте таблиц родительская таблица будет иметь одну строку (наблюдение) для каждого человека, в то время как дочерняя таблица может иметь много наблюдений для каждого родителя. В родительской таблице каждый индивид имеет одну строку и уникально идентифицируется индексом (также называемым ключом). У каждого человека в родительской таблице может быть несколько строк в дочерней таблице. Все становится немного сложнее, потому что у дочерних таблиц могут быть собственные дети, что делает этих внуков родителями.

В качестве примера отношения «родитель-ребенок», в фрейме данных приложения имеется одна строка для каждого клиента (идентифицируемая SK_ID_CURR), в то время как в фрейме данных bureau есть несколько предыдущих кредитов для каждого клиента. Поэтому bureau является дочерним по отношению к датафрейму app. Bureau в свою очередь, является родительским для bureau_balance, потому что у каждого займа есть одна строка в бюро (идентифицированная как SK_ID_BUREAU), но несколько записей за месяц в bureau_balance. Когда мы выполняем ручное проектирование признаков, отслеживание всех этих отношений - это огромные затраты времени (и потенциальный источник ошибок), но мы можем добавить эти отношения в наш EntitySet и позволить Featuretools беспокоиться о сохранности таблиц.

#### 4.1. Добавление зависимостей

Определить relationships просто, используя диаграмму для таблиц данных (см. рисунок). Для каждой связи нам нужно сначала указать родительскую переменную, а затем дочернюю переменную. Всего между таблицами существует 6 взаимосвязей (считая отношения обучения и тестирования как одну). Ниже мы указываем эти отношения, а затем добавляем их в EntitySet.

Традиционно мы используем отношения между родителями и детьми для агрегирования данных, группируя всех детей для одного родителя и вычисляя статистику. Например, мы можем сгруппировать все кредиты для одного клиента и рассчитать среднюю сумму кредита. Это просто, но может стать чрезвычайно утомительным, если мы хотим сделать сотни таких функций. Делать это по одному крайне неэффективно, особенно потому, что мы заканчиваем переписывать большую часть кода снова и снова, и этот код не может быть использован для какой-либо другой проблемы!

Ситуация становится еще хуже, когда мы должны объединить внуков, потому что мы должны использовать два шага: сначала объединить на уровне родителей, а затем на уровне родителей. Скоро мы увидим, что featuretools может выполнять эту работу автоматически за нас, генерируя тысячи функций из всех таблиц данных. Когда мы делали это вручную, для каждой функции требовалось около 15 минут (как мы видели в записной книжке по ручному проектированию функций), поэтому featuretools потенциально экономит нам сотни часов.

In [16]:
# Relationship between app_train and bureau
r_app_bureau = ft.Relationship(es['app']['SK_ID_CURR'], es['bureau']['SK_ID_CURR'])

# Relationship between bureau and bureau balance
r_bureau_balance = ft.Relationship(es['bureau']['SK_ID_BUREAU'], es['bureau_balance']['SK_ID_BUREAU'])

# Relationship between current app and previous apps
r_app_previous = ft.Relationship(es['app']['SK_ID_CURR'], es['previous']['SK_ID_CURR'])

# Relationships between previous apps and cash, installments, and credit
r_previous_cash = ft.Relationship(es['previous']['SK_ID_PREV'], es['cash']['SK_ID_PREV'])
r_previous_installments = ft.Relationship(es['previous']['SK_ID_PREV'], es['installments']['SK_ID_PREV'])
r_previous_credit = ft.Relationship(es['previous']['SK_ID_PREV'], es['credit']['SK_ID_PREV'])

In [17]:
# Add in the defined relationships
es = es.add_relationships([r_app_bureau, r_bureau_balance, r_app_previous,
                           r_previous_cash, r_previous_installments, r_previous_credit])
# Print out the EntitySet
es

Entityset: clients
  Entities:
    app [Rows: 356255, Columns: 122]
    bureau [Rows: 1716428, Columns: 17]
    previous [Rows: 1670214, Columns: 37]
    bureau_balance [Rows: 27299925, Columns: 4]
    cash [Rows: 10001358, Columns: 9]
    installments [Rows: 13605401, Columns: 9]
    credit [Rows: 3840312, Columns: 24]
  Relationships:
    bureau.SK_ID_CURR -> app.SK_ID_CURR
    bureau_balance.SK_ID_BUREAU -> bureau.SK_ID_BUREAU
    previous.SK_ID_CURR -> app.SK_ID_CURR
    cash.SK_ID_PREV -> previous.SK_ID_PREV
    installments.SK_ID_PREV -> previous.SK_ID_PREV
    credit.SK_ID_PREV -> previous.SK_ID_PREV

Опять же, мы видим преимущества использования EntitySet, который может отслеживать все отношения между таблицами. Это позволяет нам работать на более высоком уровне абстракции, думая обо всем наборе данных, а не о каждой отдельной таблице, значительно повышая нашу эффективность.

**Немного сложное замечание**: мы должны быть осторожны, чтобы не создавать diamond graph, где есть несколько путей от родителя к потомку Если мы напрямую свяжем app и cash через SK_ID_CURR; previous и cash через SK_ID_PREV; и app и previous через SK_ID_CURR, мы создали два пути от app к cash. Это приводит к неоднозначности, поэтому вместо этого мы должны связать app с cash через previous. Мы устанавливаем связь между previpus (родительским) и cash (дочерним) с использованием SK_ID_PREV. Затем мы устанавливаем связь между app (родительским) и previous (теперь дочерним), используя SK_ID_CURR. Затем featuretools смогут создавать признаки в app, полученные как из previous, так и из cash, путем объединения нескольких примитивов.

Если в этом нет особого смысла, просто не забудьте включить только один путь от родителя к потомкам. Например, связать дедушку с внуком через родителя, а не напрямую через общую переменную.

Все сущности в сущности могут быть связаны через эти отношения (relations). Теоретически это позволяет нам рассчитывать признаки для любой из сущностей, но на практике мы будем вычислять признаки только для датафрейма app, поскольку он будет использоваться для обучения / тестирования. Конечным результатом будет датафрейм, содержащий по одной строке для каждого клиента в приложении с тысячами признаков для каждого отдельного клиента.

Мы почти приступили к созданию тысяч признаков, но у нас еще есть несколько основополагающих тем для понимания. Следующий строительный блок - это примитивы.

### 5. Признаковые примитивы

Примитив объекта - это операция, применяемая к таблице или набору таблиц для создания признака. Они представляют собой простые расчеты, многие из которых мы уже используем в ручном проектировании признаков, которые можно накладывать друг на друга для создания сложных глубоких элементов. Особые примитивы делятся на две категории:

* **Агрегация**: функция, которая группирует детей для каждого родителя и вычисляет статистику, такую как среднее, минимальное, максимальное или стандартное отклонение для детей. Примером является максимальная сумма предыдущего кредита для каждого клиента. Агрегация охватывает несколько таблиц с использованием связей между таблицами.
* **Преобразование**: операция, примененная к одному или нескольким столбцам в одной таблице. В качестве примера можно взять абсолютное значение столбца или найти разницу между двумя столбцами в одной таблице.

Список доступных примитивов функций в featuretools можно посмотреть ниже.

In [23]:
# List the primitives in a dataframe
primitives = ft.list_primitives()
pd.options.display.max_colwidth = 100

primitives[primitives['type'] == 'transform'].head(10)

Unnamed: 0,name,type,description
20,cum_count,transform,Calculates the cumulative count.
21,greater_than_equal_to,transform,Determines if values in one list are greater than or equal to another list.
22,latitude,transform,Returns the first tuple value in a list of LatLong tuples.
23,scalar_subtract_numeric_feature,transform,Subtract each value in the list from a given scalar.
24,week,transform,Determines the week of the year from a datetime.
25,greater_than,transform,Determines if values in one list are greater than another list.
26,subtract_numeric,transform,Element-wise subtraction of two lists.
27,second,transform,Determines the seconds value of a datetime.
28,add_numeric,transform,Element-wise addition of two lists.
29,negate,transform,Negates a numeric value.


### 6. Deep feature synthesis

**Deep Feature Synthesis (DFS)** - это метод, который Featuretools использует для создания новых признаков. Стек DFS содержат примитивы для формирования объектов с «глубиной», равной количеству примитивов. Например, если мы берем максимальное значение предыдущих кредитов клиента (скажем, MAX (previous.loan_amount)), это «глубокий элемент» с глубиной 1. Чтобы создать элемент с глубиной два, мы могли бы сложить примитивы, принимая максимальное значение среднемесячных платежей клиента за предыдущий кредит (например, MAX (предыдущий (MEAN (installments.payment))))). В ручном проектировании функций это потребовало бы двух отдельных группировок и объединений и заняло более 15 минут, чтобы написать код для функции.

**Deep Feature Synthesis** - чрезвычайно мощный метод, который позволяет нам преодолеть наши человеческие ограничения по времени и креативности, создавая признаки, о которых мы никогда не сможем думать самостоятельно (или не будем иметь терпения для их реализации). Кроме того, DFS применима к любому набору данных с очень незначительными изменениями синтаксиса. При проектировании функций мы обычно применяем одни и те же функции к нескольким наборам данных, но когда мы делаем это вручную, нам приходится переписывать код, потому что он специфичен для конкретной проблемы. Код Featuretools можно применять к любому набору данных, поскольку он написан на более высоком уровне абстракции.

Оригинальную статью об автоматизированном проектировании объектов с использованием **Deep Feature Synthesis** стоит прочитать, если вы хотите понять концепции на более глубоком уровне.

Для выполнения DFS в featuretools мы используем функцию dfs, передающую ей набор сущностей, target_entity (где мы хотим создавать функции), agg_primitives для использования, trans_primitives для использования, max_depth функций и ряд других аргументов в зависимости от нашего варианта использования. Есть также опции для мультиобработки с njobs и информацией, распечатанной с подробным описанием.

Еще один важный аргумент - features_only. Если мы установим это в True, dfs будет делать только имена объектов, а не вычислять фактические значения объектов (называемые матрицей объектов). Это полезно, когда мы хотим проверить функцию, которая будет создана, и мы также можем сохранить функции для использования с другим набором данных (например, когда у нас есть данные обучения и тестирования).

#### 6.1 Обычные примитивы

Не используя знания предметной области, мы можем создавать тысячи признаков, используя примитивы по умолчанию в featuretools. Этот первый вызов будет использовать стандартные примитивы агрегации и преобразования, максимальную глубину 2, и вычислять примитивы для таблицы app. Мы будем генерировать только сами функции (имена, а не значения), которые мы можем сохранить и проверить.

In [29]:
# Default primitives from featuretools
default_agg_primitives =  ["sum", "std", "max", "skew", "min", "mean", "count", "percent_true", "num_unique", "mode"]
default_trans_primitives =  ["day", "year", "month", "weekday", "haversine"]

# DFS with specified primitives
feature_names = ft.dfs(entityset = es, target_entity = 'app',
                       trans_primitives = default_trans_primitives,
                       agg_primitives=default_agg_primitives, 
                       where_primitives = [], seed_features = [],
                       max_depth = 2, n_jobs = -1, verbose = 1,
                       features_only=True)

Built 1686 features


Даже простой вызов deep feature synthesis дает нам более 1500 функций для работы. Конечно, не все из них будут важны, но это все равно представляет сотни часов, которые мы сэкономили. Более того, dfs может найти важные признаки, о которых мы никогда бы не подумали.

Мы можем посмотреть на некоторые из названий признаков:

In [30]:
feature_names[-15:]

[<Feature: MEAN(previous.MEAN(credit.AMT_RECIVABLE))>,
 <Feature: MEAN(previous.MEAN(credit.AMT_TOTAL_RECEIVABLE))>,
 <Feature: MEAN(previous.MEAN(credit.CNT_DRAWINGS_ATM_CURRENT))>,
 <Feature: MEAN(previous.MEAN(credit.CNT_DRAWINGS_CURRENT))>,
 <Feature: MEAN(previous.MEAN(credit.CNT_DRAWINGS_OTHER_CURRENT))>,
 <Feature: MEAN(previous.MEAN(credit.CNT_DRAWINGS_POS_CURRENT))>,
 <Feature: MEAN(previous.MEAN(credit.CNT_INSTALMENT_MATURE_CUM))>,
 <Feature: MEAN(previous.MEAN(credit.SK_DPD))>,
 <Feature: MEAN(previous.MEAN(credit.SK_DPD_DEF))>,
 <Feature: MEAN(previous.COUNT(credit))>,
 <Feature: MEAN(previous.NUM_UNIQUE(credit.NAME_CONTRACT_STATUS))>,
 <Feature: NUM_UNIQUE(previous.MODE(cash.NAME_CONTRACT_STATUS))>,
 <Feature: NUM_UNIQUE(previous.MODE(credit.NAME_CONTRACT_STATUS))>,
 <Feature: MODE(previous.MODE(cash.NAME_CONTRACT_STATUS))>,
 <Feature: MODE(previous.MODE(credit.NAME_CONTRACT_STATUS))>]

### 6. Бизнес признаки

Featuretools автоматически создаст для нас тысячи признаков, но это не значит, что мы не можем использовать наши собственные знания для повышения эффективности прогнозирования. Featuretools может расширить наши знания предметной области, поставив дополнительные функции поверх наших возможностей, основанных на знании предметной области. Мы определили и создали множество полезных функций в блокноте по разработке функций для руководства, основываясь на наших собственных знаниях и знаниях тысяч ученых, работающих над этой проблемой в Kaggle. Вместо того, чтобы получать только одну функцию знания предметной области, мы можем эффективно получить десятки или даже сотни. Здесь мы объясним варианты использования знаний предметной области, но мы будем придерживаться простой реализации Featuretools для сравнения.

Для получения дополнительной информации по любой из этих тем см. Документацию или другие записные книжки в этом хранилище.

#### 6.1. Доменные функции / Seed features
Seed functions - это доменные функции, которые мы вносим в данные, которые затем можно построить на Featuretools. Например, мы увидели, что ставка по кредиту является важной особенностью, поскольку кредит с более высокой ставкой, вероятно, более рискованный. В Featuretools мы можем закодировать ставку ссуды (как для текущей ссуды, так и для предыдущих ссуд) как начальную функцию, и Featuretools по мере возможности создаст дополнительные пояснительные переменные в этой области знаний.

####  6.2. Важные значения / Interesting values
Интересные значения имеют аналогичную идею для начальных функций, за исключением того, что они позволяют нам создавать условные элементы. Например, мы можем захотеть найти для каждого клиента среднюю сумму предыдущих кредитов, которые были закрыты, и среднюю сумму предыдущих кредитов, которые все еще активны. Указывая интересные значения в бюро через переменную CREDIT_ACTIVE, мы можем сделать так, чтобы Featuretools делал именно это! Выполнение этого вручную было бы чрезвычайно утомительным и предоставило бы многочисленные возможности для ошибок.

####  6.3. Кастомные примитивы / Custom primitives
Если мы не удовлетворены примитивами, доступными для использования в Featuretools, мы можем написать свои собственные функции для преобразования или агрегирования данных. Это одна из самых мощных возможностей в FeatureTools, поскольку она позволяет нам выполнять очень специфические операции, которые затем можно применять к нескольким наборам данных.

В этой записной книжке мы сконцентрируемся на базовой реализации Featuretools, но помните, что эти возможности доступны для оптимизации библиотеки и использования знаний предметной области !:

### 7. Выбор примитивов

Для нашего фактического набора функций мы будем использовать выбранную группу примитивов, а не только значения по умолчанию. Это создаст более 1800 признаков для использования в моделировании.

In [35]:
# Specify primitives
agg_primitives =  ["sum", "max", "min", "mean", "count", "percent_true", "num_unique", "mode"]
trans_primitives = ['percentile', 'and']

In [36]:
# Deep feature synthesis 
feature_names = ft.dfs(entityset=es, target_entity='app',
                       agg_primitives = agg_primitives,
                       trans_primitives = trans_primitives,
                       n_jobs = -1, verbose = 1,
                       features_only = True,
                       max_depth = 2)

Built 1883 features


In [37]:
ft.save_features(feature_names, 'features.txt')

### 8. Выводы
В этом примере мы увидели, как реализовать автоматизированное создание признаков. Автоматизированное создание признаков позволяет нам создавать тысячи новых признаков из набора связанных таблиц данных, что значительно повышает нашу эффективность в качестве исследователей данных. Более того, мы все еще можем использовать знания предметной области в наших функциях и даже расширять наши знания предметной области, опираясь на наши собственные изготовленные вручную признаки.

Основные выводы:

* Автоматизированная разработка признаков заняла 1 час, а ручная разработка признаков - 10 часов.
* Автоматизированное проектирование признаков построило тысячи признаков в несколько строк кода по сравнению с десятками строк кода на функцию для ручного проектирования.
*В целом, производительность автоматизированных функций сопоставима или выше, чем у ручных функций (см. Блокнот «Результаты»).
* Преимущества автоматизированного проектирования функций значительны и значительно помогут нам в роли исследователей данных. Это не уменьшит потребность в специалистах по данным, а скорее сделает нас более эффективными и построит лучшие пайплайны за меньшее время.

### 9. Следующие шаги

После создания полного набора признаков мы можем применить отбор признаков и затем приступить к моделированию. Чтобы оптимизировать модель для функций, мы используем случайный поиск для 100 итераций по сетке гиперпараметров. Чтобы узнать, как использовать Dask для параллельного запуска Featuretools, обратитесь к Реализации Featuretools с записной книжкой Dask. Для выбора функции обратитесь к блокноту Выбор функции. Окончательные результаты представлены в блокноте «Результаты».

Дорожная карта:
* Выборка 10% тренировочных наблюдений в случайном порядке
* Конвертировать числовые столбцы в np.float32
* Конвертировать логические столбцы в np.uint8
* Горячее кодирование категориальных функций по мере необходимости
* Удалить одну из каждой пары столбцов со всеми дублированными значениями (корреляция 1,0)
* Удалить столбцы с более чем 90% пропущенных значений
* Удалить столбцы с одним уникальным значением
* Удалите одну из каждой пары столбцов с abs (корреляция)> 0,95