## Официальный github репозиторий с библиотекой LightAutoML находится [тут](https://github.com/sberbank-ai-lab/LightAutoML)

# Шаг 0.0. Установка LightAutoML

Данный шаг требуется, если работа ведется не со скачанным из github репозитория кодом, а, например, в Google Colab/Kaggle kernels или вы хотите установить LightAutoML на свою машину: 

In [None]:
!pip install -U lightautoml

# Шаг 0.1. Импорт нужных библиотек

Здесь мы импортируем все то, что будем использовать в процессе работы:
- Стандартные библиотеки питона для логгинга, закачки данных и т.п.
- Стандартные DS библиотеки типа numpy, pandas и scikit-learn, a также torch (в следующей ячейке поймем зачем)
- Модули нашего LightAutoML, такие как пресеты, таск и декоратор отчетов

In [None]:
# Стандартные питоновские библиотеки
import os
import time
import requests

# Дополнительное полезное
import numpy as np
import pandas as pd
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
import torch

# Импорт пресетов, таска и профайлера
from lightautoml.automl.presets.tabular_presets import TabularUtilizedAutoML
from lightautoml.tasks import Task

# Шаг 0.2. Используемые константы

Заранее зададим некоторые параметры-константы, которые будем использовать в процессе решения:
- `N_THREADS` - количество виртуальных ядер ЦПУ, которые выделяются для решения задачи
- `RANDOM_STATE` - случайный сид для воспроизводимости
- `TEST_SIZE` - доля данных, которую отложим в houldout
- `TIMEOUT` - лимит по времени работы (в секундах), который выделяется на решение задачи
- `TARGET_NAME` - название колонки с целевой переменной

In [None]:
N_THREADS = 4 
RANDOM_STATE = 42
TIMEOUT = 8 * 3600
TARGET_NAME = 'default'

# Шаг 0.3. Предварительный сетап используемых библиотек

Для большей гарантии воспроизводимости зафиксируем случайный сид из numpy, а также установим максимальное количество потоков для Torch (который очень любит раскатываться на все доступные потоки сервера):

In [None]:
np.random.seed(RANDOM_STATE)
torch.set_num_threads(N_THREADS)

# Шаг 0.4. Загрузка данных 

Загрузим файлы с данными, которые будем в дальнейшем использовать:

In [None]:
%%time

train_data = pd.read_csv('train.csv')
train_data.head()

In [None]:
test_data = pd.read_csv('test.csv')
test_data

# Шаг 0.5. Приведем колонку с датой к нормальному виду

In [None]:
for data in [train_data, test_data]:
    data['app_date'] = pd.to_datetime(data['app_date'], format = '%d%b%Y').astype(str)

# === Построение LightAutoML модели ===


# Шаг 1. Создадим Task

В ячейке ниже мы создадим объект типа Task - класса, позволяющего сообщить LightAutoML тип решаемой задачи, а также при необходимости подходящие лосс и метрику качества (более подробно об их задании можно прочитать по [ссылке](https://lightautoml.readthedocs.io/en/latest/generated/lightautoml.tasks.base.Task.html#lightautoml.tasks.base.Task) в нашей документации):

In [None]:
task = Task('binary', )

# Шаг 2. Установим роли для признаков

Для того, чтобы LightAutoML стало понятно, что именно делать с данными, **обязательно** нужно задать какая именно колонка является целевой. Информацию об остальных колонках можно указывать, но это не является обязательным - в LightAutoML встроен автоматический типизатор колонок.

In [None]:
roles = {'target': TARGET_NAME,
         'drop': ['client_id']
         }

# Шаг 3. Потратим максимум из timeout - TabularUtilizedAutoML пресет

Предложим LightAutoML потратить timeout максимально на создание стабильной и качественной модели - будем использовать для этого `TabularUtilizedAutoML` пресет. Он обладает абсолютно таким же API, как и `TabularAutoML`, поэтому с точки зрения написания нового кода для запуска это будет быстро:

In [None]:
%%time 

automl = TabularUtilizedAutoML(task = task, 
                               timeout = TIMEOUT,
                               cpu_limit = N_THREADS,
                               reader_params = {'n_jobs': N_THREADS, 'random_state': RANDOM_STATE},
                              )
oof_pred = automl.fit_predict(train_data, roles = roles)
print('oof_pred:\n{}\nShape = {}'.format(oof_pred, oof_pred.shape))

# Шаг 4. Важности признаков в полученной модели 

Для подсчета важности признаков в LightAutoML реализованы 2 метода:
- Быстрый (`fast`) - использует важности признаков с модели-селектора признаков LightGBM. Работает очень быстро, фактически всегда (кроме кейсов, когда отборщик был принудительно отключен), не требует дополнительных выборок с таргетом
- Точный (`accurate`) - считает permutation importance каждого признака для всей модели на переданной выборке. Работает всегда, но может это делать довольно долго (сильно зависит от самой финальной модели, объема дополнительной выборки и т.п.)

In [None]:
%%time

# Fast feature importances calculation
fast_fi = automl.get_feature_scores('fast')
fast_fi.set_index('Feature')['Importance'].plot.bar(figsize = (20, 10), grid = True)

# Шаг 5. Выполним предсказание на тестовую выборку и посмотрим на метрику качества

In [None]:
%%time

test_pred = automl.predict(test_data)
print('Prediction for test data:\n{}\nShape = {}'
              .format(test_pred, test_pred.shape))

In [None]:
# logging.info('Check scores...')
# print('OOF score: {}'.format(roc_auc_score(train_data[TARGET_NAME].values, oof_pred.data[:, 0])))

# Шаг 6. Подготовим файл с сабмитом

In [None]:
submission = test_data[['client_id']]
submission['default'] = test_pred.data[:, 0]
submission.to_csv('submissionLAMA.csv', index = False)

In [None]:
submission['default'].describe()

In [None]:
submission

# Дополнительные материалы 

- [Github репозиторий LightAutoML](https://github.com/sberbank-ai-lab/LightAutoML)
- [Документация](https://lightautoml.readthedocs.io/en/latest)