# Подбор гиперпараметров LightGBM

## Библиотеки и модули

Загрузка библиотек и модулей, используемых при решении. 
- Модель: **LGBMClassifier** из библиотеки **LightGBM**
- Предобработчик данных для модели: **DataPreprocessor** (из модуля **helper.data**)
- Подбор гиперпараметров: **optuna**
- Целевые функции: **F1-macro**, **confusion_matrix** 
- Борьба с дисбалансом классов: **RandomOverSampler** (библиотека **imbalanced-learn**)
- Разделение на тренировочную и тестовую выборки, кросс-валидация, оценка решения: 
    - библиотека **scikit-learn**
    - **valid_predictions** (из модуля **helper.validation**)
- Работа с датасетом: библиотека **pandas** 
- Работа с файловой системой: модуль **os**

In [None]:
# Модель
import optuna as opt
from lightgbm import LGBMClassifier
from sklearn.model_selection import cross_val_score, train_test_split, StratifiedKFold
from sklearn.metrics import f1_score, roc_auc_score, make_scorer, confusion_matrix

# Пайплайн
from sklearn.pipeline import Pipeline
from helpers.data import DataPreprocessor
from helpers.validation import valid_predictions

# Данные
import os
import pandas as pd
from imblearn.over_sampling import RandomOverSampler

# Настройки вывода
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [None]:
# Пути
ROOT = os.getcwd()
TRAIN_DATASET = os.path.join(ROOT, '../data/train_AIC.csv')
BALANCED_DATASET = os.path.join(ROOT, '../data/balanced_train.csv')
TEST_DATASET = os.path.join(ROOT, '../data/test_AIC.csv')
SUBMISSION_PATH = os.path.join(ROOT, '../submissions/')

# Функции
def make_predictions(model: object | Pipeline, X_test: pd.DataFrame) -> None:
    """ Функция создания предсказаний для тестовой выборки.
    
    Обучает переданную модель на сбалансированном датасете, учитывая выбросы.
    Предсказания сохраняются с помощью функции save_submission.
    
    Параметры:
        model: Модель или пайплайн, используемый для обучения и предсказания меток
            тестовой выборки.
        X_test: Тестовая выборка, для которой будут сделаны предсказания.
            Экземпляр pandas.DataFrame."""
    
    # Загрузка сбалансированного датасета
    balanced_df = pd.read_csv(BALANCED_DATASET, index_col=0)
    
    # Обрезка негативных записей до числа позитивных
    first_negatives = balanced_df[balanced_df['y'] == 0][:balanced_df[balanced_df['y'] == 1]['y'].count()]
    balanced_df = pd.concat([balanced_df[balanced_df['y'] == 1], first_negatives])

    # Удаление выбросов
    balanced_df = balanced_df[balanced_df['Длительность'] < 400]
    balanced_df = balanced_df[(balanced_df['Сумма'] > 2) & (balanced_df['Сумма'] < 10)]
    balanced_df = balanced_df[balanced_df['До поставки'] < 300]
    balanced_df = balanced_df[balanced_df['Дней между 0_1'] < 400]
    balanced_df = balanced_df[balanced_df['Количество изменений после согласований'] < 2000]
    balanced_df = balanced_df[balanced_df['Количество'] < 300000]
    
    # Разделение независимых и независимых переменных
    X, y = balanced_df.iloc[:, :-1], balanced_df.iloc[:, -1]   

    # Обучение модели и создание предсказаний для тестовой выборки
    model.fit(X, y)
    preds = model.predict(X_test)

    # Сохранение предсказаний
    save_submission(preds, 'submission')
    
def save_submission(preds: list | pd.DataFrame | pd.arrays.PandasArray, subname: str) -> None:
    subname = os.path.join(SUBMISSION_PATH, f'{subname}.csv')
    submit_df = pd.DataFrame({'id': test_df.index, 'value': preds})
    submit_df.to_csv(subname, index=False)


# Загрузка датасетов
train_df = pd.read_csv(TRAIN_DATASET)
test_df = pd.read_csv(TEST_DATASET)

# Удаление дубликатов из тренировочной выборки
train_df = train_df.drop_duplicates()

# Разделение выборки на тренировочную и тестовую
X, y = train_df.iloc[:, :-1], train_df.iloc[:, -1]   
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

# Удаление выбросов из тренировочной выборки
X_train = pd.concat([X_train, y_train], axis=1) # Объединяем X_train и y_train
X_train = X_train[X_train['Длительность'] < 400]
X_train = X_train[(X_train['Сумма'] > 2) & (X_train['Сумма'] < 10)]
X_train = X_train[X_train['До поставки'] < 300]
X_train = X_train[X_train['Дней между 0_1'] < 400]
X_train = X_train[X_train['Количество изменений после согласований'] < 2000]
X_train = X_train[X_train['Количество'] < 300000]

# Отделяем метки классов от признаков
y_train = X_train['y']
X_train = X_train.drop('y', axis=1)

# Общий датасет для большего числа записей, используемых на кросс-валидации
X_general, y_general = train_df.iloc[:, :-1], train_df.iloc[:, -1]

In [None]:
def objective_f1_macro(trial: opt.Trial) -> float:
    """ Функция оптимизации F1 (macro).
    
    Использует библиотеку optuna для подбора параметров из
    заданного диапазона. В качестве оптимизируемой метрики 
    выступает F1 (macro).
    
    Параметры:
        trial: экзмепляр optuna.Trial, представляющей собой
        историю оптимизации целевой функции.
        
    Пример:
        study = optuna.create_study(direction='maximize')
        study.optimize(objective, n_trials=100)
        
    Возвращает F1 (macro) метрику для подобранных параметров."""
    
    # Параметры
    learning_rate = trial.suggest_float('learning_rate', 0.01, 1)
    n_estimators = trial.suggest_int('n_estimators', 500, 3000)
    max_depth = trial.suggest_int('max_depth', 6, 32)
    max_bin = trial.suggest_int('max_bin', 32, 200),
    num_leaves = trial.suggest_int('num_leaves', 32, 300)
    reg_lambda = trial.suggest_float('reg_lambda', 0.01, 1)

    # Модель
    data_preprocessor = DataPreprocessor()
    model = LGBMClassifier(learning_rate=learning_rate, n_estimators=n_estimators,
                           max_depth=max_depth, max_bin=max_bin, num_leaves=num_leaves,
                           reg_lambda=reg_lambda)

    # Пайплайн
    pipeline = Pipeline([
        ('data_preproc', data_preprocessor),
        ('model', model)
    ])
    
    cv_score = cross_val_score(pipeline, X_train, y_train, cv=StratifiedKFold(n_splits=5), scoring='f1_macro', n_jobs=-1)
    accuracy = cv_score.mean()

    return accuracy

In [None]:
# Запуск подбора гиперпараметров
study_f1_macro = opt.create_study(direction='maximize')
study_f1_macro.optimize(objective_f1_macro, n_trials=50)

In [None]:
def objective_confusion_matrix(trial: opt.Trial) -> float:
    """ Функция оптимизации FP и FN значений матрицы ошибок.
    
    Использует библиотеку optuna для подбора параметров из
    заданного диапазона. В качестве оптимизируемой метрики 
    выступает сумма FP и FN значений матрицы ошибок.
    
    Параметры:
        trial: Экзмепляр optuna.Trial, представляющей собой
            историю оптимизации целевой функции.
        
    Пример:
        study = optuna.create_study(direction='minimize')
        study.optimize(objective_confusion_matrix, n_trials=100)
        
    Возвращает сумму FP и FN значений матрицы ошибок для подобранных параметров."""
    
    # Параметры
    learning_rate = trial.suggest_float('learning_rate', 0.01, 1)
    n_estimators = trial.suggest_int('n_estimators', 500, 3000)
    max_depth = trial.suggest_int('max_depth', 6, 32)
    max_bin = trial.suggest_int('max_bin', 32, 200),
    num_leaves = trial.suggest_int('num_leaves', 32, 300)
    reg_lambda = trial.suggest_float('reg_lambda', 0.01, 1)

    # Модель
    data_preprocessor = DataPreprocessor()
    model = LGBMClassifier(learning_rate=learning_rate, n_estimators=n_estimators,
                           max_depth=max_depth, max_bin=max_bin, num_leaves=num_leaves,
                           reg_lambda=reg_lambda)
    
    # Пайплайн
    pipeline = Pipeline([
        ('data_preproc', data_preprocessor),
        ('model', model)
    ])
    
    def confusion_matrix_score(y_true, y_pred):
        _, fp, fn, _ = confusion_matrix(y_true, y_pred).ravel()
        return fp + fn
    
    scorer = make_scorer(confusion_matrix_score)
    cv_scores = cross_val_score(pipeline, X_train, y_train, cv=5, scoring=scorer, n_jobs=-1)

    return cv_scores.mean()

In [None]:
# Запуск подбора гиперпараметров
study_confusion_matrix = opt.create_study(direction='minimize')
study_confusion_matrix.optimize(objective_confusion_matrix, n_trials=50)

## Оценка модели

### Целевая функция F1-macro

In [None]:
# Предобработчик и модель
params = study_f1_macro.best_params
data_preprocessor = DataPreprocessor()
model = LGBMClassifier(**params, n_jobs=-1, force_col_wise=True)

# Пайплайн
pipeline = Pipeline([
    ('data_preproc', data_preprocessor),
    ('model', model)
])

# Обучение модели и получение предсказаний для тестовой выборки
pipeline.fit(X_train, y_train)
preds = pipeline.predict(X_test)

# Вывод результатов валидации
valid_predictions(y_test, preds)

### Целевая функция confusion_matrix

In [None]:
# Предобработчик и модель
params = study_confusion_matrix.best_params
data_preprocessor = DataPreprocessor()
model = LGBMClassifier(**params, n_jobs=-1, force_col_wise=True)

# Пайплайн
pipeline = Pipeline([
    ('data_preproc', data_preprocessor),
    ('model', model)
])

# Обучение модели и получение предсказаний для тестовой выборки
pipeline.fit(X_train, y_train)
preds = pipeline.predict(X_test)

# Вывод результатов валидации
valid_predictions(y_test, preds)