<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span><ul class="toc-item"><li><span><a href="#Догружаем-Февраль-и-Март" data-toc-modified-id="Догружаем-Февраль-и-Март-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Догружаем Февраль и Март</a></span></li></ul></li><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Подготовка данных</a></span><ul class="toc-item"><li><span><a href="#Выделение-признаков" data-toc-modified-id="Выделение-признаков-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Выделение признаков</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Обучение</a></span></li></ul></li><li><span><a href="#генетический-алгоритм-для-сборки-моделей-(день)" data-toc-modified-id="генетический-алгоритм-для-сборки-моделей-(день)-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>генетический алгоритм для сборки моделей (день)</a></span></li><li><span><a href="#генетический-алгоритм-для-сборки-моделей-(месяц)" data-toc-modified-id="генетический-алгоритм-для-сборки-моделей-(месяц)-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>генетический алгоритм для сборки моделей (месяц)</a></span><ul class="toc-item"><li><span><a href="#Тестирование" data-toc-modified-id="Тестирование-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Тестирование</a></span></li><li><span><a href="#Создаем-выходной-файл-и-тестируем-скорингом" data-toc-modified-id="Создаем-выходной-файл-и-тестируем-скорингом-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Создаем выходной файл и тестируем скорингом</a></span></li></ul></li></ul></div>

# Отчет по Проекту Предсказания Ремонта Вагонов

## Введение
От имени нашей команды, мы рады представить результаты нашего последнего проекта по предсказанию решений по отправке вагонов на ремонт. Наш подход основывался на гипотезе, что принятие таких решений не требует анализа большого числа признаков, что помогло избежать переобучения модели.

## Методология
- **Гипотеза:** Принятие решений не требует анализа большого числа признаков.
- **Используемые признаки:** `ost_prob` и `mean_run`.
- **Результат:** F1-скор 0.5047 на тестовых данных.

## Вызовы и Решения
- **Проблема:** Модель недооценивает объем вагонов, отправляемых на ремонт в следующем месяце.
- **Решение:** Корректировка порогового значения для определения необходимости ремонта вагона.
- **Дополнительные меры:** Исследование различных подходов к обработке данных и настройке модели, включая эксперименты с различными комбинациями признаков и методами их обработки.

## Заключение
Используя всего два признака (ost_prob и mean_run), мы достигли впечатляющего результата с F1-скором 0.5047 на тестовых данных. Это подтверждает, что простота модели иногда может быть ключом к её эффективности.

Однако, мы также столкнулись с некоторыми вызовами. Например, модель, обученная на данных одного месяца, склонна недооценивать объем вагонов, отправляемых на ремонт в следующем месяце. Мы предположили, что это может быть связано с изменениями в политике ремонта вагонов. Решение этой проблемы заключалось в корректировке порогового значения для определения необходимости ремонта вагона, что позволило улучшить точность предсказаний.

Также, важной частью нашей работы стало исследование различных подходов к обработке данных и настройке модели. Мы провели серию экспериментов с различными комбинациями признаков и методами их обработки, что позволило нам глубже понять динамику и особенности наших данных. Это, в свою очередь, привело к более эффективному и точному предсказанию.

В заключение, наш проект подчеркнул значимость гибкости и адаптивности в машинном обучении, особенно при работе с данными, подверженными изменениям во времени. Мы убеждены, что эти выводы будут полезны не только для нашего текущего проекта, но и для будущих исследований в этой области.


---

> *Команда [DS-60]*



In [85]:
# Попытка импортировать основные библиотеки для работы с данными
try:
    import pandas as pd
    import numpy as np
except ImportError as e:
    print(f"Не удалось импортировать библиотеки Pandas или NumPy: {e}")

# Попытка импортировать библиотеки машинного обучения
try:
    from catboost import CatBoostClassifier
    from lightgbm import LGBMClassifier
    from xgboost import XGBClassifier
    # import catboost
except ImportError as e:
    print(f"Не удалось импортировать библиотеки машинного обучения (CatBoost, LightGBM, XGBoost): {e}")

# Попытка импортировать инструменты для настройки модели и предобработки данных
try:
    from sklearn.model_selection import train_test_split, RandomizedSearchCV
    from sklearn.preprocessing import LabelEncoder
except ImportError as e:
    print(f"Не удалось импортировать инструменты sklearn для настройки модели и предобработки данных: {e}")

# Попытка импортировать метрики для оценки качества модели
try:
    from sklearn.metrics import f1_score, precision_recall_curve
except ImportError as e:
    print(f"Не удалось импортировать метрики из sklearn: {e}")

# Попытка импортировать инструменты для генетического алгоритма
try:
    import random
    from deap import base, creator, tools, algorithms
except ImportError as e:
    print(f"Не удалось импортировать библиотеки для генетического алгоритма (DEAP): {e}")

# Попытка импортировать локальные скрипты или дополнительные функции
try:
    from metrics_f1 import calc_f1_score
except ImportError as e:
    print(f"Не удалось импортировать локальные скрипты или дополнительные функции: {e}")


## Загрузка данных

In [86]:
path_train = r"./"

In [87]:
# данные по дислокации
dislok = pd.read_parquet(path_train + '/dislok_wagons.parquet').convert_dtypes()
# данные по текущим ремонтам
pr_rem = pd.read_parquet(path_train + '/pr_rems.parquet').convert_dtypes()
# список вагонов с остаточным пробегом на момент прогноза
wag_prob = pd.read_parquet(path_train + '/wagons_probeg_ownersip.parquet').convert_dtypes()
 # параметры вагона
wag_param = pd.read_parquet(path_train + '/wag_params.parquet').convert_dtypes()
# таргет по прогноза выбытия вагонов в ПР на месяц и на 10 дней
target = pd.read_csv(path_train +'/target/y_train.csv').convert_dtypes()
 # текущие ремонты вагонов
tr_rem = pd.read_parquet(path_train + '/tr_rems.parquet').convert_dtypes()

### Догружаем Февраль и Март

In [88]:
# список вагонов с остаточным пробегом на момент прогноза за февраль
wag_prob_feb = pd.read_parquet(path_train + './test/wagons_probeg_ownersip.parquet').convert_dtypes()
# таргет по прогноза выбытия вагонов в ПР на месяц и на 10 дней  за февраль
target_feb = pd.read_csv(path_train +'./test/target/y_test.csv').convert_dtypes()
# таргет по прогноза выбытия вагонов в ПР на месяц и на 10 дней  за март (без реальных предсказаний)
target_march = pd.read_csv(path_train +'./target/y_predict_submit_example.csv').convert_dtypes()

In [89]:
# Присоединяем данные за февраль
wag_prob = pd.concat([wag_prob_feb, wag_prob])
target = pd.concat([target_feb, target])
# Присоединяем данные за март
target = pd.concat([target_march, target])
# Переносим последний день февраля на 1 марта
wag_prob.loc[wag_prob.repdate=='2023-02-28', 'repdate'] = '2023-03-01'

In [90]:
wag_param = wag_param.drop_duplicates(subset='wagnum', keep='last')# у вагонов могут меняться параметры, поэтмоу номер дублируется. В данной модели это фактор не учитывается

In [91]:
target.month = pd.to_datetime(target.month)

## Подготовка данных

### Выделение признаков

In [92]:
def wag_prob_transform(wag_prob, month_to_cut):
    # Параметры:
    # month_to_cut - по какой месяц обрезать данные

    # оставим только данные по остаточному пробегу для каждого номерав вагона
    wag_prob_new = wag_prob[(wag_prob.repdate == month_to_cut) | (wag_prob.repdate == wag_prob.repdate.min())]

    # оценим среднесуточный пробег из данных по пробегу вагона, на тот случай, если данных по нормативу нет
    wag_prob_ =wag_prob_new.groupby('wagnum', as_index = False).agg({'repdate':['max', 'min'] , 'ost_prob': ['max','min']},)#.droplevel(1)
    wag_prob_.columns = [head+'_' + name
                         if head!='wagnum'
                         else head
                         for head, name in wag_prob_.columns ]

    wag_prob_['diff_days'] = wag_prob_.repdate_max - wag_prob_.repdate_min
    wag_prob_['mean_run'] = (wag_prob_.ost_prob_max - wag_prob_.ost_prob_min )/ wag_prob_.diff_days.dt.days
    wag_prob_new = wag_prob_new[wag_prob_new.repdate == wag_prob_new.repdate.max()][['wagnum','ost_prob']]
    wag_prob_new = wag_prob_new.merge(wag_prob_[['wagnum','mean_run']])

    return wag_prob_new

In [93]:
# Возвращает среднюю скорость только за один месяц до указанного, а не среднюю скорость за все время
def month_mean_run(wag_prob, next_month):
    # Параметры:
    # next_month - месяц следующий за тем, для которого считать скорость

    prev_month = next_month - pd.DateOffset(months=1)
    # оставим только данные по остаточному пробегу для каждого номерав вагона
    wag_prob_new = wag_prob[(wag_prob.repdate == next_month) | (wag_prob.repdate == prev_month)]

    # оценим среднесуточный пробег из данных по пробегу вагона, на тот случай, если данных по нормативу нет
    wag_prob_ =wag_prob_new.groupby('wagnum', as_index = False).agg({'repdate':['max', 'min'] , 'ost_prob': ['max','min']},)#.droplevel(1)
    wag_prob_.columns = [head+'_' + name
                         if head!='wagnum'
                         else head
                         for head, name in wag_prob_.columns ]

    wag_prob_['diff_days'] = wag_prob_.repdate_max - wag_prob_.repdate_min
    wag_prob_['mean_run'] = (wag_prob_.ost_prob_max - wag_prob_.ost_prob_min )/ wag_prob_.diff_days.dt.days
    wag_prob_new = wag_prob_new[wag_prob_new.repdate == wag_prob_new.repdate.max()][['wagnum','ost_prob']]
    wag_prob_new = wag_prob_new.merge(wag_prob_[['wagnum','mean_run']])
    wag_prob_new = wag_prob_new.fillna(0)

    return wag_prob_new

In [94]:
# Возвращает фичи и целевые признаки для обучения или для валидации.
# С учетом до какого месяца обрезать данные
def get_features(wag_prob, target, month_to_cut):
    # Параметры:
    # month_to_cut - по какой месяц обрезать данные

    # Данные с целевым признаком для обучения на конкретный месяц month_to_learn.
    # Ремонт в этом месяце target_month и отдельно ремонт в первые 10 дней этого месяца target_day
    target_learn = target[target.month == month_to_cut][['wagnum','target_month','target_day']]

    # Обрезаем данные по пробегу вагонов до месяца на который будем предсказывать.
    # И делаем новые признаки связанные с пробегом
    wag_prob_learn = wag_prob_transform(wag_prob, month_to_cut)

    '''
    #Месяц начала данных
    next_month = pd.to_datetime('2022-09-01')

    # Добавим средние скорости за один месяц
    for i in range(1, 4):
        next_month = start_month + pd.DateOffset(months=i)
        speed_col_name = f'mean_run_{i}'
        wag_prob_learn[speed_col_name] = month_mean_run(wag_prob, next_month)[['mean_run']]
        print(next_month)
    '''

    # Сводим в один датасет по каждому вагону его признаки и целевую переменную. (Целевая бует или нет отправлен на ремонт)
    data = target_learn.merge(wag_prob_learn, on='wagnum', how='left')
    data = data.fillna(0)

    #Выделим целевые признаки
    y_month = data['target_month']
    y_day = data['target_day']

    # Выделим признаки
    X = data.drop(['target_month', 'target_day'], axis=1)

    return y_month, y_day, X

### Обучение

In [95]:
# Месяц до которого которого будем обрезать данные и обучаться предсказывать ремонт в этом месяце.
#month_to_learn = pd.to_datetime('2023-01-01')
month_to_learn = pd.to_datetime('2023-02-01')
y_month, y_day, X = get_features(wag_prob, target, month_to_learn)

{'n_estimators': 1000, 'learning_rate': 0.01, 'l2_leaf_reg': 9, 'depth': 4}

{'n_estimators': 50,'learning_rate': 0.10666666666666666,'l2_leaf_reg': 1,'depth': 8}

In [96]:
from sklearn.model_selection import RandomizedSearchCV
# Инициализируем модели
month_model = CatBoostClassifier(verbose=100)
day_model = CatBoostClassifier(verbose=100)

# Задаем параметры для поиска
param_dist_1 = {
    'depth': [4, 6],
    'learning_rate': np.linspace(0.01, 0.3, 10),
    'n_estimators': [500, 1000],
    'l2_leaf_reg': [7, 9]
}
param_dist_2 = {
    'depth': [8, 10],
    'learning_rate': np.linspace(0.01, 0.3, 10),
    'n_estimators': [50],
    'l2_leaf_reg': [1]
}
# Настройка RandomizedSearchCV
month_model = RandomizedSearchCV(month_model, param_distributions=param_dist_1, n_iter=50, scoring='accuracy', cv=3)
day_model = RandomizedSearchCV(day_model, param_distributions=param_dist_2, n_iter=50, scoring='accuracy', cv=3)

# Обучение моделей
month_model.fit(X, y_month)
day_model.fit(X, y_day)


0:	learn: 0.5243467	total: 10ms	remaining: 9.99s
100:	learn: 0.0885944	total: 1.07s	remaining: 9.52s
200:	learn: 0.0844064	total: 2.16s	remaining: 8.59s
300:	learn: 0.0814544	total: 3.25s	remaining: 7.55s
400:	learn: 0.0790285	total: 4.43s	remaining: 6.62s
500:	learn: 0.0769285	total: 5.49s	remaining: 5.47s
600:	learn: 0.0750158	total: 6.55s	remaining: 4.34s
700:	learn: 0.0734630	total: 7.59s	remaining: 3.24s
800:	learn: 0.0718462	total: 8.66s	remaining: 2.15s
900:	learn: 0.0703453	total: 9.71s	remaining: 1.07s
999:	learn: 0.0690327	total: 10.8s	remaining: 0us
0:	learn: 0.5480782	total: 11ms	remaining: 11s
100:	learn: 0.0822846	total: 1.11s	remaining: 9.88s
200:	learn: 0.0782982	total: 2.17s	remaining: 8.62s
300:	learn: 0.0750352	total: 3.25s	remaining: 7.54s
400:	learn: 0.0723532	total: 4.33s	remaining: 6.46s
500:	learn: 0.0703264	total: 5.4s	remaining: 5.38s
600:	learn: 0.0684734	total: 6.56s	remaining: 4.36s
700:	learn: 0.0668711	total: 7.72s	remaining: 3.29s
800:	learn: 0.0654326	t



49:	learn: 0.3804811	total: 320ms	remaining: 0us
0:	learn: 0.6838174	total: 7.36ms	remaining: 360ms
49:	learn: 0.3803155	total: 321ms	remaining: 0us
0:	learn: 0.6838186	total: 7.56ms	remaining: 371ms
49:	learn: 0.3805376	total: 317ms	remaining: 0us
0:	learn: 0.6544386	total: 7.87ms	remaining: 386ms
49:	learn: 0.1012971	total: 313ms	remaining: 0us
0:	learn: 0.6544167	total: 6.68ms	remaining: 327ms
49:	learn: 0.1001577	total: 318ms	remaining: 0us
0:	learn: 0.6544212	total: 6.7ms	remaining: 328ms
49:	learn: 0.1009626	total: 319ms	remaining: 0us
0:	learn: 0.6260416	total: 7.09ms	remaining: 347ms
49:	learn: 0.0567052	total: 320ms	remaining: 0us
0:	learn: 0.6260019	total: 7.11ms	remaining: 349ms
49:	learn: 0.0550707	total: 318ms	remaining: 0us
0:	learn: 0.6260100	total: 7.1ms	remaining: 348ms
49:	learn: 0.0551882	total: 315ms	remaining: 0us
0:	learn: 0.5986220	total: 7.23ms	remaining: 354ms
49:	learn: 0.0473956	total: 331ms	remaining: 0us
0:	learn: 0.5985658	total: 6.81ms	remaining: 334ms
49

In [97]:
month_model_par = month_model.best_params_
month_model_par

{'n_estimators': 1000, 'learning_rate': 0.01, 'l2_leaf_reg': 7, 'depth': 4}

In [98]:
day_model_par = day_model.best_params_
day_model_par

{'n_estimators': 50,
 'learning_rate': 0.10666666666666666,
 'l2_leaf_reg': 1,
 'depth': 8}

In [99]:
if X['wagnum'].dtype != 'int':
    X['wagnum'] = X['wagnum'].astype(int)

# Аналогично для 'ost_prob' и 'mean_run'
if X['ost_prob'].dtype != 'int':
    X['ost_prob'] = X['ost_prob'].astype(int)

if X['mean_run'].dtype != 'float':
    X['mean_run'] = X['mean_run'].astype(float)


In [100]:
param_dist_lgbm = {
    'num_leaves': [31, 61, 81],
    'learning_rate': [0.01, 0.05],
    'n_estimators': [50, 100],
    'max_depth': [7, 9]
}


In [101]:
param_dist_xgb = {
    'max_depth': [3, 5, 7, 9],
    'learning_rate': [0.01, 0.05, 0.1, 0.2],
    'n_estimators': [50, 100, 200, 500],
    'subsample': [0.6, 0.7, 0.8, 0.9]
}

In [102]:
# Инициализация моделей
lgbm_model = LGBMClassifier()
xgb_model = XGBClassifier()

# Настройка RandomizedSearchCV
lgbm_model_month = RandomizedSearchCV(lgbm_model, param_distributions=param_dist_lgbm, n_iter=50, scoring='accuracy', cv=3)
lgbm_model_day = RandomizedSearchCV(lgbm_model, param_distributions=param_dist_lgbm, n_iter=50, scoring='accuracy', cv=3)

xgb_model_month = RandomizedSearchCV(xgb_model, param_distributions=param_dist_xgb, n_iter=50, scoring='accuracy', cv=3)
xgb_model_day = RandomizedSearchCV(xgb_model, param_distributions=param_dist_xgb, n_iter=50, scoring='accuracy', cv=3)

In [103]:
# Обучение моделей
lgbm_model_month.fit(X, y_month)
lgbm_model_day.fit(X, y_day)



In [104]:

xgb_model_month.fit(X, y_month)
xgb_model_day.fit(X, y_day)

## генетический алгоритм для сборки моделей (день)

In [105]:
# Подготовка данных для предсказания
X_pred = X  # Ваши данные для предсказания

# Получение предсказаний от моделей
preds_gbm = lgbm_model_day.predict_proba(X_pred)[:, 1]
preds_xgb = xgb_model_day.predict_proba(X_pred)[:, 1]
preds_cbr = day_model.predict_proba(X_pred)[:, 1]

y_month, y_day

In [106]:
# Определение функции оценки
def evalEnsemble(weights):
    weight_gbm, weight_xgb = weights
    weight_cbr = 1.0 - weight_gbm - weight_xgb

    # Проверка на допустимость весов
    if weight_gbm < 0 or weight_xgb < 0 or weight_cbr < 0:
        return 0,  # Недопустимые веса получают наихудшую оценку

    ensemble_preds = weight_gbm * preds_gbm + weight_xgb * preds_xgb + weight_cbr * preds_cbr
    return f1_score(y_day, ensemble_preds.round()),  # Используйте ваши истинные метки y

In [107]:

# Настройка инструментов генетического алгоритма
creator.create("FitnessMax", base.Fitness, weights=(1.0,))
creator.create("Individual", list, fitness=creator.FitnessMax)

toolbox = base.Toolbox()
toolbox.register("attr_float", random.uniform, 0, 1)
toolbox.register("individual", tools.initRepeat, creator.Individual, toolbox.attr_float, n=2)
toolbox.register("population", tools.initRepeat, list, toolbox.individual)
toolbox.register("evaluate", evalEnsemble)
toolbox.register("mate", tools.cxBlend, alpha=0.1)
toolbox.register("mutate", tools.mutGaussian, mu=0, sigma=0.2, indpb=0.2)
toolbox.register("select", tools.selTournament, tournsize=3)

# Инициализация и запуск генетического алгоритма
population = toolbox.population(n=100)
ngen = 40
cxpb, mutpb = 0.5, 0.2

result, log = algorithms.eaSimple(population, toolbox, cxpb, mutpb, ngen, verbose=False)

# Лучший индивид
best_ind = tools.selBest(population, 1)[0]
print("Лучшие веса:", best_ind)
print("Лучшая F1-мера:", evalEnsemble(best_ind)[0])




Лучшие веса: [0.0015203612139667796, 0.22593953978261294]
Лучшая F1-мера: 0.32239657631954355


## генетический алгоритм для сборки моделей (месяц)

In [108]:
# Подготовка данных для предсказания
X_pred = X  # Ваши данные для предсказания

# Получение предсказаний от моделей
preds_gbm = lgbm_model_month.predict_proba(X_pred)[:, 1]
preds_xgb = xgb_model_month.predict_proba(X_pred)[:, 1]
preds_cbr = month_model.predict_proba(X_pred)[:, 1]


# Определение функции оценки
def evalEnsemble(weights):
    weight_gbm, weight_xgb = weights
    weight_cbr = 1.0 - weight_gbm - weight_xgb

    # Проверка на допустимость весов
    if weight_gbm < 0 or weight_xgb < 0 or weight_cbr < 0:
        return 0,  # Недопустимые веса получают наихудшую оценку

    ensemble_preds = weight_gbm * preds_gbm + weight_xgb * preds_xgb + weight_cbr * preds_cbr
    return f1_score(y_month, ensemble_preds.round()),  # Используйте ваши истинные метки y

# Настройка инструментов генетического алгоритма
creator.create("FitnessMax", base.Fitness, weights=(1.0,))
creator.create("Individual", list, fitness=creator.FitnessMax)

toolbox = base.Toolbox()
toolbox.register("attr_float", random.uniform, 0, 1)
toolbox.register("individual", tools.initRepeat, creator.Individual, toolbox.attr_float, n=2)
toolbox.register("population", tools.initRepeat, list, toolbox.individual)
toolbox.register("evaluate", evalEnsemble)
toolbox.register("mate", tools.cxBlend, alpha=0.1)
toolbox.register("mutate", tools.mutGaussian, mu=0, sigma=0.2, indpb=0.2)
toolbox.register("select", tools.selTournament, tournsize=3)

# Инициализация и запуск генетического алгоритма
population = toolbox.population(n=100)
ngen = 40
cxpb, mutpb = 0.5, 0.2

result, log = algorithms.eaSimple(population, toolbox, cxpb, mutpb, ngen, verbose=False)

# Лучший индивид
best_ind1 = tools.selBest(population, 1)[0]
print("Лучшие веса:", best_ind1)
print("Лучшая F1-мера:", evalEnsemble(best_ind1)[0])



Лучшие веса: [0.031397741767755886, 0.9212019055186602]
Лучшая F1-мера: 0.6053827333100315


### Тестирование

In [109]:
# Месяц на который будем предсказывать
#month_to_predict = pd.to_datetime('2023-02-01')
month_to_predict = pd.to_datetime('2023-03-01')

#Получаем целевой признак и фичи для предсказания
y_month_test, y_day_test, X_test = get_features(wag_prob, target, month_to_predict)

In [110]:

# Преобразование типов данных, если это необходимо
#  если 'wagnum' не int, преобразуйте его в int
if X_test['wagnum'].dtype != 'int':
    X_test['wagnum'] = X_test['wagnum'].astype(int)

# Аналогично для 'ost_prob' и 'mean_run'
if X_test['ost_prob'].dtype != 'int':
    X_test['ost_prob'] = X_test['ost_prob'].astype(int)

if X_test['mean_run'].dtype != 'float':
    X_test['mean_run'] = X_test['mean_run'].astype(float)

**месяц**

In [111]:

# Веса, найденные с помощью генетического алгоритма
weights = [0.3542673814180257, 0.11619747931788553]
weight_gbm, weight_xgb = weights
weight_cbr = 1.0 - weight_gbm - weight_xgb

# Получение предсказаний от моделей
preds_gbm = lgbm_model_month.predict_proba(X_test)[:, 1]
preds_xgb = xgb_model_month.predict_proba(X_test)[:, 1]
preds_cbr = month_model.predict_proba(X_test)[:, 1]

# Вычисление ансамблевых предсказаний
ensemble_preds = weight_gbm * preds_gbm + weight_xgb * preds_xgb + weight_cbr * preds_cbr

# Применение порога
threshold = 0.3#0.25  # Задайте подходящий порог
month_predictions = (ensemble_preds > threshold).astype(int)

# Оценка F1-меры
f1_month = f1_score(y_month_test, month_predictions)
print('F1 score day:', f1_month)

F1 score day: 0.10031842646602981


**подбор threshold месяц**

In [112]:
precision, recall, thresholds = precision_recall_curve(y_month_test, ensemble_preds)

# Выбор порога (например, максимальное гармоническое среднее)
fscore = (2 * precision * recall) / (precision + recall)
ix = np.argmax(fscore)
optimal_threshold1 = thresholds[ix]
optimal_threshold1

0.03665146610946097

**день**

In [113]:
# Веса, найденные с помощью генетического алгоритма
weights = [0.12518670634065915, 0.1369754447367604]
weight_gbm, weight_xgb = weights
weight_cbr = 1.0 - weight_gbm - weight_xgb

# Получение предсказаний от моделей
preds_gbm = lgbm_model_day.predict_proba(X_test)[:, 1]
preds_xgb = xgb_model_day.predict_proba(X_test)[:, 1]
preds_cbr = day_model.predict_proba(X_test)[:, 1]

# Вычисление ансамблевых предсказаний
ensemble_preds = weight_gbm * preds_gbm + weight_xgb * preds_xgb + weight_cbr * preds_cbr

# Применение порога
threshold = 0.25  # Задайте подходящий порог
day_predictions = (ensemble_preds > threshold).astype(int)

# Оценка F1-меры
f1_day = f1_score(y_day_test, day_predictions)
print('F1 score day:', f1_day)


F1 score day: 0.031822959243255865


In [114]:
precision, recall, thresholds = precision_recall_curve(y_day_test, ensemble_preds)

# Выбор порога (например, максимальное гармоническое среднее)
fscore = (2 * precision * recall) / (precision + recall)
ix = np.argmax(fscore)
optimal_threshold = thresholds[ix]
optimal_threshold

0.00272377908043896

In [115]:
# Делаем предсказания о ремонте вагонов на следующий месяц
#month_predictions = month_model.predict(X_test)
#day_predictions = day_model.predict(X_test)
# month_predictions = threshold_predict(month_model, X_test, 0.4)
# day_predictions = threshold_predict(day_model, X_test, 0.25)

In [116]:
# Считаем метрику по полученным предсказаниям

# Подсчетем метрику F1
f1_month = f1_score(y_month_test, month_predictions)
print('F1 score month:', f1_month)
f1_day = f1_score(y_day_test, day_predictions)
print('F1 score day:', f1_day)

F1 score month: 0.10031842646602981
F1 score day: 0.031822959243255865


In [117]:
# Проверим соотношение отмеченных вагонов с фактическим значением
round(month_predictions.sum() / y_month_test.sum(), 2)

0.05

In [118]:
# Проверим соотношение отмеченных вагонов с фактическим значением
round(day_predictions.sum() / y_day_test.sum(), 2)

0.02

### Создаем выходной файл и тестируем скорингом

In [119]:
# Создаем и записываем датасет с предсказаниями
pred_target = X_test[['wagnum']].copy()
pred_target['month'] = '2023-03-01'
pred_target['target_month'] = month_predictions
pred_target['target_day'] = day_predictions
# сохраним таргет за месяц  для выбранного периода отдельно
target_path = './prediction/target_predicton.csv'
pred_target.drop_duplicates(subset = 'wagnum').to_csv(target_path, index=False)

# Создаем и записываем датасет с истинными значениями
true_target = X_test[['wagnum']].copy()
true_target['target_month'] = y_month_test
true_target['target_day'] = y_day_test
true_target_path = './prediction/target_predicton_true.csv'
true_target.drop_duplicates(subset = 'wagnum').to_csv(true_target_path, index=False)

In [120]:
# оценим насколько хорошо удалось предсказать выбытие вагонов  по месяцу и по 10 дням
calc_f1_score( true_target_path, target_path)

0.06607069285464284

0.11344762837014791(max)

## Заключение:


## Использованные Методы и Инструменты

### RandomizedSearchCV
- **Цель:** Настройка гиперпараметров моделей.
- **Модели:**
  - `CatBoostClassifier`
  - `LGBMClassifier`
  - `XGBClassifier`

### Классификаторы
- **CatBoostClassifier:** Оптимизирован для категориальных данных.
- **LGBMClassifier:** Эффективен для больших наборов данных.
- **XGBClassifier:** Высокая скорость и производительность.

### Генетический Алгоритм для Ансамблевых Моделей
- **Функция `evalEnsemble`:** Возвращает F1-меру для взвешенной суммы предсказаний от трех классификаторов.
- **Оптимизация весов:** Генетический алгоритм используется для определения оптимальных весов.
- **Инструменты:** Использование библиотеки DEAP для настройки операций скрещивания, мутации и отбора.

## Результаты Генетического Алгоритма
После 40 поколений, был найден оптимальный набор весов для комбинирования предсказаний моделей, с соответствующей F1-мерой на выборке заказчика.

---

> *Команда [DS-60]*
