In [None]:
import pandas as pd
import numpy as np
import logging
from datetime import timedelta
from tqdm import tqdm
from imblearn.over_sampling import SMOTE
from sklearn.metrics import classification_report, roc_auc_score, precision_recall_curve, confusion_matrix
from lightgbm import LGBMClassifier
import matplotlib.pyplot as plt

logging.basicConfig(level=logging.INFO, format='%(asctime)s %(levelname)s: %(message)s')

#################################
# 1. Загрузка данных
#################################
# Предполагается, что df уже загружен
# Пример:
df = pd.read_csv("ST14000NM001G.csv")
df['date'] = pd.to_datetime(df['date'])

# Столбцы должны включать 'date', 'serial_number', 'failure', 'capacity_bytes' и SMART-атрибуты.
# Убедитесь, что столбцы типа 'smart_5_raw', 'smart_9_raw' и т.д. присутствуют.

#################################
# 2. Подготовка данных
#################################
logging.info("Сортировка данных...")
df = df.sort_values(by=['serial_number', 'date'])

logging.info("Формирование целевой метки (failure_future_30d)...")

def assign_future_failure(group):
    group = group.sort_values('date')
    failure_dates = pd.to_datetime(group.loc[group['failure'] == 1, 'date'].values)
    future_fail_list = []
    for _, row in group.iterrows():
        current_date = row['date']
        idx = np.searchsorted(failure_dates, current_date)
        if idx < len(failure_dates) and (failure_dates[idx] <= current_date + pd.Timedelta(days=30)):
            future_fail_list.append(1)
        else:
            future_fail_list.append(0)
    group['failure_future_30d'] = future_fail_list
    return group

serial_groups = df.groupby('serial_number', group_keys=False)
df = pd.concat([assign_future_failure(g) for _, g in tqdm(serial_groups, desc='Обработка дисков')])

logging.info("Удаление записей без будущего периода 30 дней...")
def filter_last_30_days(g):
    max_date = g['date'].max()
    cutoff = max_date - timedelta(days=30)
    return g[g['date'] <= cutoff]

df = df.groupby('serial_number', group_keys=False).apply(filter_last_30_days)

#################################
# 3. Генерация признаков
#################################
logging.info("Генерация признаков...")
smart_cols = [c for c in df.columns if 'smart_' in c and 'raw' in c]

def generate_features(g, window=7):
    g = g.sort_values('date')
    for col in smart_cols:
        g[col + '_diff'] = g[col].diff().fillna(0)
        g[col + '_ma'] = g[col].rolling(window, min_periods=1).mean().bfill()
        g[col + '_diff_ma'] = g[col + '_diff'].rolling(window, min_periods=1).mean().bfill()
    return g

serial_groups = df.groupby('serial_number', group_keys=False)
df = pd.concat([generate_features(g) for _, g in tqdm(serial_groups, desc='Генерация признаков')])

df = df.dropna()

#################################
# 4. Формирование выборок
#################################
logging.info("Подготовка данных для обучения...")

# Формируем список признаков
feature_cols = []
for col in smart_cols:
    feature_cols.extend([col, col+'_diff', col+'_ma', col+'_diff_ma'])
feature_cols.append('capacity_bytes')

X = df[feature_cols]
y = df['failure_future_30d']

# Разделение по времени
logging.info("Разделение на train/test по времени...")
min_date = df['date'].min()
max_date = df['date'].max()
train_end_date = min_date + (max_date - min_date)*0.8

train_data = df[df['date'] <= train_end_date]
test_data = df[df['date'] > train_end_date]

X_train = train_data[feature_cols]
y_train = train_data['failure_future_30d']
X_test = test_data[feature_cols]
y_test = test_data['failure_future_30d']

#################################
# 5. Первоначальное обучение для оценки важности признаков
#################################
logging.info("Первичное обучение для оценки важности признаков...")
model_initial = LGBMClassifier(n_estimators=200, random_state=42, n_jobs=-1)
model_initial.fit(X_train, y_train)

feature_importances = model_initial.feature_importances_
feature_names = np.array(feature_cols)

top_n = 30
important_features_idx = np.argsort(feature_importances)[-top_n:]
important_features = feature_names[important_features_idx]

X_train_important = X_train[important_features]
X_test_important = X_test[important_features]

#################################
# 6. Балансировка классов SMOTE
#################################
neg_count = (y_train == 0).sum()
pos_count = (y_train == 1).sum()
scale_pos_weight = neg_count / pos_count if pos_count > 0 else 1.0
logging.info(f"Дисбаланс классов: {neg_count} отриц. vs {pos_count} полож., scale_pos_weight={scale_pos_weight}")

logging.info("Применение SMOTE для балансировки...")
sm = SMOTE(random_state=42)
X_train_bal, y_train_bal = sm.fit_resample(X_train_important, y_train)

#################################
# 7. Обучение модели с отобранными признаками и scale_pos_weight
#################################
logging.info("Обучение финальной модели LightGBM...")
model = LGBMClassifier(
    n_estimators=500,
    random_state=42,
    n_jobs=-1,
    scale_pos_weight=scale_pos_weight
)
model.fit(X_train_bal, y_train_bal)

#################################
# 8. Предсказание и подбор порога
#################################
logging.info("Предсказание вероятностей на тестовой выборке...")
y_proba = model.predict_proba(X_test_important)[:, 1]

precision, recall, thresholds = precision_recall_curve(y_test, y_proba)
f1_scores = 2 * (precision * recall) / (precision + recall + 1e-9)
best_idx = np.argmax(f1_scores)
best_threshold = thresholds[best_idx]

logging.info(f"Оптимальный порог для максимизации F1-score: {best_threshold}")

y_pred_adjusted = (y_proba >= best_threshold).astype(int)

#################################
# 9. Оценка результатов
#################################
logging.info("Оценка качества...")
print("Classification Report (с отбором признаков и новым порогом):")
print(classification_report(y_test, y_pred_adjusted))
print("ROC AUC:", roc_auc_score(y_test, y_proba))

cm = confusion_matrix(y_test, y_pred_adjusted)
print("Confusion Matrix:")
print(cm)

# Визуализация распределения вероятностей
plt.figure()
plt.hist(y_proba[y_test==1], bins=50, alpha=0.5, label='Positives')
plt.hist(y_proba[y_test==0], bins=50, alpha=0.5, label='Negatives')
plt.title("Distribution of predicted probabilities")
plt.xlabel("Predicted probability")
plt.ylabel("Count")
plt.legend()
plt.show()

logging.info("Готово!")


2024-12-08 17:41:07,412 INFO: Сортировка данных...
2024-12-08 17:41:08,332 INFO: Формирование целевой метки (failure_future_30d)...
Обработка дисков: 100%|███████████████████| 10927/10927 [02:15<00:00, 80.53it/s]
2024-12-08 17:43:25,258 INFO: Удаление записей без будущего периода 30 дней...
2024-12-08 17:43:29,040 INFO: Генерация признаков...
Генерация признаков: 100%|███████████████| 10912/10912 [00:46<00:00, 233.91it/s]
2024-12-08 17:44:24,190 INFO: Подготовка данных для обучения...
2024-12-08 17:44:24,690 INFO: Разделение на train/test по времени...
2024-12-08 17:44:26,854 INFO: Первичное обучение для оценки важности признаков...


[LightGBM] [Info] Number of positive: 118, number of negative: 5287919
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.136642 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 4983
[LightGBM] [Info] Number of data points in the train set: 5288037, number of used features: 45
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.000022 -> initscore=-10.710251
[LightGBM] [Info] Start training from score -10.710251


2024-12-08 17:44:39,639 INFO: Дисбаланс классов: 5287919 отриц. vs 118 полож., scale_pos_weight=44812.872881355936
2024-12-08 17:44:39,640 INFO: Применение SMOTE для балансировки...
2024-12-08 17:44:46,232 INFO: Обучение финальной модели LightGBM...


[LightGBM] [Info] Number of positive: 5287919, number of negative: 5287919
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.334130 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 7650
[LightGBM] [Info] Number of data points in the train set: 10575838, number of used features: 30
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500000 -> initscore=0.000000


2024-12-08 17:45:55,356 INFO: Предсказание вероятностей на тестовой выборке...


Модель стала предсказывать часть позитивных случаев (Recall для класса 1 теперь ~53%), но качество всё ещё неудовлетворительно: Precision для позитивного класса практически нулевой. Это означает, что модель распознаёт некоторые реальные отказы, но делает это ценой огромного числа ложных тревог.

Причина в том, что при выбранном пороге (threshold=1.0) модель начинает маркировать очень много объектов как «1», при этом большая их часть оказывается ложными срабатываниями. Порог в 1.0 означает, что модель очень редко присваивает вероятность строго равную 1.0. Вероятно, это говорит о том, что при расчёте порога по F1-score модель оказалась в таком режиме, что небольшие неточности вычисления или редкие случаи высокой вероятности исказили подбор порога.

In [21]:
import pandas as pd
import numpy as np
from datetime import timedelta
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import roc_auc_score, classification_report, confusion_matrix
from imblearn.over_sampling import SMOTE
from lightgbm import LGBMClassifier
import matplotlib.pyplot as plt
import seaborn as sns
import logging
from tqdm import tqdm
import sys
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from packaging import version  # Добавлен импорт для сравнения версий

# Настройка логгирования
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s [%(levelname)s] %(message)s',
    handlers=[
        logging.FileHandler("smart_failure_prediction.log"),
        logging.StreamHandler(sys.stdout)
    ]
)
logger = logging.getLogger()

def main():
    try:
        # Проверка версии LightGBM
        logger.info("Проверка версии LightGBM...")
        import lightgbm as lgb
        lgb_version = lgb.__version__
        logger.info(f"Текущая версия LightGBM: {lgb_version}")
        
        # Рекомендуемая минимальная версия LightGBM для поддержки 'early_stopping_rounds'
        min_required_version = '3.0.0'
        if version.parse(lgb_version) < version.parse(min_required_version):
            logger.error(f"Установленная версия LightGBM ({lgb_version}) ниже требуемой ({min_required_version}). Пожалуйста, обновите LightGBM.")
            logger.info("Обновление LightGBM...")
            import subprocess
            subprocess.check_call([sys.executable, "-m", "pip", "install", "--upgrade", "lightgbm"])
            logger.info("LightGBM успешно обновлён. Пожалуйста, перезапустите скрипт.")
            return  # Завершаем выполнение скрипта после обновления

        # 1. Загрузка данных
        logger.info("Начало загрузки данных...")
        data = pd.read_csv('ST14000NM001G.csv', parse_dates=['date'])
        logger.info(f"Данные загружены. Количество строк: {data.shape[0]}, Количество колонок: {data.shape[1]}")

        # 2. Предобработка данных
        logger.info("Начало предобработки данных...")
        # Проверка на пропуски
        missing = data.isnull().sum()
        logger.info("Количество пропусков в каждой колонке:")
        logger.info(f"\n{missing}")

        # Заполнение пропусков средним значением для числовых признаков
        numeric_cols = data.select_dtypes(include=[np.number]).columns.tolist()
        logger.info("Заполнение пропусков средними значениями для числовых признаков...")
        data[numeric_cols] = data[numeric_cols].fillna(data[numeric_cols].mean())
        logger.info("Пропуски заполнены.")

        # Кодирование категориальных признаков
        if 'model' in data.columns:
            logger.info("Кодирование категориального признака 'model'...")
            label_encoder = LabelEncoder()
            data['model_encoded'] = label_encoder.fit_transform(data['model'])
            logger.info("Кодирование завершено.")
        else:
            logger.warning("Категориальный признак 'model' отсутствует в данных.")

        # 3. Инженерия признаков
        logger.info("Начало инженерии признаков...")
        data = data.sort_values(['serial_number', 'date'])
        logger.info("Данные отсортированы по 'serial_number' и 'date'.")

        # Определение SMART-признаков
        smart_features = ['smart_5_raw', 'smart_9_raw', 'smart_187_raw',
                         'smart_188_raw', 'smart_192_raw', 'smart_197_raw',
                         'smart_198_raw', 'smart_199_raw', 'smart_240_raw',
                         'smart_241_raw', 'smart_242_raw']

        window = 7  # последние 7 дней

        # Используем tqdm для отображения прогресса при создании агрегированных признаков
        logger.info("Создание агрегированных признаков с использованием скользящего окна...")
        for feature in tqdm(smart_features, desc="Агрегирование признаков"):
            mean_col = f'{feature}_mean_{window}'
            std_col = f'{feature}_std_{window}'
            data[mean_col] = data.groupby('serial_number')[feature].transform(lambda x: x.rolling(window, min_periods=1).mean())
            data[std_col] = data.groupby('serial_number')[feature].transform(lambda x: x.rolling(window, min_periods=1).std())
        logger.info("Агрегированные признаки созданы.")

        # Создание целевого признака
        logger.info("Создание целевого признака 'failure_future'...")
        data['failure_future'] = data.groupby('serial_number')['failure'].shift(-30)
        data['failure_future'] = data['failure_future'].fillna(0).astype(int)
        logger.info("Целевой признак создан.")

        # Удаление записей без целевого значения
        max_date = data['date'].max()
        logger.info("Удаление записей, у которых 'date' > max_date - 30 дней...")
        initial_shape = data.shape
        data = data[data['date'] <= (max_date - timedelta(days=30))]
        logger.info(f"Удалено {initial_shape[0] - data.shape[0]} записей. Оставшиеся записи: {data.shape[0]}")

        # 4. Выбор признаков для модели
        logger.info("Выбор признаков для модели...")
        feature_cols = [
            'capacity_bytes',
            'smart_5_raw', 'smart_9_raw', 'smart_187_raw',
            'smart_188_raw', 'smart_192_raw', 'smart_197_raw',
            'smart_198_raw', 'smart_199_raw', 'smart_240_raw',
            'smart_241_raw', 'smart_242_raw',
            'model_encoded'
        ]

        for feature in smart_features:
            feature_mean = f'{feature}_mean_{window}'
            feature_std = f'{feature}_std_{window}'
            feature_cols.extend([feature_mean, feature_std])

        target = 'failure_future'
        logger.info(f"Выбранные признаки: {feature_cols}")
        logger.info(f"Целевая переменная: {target}")

        # 5. Разделение данных на обучающую и тестовую выборки
        logger.info("Разделение данных на обучающую и тестовую выборки...")
        # Сортируем данные по дате
        data = data.sort_values('date')
        # Определяем индекс для разделения (например, 80% для обучения, 20% для теста)
        split_ratio = 0.8
        split_index = int(len(data) * split_ratio)
        train_data = data.iloc[:split_index]
        test_data = data.iloc[split_index:]
        logger.info(f"Обучающая выборка: {train_data.shape}, Тестовая выборка: {test_data.shape}")

        # Проверяем, не пуста ли тестовая выборка
        if test_data.empty:
            logger.error("Тестовая выборка пуста после разделения. Проверьте условия разделения данных.")
            return

        X_train = train_data[feature_cols]
        y_train = train_data[target]
        X_test = test_data[feature_cols]
        y_test = test_data[target]
        logger.info(f"Распределение классов в обучающей выборке:\n{y_train.value_counts()}")

        # 6. Обработка оставшихся пропусков перед SMOTE
        logger.info("Проверка наличия пропусков в обучающей и тестовой выборках...")
        train_missing = X_train.isnull().sum().sum()
        test_missing = X_test.isnull().sum().sum()
        logger.info(f"Количество пропусков в обучающей выборке: {train_missing}")
        logger.info(f"Количество пропусков в тестовой выборке: {test_missing}")

        if train_missing > 0 or test_missing > 0:
            logger.info("Заполнение оставшихся пропусков с помощью SimpleImputer...")
            imputer = SimpleImputer(strategy='median')
            X_train = pd.DataFrame(imputer.fit_transform(X_train), columns=X_train.columns)
            X_test = pd.DataFrame(imputer.transform(X_test), columns=X_test.columns)
            logger.info("Пропуски заполнены.")
        else:
            logger.info("Пропусков не обнаружено.")

        # 7. Обработка дисбаланса классов с помощью SMOTE
        logger.info("Обработка дисбаланса классов с помощью SMOTE...")
        # Исправление предупреждения о параметре `n_jobs`:
        # Удаляем `n_jobs=-1` и используем ближайших соседей с установленным `n_jobs`.
        smote = SMOTE(sampling_strategy='auto', random_state=42)
        X_train_res, y_train_res = smote.fit_resample(X_train, y_train)
        logger.info(f"После применения SMOTE - распределение классов:\n{pd.Series(y_train_res).value_counts()}")

        # 8. Обучение модели LightGBM с использованием LGBMClassifier
        logger.info("Начало обучения модели LightGBM (LGBMClassifier)...")
        lgbm = LGBMClassifier(
            objective='binary',
            metric='auc',
            boosting_type='gbdt',
            learning_rate=0.05,
            num_leaves=31,
            max_depth=-1,
            verbose=-1,
            random_state=42,
            scale_pos_weight=(len(y_train_res) - sum(y_train_res)) / sum(y_train_res),
            n_estimators=1000
        )

        # Используем раннюю остановку
        lgbm.fit(
            X_train_res, y_train_res,
            eval_set=[(X_train_res, y_train_res), (X_test, y_test)],
            eval_metric='auc',
            early_stopping_rounds=50,
            verbose=100
        )
        logger.info("Обучение модели завершено.")

        # 9. Оценка модели
        logger.info("Начало оценки модели...")
        y_pred_proba = lgbm.predict_proba(X_test)[:,1]
        y_pred = lgbm.predict(X_test)

        roc_auc = roc_auc_score(y_test, y_pred_proba)
        logger.info(f"ROC-AUC: {roc_auc:.4f}")

        logger.info("Отчет по классификации:")
        clf_report = classification_report(y_test, y_pred)
        logger.info(f"\n{clf_report}")

        logger.info("Матрица ошибок:")
        cm = confusion_matrix(y_test, y_pred)
        plt.figure(figsize=(6,4))
        sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
        plt.xlabel('Предсказанные классы')
        plt.ylabel('Истинные классы')
        plt.title('Матрица ошибок')
        plt.show()
        logger.info("Матрица ошибок отображена.")

        # 10. Важность признаков
        logger.info("Анализ важности признаков...")
        feature_importances = pd.DataFrame({
            'feature': lgbm.feature_name_,
            'importance': lgbm.feature_importances_
        }).sort_values(by='importance', ascending=False)

        plt.figure(figsize=(10, 8))
        sns.barplot(x='importance', y='feature', data=feature_importances.head(20))
        plt.title('Важность признаков')
        plt.tight_layout()
        plt.show()
        logger.info("Важность признаков отображена.")

        # 11. Прогнозирование отказов на тестовой выборке
        logger.info("Создание предсказаний на тестовой выборке...")
        test_data = test_data.copy()
        test_data['failure_pred'] = y_pred
        test_data['failure_proba'] = y_pred_proba

        # Сохранение результатов
        logger.info("Сохранение предсказаний в 'smart_failure_predictions.csv'...")
        test_data.to_csv('smart_failure_predictions.csv', index=False)
        logger.info("Предсказания сохранены успешно.")

    except Exception as e:
        logger.exception("Произошла ошибка во время выполнения скрипта.")

if __name__ == "__main__":
    main()


2024-12-08 19:02:37,135 INFO: Проверка версии LightGBM...
2024-12-08 19:02:37,138 INFO: Текущая версия LightGBM: 4.5.0
2024-12-08 19:02:37,139 INFO: Начало загрузки данных...
2024-12-08 19:02:42,134 INFO: Данные загружены. Количество строк: 7320142, Количество колонок: 16
2024-12-08 19:02:42,134 INFO: Начало предобработки данных...
2024-12-08 19:02:42,445 INFO: Количество пропусков в каждой колонке:
2024-12-08 19:02:42,446 INFO: 
date              0
serial_number     0
model             0
capacity_bytes    0
failure           0
smart_5_raw       0
smart_9_raw       0
smart_187_raw     0
smart_188_raw     0
smart_192_raw     0
smart_197_raw     0
smart_198_raw     0
smart_199_raw     0
smart_240_raw     0
smart_241_raw     0
smart_242_raw     0
dtype: int64
2024-12-08 19:02:42,554 INFO: Заполнение пропусков средними значениями для числовых признаков...
2024-12-08 19:02:43,352 INFO: Пропуски заполнены.
2024-12-08 19:02:43,352 INFO: Кодирование категориального признака 'model'...
2024-12-

In [5]:
!pip install optuna

Collecting optuna
[0m  Downloading optuna-4.1.0-py3-none-any.whl.metadata (16 kB)
Collecting alembic>=1.5.0 (from optuna)
  Downloading alembic-1.14.0-py3-none-any.whl.metadata (7.4 kB)
Collecting colorlog (from optuna)
  Downloading colorlog-6.9.0-py3-none-any.whl.metadata (10 kB)
Collecting sqlalchemy>=1.4.2 (from optuna)
  Downloading SQLAlchemy-2.0.36-cp312-cp312-macosx_11_0_arm64.whl.metadata (9.7 kB)
Collecting Mako (from alembic>=1.5.0->optuna)
  Downloading Mako-1.3.8-py3-none-any.whl.metadata (2.9 kB)
Downloading optuna-4.1.0-py3-none-any.whl (364 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m364.4/364.4 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0mm
[?25hDownloading alembic-1.14.0-py3-none-any.whl (233 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m233.5/233.5 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading SQLAlchemy-2.0.36-cp312-cp312-macosx_11_0_arm64.whl (2.1 MB)
[2K   [90m━━━━━