#Импорт библиотек

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.base import clone
from itertools import combinations
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_absolute_percentage_error
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.preprocessing import MinMaxScaler

#Функции/Классы

In [2]:
def normalize_to_0_10(feature):
    """Нормализует данные в диапазон от 0 до 10."""
    min_val = np.min(feature)
    max_val = np.max(feature)
    normalized_feature = 10 * (feature - min_val) / (max_val - min_val)
    return normalized_feature


########################################################################################################


def super_train_test_split(df: pd.DataFrame, y: pd.Series):
    '''
    Делит данные на две выборки: 1. строки, значения необходимого нам столбца не имеют пропусков.
                                2. строки, значения необходимого нам столбца имеют пропуски.
    Каждый из этих пунктов так же делиться на две выборки: а) необходимый столбец.
                                                            б) остальные факторы.

    Аргументы:
        df: Pandas DataFrame, состоящий из факторов, инмеющих зависимость с признаком,
            в котором необходимо заполнить пропуски.

        y: Pandas Series, признак, пропуски которого необходимо заполнить.

    небольшой комментарий:
    У нас есть проблема - для заполенния пропусков с помощью какой-либо модели, необходимо,
    чтобы ВСЕ значения в других признаках были заполнены(не было пропусков).
    В противном случае модель ругается, что есть NaNы. Данный цикл устраняет данную проблему,
    временно заполняя пропуски в столбцах на медиану всех значений признака
    (кроме столбца, задача для которого изначально была заполнить пропуски с помощью модели).
    Дальше смотрите по комментариям
    '''
    X = df.copy()

    y_train = y[y.isnull() == False] # отбираем для тренировки те строки, в которых присутсвуют данные
    y_temp = y[y.isnull()] # просто мусор. Полезный

    idxs = y_temp.index # берём иднексы мусора(индексы,
                      # в строках которых есть пропуски, которые необходимо заполнить)
    X_train = X.drop(idxs) # делаем обучающую выборку из строк, в которых нет пропусков

    idxs = y_train.index # берём иднексы c изначально заполенными значениями
    X_test = X.drop(idxs) # отбрасываем строки с заполненными значениями в нужном нам столбце.
                        # Получается выборка с данными, на основе которых будут
                        # предсказываться пропущенные значения



    return X_train, X_test, y_train, y_temp


#####################################################################################################


def split_for_grade(df: pd.DataFrame, target_column: pd.Series): # просто раздел данных на
                                                                 # выборки для обучения и тестирования
    X = df.copy()

    if target_column.name in X.columns:
        X.pop(target_column.name)
    y = target_column
    y1 = y[y.isnull() == False] # отбираем для тренировки те строки, в которых присутсвуют данные
    y_temp = y[y.isnull()] # просто мусор. Полезный

    idxs = y_temp.index # берём иднексы мусора(индексы,
                      # в строках которых есть пропуски, которые необходимо заполнить)
    X = X.drop(idxs) # делаем обучающую выборку из строк, в которых нет пропусков

    y1 = y1.reset_index(drop=True)
    X_train, X_test, y_train, y_test = train_test_split(
        X, y1, test_size=0.2, random_state=42)
    return X_train.values, X_test.values, y_train.values, y_test.values


##########################################################################################################


def best_factors_by_sbs(model, df: pd.DataFrame, list_of_factors: list):
    """
    Вычисляет лучшую комбинацию факторов для обучения модели.

    Аргументы:
        model: регрессионная модель.
        df: Pandas DataFrame со столбцом 'stage_4_output_danger_gas'.
        list_of_factors: пустой список для лучшей комбинации факторов.
    """
    # Инициализируем алгоритм sbs.
    sbs = SBS(model, k_features=1)

    y = df['stage_4_output_danger_gas']
    X = df.copy()
    X.pop('stage_4_output_danger_gas')

    # Создаём временные названия для факторов в формате чисел.
    new_names = [i for i in range(len(df.columns))]

    # Обучение модели и перебор всех факторов для нахождения лучшей комбинации.
    sbs.fit(X, y)


    X = pd.DataFrame(X)

    # Переименовываем столбцы в числовой вид.
    X = X.rename(columns=dict(zip(X, new_names)))

    # Инициализируем переменные для отбора лучшей комбинации признаков.
    best_r2 = -1
    best_mape = float('inf')
    best_pair = None
    lk = -1

    # Перебираем полученные пары метрик для нахождения лучшей.
    for i, (r2_sc, mape_sc) in enumerate(sbs.scores_):
        if r2_sc > best_r2:
            best_r2 = r2_sc
            best_mape = mape_sc
            best_pair = [r2_sc, mape_sc]
            lk = list(sbs.subsets_[sbs.scores_.index([r2_sc, mape_sc])])

            # Так как при создании списка индексов признаков не учитывается, что был удалён
            # столбец, относительно которого ведутся вычесления, необходимо отредактировать
            # созданный массив.
            if df.columns.get_loc(y.name) in lk:
                index = lk.index(df.columns.get_loc(y.name))
                lk = np.array(lk)
                if index < len(lk) - 1:
                    lk = np.concatenate((lk[:index], lk[index:] + 1))
                else:
                    lk = lk[:index]
            else:
                for i in range(len(lk)):
                    if lk[i] > df.columns.get_loc(y.name):
                        lk[i] += 1

            # Заполнения списка факторов.
            list_of_factors = [col for col in list(df.columns[0:][lk]) if col != 'stage_4_output_danger_gas']

    # Вывод всех результатов.
    print(f"Лучшая пара метрик: R2 = {best_pair[0]:.4f}, MAPE = {best_pair[1]:.4f}")
    print(f"Метрики оценены на основе следующих факторов: {list_of_factors}")
    print('=-----------------------------------------------')

In [3]:
class SBS():
    """
    Класс для последовательного обратного отбора признаков (Sequential Backward Selection).

    Алгоритм отбирает подмножество наиболее важных признаков,
    оптимизируя модель по метрикам качества (R-квадрат и MSE).

    Аргументы:
        estimator: Модель машинного обучения, которую нужно оптимизировать.
                   Должна поддерживать методы fit и predict.
        k_features: Целевое количество признаков для отбора.
        test_size: Доля данных для тестирования (кросс-валидация).
        random_state: Случайное зерно для воспроизводимости результатов.

    """
    def __init__(self, estimator, k_features, random_state=42):
        self.estimator = clone(estimator) # Создаём копию модели, чтобы не менять исходную
        self.k_features = k_features
        self.random_state = random_state

    def fit(self, X, y):
        """
        Обучает модель SBS и отбирает лучшие признаки.

        Аргументы:
            X: Матрица признаков.
            y: Вектор целевой переменной.
            own_split: Если True, использует пользовательскую функцию split_for_grade для разделения данных.
        """

        X_train, X_test, y_train, y_test = split_for_grade(X, y)

        dim = X_train.shape[1]
        self.indices_ = list(range(dim))  # Индексы всех признаков
        self.subsets_ = [self.indices_] # Список всех подмножеств признаков
        # Вычисляем R-SQUARED и MSE
        score = self._calc_score(X_train, y_train, X_test, y_test, self.indices_)
        self.scores_ = [score]
        while dim > self.k_features:
            scores = []
            subsets = []

            # Перебор всех возможных подмножеств с одним удаленным признаком
            for p in combinations(self.indices_, r=dim - 1):
                score = self._calc_score(X_train, y_train, X_test, y_test, p)
                scores.append(score)
                subsets.append(p)

            # находим подмножества с лучшими значениями метрик
            best = np.argmax([i[0] for i in scores]) #  Выбираем подмножество с наибольшим r2_score,
                                                     # т.к. данная метрика в приоритете. Так же отбор
                                                     # лучшей комбинации будет происходит вне класса
            self.indices_ = subsets[best]
            #print(self.indices_)
            self.subsets_.append(self.indices_)
            dim -= 1

            self.scores_.append(scores[best])
        self.k_score_ = self.scores_[-1]

        return self


    def _calc_score(self, X_train, y_train, X_test, y_test, indices):
        """
        Вычисляет метрики R-SQUARED и MSE для заданного подмножества признаков.

        Аргументы:
            X_train, y_train, X_test, y_test, indices: Данные для обучения и оценки модели.
        """
        self.estimator.fit(X_train[:, indices], y_train)
        y_pred = self.estimator.predict(X_test[:, indices])

        score = [r2_score(y_test, y_pred), mean_absolute_percentage_error(y_test, y_pred)]

        return score  #scoring='neg_mean_squared_error' returns negative values.


#Инициализация датафрейма/регрессионных моделей

Проверка на нескольких моделях необходима для более объективного, надежного и эффективного решения задачи, а также для понимания ограничений текущего подхода.

In [4]:
regression_models = {
    "SVR": SVR(),
    "Decision Tree Regressor": DecisionTreeRegressor(),
    "Gradient Boosting Regressor": GradientBoostingRegressor(random_state=42),
    "K-Nearest Neighbors Regressor (n_neighbors = 5)": KNeighborsRegressor(n_neighbors=5),
    "K-Nearest Neighbors Regressor (n_neighbors = 3)": KNeighborsRegressor(n_neighbors=3),
    "Random Forest Regressor": RandomForestRegressor(random_state=42)
}

In [7]:
df['DateTime'] = pd.to_datetime(df['DateTime'])
time_diffs = df['DateTime'].diff().dt.total_seconds()
time_diffs = time_diffs.fillna(0)

# нормализуем даты из столбца DateTime
scaler = MinMaxScaler()
normalized_diffs = scaler.fit_transform(time_diffs.values.reshape(-1, 1)).flatten()

# вычисляет кумулятивную сумму элементов
normalized_times = np.cumsum(normalized_diffs)

# подставляем нормализованные значение
df['DateTime'] = normalized_times

#Нормализация значений/иная предобработка

Нормализация после обработки данных улучшила метрики предсказания главного столбца, так как масштабирование признаков предотвратило доминирование, обеспечило эффективное обучение и повысило точность прогнозов.

нормализация значений совершается только для признаков с большим диапазоном значений. В данном случае было принято считать большой диапазон, если он больше 50.

Значения нормализуются в диапазон от 0 до 10. Это действие поможет сохранить значимость факторов и при этом не делать эту значимость гигантской.




In [None]:
for col in df.columns[1:-2]:
    if df[col].max() - df[col].min() > 50:
        df[col] = normalize_to_0_10(df[col])

df.head(5)

In [None]:
df.describe()

In [None]:
# Ограничение значений, которые больше 0.3 до 0.3 улучшило метрики при тестах, но более низкое значение ухудшило их,
# вероятно, из-за искажения данных и потери информации.
mask = (df['stage_4_output_danger_gas'] > 0.3)
df.loc[mask, 'stage_4_output_danger_gas'] = 0.3

In [None]:
sns.histplot(df['stage_4_output_danger_gas'])

In [3]:
# Создаём наборы данных исходя из лучшей комбинации факторов.
X_train, X_test, y_train, y_true = split_for_grade(df.loc[:, ['DateTime', 'stage_2_output_bottom_pressure', 'stage_3_input_pressure', 'stage_4_input_steam', 'stage_4_output_dry_residue_avg']], df['stage_4_output_danger_gas'])
# RFR модель показала себя лучше всех, поэтому используем её.
random_forest = RandomForestRegressor(random_state=42)
random_forest.fit(X_train, y_train)

# Сохраняем предсказанные значения в pd.Series.
predictions = random_forest.predict(X_test)

In [None]:
actual_predicted_gas_df = pd.DataFrame({'реальные_показатели': y_true, 'предсказанные_показатели': predictions})
actual_predicted_gas_df.head(5)

In [None]:
actual_predicted_gas_df.to_csv("../danger_gas_values.csv", encoding='utf-8', index=False)

#Поиск лучшей модели, комбинации факторов и оценок метрик R2 и MAPE

Определяем лучшую модель из инициализированныз на основе метрики R2. Выводим метрики R2 и MAPE моделей с лучшей комбинацией факторов.

Данный алгоритм занимает большое количество времени.

In [8]:
for model_name in regression_models:
    list_of_factors = []
    print(f"Показатели модели {model_name}: ")
    model = regression_models[model_name]
    best_factors_by_sbs(model, df, list_of_factors)

#Выводы:

##Оценка метрик: **R2 = 0.3932, MAPE = 0.1887**. Модель Random Forest Regressor.

###**Неудовлетворительная прогностическая способность модели**: Проведенный анализ показал, что среди протестированных моделей наилучшие результаты достигнуты с помощью Random Forest Regressor (RFR), однако даже эта модель не продемонстрировала удовлетворительной прогностической способности в отношении доли опасного газа. Остальные модели, включая SVR, Decision Tree Regressor, Gradient Boosting Regressor, K-Nearest Neighbors Regressor (с n_neighbors = 5 и 3), показали худшие результаты. Несмотря на то, что RFR показал лучшие метрики (R2 = 0.3932 и MAPE = 0.1887), они по-прежнему свидетельствуют о том, что модель объясняет лишь небольшую долю дисперсии целевой переменной, а предсказания имеют значительные отклонения от фактических значений. Таким образом, RFR является лучшим выбором из рассмотренных моделей, но его прогностическая сила остается недостаточной.


###**Недопустимость замены ручных замеров на основе текущей модели**: Принимая во внимание низкие показатели прогностической точности модели и существенную величину погрешности предсказаний, её использование в качестве замены ручных замеров доли опасного газа является недопустимым. Ошибки в предсказаниях, достигающие в среднем 19%, могут иметь критические последствия, особенно в контексте мониторинга потенциально опасных веществ. Таким образом, текущая модель не обеспечивает требуемой надежности и точности для принятия ответственных решений.