In [7]:
import pandas as pd
from sklearn.feature_selection import VarianceThreshold
from sklearn.preprocessing import MinMaxScaler

In [8]:
pd.set_option('display.max_columns', None)  # Показать все столбцы
pd.set_option('display.width', 1900)        # Установить ширину области отображения

In [9]:
# Загрузка данных
data = pd.read_csv('additional_variable_train.csv', sep=';') # Обратите внимание на путь файла

# Просмотр первых строк
# print(data.head())

In [10]:
# Список числовых признаков (исключаем целевую переменную и категориальные признаки)
numeric_columns = [
    'Air temperature [K]',
    'Process temperature [K]',
    'Rotational speed [rpm]',
    'Torque [Nm]',
    'Ratio',
    'Deviation from Average',
    'Tool wear [min]',
    'Sum_Parametr'
]

# Приведение данных к масштабу 0-1
scaler = MinMaxScaler()
data_scaled = pd.DataFrame(scaler.fit_transform(data[numeric_columns]), columns=numeric_columns)

# Вычисление дисперсии
variances = data_scaled.var()
print("Дисперсия признаков:")
print(variances)

# Устанавливаем порог отсечения
threshold = 0.01  # Пример порога
selector = VarianceThreshold(threshold=threshold)

# Применяем селектор
data_high_variance = selector.fit_transform(data_scaled)

# Получение оставшихся признаков
selected_features = data_scaled.columns[selector.get_support()]
print("Оставшиеся признаки:", list(selected_features))

# Формируем новый датасет с оставшимися признаками
data_filtered = data[selected_features]

# Печать итогового датасета
print("\nИтоговый датасет после удаления низко вариативных признаков:")
print(data_filtered.head())


Дисперсия признаков:
Air temperature [K]        0.041879
Process temperature [K]    0.029980
Rotational speed [rpm]     0.039801
Torque [Nm]                0.033576
Ratio                      0.023647
Deviation from Average     0.023647
Tool wear [min]            0.063921
Sum_Parametr               0.001907
dtype: float64
Оставшиеся признаки: ['Air temperature [K]', 'Process temperature [K]', 'Rotational speed [rpm]', 'Torque [Nm]', 'Ratio', 'Deviation from Average', 'Tool wear [min]']

Итоговый датасет после удаления низко вариативных признаков:
   Air temperature [K]  Process temperature [K]  Rotational speed [rpm]  Torque [Nm]      Ratio  Deviation from Average  Tool wear [min]
0                300.6                    309.6                    1596         36.1  44.210526                4.152469              140
1                302.6                    312.1                    1759         29.1  60.446735               20.388678              200
2                299.3              

In [11]:
# Сохранение предобработанных данных
# data.info()
data.to_csv('low_variance_train.csv', sep=';', index=False) # Обратите внимание на разделитесь!
print("Предобработка завершена. Данные сохранены в 'low_variance_train.csv'.")

Предобработка завершена. Данные сохранены в 'low_variance_train.csv'.


#### Выбор числовых признаков:
- Из списка признаков исключаем:
  - **id**, так как это идентификатор.
  - **Целевую переменную** `Machine failure`.
  - **Бинарные индикаторы** (`Type_H`, `Type_L`, `Type_M`).

#### Приведение к масштабу:
- Используем **MinMaxScaler**, чтобы нормализовать значения числовых признаков.

#### Расчет дисперсии:
- Рассчитываем **дисперсию** для каждого из числовых признаков.
> Дисперсия — это статистический показатель, который измеряет разброс или вариативность значений данных относительно их среднего значения (математического ожидания). Чем выше дисперсия, тем более разнообразны данные, и наоборот.

#### Отсечение признаков:
- Устанавливаем порог (например, 0.01) и удаляем признаки с дисперсией ниже этого значения.

#### Формирование итогового датасета:
- Оставляем только признаки с высокой дисперсией.
- Сохраняем их в новый датасет `data_filtered`.

#### Вывод:
- Нужно убедиться, что **удаление признаков** не повлияло на важные зависимости в данных.
- Получившийся датасет `data_filtered` можно использовать для **обучения модели**.

### Для чего нужно было:
- **Исключение признаков с низкой вариативностью**, которые не влияют на целевую переменную.
- **Снижение размерности данных**, что ускорит обучение модели.
- **Повышение интерпретируемости модели** за счет использования только информативных признаков.
