In [2]:
import pandas as pd
import numpy as np

In [12]:
pd.set_option('display.max_columns', None)  # Показать все столбцы
pd.set_option('display.width', 1900)        # Установить ширину области отображения

In [3]:
# Загрузка файла для обучения  - уже после обработки
data_processed_train = pd.read_csv('processed_train.csv', sep=';') # Обратите внимание на путь файла и разделитель

# Загрузка файла для тестирования
data_test = pd.read_csv('files/test.csv') # Обратите внимание на путь файла

In [4]:
# Получение общей информации о данных
print(data_processed_train.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136429 entries, 0 to 136428
Data columns (total 15 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   id                              136429 non-null  int64  
 1   Air temperature [K]             136429 non-null  float64
 2   Process temperature [K]         136429 non-null  float64
 3   Rotational speed [rpm]          136429 non-null  int64  
 4   Torque [Nm]                     136429 non-null  float64
 5   Tool wear [min]                 136429 non-null  int64  
 6   Machine failure                 136429 non-null  int64  
 7   Tool Wear Failure [TWF]         136429 non-null  int64  
 8   Heat Dissipation Failure [HDF]  136429 non-null  int64  
 9   Power Failure [PWF]             136429 non-null  int64  
 10  Overstrain Failure [OSF]        136429 non-null  int64  
 11  Random Failure [RNF]            136429 non-null  int64  
 12  Type_H          

In [5]:
# Получение общей информации о данных
print(data_test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90954 entries, 0 to 90953
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id                       90954 non-null  int64  
 1   Product ID               90954 non-null  object 
 2   Type                     90954 non-null  object 
 3   Air temperature [K]      90954 non-null  float64
 4   Process temperature [K]  90954 non-null  float64
 5   Rotational speed [rpm]   90954 non-null  int64  
 6   Torque [Nm]              90954 non-null  float64
 7   Tool wear [min]          90954 non-null  int64  
 8   TWF                      90954 non-null  int64  
 9   HDF                      90954 non-null  int64  
 10  PWF                      90954 non-null  int64  
 11  OSF                      90954 non-null  int64  
 12  RNF                      90954 non-null  int64  
dtypes: float64(3), int64(8), object(2)
memory usage: 9.0+ MB
None


### Вывод:
— Как видно из результатов, у нас разная структура таблицы, и её надо преобразовать.  
— Данные мы не нормализовали и не удаляли.


In [6]:
# Разделение столбца 'Type' на булевые столбцы 'Type_H', 'Type_L', 'Type_M'
data_test['Type_H'] = (data_test['Type'] == 'H').astype(bool)
data_test['Type_L'] = (data_test['Type'] == 'L').astype(bool)
data_test['Type_M'] = (data_test['Type'] == 'M').astype(bool)

# Удаление оригинального столбца 'Type' и 'Product ID'
data_test = data_test.drop(columns=['Type', 'Product ID'])

# Переименование столбцов для отказов
data_test.rename(columns={
    'TWF': 'Tool Wear Failure [TWF]',
    'HDF': 'Heat Dissipation Failure [HDF]',
    'PWF': 'Power Failure [PWF]',
    'OSF': 'Overstrain Failure [OSF]',
    'RNF': 'Random Failure [RNF]'
}, inplace=True)

# Проверка результата
print(data_test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90954 entries, 0 to 90953
Data columns (total 14 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              90954 non-null  int64  
 1   Air temperature [K]             90954 non-null  float64
 2   Process temperature [K]         90954 non-null  float64
 3   Rotational speed [rpm]          90954 non-null  int64  
 4   Torque [Nm]                     90954 non-null  float64
 5   Tool wear [min]                 90954 non-null  int64  
 6   Tool Wear Failure [TWF]         90954 non-null  int64  
 7   Heat Dissipation Failure [HDF]  90954 non-null  int64  
 8   Power Failure [PWF]             90954 non-null  int64  
 9   Overstrain Failure [OSF]        90954 non-null  int64  
 10  Random Failure [RNF]            90954 non-null  int64  
 11  Type_H                          90954 non-null  bool   
 12  Type_L                          

У нас не хватает только столца `Machine failure` - создам его и заполню NAN 

Если не надо, то просто не будем запускать данный блок!

In [7]:
# Добавление столбца 'Machine failure' и заполнение его значениями NaN
data_test['Machine failure'] = np.nan  # Заполнение NaN
print(data_test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90954 entries, 0 to 90953
Data columns (total 15 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              90954 non-null  int64  
 1   Air temperature [K]             90954 non-null  float64
 2   Process temperature [K]         90954 non-null  float64
 3   Rotational speed [rpm]          90954 non-null  int64  
 4   Torque [Nm]                     90954 non-null  float64
 5   Tool wear [min]                 90954 non-null  int64  
 6   Tool Wear Failure [TWF]         90954 non-null  int64  
 7   Heat Dissipation Failure [HDF]  90954 non-null  int64  
 8   Power Failure [PWF]             90954 non-null  int64  
 9   Overstrain Failure [OSF]        90954 non-null  int64  
 10  Random Failure [RNF]            90954 non-null  int64  
 11  Type_H                          90954 non-null  bool   
 12  Type_L                          

Это из серии перфекционизма 😂 Поменяла местами столбцы, чтобы они были как в обучающей выборке.


In [8]:
# Задание нового порядка столбцов для тестового набора данных
new_column_order = [
    'id',
    'Air temperature [K]',
    'Process temperature [K]',
    'Rotational speed [rpm]',
    'Torque [Nm]',
    'Tool wear [min]',
    'Machine failure',  
    'Tool Wear Failure [TWF]',
    'Heat Dissipation Failure [HDF]',
    'Power Failure [PWF]',
    'Overstrain Failure [OSF]',
    'Random Failure [RNF]',
    'Type_H',
    'Type_L',
    'Type_M'
]

# Изменение порядка столбцов
data_test = data_test[new_column_order]

print(data_test.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90954 entries, 0 to 90953
Data columns (total 15 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              90954 non-null  int64  
 1   Air temperature [K]             90954 non-null  float64
 2   Process temperature [K]         90954 non-null  float64
 3   Rotational speed [rpm]          90954 non-null  int64  
 4   Torque [Nm]                     90954 non-null  float64
 5   Tool wear [min]                 90954 non-null  int64  
 6   Machine failure                 0 non-null      float64
 7   Tool Wear Failure [TWF]         90954 non-null  int64  
 8   Heat Dissipation Failure [HDF]  90954 non-null  int64  
 9   Power Failure [PWF]             90954 non-null  int64  
 10  Overstrain Failure [OSF]        90954 non-null  int64  
 11  Random Failure [RNF]            90954 non-null  int64  
 12  Type_H                          

In [9]:
# Получение типов данных
train_dtypes = data_processed_train.dtypes
test_dtypes = data_test.dtypes

# Создание DataFrame для сопоставления типов данных
comparison_df = pd.DataFrame({
    'Column': train_dtypes.index,
    'Type (Train)': train_dtypes.values,
    'Type (Test)': test_dtypes.reindex(train_dtypes.index, fill_value='Missing').values
})

# Вывод результата
print(comparison_df)

                            Column Type (Train) Type (Test)
0                               id        int64       int64
1              Air temperature [K]      float64     float64
2          Process temperature [K]      float64     float64
3           Rotational speed [rpm]        int64       int64
4                      Torque [Nm]      float64     float64
5                  Tool wear [min]        int64       int64
6                  Machine failure        int64     float64
7          Tool Wear Failure [TWF]        int64       int64
8   Heat Dissipation Failure [HDF]        int64       int64
9              Power Failure [PWF]        int64       int64
10        Overstrain Failure [OSF]        int64       int64
11            Random Failure [RNF]        int64       int64
12                          Type_H         bool        bool
13                          Type_L         bool        bool
14                          Type_M         bool        bool


In [14]:
print('Сравним данные по форматам\n')
print('Тестовая таблица')
print(data_test.head())
print('\n\nТаблица для обучения')
print(data_processed_train.head())

Сравним данные по форматам

Тестовая таблица
       id  Air temperature [K]  Process temperature [K]  Rotational speed [rpm]  Torque [Nm]  Tool wear [min]  Machine failure  Tool Wear Failure [TWF]  Heat Dissipation Failure [HDF]  Power Failure [PWF]  Overstrain Failure [OSF]  Random Failure [RNF]  Type_H  Type_L  Type_M
0  136429                302.3                    311.5                    1499         38.0               60              NaN                        0                               0                    0                         0                     0   False    True   False
1  136430                301.7                    311.0                    1713         28.8               17              NaN                        0                               0                    0                         0                     0   False    True   False
2  136431                301.3                    310.4                    1525         37.7               96              N

In [11]:
# Сохранение предобработанных данных для Тестирования!
data_test.to_csv('processed_test.csv', sep=';', index=False) # Обратите внимание на разделитесь!
print("Предобработка завершена. Данные сохранены в 'processed_test.csv'.")

Предобработка завершена. Данные сохранены в 'processed_test.csv'.
