In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from scipy.stats import zscore

# 데이터 부ㄹ러오기
data = pd.read_csv("../data/raw/ai4i2020.csv")

In [2]:
# 이상치 처리 (Z-score 기준)
from scipy.stats import zscore
numeric_cols = ["Air temperature [K]", "Process temperature [K]", "Rotational speed [rpm]", 
                "Torque [Nm]", "Tool wear [min]"]

# Z-score 3 이상 값 제거
data = data[(zscore(data[numeric_cols]).abs() < 3).all(axis=1)]

In [3]:
# 범주형 변수 원-핫 인코딩
categorical_cols = ["Type"]
data = pd.get_dummies(data, columns=categorical_cols, drop_first=False)  # drop_first=False로 타입 유지

In [4]:
# 타겟 / 피처 분리
X = data.drop(columns=[
    "UDI", "Product ID", "Machine failure", "TWF", "HDF", "PWF", "OSF", "RNF"
])
y = data["Machine failure"]

In [5]:
# 클래스 불균형 처리

# 고장 데이터만 추출
fault_data = data[data["Machine failure"] == 1]
n_aug = 1000  # 증강할 샘플 수

# 수치형 컬럼 평균/표준편차 기반 샘플 생성
augmented_samples = pd.DataFrame({
    col: np.random.normal(loc=fault_data[col].mean(),
                          scale=fault_data[col].std(),
                          size=n_aug)
    for col in numeric_cols
})

# Type 컬럼 랜덤 배분
type_cols = [col for col in X.columns if "Type_" in col]
chosen_types = np.random.choice(type_cols, size=n_aug, replace=True)

for t in type_cols:
    augmented_samples[t] = 0

for i, t in enumerate(chosen_types):
    augmented_samples.loc[i, t] = 1

# 타겟 라벨 1
augmented_y = pd.Series([1]*n_aug)

# 기존 데이터와 합치기
X = pd.concat([X, augmented_samples], axis=0).reset_index(drop=True)
y = pd.concat([y, augmented_y], axis=0).reset_index(drop=True)

print("증강 후 데이터 크기:", X.shape, y.shape)

증강 후 데이터 크기: (10822, 8) (10822,)


In [6]:
# 학습/검증/테스트 분리
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp)

In [7]:
data['Machine failure'].value_counts()

Machine failure
0    9529
1     293
Name: count, dtype: int64

In [8]:
# 수치형 컬럼 정규화
scaler = StandardScaler()
X_train[numeric_cols] = scaler.fit_transform(X_train[numeric_cols])
X_val[numeric_cols] = scaler.transform(X_val[numeric_cols])
X_test[numeric_cols] = scaler.transform(X_test[numeric_cols])

In [9]:
# 데이터 확인
print("학습 데이터:", X_train.shape, y_train.shape)
print("검증 데이터:", X_val.shape, y_val.shape)
print("테스트 데이터:", X_test.shape, y_test.shape)

학습 데이터: (7575, 8) (7575,)
검증 데이터: (1623, 8) (1623,)
테스트 데이터: (1624, 8) (1624,)


In [10]:
# 데이터 저장
X_train.to_csv("../data/X_train.csv", index=False)
X_val.to_csv("../data/X_val.csv", index=False)
X_test.to_csv("../data/X_test.csv", index=False)
y_train.to_csv("../data/y_train.csv", index=False)
y_val.to_csv("../data/y_val.csv", index=False)
y_test.to_csv("../data/y_test.csv", index=False)