In [1]:
import pandas as pd
import numpy as np
from scipy.stats.mstats import winsorize
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import RobustScaler

In [2]:
비상장 = pd.read_csv('../datasets/비상장_최종_데이터_셋.csv' ,index_col = 0)

In [3]:
col_list = ['총자본증가율', '유형자산증가율', '유동자산증가율',
       '재고자산증가율', '자기자본증가율', '매출액증가율', '매출액영업이익률', '매출액순이익률', '자기자본순이익률',
       '자본금순이익률', '기업순이익률', '매출원가 대 매출액비율', '금융비용 대 총비용비율', '감가상각률',
       '차입금평균이자율', '사내유보율', '평균배당률', '자기자본배당률', '배당성향', '자기자본구성비율', '비유동비율',
       '비유동장기적합률', '유동비율', '당좌비율', '현금비율', '매출채권 대 매입채무비율', '부채비율', '유동부채비율',
       '비유동부채비율', '차입금의존도', '자기자본회전률', '자본금회전률', '매입채무회전률', '재고자산회전률',
       '비유동자산회전률', '유형자산회전율', '총자본투자효율', '설비투자효율', '기계투자효율', '부가가치율',
       '노동소득분배율', '인건비(백만원)', '금융비용(백만원)', '임차료(백만원)', '조세공과(백만원)',
       '감가상각비(백만원)', '부채대비영업활동현금흐름', '자본대비영업활동현금흐름', '매출액대비영업활동현금흐름',
       '3개년가중평균매출액', '업력']

In [4]:
X = 비상장
y = 비상장['label']

In [5]:
# 윈저라이징 및 스케일링 함수
def preprocess_train_features(X_train, col_list):
    X_train = X_train.copy()
    
    # 윈저라이징
    for column in X_train[col_list].columns:
        X_train[column] = winsorize(X_train[column], limits=[0.005, 0.005])
    
    # 스케일링 준비
    scaler = RobustScaler()
    # 숫자형 피처에만 스케일링 학습 및 적용
    X_train[col_list] = scaler.fit_transform(X_train[col_list])
    
    return X_train, scaler

def preprocess_test_features(X_test,col_list, scaler):
    X_test = X_test.copy()
    
    # 숫자형 피처에만 스케일링 적용
    X_test[col_list] = scaler.transform(X_test[col_list])
    
    return X_test

In [6]:
# 훈련 세트와 테스트 세트 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# 전처리 적용
train_scaled, scaler = preprocess_train_features(X_train,col_list)
test_scaled = preprocess_test_features(X_test,col_list, scaler)

In [7]:
train_scaled.to_csv('../datasets/비상장_train.csv', encoding='UTF-8-sig')
test_scaled.to_csv('../datasets/비상장_test.csv', encoding='UTF-8-sig')