# 윈저라이징 적용 노트북
이 노트북은 CSV 파일을 로드하고, 수치형 데이터에 대해 상하위 0.5%를 잘라내는 윈저라이징을 적용합니다.

In [1]:
import pandas as pd
import numpy as np

# CSV 파일 경로
file_path = 'ts2000_processed_missing_data.csv'  # 로컬에 맞게 수정하세요
df = pd.read_csv(file_path)

# 수치형 컬럼 선택
numeric_cols = df.select_dtypes(include=[np.number]).columns

# 윈저라이징 함수 정의
def winsorize_series(series, lower_quantile=0.005, upper_quantile=0.995):
    lower_bound = series.quantile(lower_quantile)
    upper_bound = series.quantile(upper_quantile)
    return np.clip(series, lower_bound, upper_bound)

# 윈저라이징 적용
df_winsorized = df.copy()
df_winsorized[numeric_cols] = df[numeric_cols].apply(winsorize_series)

# 결과 확인
df_winsorized.head()

Unnamed: 0.1,Unnamed: 0,corp_nm,stock_code,year,자산총계_당기,자산총계_전기,비유동자산_당기,비유동자산_전기,유동자산_당기,유동자산_전기,...,당기순이익_전기,재고자산_당기,재고자산_전기,매출채권_당기,매출채권_전기,매출채권및기타유동채권_당기,매출채권및기타유동채권_전기,총현금흐름_당기,총현금흐름_전기,is_defaulted
0,121.2944,(주)CMG제약,58820,2015,56591972.0,58127098.0,30261207.0,29767275.0,26330765.0,28359823.0,...,171502.0,5455617.0,4913103.0,15838056.0,16787073.0,12405117.0,13533700.0,-6259636.0,-12880662.0,0
1,121.2944,(주)CMG제약,58820,2016,110979867.0,56591972.0,32207666.0,30261207.0,78772201.0,26330765.0,...,-3648668.0,6393756.0,5455617.0,14435808.0,15838056.0,12748287.0,12405117.0,-413245.0,-6259636.0,0
2,121.2944,(주)CMG제약,58820,2017,109568153.0,110979867.0,28340823.0,32207666.0,81227330.0,78772201.0,...,1693463.0,7904518.0,6393756.0,16768648.0,14435808.0,15507312.0,12748287.0,1652143.0,-413245.0,0
3,121.2944,(주)CMG제약,58820,2018,114379880.0,109568153.0,33009465.0,28340823.0,81370415.0,81227330.0,...,2834901.0,8572582.0,7904518.0,19030822.0,16768648.0,17706490.0,15507312.0,9665998.0,1652143.0,0
4,121.2944,(주)CMG제약,58820,2019,192243166.0,114379880.0,41659100.0,33009465.0,150584066.0,81370415.0,...,6065026.0,9048933.0,8572582.0,21676515.0,19030822.0,21160960.0,17706490.0,5105725.0,9665998.0,0


In [2]:
# 윈저라이징된 데이터를 CSV로 저장
output_path = 'winsorized_data.csv'  # 원하는 경로와 파일명으로 수정 가능
df_winsorized.to_csv(output_path, index=False)
print(f"윈저라이징된 데이터가 '{output_path}'에 저장되었습니다.")


윈저라이징된 데이터가 'winsorized_data.csv'에 저장되었습니다.
