## 다양한 피처선정 방법으로 피처 선택하기
- <b> 분산 기반 선택(Variance-based Selection): </b>
- 분산이 낮은 변수를 제거하는 방법
- 분산 낮은 변수 = 데이터의 변동이 거의 x -> 정보량 부족: 변동이 적은 변수는 모델이 학습할 수 있는 정보가 거의 없기 때문에 유의미한 패턴을 찾는 데 도움이 되지 않는다.
- 분산이 낮은 변수는 모델의 성능을 저하시키는 노이즈로 작용 가능 -> 이는 모델의 복잡성을 증가시키고 과적합(overfitting)을 초래할 수 있다. 불필요한 변수를 제거하면 모델이 더 일반화(generalize)되는 데 도움이 됩니다.

In [1]:
import pandas as pd
from sklearn.feature_selection import VarianceThreshold

In [2]:
# 파일 경로 설정
file_path = "data.csv"

# CSV 파일을 DataFrame으로 불러오기
data = pd.read_csv(file_path)

In [3]:
# 독립변수 종속변수 정리
X = data
y= data['Bankrupt?']

In [4]:
X_names = X.columns

In [6]:
# 분산이 0.2 이상인 피처들만 선택하도록 학습
sel = VarianceThreshold(threshold=0.2).fit(X)

# 각 피처의 분산 확인
variances = sel.variances_
print(f'각 피처의 분산: {variances}')

# 분산이 0.2 이상인 피처들만 선택 적용
X_selected = sel.transform(X)

# 선택된 피처들의 이름
X_selected_names = [X_names[i] for i in sel.get_support(indices=True)]

print(f'선택된 피처들의 이름: {X_selected_names}')

각 피처의 분산: [3.12219072e-02 3.68220668e-03 4.30535700e-03 3.79336416e-03
 2.86711955e-04 2.86111462e-04 1.69235931e-04 1.65586576e-04
 1.84950661e-04 1.24604113e-04 1.60733568e-04 1.04810597e+19
 6.75012895e+18 2.90166291e-04 1.17217636e+16 1.92258548e-02
 1.11471313e-03 1.12031183e-03 1.12075524e-03 1.10623918e-03
 3.10098773e-04 2.67323105e+15 7.80654544e-04 1.10076482e-03
 1.45887370e-04 1.15598815e-04 1.91878083e-04 1.93467609e-04
 1.01248377e-04 8.39553690e+18 1.30304550e+16 9.28043687e-05
 4.29942102e-04 1.10887094e+15 5.98618462e+16 1.26284495e-04
 2.83567266e+16 2.90697304e-03 2.90697304e-03 7.92471013e-04
 2.65200220e-04 1.48534380e-04 7.71708889e-04 9.47563177e-04
 1.77505062e-04 1.02288044e-02 7.74171821e+16 6.57102456e+16
 1.05477427e+19 6.13739008e+18 1.34525030e-03 1.86657445e+16
 1.07045083e-03 8.67212378e+16 3.48691104e-03 4.07972352e-02
 4.75657902e-02 1.93878814e-02 2.94494169e+16 2.60419848e+17
 2.52869880e-03 1.23514340e-03 1.09580685e-04 3.38734330e+17
 4.27090221e-0

## 중간정리
- <b> 분작 적은 것을 제외한 Feature: </b>
[' Operating Expense Rate', ' Research and development expense rate', ' Interest-bearing debt interest rate', ' Revenue Per Share (Yuan ¥)', ' Total Asset Growth Rate', ' Net Value Growth Rate', ' Current Ratio', ' Quick Ratio', ' Total debt/Total net worth', ' Accounts Receivable Turnover', ' Average Collection Days', ' Inventory Turnover Rate (times)', ' Fixed Assets Turnover Frequency', ' Revenue per person', ' Allocation rate per person', ' Quick Assets/Current Liability', ' Cash/Current Liability', ' Inventory/Current Liability', ' Long-term Liability to Current Assets', ' Current Asset Turnover Rate', ' Quick Asset Turnover Rate', ' Cash Turnover Rate', ' Fixed Assets to Assets', ' Total assets to GNP price']

In [10]:
data = data[[' Operating Expense Rate', ' Research and development expense rate', ' Interest-bearing debt interest rate',
                   ' Revenue Per Share (Yuan ¥)', ' Total Asset Growth Rate', ' Net Value Growth Rate', ' Current Ratio',
                   ' Quick Ratio', ' Total debt/Total net worth', ' Accounts Receivable Turnover', ' Average Collection Days', ' Inventory Turnover Rate (times)',
                   ' Fixed Assets Turnover Frequency', ' Revenue per person', ' Allocation rate per person', ' Quick Assets/Current Liability', ' Cash/Current Liability',
                   ' Inventory/Current Liability', ' Long-term Liability to Current Assets', ' Current Asset Turnover Rate', ' Quick Asset Turnover Rate',
                   ' Cash Turnover Rate', ' Fixed Assets to Assets', ' Total assets to GNP price']]
y= data['Bankrupt?']

KeyError: 'Bankrupt?'

In [9]:
#피처 간의 상관관계 분석
corr_matrix = data.corr()

plt.show()# 타겟 변수와 상관관계(절대값)가 높은 피처 상위 n개
corr_with_target = corr_matrix['Bankrupt?'].abs().sort_values(ascending=False)[:10]
print(corr_with_target)

NameError: name 'plt' is not defined