In [31]:
from sklearn.datasets import load_digits
from sklearn.feature_selection import SelectKBest, chi2, f_classif, mutual_info_classif

# chi2
- chi2 카이제곱 검정을 사용하여 특성의 중요도를 평가
- 카이제곱 검정은 범주형 목표 변수(여기서는 숫자 레이블)와 범주형/연속형 특성 간의 독립성을 평가
- 이 경우, 픽셀 값이 높을수록 특정 숫자일 가능성이 더 높다고 볼 수 있으므로 카이제곱 검정이 적절

In [32]:
X, y = load_digits(return_X_y=True)
X.shape

(1797, 64)

In [33]:
import numpy as np

print(X[:2])
print(np.unique(y))

[[ 0.  0.  5. 13.  9.  1.  0.  0.  0.  0. 13. 15. 10. 15.  5.  0.  0.  3.
  15.  2.  0. 11.  8.  0.  0.  4. 12.  0.  0.  8.  8.  0.  0.  5.  8.  0.
   0.  9.  8.  0.  0.  4. 11.  0.  1. 12.  7.  0.  0.  2. 14.  5. 10. 12.
   0.  0.  0.  0.  6. 13. 10.  0.  0.  0.]
 [ 0.  0.  0. 12. 13.  5.  0.  0.  0.  0.  0. 11. 16.  9.  0.  0.  0.  0.
   3. 15. 16.  6.  0.  0.  0.  7. 15. 16. 16.  2.  0.  0.  0.  0.  1. 16.
  16.  3.  0.  0.  0.  0.  1. 16. 16.  6.  0.  0.  0.  0.  1. 16. 16.  6.
   0.  0.  0.  0.  0. 11. 16. 10.  0.  0.]]
[0 1 2 3 4 5 6 7 8 9]


In [34]:
sb = SelectKBest(score_func=chi2, k=20)
X_new = sb.fit_transform(X,y)
X_new.shape

(1797, 20)

In [35]:
print(sb.get_support())

# 64개의 특성 중 20개가 True로 표시되어 있으며, 이는 선택된 20개의 가장 유익한 특성을 나타낸다.

[False False False False False  True  True False False False False False
 False  True False False False False False  True  True  True False False
 False False  True False  True False  True False False  True  True False
 False False False False False  True  True  True  True False  True False
 False False False False False False  True False False False  True False
 False  True  True False]


In [36]:
print(sb.scores_)

# 카이제곱 검정의 결과로, 특성이 목표 변수와 얼마나 잘 관련되어 있는지를 나타낸다.
# 점수가 높을수록 해당 특성은 목표 변수와 더 강한 관계를 가진다.

[          nan  811.90700411 3501.28249552  698.9252572   438.52969882
 3879.81925999 3969.45823205 1193.5608181    24.79521396 2953.83108764
 2583.65198939  388.24205944  824.69094853 3676.48924765 1983.5796061
  597.24198237    8.95886124 1924.21690377 2409.27140681 3556.31594594
 4871.94194551 4782.19921618 2155.17378998  376.76583333    7.90090158
 2471.82418401 4515.48149826 2986.64314847 3724.09567634 3208.64686641
 5138.07412439   35.71270718           nan 5688.25079535 5262.46646904
 3165.0605867  3231.63943369 2532.99695611 3288.81403655           nan
  142.85082873 3863.85787901 6416.0867248  5448.25154235 4079.73153383
 2134.02540236 4486.34097862  313.53898127   70.39927392  449.72327313
 2801.97224468 1527.54519627 1653.15892311 3073.99803898 5251.21748723
  683.88227339    9.15254237  851.06791492 3800.2473108   730.92975659
 1859.53966338 4379.2250408  5059.00551511 2281.32864013]


In [37]:
print(sb.pvalues_)

# p-value는 귀무 가설(특성과 목표 변수 간에 관계가 없음)을 기각할 수 있는 확률
# 일반적으로 p-value가 0.05 이하인 경우 귀무 가설을 기각하고, 해당 특성이 목표 변수와 관련이 있다고 간주
# 여기서 대부분의 선택된 특성은 매우 낮은 p-value를 가지며, 이는 그들이 숫자를 예측하는 데 매우 유용하다는 것을 의미

[            nan 5.81310493e-169 0.00000000e+000 1.17740541e-144
 8.11314242e-089 0.00000000e+000 0.00000000e+000 2.97727113e-251
 3.20626273e-003 0.00000000e+000 0.00000000e+000 4.41344943e-078
 1.02825052e-171 0.00000000e+000 0.00000000e+000 8.18335060e-123
 4.41080315e-001 0.00000000e+000 0.00000000e+000 0.00000000e+000
 0.00000000e+000 0.00000000e+000 0.00000000e+000 1.23435651e-075
 5.44163062e-001 0.00000000e+000 0.00000000e+000 0.00000000e+000
 0.00000000e+000 0.00000000e+000 0.00000000e+000 4.45801029e-005
             nan 0.00000000e+000 0.00000000e+000 0.00000000e+000
 0.00000000e+000 0.00000000e+000 0.00000000e+000             nan
 2.65875300e-026 0.00000000e+000 0.00000000e+000 0.00000000e+000
 0.00000000e+000 0.00000000e+000 0.00000000e+000 3.49452723e-062
 1.27145348e-011 3.28604761e-091 0.00000000e+000 0.00000000e+000
 0.00000000e+000 0.00000000e+000 0.00000000e+000 2.01600539e-141
 4.23314114e-001 2.14859356e-177 0.00000000e+000 1.54562173e-151
 0.00000000e+000 0.000000