### 다양한 방법의 특성 중요도 계산

### 학습 내용
 * 데이터 및 라이브러리 준비
 * 상관계수
 * 스피어만 상관계수
 * 
 * 
 

### 데이터 및 라이브러리 준비

In [2]:
# ---------------------------------
# 데이터 등의 사전 준비
# ----------------------------------
import numpy as np
import pandas as pd

# train_x는 학습 데이터, train_y는 목적 변수, test_x는 테스트 데이터
# pandas의 DataFrame, Series로 유지합니다.(numpy의 array로 유지하기도 합니다)

train = pd.read_csv('../input/sample-data/train_preprocessed_onehot.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test_preprocessed_onehot.csv')

In [3]:
train.shape, train_x.shape, train_y.shape, test_x.shape

((10000, 60), (10000, 59), (10000,), (10000, 59))

### 상관계수

In [4]:
# ---------------------------------
# argsort에 의한 인덱스 정렬
# ---------------------------------
# argsort을 사용하면 배열 값이 작은 순서/큰 순서로 인덱스를 정렬할 수 있음
ary = np.array([10, 20, 30, 0])
idx = ary.argsort()
print(idx)        # 내림차순 - [3 0 1 2]
print(idx[::-1])  # 오름차순 - [2 1 0 3]

print(ary[idx[::-1][:3]])  # 베스트 3을 출력 - [30, 20, 10]

[3 0 1 2]
[2 1 0 3]
[30 20 10]


In [5]:
# ---------------------------------
# 상관계수
# ---------------------------------
import scipy.stats as st

# 상관계수
corrs = []
for c in train_x.columns:
    corr = np.corrcoef(train_x[c], train_y)[0, 1]
    corrs.append(corr)
corrs = np.array(corrs)
corrs

array([ 0.15155308, -0.03848035, -0.01587774,  0.00437808, -0.05745262,
        0.01244317, -0.04818237, -0.00645934,  0.00929829, -0.0161238 ,
       -0.01654847,  0.02064493, -0.02566237,  0.11706115,  0.06674623,
        0.03151524,  0.21805214, -0.09160657,  0.05898138,  0.01112385,
        0.01577078, -0.0086167 , -0.00781526, -0.00465227,  0.0169584 ,
        0.01027572,  0.00180568, -0.01968441,  0.00918564,  0.0048    ,
       -0.01249621, -0.0061446 , -0.01798412, -0.01033541,  0.00798182,
        0.00611048,  0.01136556,  0.00770744, -0.00688464, -0.00883057,
        0.00662131,  0.05565687, -0.00061789,  0.05258075,  0.1184609 ,
        0.16723961,  0.18109642,  0.21368557,  0.02593691, -0.00323286,
       -0.00410098,  0.00132831, -0.0082405 , -0.01214077,  0.00790928,
        0.00977458, -0.00654726, -0.09447413,  0.00140585])

### 스피어만 상관계수

* 스피어만 상관계수
  * 두 변수 간의 순위 관계에 기반한 상관관계를 측정하는 방법.
  * 피어슨 상관계수와 달리 변수들이 선형적인 관계를 가지지 않을 때에도 적용 가능.
  * 값의 범위는 -1~1까지 범위를 갖는다.

In [6]:
# 스피어만 상관계수
corrs_sp = []
for c in train_x.columns:
    corr_sp = st.spearmanr(train_x[c], train_y).correlation
    corrs_sp.append(corr_sp)
    
corrs_sp = np.array(corrs_sp)
corrs_sp

array([ 0.15170291, -0.03848035, -0.01537461, -0.01277672, -0.05745262,
        0.01244317, -0.04818237, -0.00645934,  0.00929829, -0.0161238 ,
       -0.01654847,  0.02064493, -0.02566237,  0.11706115,  0.06674623,
        0.03241061,  0.22182331, -0.08996273,  0.04639233,  0.01106225,
        0.01577078, -0.0086167 , -0.00781526, -0.00465227,  0.0169584 ,
        0.01027572,  0.00180568, -0.01968441,  0.00918564,  0.0048    ,
       -0.01249621, -0.0061446 , -0.01798412, -0.01033541,  0.00798182,
        0.00611048,  0.01136556,  0.00770744, -0.00688464, -0.00883057,
        0.00662131,  0.03929422,  0.00287572,  0.05258075,  0.1184609 ,
        0.16723961,  0.18109642,  0.21368557,  0.02593691, -0.00323286,
       -0.00410098,  0.00132831, -0.0082405 , -0.01214077,  0.00796594,
        0.00970581, -0.00655618, -0.09447413,  0.00140585])

### 상관계수, 스피어만상관계수의 상위 중요도 출력

In [7]:
# 중요도의 상위를 출력(상위 5개까지).
# np.argsort을 사용하여 값의 순서대로 나열한 인덱스를 취득할 수 있음
idx = np.argsort(np.abs(corrs))[::-1]
top_cols, top_importances = train_x.columns.values[idx][:5], corrs[idx][:5]
print(top_cols, top_importances)

idx2 = np.argsort(np.abs(corrs_sp))[::-1]
top_cols2, top_importances2 = train_x.columns.values[idx][:5], corrs_sp[idx][:5]
print(top_cols2, top_importances2)

['medical_info_a1' 'medical_keyword_5' 'medical_keyword_4'
 'medical_keyword_3' 'age'] [0.21805214 0.21368557 0.18109642 0.16723961 0.15155308]
['medical_info_a1' 'medical_keyword_5' 'medical_keyword_4'
 'medical_keyword_3' 'age'] [0.22182331 0.21368557 0.18109642 0.16723961 0.15170291]


### 카이제곱 통계량

In [8]:
# ---------------------------------
# 카이제곱 통계량
# ---------------------------------
from sklearn.feature_selection import chi2
from sklearn.preprocessing import MinMaxScaler

# 카이제곱 통계량
x = MinMaxScaler().fit_transform(train_x)
c2, _ = chi2(x, train_y)

# 중요도의 상윗값을 출력(상위 5개까지).
idx = np.argsort(c2)[::-1]
top_cols, top_importances = train_x.columns.values[idx][:5], corrs[idx][:5]
print(top_cols, top_importances)

['medical_keyword_5' 'medical_keyword_4' 'medical_keyword_3' 'product_9'
 'medical_keyword_2'] [0.21368557 0.18109642 0.16723961 0.11706115 0.1184609 ]


### 상호정보량

In [9]:
# ---------------------------------
# 상호정보량
# ---------------------------------
from sklearn.feature_selection import mutual_info_classif

# 상호정보량
mi = mutual_info_classif(train_x, train_y)

# 중요도의 상위를 출력(상위 5개까지).
idx = np.argsort(mi)[::-1]
top_cols, top_importances = train_x.columns.values[idx][:5], corrs[idx][:5]
print(top_cols, top_importances)

['medical_info_a1' 'weight' 'age' 'medical_keyword_5' 'medical_keyword_2'] [0.21805214 0.00437808 0.15155308 0.21368557 0.1184609 ]
