## 데이터(변수) 구간화 Binning
- 연속형 변수를 다룰 때 > 구간화로 변수를 새롭게 만든다.
- Binning 을 통해서 해당 변수의 스케일이나 분포가 모델에 미치는 영향을 줄일 수 있다.
- 변수구간화 > 연속형 변수를 구간 또는 범주로 나누는 것
- 연속형 변수를 구간으로 나누는 것

- 1. 구간설정 : 미리 개수나 도메일 지식으로 정할 수 있다.
- 2. 구간경계설정 : 어디까지 어떤 값으로 하겠다는 경계 필요
- 3. 데이터 비닝 : 설정 구간에 따라 연속형 변수들을 구간 또는 범주에 할당
- 이상형 변수로 변환 후 사용, 데이터 마이닝에도 사용할 수 있다

- 구간별 평균값으로 평활화
- 중앙값으로 평활화
- 경계값으로 평활화

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from xverse.transformer import WOE

In [4]:
df = pd.read_csv('data/heart_2020_cleaned.csv')

In [6]:
df.describe()

Unnamed: 0,BMI,PhysicalHealth,MentalHealth,SleepTime
count,319795.0,319795.0,319795.0,319795.0
mean,28.325399,3.37171,3.898366,7.097075
std,6.3561,7.95085,7.955235,1.436007
min,12.02,0.0,0.0,1.0
25%,24.03,0.0,0.0,6.0
50%,27.34,0.0,0.0,7.0
75%,31.42,2.0,3.0,8.0
max,94.85,30.0,30.0,24.0


In [7]:
df1 = df.copy()

In [8]:
df1.insert(2, 'BMI_bin', 0)

In [14]:
# pandas 에서 제공하는 cut 함수 이용해서 가능
df1.insert(3, 'BMI_bis3',0)
df1['BMI_bins3'] = pd.cut(df1.BMI, bins = [0,20,30,40,50,60,70],
                          labels = ['a','b','c','d','e','f'])

In [15]:
#pd.qcut 함수 이용하면 된다.
df1.insert(6,'BMI_bin5',0)
df1['BMI_bin5'] = pd.qcut(df.BMI, q = 6, labels = ['a','b','c','d','e','f'])

In [16]:
df1['BMI_bin5']

0         a
1         a
2         c
3         b
4         b
         ..
319790    d
319791    d
319792    b
319793    e
319794    f
Name: BMI_bin5, Length: 319795, dtype: category
Categories (6, object): ['a' < 'b' < 'c' < 'd' < 'e' < 'f']

## Feature_selection 영역
- 구간화 등의 범주형 변수로 만들었을 때, 이진으로 만든 경우도 있고 여러개의 피처들을 만들었음
- 어떤 피처를 사용해야 하는가?
----
- WOE(Weight of Evidence), IV(Information Value)
- 변수의 정보량과 예측력을 평가하는데 사용하는 지표
- 변수 구간화 : 연속형 변수를 여러 구간으로 나눈다 > 범위 기반, 빈도 기반, 도메인 기반 등
----
- WOE : 각 구간 별로 양성, 음성 두 클래스 비율을 계산한다. > 해당 각 클래스의 구간에 대해서 공식을 사용해서 해당 WOE 를 계산한다.
- ln(구간 내 양성 클래스 비율)/(구간 내 음성 클래스비율) 이 값의 결과로 해당 변수를 평가한다.

----
- 해당 수치가 나왔을 때 해석하는 방법?
- WOE 양수 : 구간 값들이 양성클래스의 발생이 더 관련이 있다.
- WOE 음수 : 구간 값들이 음성 클래스의 발생에 더 고나련이 있다.
- WOE 큰 양수 또는 큰 음수 : 해당 구간 값이 혜측값과 강한 관계를 가지고 있다.
- WOE 0인 값 : 클래스와 큰 관계가 없다.

- 변수 선택 시 유용하거나 유용하지 않거나 등의 변수를 식별학 제외할 수 있다.

----
- IV(Information Value): 변수의 예측력을 평가하는데 사용하는 통계적 수치
- 각 구간에 대한 WOE를 계산 했을 때
- 위의 공식을 사용해서 {(양성클래스 비율)- (음성클래스 비율)}WOE 이 값을 통해서 해당 변수의 예측력을 평가한다.

- IV 기준
- IV < 0.02 : 유용하지 않은 변수
- 0.02 <= IV < 0.1 : 약한 예측력
- 0.1 <= IV < 0.3 : 중간 예측력
- 0.3 <= IV < 0.5 : 강한 예측력
- IV >= 0.5 : 매우 강한 예측력

In [18]:
import seaborn as sns
tt = sns.load_dataset('titanic')

In [20]:
tt[['survived','sex','age']]
tt = tt.dropna()
pd.get_dummies(tt['sex']) # 원핫_성별 변수 생성

Unnamed: 0,female,male
1,1,0
3,1,0
6,0,1
10,1,0
11,1,0
...,...,...
871,1,0
872,0,1
879,1,0
887,1,0


In [21]:
y = tt['survived']

from xverse.transformer import WOE
- 패키지를 이용해서 간단한 예시를 들 수 있다.

In [None]:
## KbinsDiscretizer
- scikit learn