## GBDT(gradient boosting decision tree)  
- 수치의 크기(범위)가 아닌 대소관계에만 영향을 받는다.  
- 결측값이 있어도 그대로 처리할 수 있다.  
- 결정트리의 내부 반복작업에 따라 변수 간 상호작용을 반영한다.  
- one-hot encoding 이 아닌 label encoding 사용 가능하다.(신경망은 one-hot encoding)  
    DT의 경우는 각 데이터의 합이 아닌 대소 관계를 보기 때문? and 신경망은 데이터의 선형 결합(합)으로 이루어져 있기 때문?  

### 결측값 처리하기

위의 GBDT는 결측값을 하나의 feature로 사용 가능하다.  
이 결측값을 처리하는 방법은 아래와 같다.  
- 결측값을 해당 변수의 대푯값(중앙값, 평균값, 로그로 변환후 평균, 그룹화 후 그룹별 평균 등)으로 설정  
- 베이즈 평균  
###    $\bar{x} = {\sum_{i=1}^{n}{x_i} + Cm \over n + C}$    
  
    $\sum_{i=1}^{n}{x_i}$ =  기존 평균 계산을 위한 기존 데이터의 총 합  
    $Cm$ = m이라는 값을 가진 데이터가 C개 있다는 가정, 이때의 총 합  
    $n + C$ = 기존 데이터 n 개 가정 데이터 C개로 총 데이터 개수  
    $\bar x$ = 기존 데이터 n개와 m 값을 가진 데이터가 C개 있을 때의 평균  
  
  
### 다른 변수로부터 결측값 예측하기  
추가적인 모델 구축, 결측값을 test 데이터로, 결측값이 아닌 것을 train 데이터로 사용

## 수치형 변수 변환  

### 선형 변환  
이는 단순 사칙연산을 사용하여 변수 변환을 하므로 분포의 형태는 변하지 않는다.

#### 1. 표준화  
$x' = {x - \mu \over \sigma}$ 로 표준화  
1. train의 평균, 표준편차만 사용하여 test를 변환  
2. train, test 결합 후의 평균, 표준편차 사용하여 test 변환

#### 2. 최소-최대 스케일링  
$x' = {x - x_{min} \over x_{max} - x_{min}}$

### 비선형 변환  
이는 데이터의 분포 형태를 바꾼다.

#### 박스-칵스 변환, 여-존스 변환  
box-cox transform  
$x^{\lambda} = {x^{\lambda} - 1 \over \lambda} ~~~~~~~~~~~~~~~~~~~~~~~~ if~~ \lambda !=0$  
$~~~~ = logx  ~~~~~~~~~~~~~~~~~~~~~~~~ if~~ \lambda==0$  
  
Yeo-Johnson transform(x가 음수도 가질 때)  
$x^{\lambda} = {x^{\lambda} - 1 \over \lambda} ~~~~~~~~~~~~~~~~~~~~~~~~ if~~ \lambda !=0,x_i\ge 0$  
$~~~~ = logx  ~~~~~~~~~~~~~~~~~~~~~~~~ if~~ \lambda==0,x_i\ge 0$  
$~~~~ = {-[(-x+1)^{2-\lambda}-1] \over 2-\lambda}  ~~~~~~~~~~ if~~ \lambda!=2,x_i\le 0$  
$~~~~ = -log(-x+1) ~~~~~~~~~ if~~ \lambda==2,x_i\le 0$

In [None]:
from sklearn.preprocessing import StandardScaler,MinMaxScaler, PowerTransformer

scaler = StandardScaler()
scaler = MinMaxScaler()
pt = PowerTransformer(method='box-cox')
pt = PowerTransformer(method='yeo-johnson')

scaler.fit(train_x[num_cols])

train[num_cols] = scaler.transform(train_x[num_cols])
test[num_cols] = scaler.transform(train_x[num_cols])

### 클리핑  
상한, 하한을 설정

In [None]:
p01 = train_x[num_cols].quantile(0.01)
p99 = train_x[num_cols].quantile(0.99)

train_x[num_cols] = train_x[num_cols].clip(p01,p99,axis=1)
test_x[num_cols] = train_x[num_cols].clip(p01,p99,axis=1)

### 구간 분할  
구간 분할시 수치형 데이터는 범주형 데이터로 변환되어 one-hot encoding 가능해짐

In [None]:
x = [1,7,5,4,6,3]

binned = pd.cut(x,3,labels=False)

### 순위로 변환  
수치형 변수를 대소 관계에 따른 순위로 변환

In [None]:
x = [1,7,5,4,6,3]

rank = pd.Series(x).rank()
rank = np.argsort(np.argsort(x))

### RankGauss  
수치형 변수를 순위로 변환한 뒤 순서를 유지한 채 정규분포로 변환  
신경망에서 일반적인 표준화보다 좋은 성능을 냄

In [None]:
from sklearn.preprocessing import QuantileTransformer

# n_quantiles 순위 개수, output_distribution을 정규분포로
transformer = QuantileTransformer(n_quantiles=100, random_state=0, output_distribution='normal')

transformer.fit(train_x[num_cols])

train_x[num_cols] = transformer.transform(train_x[num_cols])
test_x[num_cols] = transformer.transform(test_x[num_cols])

## 범주형 변수 변환

### one-hot encoding  
범주형 변수의 레벨이 n개일 때 가변수를 해당 레벨 개수만큼 만들면 다중공선성이 생김.  
  
- pandas 에서는 get_dummies로 사용 가능  
- sklearn 에서는 sklearn.preprocessing.OneHotEncoder 에서 사용 가능  
    이 경우 sparse=True 사용하여 희소행렬 리턴, 메모리 절약가능

In [None]:
# pandas
all_x pd.concat([train_x,test_x])
all_x = pd.get_dummies(all_x, columns=cat_cols)

train_x = all_x.iloc[:train_x.shape[0],:].reset_index(drop=True)
test_x = all_x.iloc[train_x.shaple[0:],:].reset_index(drop=True)

# sklearn
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(sparse=False, categories='auto')
ohe.fit(train_x[cat_cols])

columns = [] # 컬럼 명 생성
for i, c in enumerate(cat_cols):
    columns += [f'{c}_{v}' for v in ohe.categories_[i]]
    
dummy_vals_train = pd.DataFrame(ohe.transform(train_x[cat_cols]), columns=columns)
dummy_vals_test = pd.DataFrame(ohe.transform(test_x[cat_cols]), columns=columns)

### label encoding  
one-hot encoding과는 다르게 대소 구분이 형성됨  
일반적인 tree 베이스 모델에 자주 사용

In [None]:
from sklearn.preprocesing import LabelEncoder

for c in cat_cols:
    le = LabelEncoder()
    le.fit(train_x[c])
    train_x[c] = le.transform(train_x[c])
    test_x[c] = le.transform(test_x[c])

### 특징 해싱(feature hashing)  
범주형 변수의 레벨 수가 많고, one-hot encoding시 생성되는 feature가많을 때, 해시함수를 이용  
이 경우 다른 feature간의 공통된 영역에 플래그가 표시가능함.  

In [None]:
from sklearn.feature_extraction import FeatureHasher

for  c in cat_cols:
    fh = FeatureHasher(n_features=5, input_type='string')
    
    hash_train = fh.transform(train_x[[c]].astype(str).values)
    hash_test = fh.transform(test_x[[c]].astype(str).values)
    
    hash_train = pd.DataFrame(hash_train.todense(), columns=[f'{c}_{i}' for i in range(5)])
    hash_test = pd.DataFrame(hash_test.todense(), columns=[f'{c}_{i}' for i in range(5)])

### 프리퀀시 인코딩(frequency encoding)  
각 레벨의 출현 횟수, 출현 빈도로 변수를 대체

In [None]:
for c in cat_cols:
    freq = train_x[c].value_counts()
    
    train_x[c] = train_x[c].map(freq)
    test_x[c] = test_x[c].map(freq)

### 타겟 인코딩(target encoding)  
목적 변수를 이용하여 범주형 변수를 수치형 변수로 변환  
target이란 a1이라는 feature에서 목적변수의 평균 등 있음.  
목적 변수의 데이터 정보를 누출할 우려 있음. 시계열에선 좋지 못함.  
  
전체 데이터에서 계산 시 정보 누출 가능성 있음. 그러니 k-fold 사용  

In [None]:
from sklearn.model_selection import KFold

# for문을 이용한 변수를 반복하여 타깃 인코딩 수행
for c in cat_cols:
    # 학습 데이터 전체에서 각 범주별 타깃 평균을 계산
    data_tmp = pd.DataFrame({c: train_x[c], 'target': train_y})
    target_mean = data_tmp.groupby(c)['target'].mean()

    # 테스트 데이터의 카테고리 변경
    test_x[c] = test_x[c].map(target_mean)

    # 학습 데이터 변환 후 값을 저장하는 배열을 준비
    tmp = np.repeat(np.nan, train_x.shape[0])

    # 학습 데이터 분할
    kf = KFold(n_splits=4, shuffle=True, random_state=72)
    for idx_1, idx_2 in kf.split(train_x):
        # 아웃 오브 폴드로 각 범주형 목적변수 평균 계산
        target_mean = data_tmp.iloc[idx_1].groupby(c)['target'].mean()
        # 변환 후의 값을 날짜 배열에 저장
        tmp[idx_2] = train_x[c].iloc[idx_2].map(target_mean)

    # 변환 후의 데이터로 원래의 변수를 변경
    train_x[c] = tmp

In [None]:
from sklearn.model_selection import KFold

# 교차 검증 폴드마다 타깃 인코딩 다시 적용
kf = KFold(n_splits=4, shuffle=True, random_state=71)
for i, (tr_idx, va_idx) in enumerate(kf.split(train_x)):

    # 학습 데이터에서 학습 데이터와 검증 데이터 구분
    tr_x, va_x = train_x.iloc[tr_idx].copy(), train_x.iloc[va_idx].copy()
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

    # 변수를 반복하여 타깃 인코딩 수행
    for c in cat_cols:
        # 학습 데이터 전체에서 각 범주별 타깃 평균을 계산
        data_tmp = pd.DataFrame({c: tr_x[c], 'target': tr_y})
        target_mean = data_tmp.groupby(c)['target'].mean()
        # 검증 데이터의 카테고리 치환
        va_x.loc[:, c] = va_x[c].map(target_mean)

        # 학습 데이터 변환 후 값을 저장하는 배열 준비
        tmp = np.repeat(np.nan, tr_x.shape[0])
        kf_encoding = KFold(n_splits=4, shuffle=True, random_state=72)
        for idx_1, idx_2 in kf_encoding.split(tr_x):
            # 아웃 오브 폴드에서 각 범주별 목적변수 평균 계산
            target_mean = data_tmp.iloc[idx_1].groupby(c)['target'].mean()
            # 변환 후 값을 날짜 배열에 저장
            tmp[idx_2] = tr_x[c].iloc[idx_2].map(target_mean)

        tr_x.loc[:, c] = tmp

In [None]:
# 교차 검증의 폴드를 정의
kf = KFold(n_splits=4, shuffle=True, random_state=71)

# 변수를 루프하여 타깃 인코딩 수행
for c in cat_cols:

    # 타깃을 추가
    data_tmp = pd.DataFrame({c: train_x[c], 'target': train_y})
    # 변환 후 값을 저장하는 배열을 준비
    tmp = np.repeat(np.nan, train_x.shape[0])

    # 학습 데이터에서 검증 데이터를 나누기
    for i, (tr_idx, va_idx) in enumerate(kf.split(train_x)):
        # 학습 데이터에 대해 각 범주별 목적변수 평균 계산
        target_mean = data_tmp.iloc[tr_idx].groupby(c)['target'].mean()
        # 검증 데이터에 대해 변환 후 값을 날짜 배열에 저장
        tmp[va_idx] = train_x[c].iloc[va_idx].map(target_mean)

    # 변환 후의 데이터로 원래의 변수를 변경
    train_x[c] = tmp

### 임베딩  
자연어 처리에서 단어나 범주형 변수와 같은 이산적 표현을 실수 벡터로 변환

### 날짜 및 시간변수변환  
테스트에 있는 연도 정보를 학습 데이터의 최신 연도 정보로 바꾸기  
기간을 한정하여 활용  
  
- 연도  
    특징에 포함 x 특징에 포함 시킬 시 테스트에는 최신 연도로 치환  
- 월  
    계절성을 파악 가능.  
    원-핫 인코딩으로도 표현(대소관계 제거를 위해)  
- 일  
    그대로 원-핫 인코딩 시 변수의 수가 많아짐.  
    특정 이벤트 있는 날인지만 가지게 하는 것이 좋음.  
- 연월  
    연 X 12 + 월  
- 연월일  
    연 X 10000 + 월 X 100 + 일