# Feature Engineering 예제

## 신용카드를 소지한 고객 데이터: 17개 변수로 구성 
예: 구매액, 현금서비스, 사용한도금액, 최소결제금액, 완납비율, 보유기간 등

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
sns.__version__  # '!pip install seaborn -- upgrade' 수행

In [None]:
df = pd.read_csv("creditcard.csv")
df

In [None]:
df.info()

In [None]:
df.drop('CUST_ID', axis=1, inplace=True)
df

## Feature transformation

#### 결측치 확인 및 처리

In [None]:
df.isnull().sum()

In [None]:
plt.subplots(figsize=(15,10))
sns.boxplot(data=df, width= 0.5, fliersize=2)
plt.show()

In [None]:
df = df.fillna(df.median())

#### 데이터 탐색

In [None]:
df.describe()

In [None]:
xvar=df.columns
plt.figure(figsize=(25,30))
for i in range(0,17):
    plt.subplot(6,3,i+1)
    sns.kdeplot(data=df, x=xvar[i])
plt.show()

#### 우측 치우침이 심한 변수가 많음
#### 로그 변환을 수행 (0에는 로그를 취할 수 없으므로, 1을 더한 후 로그변환)

In [None]:
df1 = df.copy()
xvarlog = ['BALANCE', 'PURCHASES','ONEOFF_PURCHASES', 'INSTALLMENTS_PURCHASES', 'CASH_ADVANCE',     
       'CASH_ADVANCE_TRX', 'PURCHASES_TRX', 'CREDIT_LIMIT', 'PAYMENTS','MINIMUM_PAYMENTS']
df1[xvarlog] = np.log(1+df1[xvarlog])

In [None]:
df1.describe()

In [None]:
plt.figure(figsize=(25,35))
for i in range(0,17):
    plt.subplot(6,3,i+1)
    sns.kdeplot(data=df1, x=xvar[i])
plt.show()

In [None]:
plt.subplots(figsize=(15,10))
sns.boxplot(data=df1, width= 0.5, fliersize=2)
plt.show()

## 비지도학습 feature selection
#### 상관관계 강한 변수들 확인하여 필요하면 제거

In [None]:
corr = df1.corr()
corr[corr > 0.85]

In [None]:
xvar_drop = ['PURCHASES','PURCHASES_INSTALLMENTS_FREQUENCY','CASH_ADVANCE_TRX','PURCHASES_FREQUENCY']
df2 = df1.drop(xvar_drop, axis=1)
xvar2 = df2.columns

#### df2 는 최종 데이터, xvar2는 최종 변수명

In [None]:
corr = df2.corr()
corr[corr > 0.85]

In [None]:
plt.figure(figsize=(20,20))
sns.heatmap(df2.corr(),cmap='coolwarm',annot=True)
plt.show()