In [9]:
import numpy as np
import tensorflow as tf
import pandas as pd
import pickle
import sys
import datetime as dt
import ca_util as ca
from sklearn import preprocessing

In [10]:
# 파라미터값을 설정합니다.(conf 파일 적용 예정)
output_dir = './output/'
data_dir = './data/'
seed = 0

parameter_id = 'default'
datafile = 'dataset_all.csv'
resp_success = ['지속(정책)', '지속사용(고객혜택제공)', '지속(혜택)']

# 서비스 위해 학습 환경 저장 합니다.
preprocess_object = {}       # 학습 환경 전체를 저장합니다.
preprocess_del_col = []      # 학습 시 삭제한 컬럼 목록 저장합니다.




In [11]:
dataset = pd.read_csv("dataset/cam_dataset_all.csv", delimiter=",", encoding='UTF8')

In [12]:

def resp_func (resp):
    if resp in resp_success:
        return 'Y'
    else:
        return 'N'
    

In [13]:
dataset['resp'] = dataset['반응4'].map(resp_func)



In [14]:
for col in dataset.columns:
    # '_ID' 항목 삭제 합니다.
    if col.upper().endswith('ID') or col.upper().endswith('_ID.1'):
        del dataset[col]
        preprocess_del_col.append(col)
    # '_DATE' 항목 삭제 합니다.
    elif col.upper().endswith('일자') or col.upper().endswith('_DATE') or col.upper().endswith('_DATE.1') or col.upper().endswith('_DT.1'):
        del dataset[col]
        preprocess_del_col.append(col)
    # 범주가 1 이하 항목 삭제 합니다.
    elif dataset[col].value_counts().shape[0] <=1:
        del dataset[col]
        preprocess_del_col.append(col)
    # 범주범위가 특정 % 이상 항목 삭제 합니다.
    elif dataset[col].value_counts().shape[0]/dataset.shape[0] > 0.50:
        del dataset[col]
        preprocess_del_col.append(col)
    # Others 항목 처리 합니다.
    else:
    	# 데이터 중 99999 -> 0 변환 합니다.
    	dataset[col] = dataset[col].replace(99999,0)
    	# 데이터 중 999 -> 0 변환 합니다.
    	dataset[col] = dataset[col].replace(999,0)

In [15]:
# 추가 삭제컬럼 입니다.
del_list = ['고객번호','반응1','반응2','반응3','반응4']
for del_col in del_list:
    try:
        del dataset[del_col]
        preprocess_del_col.append(del_col)
    except Exception as e:
        print('Deleting Exception :',e)

# 예외 처리 합니다.
#dataset['AGE_ITG_CD'] = dataset['AGE_ITG_CD'].astype(str)

# 삭제 항목 학습 환경에 저장합니다.
preprocess_object['del_col'] = preprocess_del_col

# 데이터중 null -> 0 처리 합니다.
dataset = dataset.fillna(0)

# 훈련/테스트 데이터 분리 후 전체/훈련/테스트 데이터 저장 합니다.
train_dataset = dataset.sample(frac=0.8, random_state=seed)
test_dataset = dataset.drop(train_dataset.index)

In [17]:
# 데이터 저장합니다.
dataset.to_csv('./output/preprocess_dataset_all.csv', mode='w', encoding='utf-8', header=1, index=0)
train_dataset.to_csv('./output/train_dataset.csv', mode='w', encoding='utf-8', header=1, index=0)
test_dataset.to_csv('./output/test_dataset.csv', mode='w', encoding='utf-8', header=1, index=0)

# 연속형/이산형 데이터 분리 합니다.
number_df = dataset.select_dtypes(include=['int64','float64'])
object_df = dataset.select_dtypes(include=['object'])

# 연속형 데이터 표준화 합니다.
scaler = preprocessing.StandardScaler()
scaler.fit(number_df)

# scaler 학습 환경에 저장 합니다.
preprocess_object['scaler'] = scaler

# 이산형 데이터 OneHot Encoding 합니다.
ca.log_print('OneHot Encoding 처리 합니다.')
categorical = list(object_df.columns)
for cat in categorical:
    oh_encoder = {}

    # LabelEncoder 사용 합니다.
    le = preprocessing.LabelEncoder()       # LabelEncoder 사용을 위해 선언합니다.
    le.fit(dataset[cat].astype(str))        # 범주형 카테고리 정의 합니다.
    cat_arr = le.transform(dataset[cat])    # 범주형 카테고리 숫자로 변환 합니다.

    # 범주형(숫자변환) OneHot Encoder 사용 합니다.
    ohe = preprocessing.OneHotEncoder(categories='auto')     # OneHotEncoder 사용을 위해 선언합니다.
    ohe.fit(cat_arr.reshape(-1,1))

    # 학습과 예측(서비스) 사용위하 le & ohe Object로 저장합니다.
    oh_encoder['LabelEncoder'] = le
    oh_encoder['OneHotEncoder'] = ohe

    # 항목별 OneHot 정보 저장합니다.
    preprocess_object[cat] = oh_encoder

    # le & ohe 삭제 합니다
    del ohe
    del le

# 데이터 전처리 환경 파일(pickle)로 저장 합니다.
ca.log_print('전처리 환경 저장 합니다.')
with open('./output/preprocess_object.pickle', 'wb') as f:
    pickle.dump(preprocess_object, f, pickle.HIGHEST_PROTOCOL)



--------------------------------------------------
OneHot Encoding 처리 합니다.
--------------------------------------------------
--------------------------------------------------
전처리 환경 저장 합니다.
--------------------------------------------------
