# 플랫폼 업로드를 쉽게하기 위한 로컬 개발 코드
- T3Q.ai(T3Q.cep + T3Q.dl): 빅데이터/인공지능 통합 플랫폼
- 플랫폼 업로드를 쉽게하기 위하여 로컬에서 아래의 코드(파일1)를 개발한다.
- 파일 1(파일명): 1_local_platform_image_classification.ipynb

### 전처리 객체 또는 학습모델 객체
- 전처리 객체나 학습모델 객체는 meta_data 폴더 아래에 저장한다.

### 데이터셋(학습 데이터/테스트 데이터)
- 학습과 테스트에 사용되는 데이터를 나누어 관리한다.
- 학습 데이터: dataset 폴더 아래에 저장하거나 dataset.zip 파일 형태로 저장한다.
- 테스트 데이터: test_dataset 폴더 아래에 저장하거나 test_dataset.zip 파일 형태로 저장한다.

### 로컬 개발 워크플로우(workflow)  
- 로컬 개발 워크플로우를 다음의 4단계로 분리한다.

1. 데이터셋 준비(Data Setup)
- 로컬 저장소에서 전처리 및 학습에 필요한 학습 데이터셋을 준비한다.

2. 데이터 전처리(Data Preprocessing)
- 데이터셋의 분석 및 정규화(Normalization)등의 전처리를 수행한다.
- 데이터를 모델 학습에 사용할 수 있도록 가공한다.
- 추론과정에서 필요한 경우, 데이터 전처리에 사용된 객체를 meta_data 폴더 아래에 저장한다.

3. 학습 모델 훈련(Train Model)
- 데이터를 훈련에 사용할 수 있도록 가공한 뒤에 학습 모델을 구성한다. 
- 학습 모델을 준비된 데이터셋으로 훈련시킨다.
- 정확도(Accuracy)나 손실(Loss)등 학습 모델의 성능을 검증한다.
- 학습 모델의 성능 검증 후, 학습 모델을 배포한다.
- 배포할 학습 모델을 meta_data 폴더 아래에 저장한다.

4. 추론(Inference)
- 저장된 전처리 객체나 학습 모델 객체를 준비한다.
- 추론에 필요한 테스트 데이터셋을 준비한다.
- 배포된 학습 모델을 통해 테스트 데이터에 대한 추론을 진행한다. 

# 인공지능 통합플랫폼(T3Q.ai) 프로세스를 이해하고 인공지능 쉽게 하기

In [None]:
# 파일명: {data}_{method}_preprocess.py

'''
from {data}_{method}_preprocess_sub import exec_process
'''
import logging

logging.basicConfig(level=logging.INFO)

# 학습 전 데이터 전처리
def process_for_train(pm):
    # pm : 플랫폼 사용에 필요한 객체 - 사용법은 exec_process에 있다.
    
    # 데이터 전처리 알고리즘 호출 - sub파일의 함수 사용
    exec_process(pm)
    
    # return : return값은 없으나 전처리 완료된 데이터를 반드시 pm.target_path에 저장하여
    #          학습 모델의 train함수의 tm.target_path로 불러와야 학습을 할 수 있다.
    
    
# 데이텨 변환시 메모리에 standby 시켜놓을 데이터 반환
def init_svc(im, rule):
    # im : 플랫폼 사용에 필요한 객체
    # rule : 전처리 규칙정보
    
    # im.meta_path : process_for_train의 pm.meta_path경로를 호출하여 학습때 사용한 전처리 모듈 및 메타 데이터를 불러온다.
    
    # return : dict형태로 반환하며 이는 transform의 params가 된다.
    # ex) init_svc(im, rule): return {'meta_path' : im.meta_path}
    #     transform(df, params, batch_id): meta_path = params['meta_path']
    return {}

# 추론 이전 데이터 변환
def transform(df, params, batch_id):
    # df => pd.DataFrame : 학습한 모델로 추론할 때 입력한 데이터
    # params => Dict : init_svc의 반환값
    # batch_id : 사용하지 않음
    
    # meta_path = params['meta_path'] : init_svc(im, rule)의 반환값중 'meta_path'를 불러온다.
    # rule = params['rule'] : 전처리 규칙 불러오기
    # use_cols = rule['source_column'] : 전처리 규칙중 사용한 컬럼명
    # inner_df = df.loc[:, use_cols]
    
    # return : df 형태가 적절하며 이는 학습 모델에서 inference 함수의 df가 된다.
    return df

In [None]:
# 파일명: {data}_{method}_preprocess_sub.py

def exec_process(pm):
    # pm : 플랫폼 사용에 필요한 객체
    
    # pm.load_data(use_cols) : 원본 데이터를 DataFrame의 형태로 로딩. use_cols를 이용하여 특정 컬럼들만 지정할 수 있음.
    # pm.save_data(df, index=True) : 전처리 완료된 데이터를 지정된 위치에 저장.
    # pm.get_ids() : id 목록 조회
    # pm.get_ids_by_class(label) : label값을 class로 갖는 id 목록 조회
    # pm.get_y(ids) : id 목록에 해당하는 label 값 조회

    # pm.rule : 룰 정보 (dictionary)
    # pm.y_column : label 컬럼명
    # pm.y_value : label 컬럼의 값목록
    # pm.id_column : id 컬럼명
    # pm.meta_path : 전처리 모듈 및 메타 데이터를 저장하기 위한 경로
    # pm.source_path : 데이터 원본 경로    
    # pm.target_path : 전처리 완료 데이터 경로
    # pm.module_path : 실제 전처리 물리 모듈 경로


In [None]:
# 파일명: {data}_{method}_train.py

'''
from {data}_{method}_train_sub import exec_train, exec_init_svc, exec_inference
'''
import logging

# 모델 학습
def train(tm):
    # tm : 플랫폼 사용에 필요한 객체
    
    # 학습 알고리즘 호출 - sub파일의 함수 사용
    exec_train(tm)


# 데이터 추론시 메모리에 standby 시켜놓을 데이터 반환
def init_svc(im):
    # im : 플랫폼 사용에 필요한 객체
    
    # 초기화 함수 호출 - sub파일의 함수 사용
    params = exec_init_svc(im)
    
    return { **params }


# 추론
def inference(df, params, batch_id):
    # df => pd.DataFrame : process.py에서 transform의 반환값
    # params => Dict : init_svc(im)의 반환값
    # batch_id : 사용하지 않음
    
    # 추론 함수 호출 - sub파일의 함수 사용
    result = exec_inference(df, params, batch_id)
    
    return { **result }


In [None]:
# 파일명: {data}_{method}_train_sub.py

import logging

def exec_train(tm):
    # tm : 플랫폼 사용에 필요한 객체
    
    # tm.features.get('y_value') : labels
    
    # tm.load_data_for_cnn() : cnn 데이터
    # tm.load_data_for_all() : 기타 데이터
    # ex) (train_id, train_x, train_y), (test_id, test_x, test_y) = tm.load_data_for_cnn()
    
    
    # tm.param_info["{param_name}"] : 학습 알고리즘에서 사용되는 파라미터 값으로, 플랫폼 내에서 정의됨
    #                                 학습 알고리즘 코드에 미리 정의해두어도 되지만 학습마다 파라미터를 달리하고싶을 때 용이함
    
    # tm.param_info["nn_type"] : NN 유형
    # tm.param_info["init_method"] : 초기화 방법
    # tm.param_info["opt_method"] : 최적화 방법
    # tm.param_info["learning_rate"] : Learning Rate
    # tm.param_info["dropout_ratio"] : Dropout Ratio
    # tm.param_info["random_seed"] : 랜덤 seed
    # tm.param_info["autosave_p"] : 자동저장 주기
    # tm.param_info["epoch"] : 학습수행횟수
    # tm.param_info["batch_size"] : 배치 사이즈
    
    # ex)
    # batch_size = int(tm.param_info['batch_size'])
    # epochs = int(tm.param_info['epoch'])
    
    
    # 학습 결과 표출 함수화
    '''
    plot_metrics(tm, history, model, X_test, Y_test)
    '''
    
    # tm.model_path : init_svc로 전달되는 경로로 im.model_path와 동일함
    
    # return : return값은 없으나 tm.model_path에 모델을 저장해야 추론에 모델을 사용할 수 있음
    # ex) model.save(os.path.join(tm.model_path, 'model.h5'))



def exec_init_svc(im):
    # im : 플랫폼 사용에 필요한 객체
    
    # im.features.get('y_value') : labels
    # im.param_info : params
    # im.nn_info : nn_info
    # im.model_path : train(tm)에서 tm.model_path와 동일한 경로를 호춯하여 학습된 모델 및 메타데이터를 불러온다.
    
    
    # return : dict형태로 반환하며 이는 inference함수의 params가 된다.
    # ex) model = load_model(os.path.join(im.model_path, 'model.h5'))
    #     return { 'model': model }
    
    return { 'model': model }



def exec_inference(df, params, batch_id):
    # df => pd.DataFrame : 학습한 모델로 추론할 때 입력한 데이터
    # params => Dict : init_svc의 반환값
    # batch_id : 사용하지 않음
    
    # model = params['model'] : init_svc(im)의 반환값중 'model'을 불러온다.

    # return : JSON형식으로 변환이 가능한 Dict로 반환되며
    #          실시간 추론 API의 반환값이 된다.
    # ex) return {'inference' : model.predict(df.iloc[0, 0])}
    return {'inference' : model.predict(df.iloc[0, 0])}


# 시각화
# 굳이 실행하지 않더라도 플랫폼에 오류는 없으나 학습결과를 확인하기 위해 필요
# 모델 성능 및 학습과정을 계산하고 저장하여 시각화
def plot_metrics(tm, history, model, x_test, y_test):
    from sklearn.metrics import confusion_matrix
    
    accuracy_list = history.history['accuracy']
    loss_list = history.history['loss']
    
    for step, (acc, loss) in enumerate(zip(accuracy_list, loss_list)):
        metric={}
        metric['accuracy'] = acc
        metric['loss'] = loss
        metric['step'] = step
        tm.save_stat_metrics(metric)

    predict_y = np.argmax(model.predict(x_test), axis = 1).tolist()
    actual_y = np.argmax(y_test, axis = 1).tolist()
    
    eval_results={}
    eval_results['predict_y'] = predict_y
    eval_results['actual_y'] = actual_y
    eval_results['accuracy'] = history.history['val_accuracy'][-1]
    eval_results['loss'] = history.history['val_loss'][-1]

    # calculate_confusion_matrix(eval_results)
    eval_results['confusion_matrix'] = confusion_matrix(actual_y, predict_y).tolist()
    tm.save_result_metrics(eval_results)
    logging.info('[user log] accuracy and loss curve plot for platform')
    

In [None]:
# PM 클래스: pm 객체
class PM:
    def __init__(self):
        self.source_path = './'
        self.target_path = './meta_data'

# TM 클래스: tm 객체
class TM:
    param_info = {}
    def __init__(self):
        self.train_data_path = './meta_data'
        self.model_path = './meta_data'
        # 사용자 param 사용시 입력
        self.param_info['batch_size'] = 10
        self.param_info['epoch'] = 20

# IM 클래스: im 객체
class IM:
    def __init__(self):
        self.model_path = './meta_data'


# pm 객체
pm = PM()
print('pm.source_path:', pm.source_path)
print('pm.target_path: ', pm.target_path)

# tm 객체
tm = TM()
print('tm.train_data_path: ', tm.train_data_path)
print('tm.model_path: ', tm.model_path)
print('tm.param_info[\'batch_size\']: ', tm.param_info['batch_size'])
print('tm.param_info[\'epoch\']: ', tm.param_info['epoch'])

# im 객체
im = IM()
print('im.model_path: ', im.model_path)

# inferecne(df, params, batch_id) 함수 입력
params = {}
batch_id = 0

import io
import pandas as pd

# base64 encoded image
# jpg파일을 base64 format으로 encoding한 데이터입니다.
data = [['iVBORw0KGgoAAAANSUhEUgAAABwAAAAcCAIAAAD9b0jDAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAADsMAAA7DAcdvqGQAAACySURBVEhL7ZLRDoAgCEWt//9nc8EIEepStvXQeWkyPEKw1FrLbFb+TuWXzichXXb4cAokJR0tH+JFK21G8V6CSqlApMxGelBIsVBHeOOEzZYGdRzpussfL7eIazHPa0wrx0GMdBSiuMbkdINyb5og0gRL3dTbcPtNOpYZveQ2pA1n0hTakF5+hA9Lzd87pNFYLhkvsvT2lMhorndluxkRUuCYbzcp9ROi55+up8sLK1XKBj1wbx3DelAOAAAAAElFTkSuQmCC']]

df = pd.DataFrame(data)
print('df: ', df)
print('df.dtypes:', df.dtypes)
df.columns

# 플랫폼 내부 수행 순서

In [None]:
process_for_train(pm)

In [None]:
train(tm)

In [None]:
# params = init_svc(im, rule)

In [None]:
transform(df, params, batch_id)

In [None]:
params = init_svc(im)

In [None]:
inference(df, params, batch_id)