### 넘파이 random.shuffle 기능을 이용한 DataGeneration class
#### training data 와 test data 를 분리비율(seperation rate) 에 맞게 생성
#### 정규화 기능은 없음. 일반적인 정규화 기능은 ver2 에 구현됨

In [1]:
import numpy as np
import random

In [2]:
class DataGeneration:
    
    def __init__(self, name, file_path, seperation_rate):
        
        self.name = name
        
        self.file_path = file_path
        
        self.seperation_rate = seperation_rate
    
    # shuffle 기능을 이용하여 training_data / test_data 생성
    def generate(self):
    
        # 데이터 불러오기, 파일이 없는 경우 exception 발생

        try:
            loaded_data = np.loadtxt(self.file_path, delimiter=',', dtype=np.float32)
            
        except Exception as err:
            print('[DataGeneration::generate()]  ', str(err))
            raise Exception(str(err))

        print("[DataGeneration]  loaded_data.shape = ", loaded_data.shape)
        
        # 임시 저장 리스트
        training_data_list = []
        test_data_list = []

        # 분리비율에 맞게 테스트데이터로 분리
        total_data_num = len(loaded_data)
        test_data_num = int(len(loaded_data) * self.seperation_rate)

        print("[DataGeneration]  total_data_num = ", total_data_num, ", test_data_num = ", test_data_num)

        # 전체 데이터 인덱스를 가지고 있는 리스트 생성
        total_data_index_list = [ index for index in range(total_data_num) ]

        # random.shuffle 을 이용하여 인덱스 리스트 생성
        random.shuffle(total_data_index_list)  # 전체 인덱스가 랜덤하게 섞여진 리스트로 변형된다

        # test data 를 위한 인덱스는 total_data_index_list 로뷰터 앞에서 분리비율(seperation_rate)의 데이터 인덱스
        test_data_index_list = total_data_index_list[ 0:test_data_num ]

        print("[DataGeneration]  length of test_data_index_list = ", len(test_data_index_list))

        # training data 를 위한 인덱스는 total_data_index_list 에서 test data 인덱스를 제외한 나머지 부분
        training_data_index_list = total_data_index_list[ test_data_num: ]

        print("[DataGeneration]  length of training_data_index_list = ", len(training_data_index_list))

        # training data 구성
        for training_data_index in training_data_index_list:
    
            training_data_list.append(loaded_data[training_data_index])

        # test data 구성
        for test_data_index in test_data_index_list:
    
            test_data_list.append(loaded_data[test_data_index])

        # generate training data from training_data_list using np.arrya(...)
        training_data = np.array(training_data_list)

        # generate test data from test_data_list using np.arrya(...)
        test_data = np.array(test_data_list)

        # verification shape
        print("[DataGeneration]  training_data.shape = ", training_data.shape)
        print("[DataGeneration]  test_data.shape = ", test_data.shape)

        # save training & test data (.csv)
        training_data_save_path = './' + self.name + '_training_data.csv'
        test_data_save_path = './' + self.name + '_test_data.csv'
        
        # 저장공간이 없거나 파일 write 실패시 exception 발생
        try:
            np.savetxt(training_data_save_path, training_data, delimiter=',')
            np.savetxt(test_data_save_path, test_data, delimiter=',')
            
        except Exception as err:
            print('[DataGeneration::generate()]  ', str(err))
            raise Exception(str(err))
        
        return training_data, test_data

#### DataGeneration 테스트

In [4]:
seperation_rate = 0.3

data_obj = DataGeneration('Diabetes', './(191103)diabetes.csv', seperation_rate)

try:
    (generated_training_data, generated_test_data) = data_obj.generate()
    
    print("generated_training_data.shape = ", generated_training_data.shape)
    print("generated_test_data.shape = ", generated_test_data.shape)

except Exception as err:
    print('Exception Occur !!')
    print(str(err))

[DataGeneration]  loaded_data.shape =  (759, 9)
[DataGeneration]  total_data_num =  759 , test_data_num =  227
[DataGeneration]  length of test_data_index_list =  227
[DataGeneration]  length of training_data_index_list =  532
[DataGeneration]  training_data.shape =  (532, 9)
[DataGeneration]  test_data.shape =  (227, 9)
generated_training_data.shape =  (532, 9)
generated_test_data.shape =  (227, 9)


In [5]:
seperation_rate = 0.3

data_obj = DataGeneration('Diabetes', './(191103)Diabetes.csv', seperation_rate)

try:
    (generated_training_data, generated_test_data) = data_obj.generate()
    
    print("generated_training_data.shape = ", generated_training_data.shape)
    print("generated_test_data.shape = ", generated_test_data.shape)

except Exception as err:
    print('Exception Occur !!')
    print(str(err))

[DataGeneration::generate()]   ./(191103)Diabetes.csv not found.
Exception Occur !!
./(191103)Diabetes.csv not found.
