###  numpy.random.shuffle 기능을 이용한 DataGeneration class version 1
#### training data 와 test data 를 분리비율(seperation rate) 에 맞게 생성

In [1]:
import numpy as np

In [2]:
class DataGeneration:
    
    def __init__(self, name, file_path, seperation_rate):
        
        self.name = name
        
        self.file_path = file_path
        
        self.seperation_rate = seperation_rate
        
    # numpy.random.shuffle()  이용하여 training_data / test_data 생성
    def generate(self):
    
        # 데이터 불러오기, 파일이 없는 경우 exception 발생

        try:
            loaded_data = np.loadtxt(self.file_path, delimiter=',', dtype=np.float32)
            
        except Exception as err:
            print('[DataGeneration::generate()]  ', str(err))
            raise Exception(str(err))  #exception을 유저에게 던짐(클래스 내부에서 처리하지 않음)

        print("[DataGeneration]  loaded_data.shape = ", loaded_data.shape)
        
        
        # 분리비율에 맞게 테스트데이터로 분리
        total_data_num = len(loaded_data)
        test_data_num = int(len(loaded_data) * self.seperation_rate)
        #int 추가가 타입캐스트

        # numpy.random.shuffle 을 이용하여 랜덤하게 데이터 섞기
        np.random.shuffle(loaded_data)
        
        # test_data 는 0 : test_data_num
        
        test_data = loaded_data[ 0:test_data_num ]

        # training_data 는 test_data_num 부터 끝까지 
        training_data = loaded_data[ test_data_num: ]

        
        return training_data, test_data

#### DataGeneration ver1 테스트, 분리비율 30%

In [3]:
seperation_rate = 0.3

try:
    data_obj1 = DataGeneration('Diabetes', './(200309)diabetes.csv', seperation_rate)

    (generated_training_data, generated_test_data) = data_obj1.generate()
    
    print("generated_training_data.shape = ", generated_training_data.shape)
    print("generated_test_data.shape = ", generated_test_data.shape)

except Exception as err:
    print('Exception Occur !!')
    print(str(err))

[DataGeneration]  loaded_data.shape =  (759, 9)
generated_training_data.shape =  (532, 9)
generated_test_data.shape =  (227, 9)


#### DataGeneration ver1 테스트, 분리비율 50%

In [4]:
seperation_rate = 0.5

try:
    data_obj2 = DataGeneration('Diabetes', './(200309)diabetes.csv', seperation_rate)

    (generated_training_data, generated_test_data) = data_obj2.generate()
    
    print("generated_training_data.shape = ", generated_training_data.shape)
    print("generated_test_data.shape = ", generated_test_data.shape)

except Exception as err:
    print('Exception Occur !!')
    print(str(err))

[DataGeneration]  loaded_data.shape =  (759, 9)
generated_training_data.shape =  (380, 9)
generated_test_data.shape =  (379, 9)


In [None]:
random.shuffle을 사용하는 이유
오버피팅 방지
-최적의 값을 찾기위해 다양한 가짓수의 hyper prameter가 발생한다
부족한 데이터 보충

보내는 쪽에서는 데이터를 통으로 보내고 받는쪽은 데이터를 나눠서 분석