# Dataset Split (데이터셋 분할)
- 주어진 데이터를 목적에 맞게 학습(training), 테스트(test), (필요 시)검증(validation)으로 분할하여 모델의 성능을 평가하고 일반화하기 위한 과정

## 직접 분할 기법

In [2]:
# 필요한 라이브러리 불러오기
import pandas as pd

# 샘플 데이터 생성
data = {
    'feature1': range(1, 101),  # feature1은 1부터 100까지의 숫자
    'feature2': range(101, 201),  # feature2는 101부터 200까지의 숫자
    'label': [1 if x % 2 == 0 else 0 for x in range(1, 101)]  # label은 짝수이면 1, 홀수이면 0
}
df = pd.DataFrame(data)  # 데이터프레임 생성

# 전체 데이터셋 크기 확인
print("전체 데이터셋 크기:", len(df))
df

전체 데이터셋 크기: 100


Unnamed: 0,feature1,feature2,label
0,1,101,0
1,2,102,1
2,3,103,0
3,4,104,1
4,5,105,0
...,...,...,...
95,96,196,1
96,97,197,0
97,98,198,1
98,99,199,0


In [14]:
# 전체 데이터셋에서 학습 데이터 비율 설정
train_size = int(0.6 * len(df))  # 학습 데이터 비율 (60%), len(df)은 행의 개수를 말함

# 학습 데이터 분할
train_data = df[:train_size]  # 학습 데이터로 분할

# 학습 데이터셋 크기 확인
print("학습 데이터셋 크기:", len(train_data))
# train_data 형태 확인하기
print("train_data:", train_data.tail()) # 0 ~ 59

학습 데이터셋 크기: 60
train_data:     feature1  feature2  label
55        56       156      1
56        57       157      0
57        58       158      1
58        59       159      0
59        60       160      1


In [15]:
# 전체 데이터셋에서 검증 데이터 비율 설정
validation_size = int(0.2 * len(df))  # 검증 데이터 비율 (20%)

# 검증 데이터 분할
validation_data = df[train_size:train_size + validation_size]  # 검증 데이터로 분할 (60 ~ 79행 까지)

# 검증 데이터셋 크기 확인
print("검증 데이터셋 크기:", len(validation_data))
print("validation_data:", validation_data.tail()) # 60 ~ 79

검증 데이터셋 크기: 20
validation_data:     feature1  feature2  label
75        76       176      1
76        77       177      0
77        78       178      1
78        79       179      0
79        80       180      1


In [16]:
# 테스트 데이터 분할
test_data = df[train_size + validation_size:]  # 테스트 데이터로 분할

# 테스트 데이터셋 크기 확인
print("테스트 데이터셋 크기:", len(test_data))
print("test_data:", test_data.tail()) # 80 ~ 99

테스트 데이터셋 크기: 20
test_data:     feature1  feature2  label
95        96       196      1
96        97       197      0
97        98       198      1
98        99       199      0
99       100       200      1


## 랜덤 분할 기법

In [18]:
# 필요한 라이브러리 불러오기
import pandas as pd

# 샘플 데이터 생성
data = {
    'feature1': range(1, 101),
    'feature2': range(101, 201),
    'label': [1 if x % 2 == 0 else 0 for x in range(1, 101)]
}
df = pd.DataFrame(data)

# 전체 데이터셋 크기 확인
print("전체 데이터셋 크기:", len(df))
print("data:", data)

전체 데이터셋 크기: 100
data: {'feature1': range(1, 101), 'feature2': range(101, 201), 'label': [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1]}


1. 학습 데이터 분할

전체 데이터셋의 60%를 학습 데이터로 분할합니다.

- `train_size`는 전체 데이터셋의 60%를 의미합니다.
- `df[:train_size]`는 데이터프레임의 처음 60%를 학습 데이터로 분할합니다.

In [21]:
# 전체 데이터셋에서 학습 데이터 비율 설정
train_size = int(0.6 * len(df))

# 학습 데이터 분할
train_data = df[:train_size]

# 학습 데이터셋 크기 확인
print("학습 데이터셋 크기:", len(train_data))
print("train_data:", train_data.tail())

학습 데이터셋 크기: 60
train_data:     feature1  feature2  label
55        56       156      1
56        57       157      0
57        58       158      1
58        59       159      0
59        60       160      1


2. 검증 데이터 분할

나머지 데이터의 20%를 검증 데이터로 분할합니다.

- `validation_size`는 전체 데이터셋의 20%를 의미합니다.
- `df[train_size:train_size + validation_size]`는 학습 데이터 이후의 20%를 검증 데이터로 분할합니다.

In [26]:
# 전체 데이터셋에서 검증 데이터 비율 설정
validation_size = int(0.2 * len(df))

# 검증 데이터 분할
validation_data = df[ train_size : train_size + validation_size ]

# 검증 데이터셋 크기 확인
print("검증 데이터셋 크기:", len(validation_data))
print("validation_data:", validation_data.tail())

검증 데이터셋 크기: 20
validation_data:     feature1  feature2  label
75        76       176      1
76        77       177      0
77        78       178      1
78        79       179      0
79        80       180      1


3. 테스트 데이터 분할

남은 데이터를 테스트 데이터로 분할합니다.
- 나머지 20%의 데이터는 테스트 데이터로 사용됩니다.
- `df[train_size + validation_size:]`는 학습 데이터와 검증 데이터 이후의 나머지 데이터를 테스트 데이터로 분할합니다.

In [28]:
# 테스트 데이터 분할
test_data = df[ train_size + validation_size : ]

# 테스트 데이터셋 크기 확인
print("테스트 데이터셋 크기:", len(test_data))
print("test_data:", test_data.tail())

테스트 데이터셋 크기: 20
test_data:     feature1  feature2  label
95        96       196      1
96        97       197      0
97        98       198      1
98        99       199      0
99       100       200      1


4. 랜덤 분할

데이터를 무작위로 섞어 학습, 검증, 테스트 데이터셋을 분할합니다.

- `train_test_split` 함수는 데이터를 무작위로 섞어 주어진 비율로 분할합니다.
- `train_test_split(df, test_size=0.4, random_state=42)`는 전체 데이터의 60%를 학습 데이터로, 40%를 임시 데이터(`temp_data`)로 분할합니다.
- `train_test_split(temp_data, test_size=0.5, random_state=42)`는 임시 데이터를 다시 검증 데이터와 테스트 데이터로 50:50 비율로 분할합니다.
- `random_state=42`는 무작위 분할을 재현 가능하게 하기 위한 시드 값입니다.

In [12]:
# 필요한 라이브러리 불러오기
from sklearn.model_selection import train_test_split

# 데이터셋을 학습, 검증, 테스트 세트로 랜덤 분할 (60:20:20 비율)
train_data, temp_data = train_test_split(df, test_size=0.4, random_state=42)
validation_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)

# 각 데이터셋 크기 확인
print("학습 데이터셋 크기:", len(train_data))
print("검증 데이터셋 크기:", len(validation_data))
print("테스트 데이터셋 크기:", len(test_data))

print("train_data:", train_data)
print("validation_data:", validation_data)
print("test_data:", test_data)

학습 데이터셋 크기: 60
검증 데이터셋 크기: 20
테스트 데이터셋 크기: 20
train_data:     feature1  feature2  label
49        50       150      1
34        35       135      0
7          8       108      1
95        96       196      1
27        28       128      1
19        20       120      1
81        82       182      1
25        26       126      1
62        63       163      0
13        14       114      1
24        25       125      0
3          4       104      1
17        18       118      1
38        39       139      0
8          9       109      0
78        79       179      0
6          7       107      0
64        65       165      0
36        37       137      0
89        90       190      1
56        57       157      0
99       100       200      1
54        55       155      0
43        44       144      1
50        51       151      0
67        68       168      1
46        47       147      0
68        69       169      0
61        62       162      1
97        98       198      1
79        80

# K-Fold 교차 검증 예제

1. 라이브러리 설치 및 불러오기

먼저 필요한 라이브러리를 설치하고 불러옵니다.

In [30]:
# Scikit-Learn 라이브러리는 일반적으로 코랩에 기본 설치되어 있습니다.
# 만약 설치되어 있지 않다면 아래 주석을 제거하고 실행하세요.
# !pip install scikit-learn

import numpy as np
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

2. 데이터 생성

간단한 샘플 데이터를 생성합니다.

In [31]:
# 샘플 데이터 생성
data = {
    'feature1': range(1, 101),  # 1부터 100까지의 숫자
    'feature2': range(101, 201),  # 101부터 200까지의 숫자
    'label': [1 if x % 2 == 0 else 0 for x in range(1, 101)]  # 짝수이면 1, 홀수이면 0
}
df = pd.DataFrame(data)  # 데이터프레임 생성

# 특성(features)와 라벨(label) 분리
X = df[['feature1', 'feature2']]
y = df['label']

print(X)
print('---')
print(y)

    feature1  feature2
0          1       101
1          2       102
2          3       103
3          4       104
4          5       105
..       ...       ...
95        96       196
96        97       197
97        98       198
98        99       199
99       100       200

[100 rows x 2 columns]
---
0     0
1     1
2     0
3     1
4     0
     ..
95    1
96    0
97    1
98    0
99    1
Name: label, Length: 100, dtype: int64


3. K-Fold 교차 검증 설정 및 수행

K-Fold 교차 검증을 설정하고 수행합니다.

In [42]:
# KFold 설정
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# 결과를 저장할 리스트
accuracy_scores = []

# 각 폴드에 대해 학습 및 평가
for i, (train_index, test_index) in enumerate(kf.split(X)):
    # 학습 데이터와 테스트 데이터 분할
    print(f'\nfold #{i} ')
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    print(f'train_idnex :\n {train_index}', len(train_index))
    print(f'test_idnex :\n {test_index}', len(test_index))

    # 간단한 모델: 예제에서는 feature1의 값이 짝수면 1, 홀수면 0으로 예측
    y_pred = [1 if x % 2 == 0 else 0 for x in X_test['feature1']]

    # 정확도 계산
    accuracy = accuracy_score(y_test, y_pred)
    accuracy_scores.append(accuracy)

# 각 폴드의 정확도 출력
for i, score in enumerate(accuracy_scores):
    print(f"폴드 {i+1}의 정확도: {score:.2f}")

# 평균 정확도 출력
print(f"평균 정확도: {np.mean(accuracy_scores):.2f}")


fold #0 
train_idnex :
 [ 1  2  3  5  6  7  8  9 11 13 14 15 16 17 19 20 21 23 24 25 26 27 28 29
 32 34 35 36 37 38 40 41 42 43 46 47 48 49 50 51 52 54 55 56 57 58 59 60
 61 62 63 64 65 66 67 68 69 71 72 74 75 78 79 81 82 84 85 86 87 88 89 91
 92 93 94 95 96 97 98 99] 80
test_idnex :
 [ 0  4 10 12 18 22 30 31 33 39 44 45 53 70 73 76 77 80 83 90] 20

fold #1 
train_idnex :
 [ 0  1  2  3  4  6  7  8 10 12 13 14 17 18 19 20 21 22 23 24 25 27 29 30
 31 32 33 34 36 37 38 39 41 43 44 45 46 48 49 50 51 52 53 54 56 57 58 59
 60 61 62 63 64 67 68 70 71 73 74 75 76 77 78 79 80 81 82 83 84 86 87 89
 90 91 92 94 95 97 98 99] 80
test_idnex :
 [ 5  9 11 15 16 26 28 35 40 42 47 55 65 66 69 72 85 88 93 96] 20

fold #2 
train_idnex :
 [ 0  1  2  4  5  9 10 11 12 14 15 16 18 20 21 22 23 26 28 29 30 31 32 33
 35 37 39 40 41 42 43 44 45 46 47 48 50 51 52 53 54 55 56 57 58 59 60 61
 63 65 66 67 68 69 70 71 72 73 74 75 76 77 79 80 82 83 84 85 86 87 88 90
 91 92 93 94 96 97 98 99] 80
test_idnex :
 [ 3  6  7