# 데이터 분할
- 모델을 올바르게 학습시키기 위해서는 데이터를 분할
    - 모든 데이터를 학습에 사용한 경우 일반화 성능 확인 불가
    - 데이터의 일부를 학습에서 제외해서 학습이 완료된 모델을 통해 평가를 진행
        - 현재 모델이 학습하지 않은 데이터에 대해 잘 예측할 수 있는지 확인

- 전체 데이터의 75%를 학습 데이터로 25%를 평가 데이터로 분할
    - 학습 데이터만 머신 러닝 모델의 학습에 사용
    - 평가 데이터를 이용하여 머신 러닝 모델의 성능을 평가 

```python
from sklearn.model_selection import train_test_split 
train_test_split(
	*arrays,             # 분리하고자하는 데이터
	test_size=0.25,      # 테스트 데이터 비율
	shuffle=True,        # 데이터 셔플 적용 유무
	stratify=False,      # 층화 분리 적용 유무
	random_state=None    # 시드값 
) 
```

In [1]:
# 분할에 사용할 데이터 생성
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
data

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [2]:
from sklearn.model_selection import train_test_split 
train_test_split(data)

[[6, 8, 5, 1, 4, 7, 3], [2, 9, 10]]

In [3]:
# 분할 결과 재현을 위한 시드 지정
train_test_split(data, random_state=0) # train / test 용 데이터셋으로 분할!(7.5:2.5인데 소수점은 버리기 때문에 7:3이 됨)

[[10, 2, 7, 8, 4, 1, 6], [3, 9, 5]]

In [3]:
# 테스트 데이터 비율 조정
train_test_split(data, test_size=0.4, random_state=0) # 6:4로 분할하고 싶으면 test_size 조절

[[2, 7, 8, 4, 1, 6], [3, 9, 5, 10]]

In [4]:
# 데이터 셔플 미적용(안섞고 분리만!)
train_test_split(data, test_size=0.4, shuffle=False, random_state=0)

[[1, 2, 3, 4, 5, 6], [7, 8, 9, 10]]

In [5]:
# 분할에 사용할 데이터 생성
X = [1, 2, 3, 4, 5]
Y = [True, False, True, False, True]

len(X), len(Y) # 데이터 개수가 일치해야함

(5, 5)

In [6]:
# 두개의 변수 분할
train_test_split(X, Y, random_state=0) # 동일한 index에 위치하는 것을 쌍으로 해서 split

[[2, 4, 5], [3, 1], [False, False, True], [True, True]]

In [12]:
# 분할 결과 저장
x_train, x_test, y_train, y_test = train_test_split(X, Y, random_state=0)

In [13]:
# 데이터 분할을 위한 데이터 불러오기
import pandas as pd
df = pd.read_csv('/mnt/elice/dataset/iris.csv')
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [14]:
# X(특성)과 Y(레이블)로 분할
X = df.iloc[:, :-1] # -1이 맨 마지막 열 -> Y니까 제외시키고 나머지를 X로 받은 것
Y = df.iloc[:, -1] # 전체행을 가져오되, 맨 마지막 열만 가져온다. ->Y
X.shape, Y.shape # 데이터 개수(150) 일치

((150, 4), (150,))

In [16]:
# 데이터 분할 및 분할 결과 확인
x_train, x_test, y_train, y_test = train_test_split(X, Y, random_state=0)
print('X Train Shape', x_train.shape)
print('X Test Shape', x_test.shape)
print('Y Train Shape', y_train.shape)
print('Y Test Shape', y_test.shape)

X Train Shape (112, 4)
X Test Shape (38, 4)
Y Train Shape (112,)
Y Test Shape (38,)


In [17]:
pd.value_counts(Y, normalize=True) # 분할 전 비율

0    0.333333
1    0.333333
2    0.333333
Name: target, dtype: float64

In [18]:
pd.value_counts(y_train, normalize=True) # 분할 후 비율을 보니 학습용 y의 범주는 2가 더 많음

2    0.366071
0    0.330357
1    0.303571
Name: target, dtype: float64

In [14]:
pd.value_counts(y_test, normalize=True) # 테스트용 y의 범주는 1이 더 많음
# 1이라는 값은 학습에는 가장 덜 쓰였는데 테스트할 때는 가장 많이 테스트되니까 지표에 오류가 발생할 수 있다.

1    0.421053
0    0.342105
2    0.236842
Name: target, dtype: float64

In [19]:
# 층화 분리 적용 (범주별 데이터를 최대한 비슷 비율로 분리)
x_train, x_test, y_train, y_test = train_test_split(X, Y, stratify=Y, random_state=0)

In [20]:
pd.value_counts(y_train, normalize=True) # 딱 맞게는 안되어도, 최대한 비슷하게 맞춘 것

2    0.339286
1    0.330357
0    0.330357
Name: target, dtype: float64

In [21]:
pd.value_counts(y_test, normalize=True)

0    0.342105
1    0.342105
2    0.315789
Name: target, dtype: float64

## 제출

제출을 위해 새로 불러온 `iris.csv` 데이터를 층화 분리를 적용하여 학습과 테스트 데이터로 분리한 이후, 학습 데이터의 라벨값(`y_train`)을 `result`에 저장하세요.
- 테스트 데이터의 size는 0.3으로 설정합니다.
- `random_state` 값은 반드시 `SEED`로 설정합니다.

In [26]:
df = pd.read_csv('/mnt/elice/dataset/iris.csv')

# SEED 값 바꾸면 제대로 채점되지 않을 수 있습니다.
SEED = 2023

X = df.iloc[:, :-1]
Y = df.iloc[:, -1]

x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3, stratify = Y, random_state = SEED)

# TODO: 층화 분리를 적용한 이후 학습데이터의 라벨을 저장하세요.
result = y_train

## 채점 수행

아래 코드는 채점 수행을 위한 코드입니다.

따라서 이를 수정했을시 **채점이 제대로 이루어지지 않습니다.**

**주의**: 채점 코드를 실행하기 전에 반드시 코드 파일을 한번 저장하시길 바랍니다.

In [27]:
import os
import numpy as np

assert isinstance(result, (pd.Series, np.ndarray, list)), \
    "'result' 변수에 저장된 라벨 데이터의 타입이 Series, numpy array, list 중 하나인지 확인하세요."

pd.value_counts(result, normalize=True).to_json('result.json')

os.system('elice_grade result.json cds_ai_exercise.ipynb')

send files ['result.json', 'cds_ai_exercise.ipynb'] for grade...
waiting result...
waiting result...
waiting result...
done!

Score: 100.000000
Duration: 2.655 seconds
=== Message ===
제출 완료되었습니다.


0