In [2]:
# 랜덤 데이터 분할
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# 보스턴 주택 가격 데이터셋 로드
bc = load_breast_cancer()
X, y = bc.data, bc.target

# 랜덤 데이터 분할
X_train_rand, X_test_rand, y_train_rand, y_test_rand = train_test_split(X, y, test_size=0.2, random_state=42)

# 각 분할된 데이터셋의 크기 확인
print("Random Split:")
print("Train set size:", X_train_rand.shape[0])
print("Test set size:", X_test_rand.shape[0])


Random Split:
Train set size: 455
Test set size: 114


In [3]:
# 계층적 데이터 분할
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import StratifiedShuffleSplit

# 유방암 데이터셋 로드
cancer = load_breast_cancer()
X, y = cancer.data, cancer.target

# 계층적 데이터 분할 (여기서는 타겟 변수를 기준으로 계층적 분할을 수행합니다)
stratified_split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in stratified_split.split(X, y):
    X_train_strat, X_test_strat = X[train_index], X[test_index]
    y_train_strat, y_test_strat = y[train_index], y[test_index]

# 각 분할된 데이터셋의 크기 확인
print("\nStratified Split:")
print("Train set size:", X_train_strat.shape[0])
print("Test set size:", X_test_strat.shape[0])



Stratified Split:
Train set size: 455
Test set size: 114


In [8]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import StratifiedShuffleSplit

# 유방암 데이터셋 로드
cancer = load_breast_cancer()
X, y = cancer.data, cancer.target

# 계층적 데이터 분할 (타겟 변수를 기준으로 계층적 분할)
stratified_split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)

for train_index, test_index in stratified_split.split(X, y):
    X_train_strat, X_test_strat = X[train_index], X[test_index]
    y_train_strat, y_test_strat = y[train_index], y[test_index]

# 분할된 데이터셋의 클래스 비율 확인
train_malignant_ratio = sum(y_train_strat == 0) / len(y_train_strat)
test_malignant_ratio = sum(y_test_strat == 0) / len(y_test_strat)

print("Train set malignant ratio:", train_malignant_ratio)
print("Test set malignant ratio:", test_malignant_ratio)


Train set malignant ratio: 0.37362637362637363
Test set malignant ratio: 0.3684210526315789


In [7]:
#시계열 데이터 분할
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import TimeSeriesSplit

# 유방암 데이터셋 로드
cancer = load_breast_cancer()
X, y = cancer.data, cancer.target

# 시계열 데이터 분할 (여기서는 시간에 따라 데이터를 분할합니다)
time_split = TimeSeriesSplit(n_splits=5)
for train_index, test_index in time_split.split(X):
    X_train_time, X_test_time = X[train_index], X[test_index]
    y_train_time, y_test_time = y[train_index], y[test_index]

# 각 분할된 데이터셋의 크기 확인
print("\nTime Series Split:")
print("Train set size:", X_train_time.shape[0])
print("Test set size:", X_test_time.shape[0])



Time Series Split:
Train set size: 475
Test set size: 94
