단순 무작위 샘플링

In [None]:
import numpy as np
import pandas as pd

# 임의의 데이터 생성
data = pd.DataFrame({
    'id': range(1, 101),  # 1부터 100까지의 id
    'value': np.random.rand(100)  # 임의의 값
})

# 단순 무작위 샘플링으로 10개의 샘플 선택
sample_random = data.sample(n=10)
print(sample_random)


계통 샘플링

In [None]:
# 계통 샘플링을 위한 간격(k) 계산
k = len(data) // 10  # 예를 들어, 전체 데이터에서 10개의 샘플을 선택하고자 할 때의 간격

# 시작점을 무작위로 선택
start = np.random.randint(0, k)

# 계통 샘플링 실행
sample_systematic = data.iloc[start::k]
print(sample_systematic)


층화 샘플링

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit

# 'value' 컬럼의 값에 따라 데이터를 두 개의 층으로 나누는 것으로 가정
# 수행의 단순화를 위해 'value'가 중앙값 이상이면 1, 미만이면 0으로 층을 나눔
data['strata'] = np.where(data['value'] >= data['value'].median(), 1, 0)

# 층화 샘플링
sss = StratifiedShuffleSplit(n_splits=1, test_size=10, random_state=0)

for train_index, test_index in sss.split(data, data['strata']):
    sample_stratified = data.iloc[test_index]

print(sample_stratified)


군집 샘플링

In [4]:
import pandas as pd
import numpy as np

# 가상의 데이터 생성
np.random.seed(0)  # 재현 가능한 결과를 위한 시드 설정
data = pd.DataFrame({
    'id': range(1, 101),
    'value': np.random.rand(100),
    'cluster': np.random.choice(['A', 'B', 'C', 'D', 'E'], 100)  # 군집 A, B, C, D, E 중 하나를 무작위로 할당
})

# 군집별로 데이터 확인
print(data['cluster'].value_counts())

# 군집 선택: ex 무작위로 2개의 군집을 선택
selected_clusters = np.random.choice(['A', 'B', 'C', 'D', 'E'], 2, replace=False)
print("Selected Clusters:", selected_clusters)

# 선택된 군집의 데이터만 추출
sampled_data = data[data['cluster'].isin(selected_clusters)]
print(sampled_data)


D    27
A    27
B    17
C    15
E    14
Name: cluster, dtype: int64
Selected Clusters: ['B' 'C']
    id     value cluster
0    1  0.548814       C
2    3  0.602763       C
9   10  0.383442       C
10  11  0.791725       C
20  21  0.978618       B
25  26  0.639921       B
28  29  0.521848       B
30  31  0.264556       B
36  37  0.612096       B
39  40  0.681820       B
40  41  0.359508       C
43  44  0.060225       B
44  45  0.666767       B
49  50  0.363711       C
51  52  0.438602       C
59  60  0.244426       C
63  64  0.138183       C
66  67  0.820993       B
71  72  0.468651       B
72  73  0.976761       B
73  74  0.604846       B
75  76  0.039188       C
76  77  0.282807       C
79  80  0.118728       B
80  81  0.317983       C
82  83  0.064147       B
84  85  0.566601       C
85  86  0.265389       C
87  88  0.093941       B
92  93  0.131798       C
95  96  0.183191       B
96  97  0.586513       B
