In [2]:
import random
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## 3-1 표본추출
### 단순랜덤추출법
- 각 샘플에 번호를 부여하여 임의의 n개를 추출, 샘플이 추출 될 확률은 동일

In [4]:
from sklearn.datasets import load_iris

data = load_iris()
iris_cols = list(data['feature_names']) + ['target']
iris = pd.DataFrame(np.c_[data['data'], data['target']], columns=[col.replace(" (cm)", '') for col in iris_cols])
iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0


In [8]:
print(iris.sample(n=3, replace=False))
print(iris.sample(frac=0.03))
print(iris.sample(n=3, axis=1).head(3))

    sepal length  sepal width  petal length  petal width  target
19           5.1          3.8           1.5          0.3     0.0
49           5.0          3.3           1.4          0.2     0.0
18           5.7          3.8           1.7          0.3     0.0
     sepal length  sepal width  petal length  petal width  target
31            5.4          3.4           1.5          0.4     0.0
34            4.9          3.1           1.5          0.2     0.0
80            5.5          2.4           3.8          1.1     1.0
132           6.4          2.8           5.6          2.2     2.0
   petal length  petal width  target
0           1.4          0.2     0.0
1           1.4          0.2     0.0
2           1.3          0.2     0.0


In [10]:
data_list = [1,2,3,4,5, 'a', 'b', 'c']
print("random.sample: ", random.sample(data_list, 4))
print("np.random.choice", np.random.choice(data_list, 4, replace=True))

random.sample:  [5, 1, 3, 'b']
np.random.choice ['a' '4' '4' 'c']


In [11]:
print("0~10 사이 정수 중 난수 3개 생성: ", np.random.randint(0,10,3))
print("0~1 사이 실수 2*2 배열로 생성: ", np.random.rand(2,2))

0~10 사이 정수 중 난수 3개 생성:  [9 1 9]
0~1 사이 실수 2*2 배열로 생성:  [[0.1553241  0.33852583]
 [0.58367196 0.62946181]]


### 계통추출법
- 번호를 부여한 샘플은 나열하고, 구간을 N/n으로 나눈다. 각 구간의 임의로 샘플을 선택하고 특정 인터벌 단위로 샘플 추출

In [12]:
data, n = iris, 8
N = len(data)
K = N//n
index = data[:K].sample(1).index

sys_df = pd.DataFrame()
while len(sys_df) < n:
    sys_df = sys_df.append(data.loc[index, :])
    index += K

print(f"N: {N}")
print(f"n: {n}")
print(f"K: {K}")
print(sys_df)

N: 150
n: 8
K: 18
     sepal length  sepal width  petal length  petal width  target
17            5.1          3.5           1.4          0.3     0.0
35            5.0          3.2           1.2          0.2     0.0
53            5.5          2.3           4.0          1.3     1.0
71            6.1          2.8           4.0          1.3     1.0
89            5.5          2.5           4.0          1.3     1.0
107           7.3          2.9           6.3          1.8     2.0
125           7.2          3.2           6.0          1.8     2.0
143           6.8          3.2           5.9          2.3     2.0


### 집락추출법
- 군집별로 랜덤추출법 수행
    - 지역표본추출, 다단계표본추출 : 군집 내 요소들은 상이하지만 군집과 군집은 비교적 유사
    - 층화추출법에서 층을 집락으로 대치
### 층화추출법
- 계층별로 랜덤추출법 수행 : 각 층 내 요소들은 유사하지만, 층과 층의 요소들은 상이
    - 비례층화추출법, 불비례층화추출법

In [13]:
# target을 층 혹은 집락이라고 가정
print(iris['target'].value_counts())

0.0    50
1.0    50
2.0    50
Name: target, dtype: int64


In [18]:
# 비례층화추출법 : 원본 데이터의 비율대로 추출
data, stratum, sampling_n = iris, 'target', 9

levels = data[stratum].unique()
total = data[stratum].value_counts().sum()
prop_val = data[stratum].value_counts()/total
n = prop_val * sampling_n

result = pd.DataFrame()
for level in levels:
    temp_df = data[data[stratum]==level].sample(int(n[level]))
    result = pd.concat([result, temp_df])
print(result)

     sepal length  sepal width  petal length  petal width  target
44            5.1          3.8           1.9          0.4     0.0
12            4.8          3.0           1.4          0.1     0.0
4             5.0          3.6           1.4          0.2     0.0
80            5.5          2.4           3.8          1.1     1.0
58            6.6          2.9           4.6          1.3     1.0
74            6.4          2.9           4.3          1.3     1.0
148           6.2          3.4           5.4          2.3     2.0
141           6.9          3.1           5.1          2.3     2.0
146           6.3          2.5           5.0          1.9     2.0


In [19]:
# 불비례층화추출법 : 임의로 정한 특정비율대로 샘플링
data, stratum, sampling_n, proportion = iris, 'target', 10, {0:0.2, 1:0.5, 2:0.3}

levels = list(proportion.keys())
prop_val = np.array(list(proportion.values()))
total = sum(prop_val)
n = prop_val * sampling_n

result = pd.DataFrame()
for level in levels:
    temp_df = data[data[stratum]==level].sample(int(n[level]))
    result = pd.concat([result, temp_df])
print(result)

     sepal length  sepal width  petal length  petal width  target
12            4.8          3.0           1.4          0.1     0.0
43            5.0          3.5           1.6          0.6     0.0
57            4.9          2.4           3.3          1.0     1.0
67            5.8          2.7           4.1          1.0     1.0
77            6.7          3.0           5.0          1.7     1.0
63            6.1          2.9           4.7          1.4     1.0
78            6.0          2.9           4.5          1.5     1.0
128           6.4          2.8           5.6          2.1     2.0
142           5.8          2.7           5.1          1.9     2.0
139           6.9          3.1           5.4          2.1     2.0
