# 표본추출

In [2]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_iris
data = load_iris()
iris_cols = list(data.feature_names) + ['target']
iris = pd.DataFrame(np.c_[data.data, data.target], columns=[col.replace(" (cm)", "") for col in iris_cols])

iris.head(3)

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0


### 단순 랜덤 추출법

In [3]:
# random 라이브러리를 활용한 비복원 추출
import random
data_list = [1,2,3,4,5, 'a', 'b', 'c']
random.sample(data_list, 4)

# Numpy를 활용한 복원 추출
np.random.choice(data_list, 4, replace=True)

# Pandas를 활용한 비복원 추출 - 개수 지정 방식
iris.sample(n=3, replace=False)

# Pandas를 활용한 비복원 추출 - 비율 지정 방식
iris.sample(frac=0.3)

# Pandas를 활용한 비복원 추출 - 특정 열에 가중치 적용
iris.sample(frac=0.3, weights='sepal length')

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
85,6.0,3.4,4.5,1.6,1.0
110,6.5,3.2,5.1,2.0,2.0
148,6.2,3.4,5.4,2.3,2.0
139,6.9,3.1,5.4,2.1,2.0
53,5.5,2.3,4.0,1.3,1.0
76,6.8,2.8,4.8,1.4,1.0
94,5.6,2.7,4.2,1.3,1.0
55,5.7,2.8,4.5,1.3,1.0
27,5.2,3.5,1.5,0.2,0.0
104,6.5,3.0,5.8,2.2,2.0


### 계통 추출법
- 샘플에 번호를 부여한 후, 일정 간격의 번호에 해당하는 데이터를 추출
- 30개의 표본집단에서 5개의 샘플 추출 시 30/5, 6개의 구간으로 나누고, 각 구간의 일정 순번의 데이터 추출

In [4]:
#모집단 데이터프레임과 추출할 샘플 수 전달
def sys_sampling(data, n):
    N = len(data)
    K = N//N
    # 첫구간에서 임의의 샘플 1개 선택
    index = data[:K].sample(1).index
    # 각 구간 내 index 위치의 표본을 샘플링
    intoin = index-0
    sys_df = pd.DataFrame()
    while len(sys_df)< n:
        sys_df = sys_df.append(data.loc[index, :])
        index += K
    return sys_df

print(sys_sampling(iris, 8))

   sepal length  sepal width  petal length  petal width  target
0           5.1          3.5           1.4          0.2     0.0
1           4.9          3.0           1.4          0.2     0.0
2           4.7          3.2           1.3          0.2     0.0
3           4.6          3.1           1.5          0.2     0.0
4           5.0          3.6           1.4          0.2     0.0
5           5.4          3.9           1.7          0.4     0.0
6           4.6          3.4           1.4          0.3     0.0
7           5.0          3.4           1.5          0.2     0.0


  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])


### 집락 추출법

### 층화 추출법

# 데이터 분할

# 교차 검증