# 표본 추출

## 필요 라이브러리 import

In [2]:
import pandas as pd
import numpy as np

## 데이터셋 생성

In [5]:
X_value = np.arange(40).reshape(20, 2)
y_value = np.arange(20)

sample_df = pd.DataFrame(np.column_stack((X_value, y_value)), columns=['X_1', 'X_2', 'result'])

# 생성된 데이터 확인
print(sample_df.shape)

(20, 3)


## 표본추출
### 단순확률표본추출
- python pandas 모듈의 DataFrame.sample() 메소드 이용

In [7]:
# 5개의 랜덤표본추출
sample_df.sample(n=5, random_state=1001)

Unnamed: 0,X_1,X_2,result
1,2,3,1
15,30,31,15
0,0,1,0
2,4,5,2
18,36,37,18


In [8]:
# 특정 비율만큼 추출
sample_df.sample(frac=0.5, random_state=1001)

Unnamed: 0,X_1,X_2,result
1,2,3,1
15,30,31,15
0,0,1,0
2,4,5,2
18,36,37,18
7,14,15,7
10,20,21,10
6,12,13,6
19,38,39,19
4,8,9,4


In [10]:
# 복원 무작위 표본 추출
rep_df = sample_df.sample(frac=0.2, random_state=1001)
rep_df

Unnamed: 0,X_1,X_2,result
1,2,3,1
15,30,31,15
0,0,1,0
2,4,5,2


In [11]:
# replace = True : 복원 추출
# rep_df 4개 샘플을 복원추출로 10개로 만들기
rep_df.sample(n=10, random_state=1001, replace=True)

Unnamed: 0,X_1,X_2,result
15,30,31,15
15,30,31,15
15,30,31,15
0,0,1,0
0,0,1,0
2,4,5,2
1,2,3,1
1,2,3,1
0,0,1,0
2,4,5,2


In [15]:
## Dataframe 내의 특정 컬럼의 값을 기준으로 가중치를 부여하여 무작위 표본 추출
# weights : 가중치 반영할 필드값
sample_df.sample(n=5, weights='result')

Unnamed: 0,X_1,X_2,result
13,26,27,13
2,4,5,2
14,28,29,14
7,14,15,7
12,24,25,12


### 계통표본추출
- sysmetic_sampling 함수 정의. 필요 샘플 수를 입력받아 간격을 구하여 샘플 추출

In [16]:
# 계통표본추출 함수 정의
def sysmetic_sampling(data, n):
    count = len(data)   # 모집단 수
    sample_count = count // n
    index = data[:sample_count].sample(1).index
    intoin = index - 0   # 샘플 간 간격
    sys_df = pd.DataFrame()
    while len(sys_df) < n:
        sys_df = sys_df.append(data.loc[index, :])
        index += sample_count
    return (sys_df)

In [24]:
# 구간 내 필요 샘플 수로 간격 정의
# 함수 호출
sysmetic_sampling(sample_df, 5)

import warnings
warnings.filterwarnings(action='ignore', category='FutureWarning')

  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])
  sys_df = sys_df.append(data.loc[index, :])


AssertionError: category must be a class

In [22]:
warnings.filterwarnings?

[1;31mSignature:[0m
[0m    [0maction[0m[1;33m,[0m[1;33m
[0m    [0mmessage[0m[1;33m=[0m[1;34m''[0m[1;33m,[0m[1;33m
[0m    [0mmodule[0m[1;33m=[0m[1;34m''[0m[1;33m,[0m[1;33m
[0m    [0mlineno[0m[1;33m=[0m[1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mappend[0m[1;33m=[0m[1;32mFalse[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m

'action' -- one of "error", "ignore", "always", "default", "module",
            or "once"
'module' -- a regex that the module name must match
'append' -- if true, append to the list of filters
[1;31mType:[0m      function
