# 변수 변환

## 1. 필요 라이브러리 Import 

In [1]:
import pandas as pd # pandas package
import numpy as np  # numpy package 

## 2. 데이터 셋 생성 

In [53]:
# np.arage : 특정 수열 생성 
X_value = np.arange(40).reshape(20, 2)
y_value = np.arange(20)

# 검증하기 위한 데이터 프레임 생성 
sample_df = pd.DataFrame(np.column_stack((X_value, y_value)), columns=['X_1','X_2', 'result'])

# 생성된 데이터 확인 
print(sample_df.shape)

sample_df.head()

(20, 3)


Unnamed: 0,X_1,X_2,result
0,0,1,0
1,2,3,1
2,4,5,2
3,6,7,3
4,8,9,4


In [54]:
# 변수의 기술통계 요약 정보 확인 
sample_df.describe()

Unnamed: 0,X_1,X_2,result
count,20.0,20.0,20.0
mean,19.0,20.0,9.5
std,11.83216,11.83216,5.91608
min,0.0,1.0,0.0
25%,9.5,10.5,4.75
50%,19.0,20.0,9.5
75%,28.5,29.5,14.25
max,38.0,39.0,19.0


## 3. 표본 추출
### 1) 단순확률표본추출(Simple random sampling)
#### -  Python pandas 모듈의 DataFrame.sample() 메소드 이용 

In [55]:
## 랜덤표본추출의 다양한 방법들 

# n: 표본 추출 갯수, 
# random_state: 난수 발생 초기 값(재현 위해 사용)
sample_df.sample(n=5, random_state=1001)

Unnamed: 0,X_1,X_2,result
1,2,3,1
15,30,31,15
0,0,1,0
2,4,5,2
18,36,37,18


In [56]:
# DataFrame으로 부터 특정 비율만큼 표본 추출
# frac : 추출할 표본 비율 
sample_df.sample(frac=0.5, random_state=1001)

Unnamed: 0,X_1,X_2,result
1,2,3,1
15,30,31,15
0,0,1,0
2,4,5,2
18,36,37,18
7,14,15,7
10,20,21,10
6,12,13,6
19,38,39,19
4,8,9,4


In [57]:
# DataFrame으로 부터 복원 무작위 표본 추출

rep_df = sample_df.sample(frac=0.2, random_state=1001) # 샘플 개수 4개만 가져옴 

In [58]:
rep_df.head()

Unnamed: 0,X_1,X_2,result
1,2,3,1
15,30,31,15
0,0,1,0
2,4,5,2


In [59]:
# replace = True : 복원 추출 
# rep_df 4개 샘플을 복원 추출로 10개로 만들기 
rep_df.sample(n=10, replace=True, random_state=1001) 

Unnamed: 0,X_1,X_2,result
15,30,31,15
15,30,31,15
15,30,31,15
0,0,1,0
0,0,1,0
2,4,5,2
1,2,3,1
1,2,3,1
0,0,1,0
2,4,5,2


In [60]:
## DataFrame 내의 특정 칼럼의 값을 기준으로 가중치를 부여하여 무작위 표본 추출
# weights : 가중치 반영할 필드 값 
sample_df.sample(n=5, weights = 'result')

Unnamed: 0,X_1,X_2,result
10,20,21,10
9,18,19,9
14,28,29,14
19,38,39,19
18,36,37,18


### 2) 계통표본추출(Systematic sampling) 
#### sysmetic_sampling 함수 정의 
#### - 필요 샘플 수를 입력 받아 간격을 구하여 샘플 추출 

In [61]:
# 계통표본추출 함수 정의 
def sysmetic_sampling(data, n) : # 모집단 데이터 프레임과 추출할 샘플 수 
    count = len(data) # 모집단 수 
    sample_count = count // n # 구간 내 필요 샘플 수 
    index = data[:sample_count].sample(1).index 
    intoin = index - 0 # 샘플 간 간격 
    sys_df = pd.DataFrame()
    while len(sys_df) < n: 
        sys_df = sys_df.append(data.loc[index,:])
        index += sample_count
    return(sys_df)

In [62]:
# 구간 내 필요 샘플 수로 간격 정의 
# 함수 호출 
sysmetic_sampling(sample_df,5)

Unnamed: 0,X_1,X_2,result
3,6,7,3
7,14,15,7
11,22,23,11
15,30,31,15
19,38,39,19


### 3) 층화확률표본추출(Stratified random sampling)
#### - 모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할, 각 층별로 단순확률표본추출법을 적용시켜 표본을 추출하는 방법  
#### - Scikit Learn의 StratifiedShuffleSplit( n_splits : 분할 반복 횟수,  test_size : 테스트 샛 샘플 비율) 
#### -각 층의 비율을 고려해 무작위로 train/test set을 분할하는 인덱스를 반환(비례층화추출법에 해당)

In [63]:
# 패키지 로드 및 설정 
from sklearn.model_selection import StratifiedShuffleSplit

splitfi = StratifiedShuffleSplit(n_splits=1, test_size=0.3, random_state=1001)

In [64]:
# 현재 데이터 확인 
sample_df.head(3)

# group 값 없음 

Unnamed: 0,X_1,X_2,result
0,0,1,0
1,2,3,1
2,4,5,2


In [65]:
# 층을 구분하기 위한 값(0: 0그룹, 1 :1그룹)
group = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
sample_df['group'] = group

In [66]:
# 데이터 전체 수 확인 
sample_df["group"].value_counts()

1    10
0    10
Name: group, dtype: int64

In [67]:
# df_strat_train, df_strat_test 으로 데이터 분할(표본 추출) 
for train_idx, test_idx in splitfi.split(sample_df, sample_df['group']):
    print("Train :",train_idx, "Test :", test_idx )
    df_strat_train = sample_df.loc[train_idx]
    df_strat_test = sample_df.loc[test_idx]

Train : [13  7  1 14 16 12  0 11 10 18  2  8  5  6] Test : [17 19  3 15  4  9]


In [68]:
print("Train data 수 확인")
print(df_strat_train.shape)
print("Test data 수 확인")
print(df_strat_test.shape)

Train data 수 확인
(14, 4)
Test data 수 확인
(6, 4)


In [69]:
# 모집단과 동일 비율로 Group 속성을 기준으로 데이터 분리 확인 
print("전체 비율")
print(sample_df["group"].value_counts() / len(sample_df))
print("Train data 비율")
print(df_strat_train["group"].value_counts() / len(df_strat_train))
print("Test data 비율")
print(df_strat_test["group"].value_counts() / len(df_strat_test))

전체 비율
1    0.5
0    0.5
Name: group, dtype: float64
Train data 비율
1    0.5
0    0.5
Name: group, dtype: float64
Test data 비율
1    0.5
0    0.5
Name: group, dtype: float64
