# PART 03. 통계분석

## 1장. 데이터 샘플링

### 2절. 표본 추출

#### [Problem] 단순 임의 추출
- iris 데이터로 분석을 진행하기 위해 전체 데이터의 7:3의 비율로 training data와 test data를 추출한 뒤 새로운 변수에 저장하라.
- 데이터 추출 방법은 단순 임의 비복원 추출을 이용한다.

In [2]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split    # training/test data set을 추출하는 패키지
from sklearn.model_selection import StratifiedShuffleSplit  # 층화추출로 sampling 을 수행하는 패키지
                                                            # 하지만 위의 train_test_split() 으로도 층화추출이 가능하다.

# iris dataset을 불러와 데이터프레임으로 변환
df_iris = pd.read_csv( "C:/Users/Administrator/GitHub/TIL/ADP_study/rawdata/iris.csv",
                      index_col='Unnamed: 0' )

In [4]:
# 단순임의추출 시행 (1)
# Pandas 의 .sample 메소드 활용

tr_iris = df_iris.sample( frac = 0.7,          # 샘플링 할 데이터 비율
                          replace = False )    # 복원/비복원 추출 옵션
ts_iris = df_iris.sample( frac = 0.3,
                          replace = False )

display( tr_iris.shape, tr_iris.head(),
         print(),
         ts_iris.shape, ts_iris.head() )




(105, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
12,4.8,3.4,1.6,0.2,setosa
34,5.5,4.2,1.4,0.2,setosa
22,5.1,3.7,1.5,0.4,setosa
70,5.6,2.5,3.9,1.1,versicolor
8,5.0,3.4,1.5,0.2,setosa


None

(45, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
13,4.8,3.0,1.4,0.1,setosa
141,6.7,3.1,5.6,2.4,virginica
66,6.7,3.1,4.4,1.4,versicolor
41,5.0,3.5,1.3,0.3,setosa
27,5.0,3.4,1.6,0.4,setosa


In [6]:
# 단순임의추출 시행 (2)
# scikit-learn 의 'train_test_split()' 함수 활용

# train_test_split( data,    # 샘플링할 데이터
#                   train_size = 0.7,    # training data set 비율 또는 개수
#                   test_size = 0.1,    # test data set 비율 또는 개수. 비율값으로 적용 시 training 데이터셋과 test 데이터셋의 비율 합은 0~1 사이의 값이어야 한다.
#                   shuffle = True,    # split을 해주기 이전에 섞을건지 여부. 기본값은 True
#                   stratify = None,    # 계층화 여부. 기본값은 None. 층화추출을 시행할 때는 해당 옵션에 계층 기준 적용.
#                   random_state = 42 )    # 무작위 선택을 제어해주는 값으로, 동일한 random_state라면 동일한 데이터를 선택하여 분리해 준다.
#                                                                  # 생략하면 기본값인 None 이 적용되므로 추출되는 데이터가 샘플링을 실행할 때마다 달라진다.


train_iris, test_iris = train_test_split( df_iris,    # 샘플링할 데이터
                                          train_size = 0.7,    # test-set 비율
                                          test_size = 0.3 )    # test-set 비율

display( train_iris.shape, train_iris.head(),
         print(),
         test_iris.shape, test_iris.head() )




(105, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
121,6.9,3.2,5.7,2.3,virginica
26,5.0,3.0,1.6,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
91,5.5,2.6,4.4,1.2,versicolor
19,5.7,3.8,1.7,0.3,setosa


None

(45, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
99,5.1,2.5,3.0,1.1,versicolor
63,6.0,2.2,4.0,1.0,versicolor
15,5.8,4.0,1.2,0.2,setosa
28,5.2,3.5,1.5,0.2,setosa
1,5.1,3.5,1.4,0.2,setosa


#### [Problem] 층화 임의 추출
- iris 데이터에서 Species가 setosa인 데이터를 20개, versicolor인 데이터를 15개, versinica인 데이터를 15개씩 단순 임의 추출을 사용해 추출하라.

In [None]:
# 단순하게 판다스만 사용할 경우

df_setosa = df_iris.loc[ df_iris['Species'] == 'setosa' ]
df_versicolor = df_iris.loc[ df_iris['Species'] == 'versicolor' ]
df_virginica = df_iris.loc[ df_iris['Species'] == 'virginica' ]

a = df_setosa.sample( n = 20, replace = False )
b = df_versicolor.sample( n = 15, replace = False )
c = df_virginica.sample( n = 15, replace = False )

display( a.shape, a.head(), b.shape, b.head(), c.shape, c.head())

In [None]:
# scikit-learn 의 'train_test_split()' 함수 활용

# train_data, test_data = train_test_split( data,    # 샘플링할 데이터
#                                           train_size = 0.7,    # training data set 비율 또는 개수
#                                           test_size = 0.1,    # test data set 비율 또는 개수. 비율값으로 적용 시 training 데이터셋과 test 데이터셋의 비율 합은 0~1 사이의 값이어야 한다.
#                                           shuffle = True,    # split을 해주기 이전에 섞을건지 여부. 기본값은 True
#                                           stratify = None,    # 계층화 여부. 기본값은 None. 층화추출을 시행할 때는 해당 옵션에 계층 기준 적용.
#                                           random_state = 42 )    # 무작위 선택을 제어해주는 값으로, 동일한 random_state라면 동일한 데이터를 선택하여 분리해 준다.
#                                                                  # 생략하면 기본값인 None 이 적용되므로 추출되는 데이터가 샘플링을 실행할 때마다 달라진다.

target = df_iris['Species']

train_data, train_target = train_test_split( df_iris,    # 샘플링할 데이터
                                             target,
                                             train_size = 50,    # test-set 비율
                                             stratify = df_iris['Species'] )

