# [ PART 03. 통계분석 ] - 1장. 데이터 샘플링

## 표본 추출

### 1. 단순 임의 추출

In [1]:
# 데이터 핸들링을 위한 패키지
import numpy as np
import pandas as pd

# 데이터 샘플링을 위한 패키지
from sklearn.model_selection import train_test_split    # training/test data set을 추출하는 패키지
from sklearn.model_selection import StratifiedShuffleSplit  # 층화추출로 sampling 을 수행하는 패키지
                                                            # 하지만 위의 train_test_split() 으로도 층화추출이 가능하다.

In [2]:
# iris dataset을 불러와 데이터프레임으로 변환

df_iris = pd.read_csv( "C:/Users/Administrator/GitHub/TIL/ADP_study/rawdata/iris.csv",
                      index_col='Unnamed: 0' )

#### 1.1. Pandas 의 .sample() 메소드 활용

In [3]:
# 단순임의추출 시행 (1)
# Pandas 의 .sample 메소드 활용

tr_iris = df_iris.sample( frac = 0.7,          # 샘플링 할 데이터 비율
                          replace = False )    # 복원/비복원 추출 옵션
ts_iris = df_iris.sample( frac = 0.3,
                          replace = False )

display( tr_iris.shape, tr_iris.head(),
         print(),
         ts_iris.shape, ts_iris.head() )




(105, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
66,6.7,3.1,4.4,1.4,versicolor
80,5.7,2.6,3.5,1.0,versicolor
60,5.2,2.7,3.9,1.4,versicolor
148,6.5,3.0,5.2,2.0,virginica
32,5.4,3.4,1.5,0.4,setosa


None

(45, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
10,4.9,3.1,1.5,0.1,setosa
61,5.0,2.0,3.5,1.0,versicolor
44,5.0,3.5,1.6,0.6,setosa
140,6.9,3.1,5.4,2.1,virginica
70,5.6,2.5,3.9,1.1,versicolor


#### 1.2. scikit-learn 의 train_test_split() 함수 활용

In [4]:
# train_test_split( data,    # 샘플링할 데이터
#                   train_size = 0.7,    # training data set 비율 또는 개수
#                   test_size = 0.1,    # test data set 비율 또는 개수. 비율값으로 적용 시 training 데이터셋과 test 데이터셋의 비율 합은 0~1 사이의 값이어야 한다.
#                   shuffle = True,    # split을 해주기 이전에 섞을건지 여부. 기본값은 True
#                   stratify = None,    # 계층화 여부. 기본값은 None. 층화추출을 시행할 때는 해당 옵션에 계층 기준 적용.
#                   random_state = 42 )    # 무작위 선택을 제어해주는 값으로, 동일한 random_state라면 동일한 데이터를 선택하여 분리해 준다.
#                                                                  # 생략하면 기본값인 None 이 적용되므로 추출되는 데이터가 샘플링을 실행할 때마다 달라진다.


train_iris, test_iris = train_test_split( df_iris,    # 샘플링할 데이터
                                          train_size = 0.7,    # test-set 비율
                                          test_size = 0.3 )    # test-set 비율

display( train_iris.shape, train_iris.head(),
         test_iris.shape, test_iris.head() )

(105, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
62,5.9,3.0,4.2,1.5,versicolor
20,5.1,3.8,1.5,0.3,setosa
130,7.2,3.0,5.8,1.6,virginica
31,4.8,3.1,1.6,0.2,setosa
140,6.9,3.1,5.4,2.1,virginica


(45, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
118,7.7,3.8,6.7,2.2,virginica
133,6.4,2.8,5.6,2.2,virginica
147,6.3,2.5,5.0,1.9,virginica
70,5.6,2.5,3.9,1.1,versicolor
144,6.8,3.2,5.9,2.3,virginica


### 2. 층화 임의 추출

#### 2.1. Pandas 의 .sample() 메소드 활용

In [5]:
df_setosa = df_iris.loc[ df_iris['Species'] == 'setosa' ]
df_versicolor = df_iris.loc[ df_iris['Species'] == 'versicolor' ]
df_virginica = df_iris.loc[ df_iris['Species'] == 'virginica' ]

a = df_setosa.sample( n = 20, replace = False )
b = df_versicolor.sample( n = 15, replace = False )
c = df_virginica.sample( n = 15, replace = False )

display( a.shape, a.head(), b.shape, b.head(), c.shape, c.head())

(20, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
4,4.6,3.1,1.5,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
46,4.8,3.0,1.4,0.3,setosa
10,4.9,3.1,1.5,0.1,setosa
28,5.2,3.5,1.5,0.2,setosa


(15, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
100,5.7,2.8,4.1,1.3,versicolor
67,5.6,3.0,4.5,1.5,versicolor
89,5.6,3.0,4.1,1.3,versicolor
80,5.7,2.6,3.5,1.0,versicolor
62,5.9,3.0,4.2,1.5,versicolor


(15, 5)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
130,7.2,3.0,5.8,1.6,virginica
116,6.4,3.2,5.3,2.3,virginica
109,6.7,2.5,5.8,1.8,virginica
134,6.3,2.8,5.1,1.5,virginica
126,7.2,3.2,6.0,1.8,virginica


#### 2.2. scikit-learn 의 train_test_split() 함수 활용

In [6]:
# train_data, test_data = train_test_split( data,    # 샘플링할 데이터
#                                           train_size = 0.7,    # training data set 비율 또는 개수
#                                           test_size = 0.1,    # test data set 비율 또는 개수. 비율값으로 적용 시 training 데이터셋과 test 데이터셋의 비율 합은 0~1 사이의 값이어야 한다.
#                                           shuffle = True,    # split을 해주기 이전에 섞을건지 여부. 기본값은 True
#                                           stratify = None,    # 층화추출 여부. 기본값은 None. 층화추출을 시행할 때는 해당 옵션에 계층 기준 적용.
#                                           random_state = 42 )    # 무작위 선택을 제어해주는 값으로, 동일한 random_state라면 동일한 데이터를 선택하여 분리해 준다.
#                                                                  # 생략하면 기본값인 None 이 적용되므로 추출되는 데이터가 샘플링을 실행할 때마다 달라진다.


train_data, test_data = train_test_split( df_iris,
                                          train_size = 20,
                                          test_size = 20, 
                                          stratify = df_iris['Species'] )

In [7]:
train_data['Species'].value_counts()

setosa        7
versicolor    7
virginica     6
Name: Species, dtype: int64

In [8]:
test_data['Species'].value_counts()

virginica     7
versicolor    7
setosa        6
Name: Species, dtype: int64