# 4.1 데이터 샘플링
- 데이터분석을 진행할 때, 전체 데이터를 모두 활용하는 것은 수많은 시간과 비용이 들 수 있다
- 본 장에서는 데이터 샘플링의 방법과 python을 활용한 표본 추출에 대해 학습한다
### 4.1.1 통계
- 통계란 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
- 조사 또는 실험을 통해 데이터를 확보하며, 조사대상에 따라 총조사와 표본조사로 구분한다.
### 4.1.2 통계자료의 획득 방법
가. 총 조사 / 전수조사
- 총 조사란 대상 집단 모두를 조사하는 방법이며, 특별한 경우를 제외하고는 사용되지 않는다
나. 표본조사
- 모집단(population) : 조사하고자 하는 대상 집단 전체
- 원소(element) : 모집단을 구성하는 개체 (index 하나)
- 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소
- 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 명확하게 정의해야 한다.

### 4.1.3 표본 추출 방법
- 표본조사에서 중요한 점은 모집단을 대표할 수 있는 표본의 추출이며, 표본 추출방법에 따라 분석 결과의 해석은 큰 차이가 발생한다

가. 단순 임의 추출법
- 각 개체에 번호를 부여하며 랜덤하게 n개를 추출하는 방법으로 모든 개체는 선택될 확률이 동일하다
- 복원, 비복원 추출로 나누어진다

나. 계통추출법
- 랜덤하게 정렬된 표본에서 시간 혹은 공간적으로 일정한 간격을 두고 표본을 추출하는 방법
- 단순랜덤추출의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 선택한다. 즉 임의의 위치에서 매 k번째 항목을 추출하는 방법이다.

다.집락추출법
- 군집을 구분하고 특정 군집을 먼저 선택한 후 해당 군집에서만 표본을 추출하는 방법이다

라. 층화추출법(***)
- 모집단이 이질적인 몇 개의 계층으로 이루어져 있을 때 모든 계층으로부터 원소를 임의로 추출하여 각 계층을 고루 대표할 수 있도록 랜덤하게 표본을 추출하는 방법이다

### 4.1.4 Python을 이용한 표본 추출
#### 4.1.4.1 단순 임의 추출
- 일반적으로 데이터를 training data와 test data로 분할할 때 가장 많이 사용하는 표본추출 방법이다.

함수사용법 : DataFrame.sample(frac=0.7, random_state=2000)
- n : 추출할 표본 개수
- frac : 추출할 표본 크기 비율
- replace : boolean이 True이면 복원추출, False이면 비복원추출

[예제] iris 데이터로 분석을 진행하기 위해 전체 데이터의 7:3 비율로 training data와 test data를 추출한 뒤 새로운 변수에 저장해보자
(데이터 추출 방법은 단순 임의 추출을 이용한다)

In [1]:
import pandas as pd
import numpy as np

In [2]:
iris = pd.read_csv('data/iris.csv')

In [3]:
iris

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [4]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   target        150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [5]:
training = iris.sample(frac=0.7, random_state=2000)

In [6]:
training.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 105 entries, 19 to 24
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  105 non-null    float64
 1   sepal width   105 non-null    float64
 2   petal length  105 non-null    float64
 3   petal width   105 non-null    float64
 4   target        105 non-null    object 
dtypes: float64(4), object(1)
memory usage: 4.9+ KB


In [7]:
iris['target'].value_counts()

Iris-setosa        50
Iris-virginica     50
Iris-versicolor    50
Name: target, dtype: int64

In [8]:
training['target'].value_counts()

Iris-virginica     38
Iris-versicolor    35
Iris-setosa        32
Name: target, dtype: int64

In [9]:
training = iris.sample(frac=0.7, random_state=52)
test = iris.sample(frac=0.3, random_state=48)

In [10]:
training.index

Int64Index([ 43,  37, 143, 145, 107,  52,  60,  41, 122, 131,
            ...
            112, 141,  75, 132,  12,  59,  46, 128, 148,  10],
           dtype='int64', length=105)

In [11]:
len(iris)

150

In [12]:
len(training)

105

In [13]:
len(test)

45

In [16]:
training[training.index.isin(test.index) == True]
# training[training.index.isin(test.index)]

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
41,4.5,2.3,1.3,0.3,Iris-setosa
116,6.5,3.0,5.5,1.8,Iris-virginica
79,5.7,2.6,3.5,1.0,Iris-versicolor
96,5.7,2.9,4.2,1.3,Iris-versicolor
126,6.2,2.8,4.8,1.8,Iris-virginica
53,5.5,2.3,4.0,1.3,Iris-versicolor
69,5.6,2.5,3.9,1.1,Iris-versicolor
19,5.1,3.8,1.5,0.3,Iris-setosa
72,6.3,2.5,4.9,1.5,Iris-versicolor
84,5.4,3.0,4.5,1.5,Iris-versicolor


### 4.1.4.2 층화 임의 추출
- 특정 데이터가 여성 계층 70%, 남성 계층 30%로 구성되어 있다고 가정해보자. 각 계층을 고루 대표할수 있도록 표본을 추출하기 위해서는 여성과 남성 집단에 대해 0.7:0.3의 비율로 데이터를 뽑아야 한다. 이처럼 여성과 남성이라는 계층별로 표본을 추출하는 것을 층화 임의 추출이라고 한다.

from sklearn.model_selection import train_test_split
함수 사용법 : X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, stratify=변수, random_state=1004)

- X : 데이터 테이블
- test_size : 테스트 사이즈 비율
- shuffle : True이면 무작위 추출, False이면 체계적 추출
- random_state : 난수 // 임의의 번호 지정하면 되며 같은 번호라면 같은 값이 나온다.

In [17]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   target        150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [18]:
iris['target'].value_counts()

Iris-setosa        50
Iris-virginica     50
Iris-versicolor    50
Name: target, dtype: int64

In [26]:
from sklearn.model_selection import train_test_split

X_train, X_test = train_test_split(iris, test_size=0.3, shuffle=True,
                                  stratify=iris['target'], random_state=1004)

# X_train, X_test = train_test_split(iris, test_size=0.3, shuffle=True,
#                                    random_state=1004)

In [20]:
X_train

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
113,5.7,2.5,5.0,2.0,Iris-virginica
100,6.3,3.3,6.0,2.5,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
9,4.9,3.1,1.5,0.1,Iris-setosa
81,5.5,2.4,3.7,1.0,Iris-versicolor
...,...,...,...,...,...
82,5.8,2.7,3.9,1.2,Iris-versicolor
90,5.5,2.6,4.4,1.2,Iris-versicolor
80,5.5,2.4,3.8,1.1,Iris-versicolor
67,5.8,2.7,4.1,1.0,Iris-versicolor


In [21]:
X_test['target'].value_counts()

Iris-versicolor    15
Iris-virginica     15
Iris-setosa        15
Name: target, dtype: int64

In [22]:
X_test.index.sort_values()

Int64Index([  2,   5,   7,   8,  11,  12,  14,  20,  21,  23,  26,  31,  40,
             47,  49,  57,  63,  69,  73,  76,  77,  79,  83,  84,  91,  92,
             93,  94,  95,  97, 104, 106, 110, 112, 114, 116, 120, 122, 124,
            127, 131, 132, 135, 141, 145],
           dtype='int64')

In [24]:
X_train.index.sort_values()

Int64Index([  0,   1,   3,   4,   6,   9,  10,  13,  15,  16,
            ...
            138, 139, 140, 142, 143, 144, 146, 147, 148, 149],
           dtype='int64', length=105)

In [25]:
X_train['target'].value_counts()

Iris-setosa        35
Iris-versicolor    35
Iris-virginica     35
Name: target, dtype: int64

# 5.1 언더 샘플링 & 오버 샘플링
- 클래스의 비율이 맞지 않아서 한다.
### 5.1.1 언더샘플링
- 다수 클래스 의 샘플은 소수 클래스와 비교할 때 분포 비율과 일치하도록 무작위로 제거함
- 2개의 클래스의 비율을 맞추기 위해 귀중한 정보를 잃어버리고 편향될 수 있기 때문에 일반적으로 선호되지 않음

### 5.1.2 오버 샘플링
- 소수 클래스의 샘플을 증가시켜 마이너 클래스와 메이저 클래스의 샘플 크기를 동일하게 만드는 기법
- 랜덤 오버샘플링(소수샘플복제)은 동일한 정보를 복사하여 오버피팅을 유발할 수 있음

### 5.1.3 SMOTE(Synthetic Minority Over-sampling Technique)
- 소수 클래스의 기존 샘플을 사용하여 새로운 합성 관찰을 생성하는 오버 샘플링 기법 소수 클래스에 대한 선형 보간법으로 가상 훈련 기록을 생성
- 합성 훈련 기록은 소수 클래스의 각 예에 대해 k-최근접 이웃 중 하나 이상을 무작위로 선택하여 생성
- 오버샘플링 과정을 거친 후 데이터를 재구성하고 처리된 데이터에 대해 여러 분류 모델을 적용할 수 있음
- 데이터의 특성에 따라 다르겠지만, 빅데이터 분석을 위해서는 많은 데이터 확보가 효과적이므로 오버샘플링 기법을 적용하는 것이 좋음
- 기존의 데이터가 적은 새로운 사례의 데이터에서 사용하기 어려움

In [27]:
from PIL import Image
image1 = Image.open('data/오버샘플링_언더샘플링 소개.png')
image1.resize((870, 1000))

FileNotFoundError: [Errno 2] No such file or directory: 'data/오버샘플링_언더샘플링 소개.png'

In [28]:
df_t = pd.read_csv('data/titanic.csv')

In [29]:
df_t['survived'].value_counts()

0    549
1    342
Name: survived, dtype: int64

In [31]:
!conda install -c conda-forge imbalanced-learn -y

Collecting package metadata (current_repodata.json): ...working... done



  current version: 4.10.1
  latest version: 4.11.0

Please update conda by running



Solving environment: ...working... done

## Package Plan ##

  environment location: C:\Users\phong\anaconda3

  added / updated specs:
    - imbalanced-learn


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    conda-4.11.0               |   py38haa244fe_0        16.9 MB  conda-forge
    imbalanced-learn-0.7.0     |             py_1          97 KB  conda-forge
    python_abi-3.8             |           2_cp38           4 KB  conda-forge
    ------------------------------------------------------------
                                           Total:        17.0 MB

The following NEW packages will be INSTALLED:

  imbalanced-learn   conda-forge/noarch::imbalanced-learn-0.7.0-py_1
  python_abi         conda-forge/win-64::python_abi-3.8-2_cp38

The following packages will be UPDATED:

  conda              pkgs/main::conda-4.10.1-py38haa95532_1 --> conda-forge::conda-4.11.0-py38haa244fe_0






    $ conda update -n base -c defaults conda




In [30]:
from imblearn.over_sampling import SMOTE

ModuleNotFoundError: No module named 'imblearn'

In [33]:
df_t = df_t.dropna()

In [34]:
df_t

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,adult_male,embark_town
0,0,3,male,22.0,1,0,7.2500,S,Third,True,Southampton
1,1,1,female,38.0,1,0,71.2833,C,First,False,Cherbourg
2,1,3,female,26.0,0,0,7.9250,S,Third,False,Southampton
3,1,1,female,35.0,1,0,53.1000,S,First,False,Southampton
4,0,3,male,35.0,0,0,8.0500,S,Third,True,Southampton
...,...,...,...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,Q,Third,False,Queenstown
886,0,2,male,27.0,0,0,13.0000,S,Second,True,Southampton
887,1,1,female,19.0,0,0,30.0000,S,First,False,Southampton
889,1,1,male,26.0,0,0,30.0000,C,First,True,Cherbourg


In [35]:
X = df_t[['age', 'sibsp', 'parch', 'fare']]
y = df_t['survived']

In [37]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True, stratify=y, random_state=1004)

In [38]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0, 1))

X_train = scaler.fit_transform(X_train)

In [40]:
X_train.shape

(498, 4)

In [41]:
y_train.value_counts()

0    297
1    201
Name: survived, dtype: int64

In [43]:
# 모델설정
sm = SMOTE(k_neighbors=5)

# train 데이터를 넣어 복제함
X_resampled, y_resampled = sm.fit_resample(X_train, y_train)
print('After OverSampling, the shape of train_X: {}'.format(X_resampled.shape))
print('After OverSampling, the shape of train_y: {}'.format(y_resampled.shape))

print('After OverSampling, counts of label "1" : {}'.format(sum(y_resampled==1)))
print('After OverSampling, counts of label "0" : {}'.format(sum(y_resampled==0)))

NameError: name 'SMOTE' is not defined