# Part 03. 통계분석

-----------------

## 1장. 데이터 샘플링

<p style='color:#726a77; text-align:right'>홍준호 작성</p>

### 1절 . 표본추출 방법

- 데이터 분석을 진행할 때, 전체 데이터를 모두 활용하는 것은 수많은 시간과 비용이 들 수 있다. 
- 본 장에서는 데이터 샘플링의 방법과 python을 활용한 표본 추출에 대해 학습한다.

#### 1. 통계
- 통계란 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다. 
- 조사 또는 실험을 통해 데이터를 확보하며, 조사대상에 따라 총조사와 표본조사로 구분한다. 



#### 2. 통계자료의 흭득 방법 
<b>가. 총 조사/ 전수조사 </b>
* 총 조사란 대상 집단 모두를 조사하는 방법이며, 특별한 경우를 제외하고는 사용되지 않는다. 

<b>나. 표본조사 </b>
* 모집단(population) : 조사하고자 하는 대상 집단 전체 
* 원소(element) : 모집단을 구성하는 개체 
* 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소 
* 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 
* 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 명확하게 정의해야 한다. 


#### 3. 표본 추출 방법
* 표본조사에서 중요한 점은 모집단을 대표할 수 있는 표본의 추출이며, 표본 추출 방법에 따라 분석 결과의 해석은 큰 차이가 발생한다. 

<b>가. 단순 임의 추출법 </b>
* 각 개체에 번호를 부여하여 랜덤하게 n개를 추출하는 방법으로 모든 개체는 선택될 확률이 동일하다. 
* 복원, 비복원 추출로 나누어진다. 


<b>나. 계통추출법 </b>
* 랜덤하게 정렬된 표본에서 시간 혹은 공간적으로 일정한 간격을 두고 표본을 추출하는 방법이다. 
* 단순랜덤추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 선택한다. 즉임이의 위치에서 매 k번째 항목을 추출하는 방법이다. 

<b>다. 집락추출법</b>
* 군집을 구분하고 특정 군집을 먼저 선탣ㄱ한 후 해당 군집에서만 표본을 추출하는 방법이다. 

<b>라. 층화추출법</b>
* 모집단이 이질적인 몇 개의 계층으로 이루어져 있을 때 모든 계층으로부터 원소를 임의로 추출하여 각 계층을 고루 대표할 수 있도록 랜덤하게 표본을 추출하는 방법이다. 


<b>마. 다단계 추출 </b>
* 표본 추출 과정을 여러 단계로 나우어서 진행하는 것으로, 표본으로 추출된 집단 내에서 다시 일부를 뽑고 그 집단에서 다시 일부를 뽑는 방식이다. 

















### 2절 . Python을 이용한 표본 추출 

#### 1. 단순 임의 추출 
* 일반적으로 데이터를 training data와 test data로 분할할 때 가장 많이 사용하는 표본추출 방법이다. 
<br>
<br>

<b> 함수사용법 : np.ramdom.choice(a,size=None, replace=True, p=None) </b>
* a : 배열이면 배열 자체, 정수이면 arange(a)명령으로 배열 생성 
* size : 정수, 샘플 숫자 
* replace : boolean, True이면 복원추출, False이면 비복원 추출 
* p : 배열, 각 데이터가 선택될 수 있는 확률 <br> 예를 들어 p = [2,4,6]을 지정하면 첫 번째 데이터가 뽑힐 확률 20%, 두번째 데이터가 뽑힐 확률 40%, 세번째 데이터가 뽑힐 확률은 60%로 지정됨 

------------------------------------------------------------------------------------------------------------


<b>[예제1]</b> iris 데이터로 분석을 진행하기 위해 전체 데이터의 7:3 비율로 training data와 test data를 추출한 뒤 새로운 변수에 저장해보자 ( 데이터 추출 방법은 단순 임의 추출을 이용한다.)

In [10]:
import pandas as pd 
import numpy as np

In [2]:
# 여기서는 R의 샘플 데이터를 편하게 받아오기 위해 rpy2 패키지의 함수를 사용함
from rpy2.robjects import r, pandas2ri
pandas2ri.activate()  # rpy2의 pandas 변환을 활성화 -->  R에서 pandas 개체로의 변환이 자동으로 수행됨
r.data('iris')        # r의 샘플데이터를 불러옴
iris = r['iris']

In [72]:
iris

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
5,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
146,6.7,3.0,5.2,2.3,virginica
147,6.3,2.5,5.0,1.9,virginica
148,6.5,3.0,5.2,2.0,virginica
149,6.2,3.4,5.4,2.3,virginica


In [77]:
training = iris.sample(frac=0.7, random_state=2020)
test = iris.drop(training.index)

In [78]:
len(training)

105

In [79]:
len(test)

45

In [84]:
training.index.sort_values()

Index(['1', '100', '102', '104', '105', '106', '107', '108', '109', '11',
       ...
       '87', '88', '89', '9', '90', '93', '94', '95', '96', '98'],
      dtype='object', length=105)


#### 2. 층화 임의 추출 
* 특정 데이터가 여성 계층 70%, 남성 계층 30%로 구성되어 있다고 가정해보자. 각 계층을 고루 대표 할 수 있도록 표본을 추출하기 위해서는 여성과 남성 집단에 대해 0.7:0.3의 비율로 데이터를 뽑아야 한다. 이처럼 여성과 남성이라는 계층별로 표본을 추출하는 것을 층화 임의 추출이라고 한다.  
<br>
<br>

<b> 함수사용법 : X_train, X_test, y_train, y_test = train_test_split( 

                                                    X, 

                                                    test_size=0.2, 

                                                    shuffle=True,

                                                    stratify=변수, 

                                                    random_state=1004)


</b>

* X: 데이터 테이블  
* test_size : 테스트 사이즈 비율 
* shuffle : True이면 복원추출, False이면 비복원 추출  
* random_state : 난수 // 임의의 번호 지정하면 되며 같은 번호라면 같은 값이 나온다. 


In [94]:
iris["Species"].unique()

[setosa, versicolor, virginica]
Categories (3, object): [setosa, versicolor, virginica]

In [108]:
iris["Species"].value_counts()

virginica     50
versicolor    50
setosa        50
Name: Species, dtype: int64

In [109]:
from sklearn.model_selection import train_test_split

X_train, X_test, = train_test_split(iris, test_size=1/3, shuffle=True, stratify=iris["Species"], random_state=1004)


In [110]:
X_train

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
45,5.1,3.8,1.9,0.4,setosa
73,6.3,2.5,4.9,1.5,versicolor
31,4.8,3.1,1.6,0.2,setosa
145,6.7,3.3,5.7,2.5,virginica
29,5.2,3.4,1.4,0.2,setosa
...,...,...,...,...,...
25,4.8,3.4,1.9,0.2,setosa
51,7.0,3.2,4.7,1.4,versicolor
62,5.9,3.0,4.2,1.5,versicolor
69,6.2,2.2,4.5,1.5,versicolor


In [111]:
X_test["Species"].value_counts()

virginica     17
versicolor    17
setosa        16
Name: Species, dtype: int64