# 표본분포

### 랜덤 표본(random sample)

- 모집단에서 표본으로 뽑힐 가능성을 동일하게 하여 추출된 표본
- 무작위 추출(임의 추출)


#### 복원추출과 비복원추출
- 복원추출: 여러 차례 동일한 표본을 선택하는 방법
- 비복원추출: 동일한 표본은 한 번만 선택하는 방법

In [10]:
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
%precision 3 

'%.3f'

### 예제. 전교생 수학 성적

In [8]:
df = pd.read_csv('data/scores400.csv')

In [9]:
df.describe()

Unnamed: 0,score
count,400.0
mean,69.53
std,14.393994
min,23.0
25%,60.0
50%,69.0
75%,80.0
max,100.0


#### 복원/비복원 추출 함수

- np.random.choice(a, size=None, replace=True, p=None)

    - a : 배열이면 배열 자체, 정수이면 arange(a)명령으로 배열 생성
    - size : 정수, 샘플 숫자
    - replace : boolean. True이면 복원추출, False면 비복원추출
    - p : 배열, 각 데이터가 선택될 수 있는 확률

In [11]:
np.random.seed(123)
np.random.choice([1,2,3,4,5],3)

array([3, 5, 3])

- scores 데이터에서 표본 추출

In [12]:
sample=np.random.choice(df['score'], 10)

In [13]:
sample

array([45, 86, 68, 68, 58, 92, 61, 82, 81, 50], dtype=int64)

In [14]:
sample.mean()

69.100

In [15]:
mu = df.score.mean()
mu

69.530

#### 표본평균의 분포

In [16]:
s_means = []
for i in range(10):
    sample = np.random.choice(df.score, 10)
    s_mean = sample.mean()
    s_means.append(s_mean)
    print(f'{i+1} 번째 무작위 추출한 표본의 평균: {s_mean}')

1 번째 무작위 추출한 표본의 평균: 66.8
2 번째 무작위 추출한 표본의 평균: 77.8
3 번째 무작위 추출한 표본의 평균: 64.7
4 번째 무작위 추출한 표본의 평균: 64.3
5 번째 무작위 추출한 표본의 평균: 68.1
6 번째 무작위 추출한 표본의 평균: 67.9
7 번째 무작위 추출한 표본의 평균: 68.0
8 번째 무작위 추출한 표본의 평균: 72.1
9 번째 무작위 추출한 표본의 평균: 67.3
10 번째 무작위 추출한 표본의 평균: 67.5


In [17]:
# 표본평균들의 평균
np.mean(s_means)

68.450

In [19]:
# 표본평균들의 표준편차 -> std
np.std(s_means)

3.710

In [20]:
sigma = np.std(df.score)
sigma

14.376

In [23]:
def sampling(data,n,loop):
    s_means = []
    for i in range(loop):
        sample = np.random.choice(df.score, n)
        s_mean = sample.mean()
        s_means.append(s_mean)
    return s_means

In [30]:
def sample_mean_std(data, n, loop):
    s_means = sampling(data,n, loop)
    print(f'데이터 {n}개인 표본 {loop}개의 평균:{np.mean(s_means):.3f}, 표준편차:{np.std(s_means):.3f}')

In [31]:
n, loop = 10,100
sample_mean_std(df.score,n,loop)

데이터 10개인 표본 100개의 평균:68.697, 표준편차:4.363


In [32]:
n, loop = 10,1000
sample_mean_std(df.score,n,loop)

데이터 10개인 표본 1000개의 평균:69.573, 표준편차:4.631


In [39]:
# 표본의 크기가 커질수록 모평균과 모집단의 표준편차와 근접해진다.
n, loop = 10,10000
sample_mean_std(df.score,n,loop)

데이터 10개인 표본 10000개의 평균:69.498, 표준편차:4.577


In [38]:
# 모평균과 모집단의 표준편차
mu, sigma/np.sqrt(10)

(69.530, 4.546)

**가능한 모든 표본으로 이루어진 표본평균들의 평균을 모집단의 평균과 같아진다.**

$ mean(\bar X) = \mu $

In [40]:
pop = [1,2,3]
n = 2
# 복원추출로 표본 구성
samples = np.array([[1,1],[1,2],[1,3],[2,1],[2,2],[2,3],[3,1],[3,2],[3,3]])
sample_mean = samples.mean(axis=1)
sample_mean

array([1. , 1.5, 2. , 1.5, 2. , 2.5, 2. , 2.5, 3. ])

In [42]:
# 표본평균들의 평균
sample_mean.mean()

2.000

In [45]:
# 모평균 / 표본평균들의 평균 = 모평균
mu = np.mean(pop)
mu

2.000

In [46]:
# 표본평균들의 표준편차
sample_mean.std()

0.577

In [1]:
# 모집단의 표준편차
std = np.std(pop)
std

NameError: name 'np' is not defined

In [52]:
# 표준오차(Standar Error:SE) = 모집단의 표준편차/루트n = 표본평균들의 표준편차
std / np.sqrt(n)

0.577

- 가능한 모든 표본들에 대한 평균들의 평균은 모평균과 같아지며
- 표본평균들의 표준편차는 모집단의 표준편차를 샘플수의 제곱근으로 나눈 것과 같다.

In [56]:
# 비복원 추출인 경우
samples2 = np.array([[1,2],[1,3],[2,1],[2,3],[3,1],[3,2]])
samples2_means = samples2.mean(axis=1) 
samples2_means.mean(), samples2_means.std()

(2.000, 0.408)

=> 비복원 추출로 뽑힌 표본들의 평균의 평균도 모평균과 같아진다.

 - 표본의 크기가 커지면 표본평균의 표준편차(표준오차)가 작아진다

------------------------------------------------------