# 표본분포

### 랜덤 표본(random sample)

- 모집단에서 표본으로 뽑힐 가능성을 동일하게 하여 추출된 표본
- 무작위 추출(임의 추출)


#### 복원추출과 비복원추출
- 복원추출: 여러 차례 동일한 표본을 선택하는 방법
- 비복원추출: 동일한 표본은 한 번만 선택하는 방법

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%precision 3

'%.3f'

### 예제. 전교생 수학 성적

In [4]:
df = pd.read_csv('data/scores400.csv')
df.head(4)

Unnamed: 0,score
0,76
1,55
2,80
3,80


In [5]:
df.describe() #평균, 중앙값이 비슷하면 좌우 대칭

Unnamed: 0,score
count,400.0
mean,69.53
std,14.393994
min,23.0
25%,60.0
50%,69.0
75%,80.0
max,100.0


#### 복원/비복원 추출 함수

- np.random.choice(a, size=None, replace=True, p=None)

    - a : 배열이면 배열 자체, 정수이면 arange(a)명령으로 배열 생성
    - size : 정수, 샘플 숫자
    - replace : boolean. True이면 복원추출, False면 비복원추출
    - p : 배열, 각 데이터가 선택될 수 있는 확률

In [9]:
np.random.seed(123)
np.random.choice([1,2,3,4,5], 3)

array([3, 5, 3])

- scores 데이터에서 표본 추출

In [11]:
sample = np.random.choice(df['score'], 10)
sample

array([77, 60, 55, 59, 49, 72, 69, 68, 78, 81])

In [12]:
sample.mean()

66.800

In [13]:
mu = df.score.mean()
mu

69.530

#### 표본평균의 분포

In [14]:
s_means = []
for i in range(10):
    sample = np.random.choice(df.score, 10)
    s_mean = sample.mean()
    s_means.append(s_mean)
    print(f'{i+1}번째 무작위추출한 표본의 평균: {s_mean}')

1번째 무작위추출한 표본의 평균: 77.8
2번째 무작위추출한 표본의 평균: 64.7
3번째 무작위추출한 표본의 평균: 64.3
4번째 무작위추출한 표본의 평균: 68.1
5번째 무작위추출한 표본의 평균: 67.9
6번째 무작위추출한 표본의 평균: 68.0
7번째 무작위추출한 표본의 평균: 72.1
8번째 무작위추출한 표본의 평균: 67.3
9번째 무작위추출한 표본의 평균: 67.5
10번째 무작위추출한 표본의 평균: 70.6


In [15]:
#표본평균들의 평균
np.mean(s_means)

68.830

In [16]:
#표본평균들의 표준편차
np.std(s_means)

3.716

In [17]:
sigma = np.std(df.score)
sigma

14.376

In [23]:
def sampling(data, n, loop):
    s_means = []
    for i in range(loop):
        sample = np.random.choice(df.score, n)
        s_mean = sample.mean()
        s_means.append(s_mean)
    return s_means

n, loop = 10, 100
s_means = sampling(df.score, n, loop)
print(f'데이터 {n}개인 표본 {loop}개의 평균: {np.mean(s_means)}, 표준편차: {np.std(s_means):.3f}')

데이터 10개인 표본 100개의 평균: 69.507, 표준편차: 4.897


In [25]:
def sample_mean_std(data, n, loop):
    s_means = sampling(data, n, loop)
    print(f'데이터 {n}개인 표본 {loop}개의 평균: {np.mean(s_means)}, 표준편차: {np.std(s_means):.3f}')
    
sample_mean_std(df.score, n=10, loop=100)

데이터 10개인 표본 100개의 평균: 70.109, 표준편차: 4.364


In [26]:
sample_mean_std(df.score, n=10, loop=1000)

데이터 10개인 표본 1000개의 평균: 69.57179999999998, 표준편차: 4.559


In [27]:
sample_mean_std(df.score, n=10, loop=10000)

데이터 10개인 표본 10000개의 평균: 69.45332, 표준편차: 4.532


In [29]:
mu, sigma/np.sqrt(10)

(69.530, 4.546)

In [30]:
sample_mean_std(df.score, n=20, loop=10000)

데이터 20개인 표본 10000개의 평균: 69.528345, 표준편차: 3.186


In [31]:
sample_mean_std(df.score, n=30, loop=10000)

데이터 30개인 표본 10000개의 평균: 69.51828, 표준편차: 2.640


In [32]:
sample_mean_std(df.score, n=50, loop=10000)

데이터 50개인 표본 10000개의 평균: 69.536922, 표준편차: 2.055


**가능한 모든 표본으로 이루어진 표본 평균들의 평균은 모집단의 평균과 같아진다**

In [34]:
pop = [1,2,3]
n = 2
#복원 추출로 표본 구성 - 1,2,3에서 2개씩 뽑음
samples = np.array([[1,1], [1,2], [1,3], [2,1], [2,2], [2,3], [3,1], [3,2], [3,3]])
sample_mean = samples.mean(axis = 1)
sample_mean

array([1. , 1.5, 2. , 1.5, 2. , 2.5, 2. , 2.5, 3. ])

In [35]:
#표본 평균들의 평균
sample_mean.mean()

2.000

In [37]:
#모평균
mu = np.mean(pop)
mu #표본 평균의 평균은 모평균과 같음

2.000

In [38]:
#표본평균들의 표준편차
sample_mean.std()

0.577

In [39]:
# 모집단의 표준편차
var = np.std(pop)
var

0.816

In [41]:
#표준 오차 (Standard Error:SE)
var / np.sqrt(n) #표본평균들의 표준편차와 같음

0.577

- 가능한 모든 표본들에 대한 평균들의 평균은 모평균과 같아지며
- 표본평균들의 표준편차는 모집단의 표준편차를 샘플 수의 제곱근으로 나눈 것과 같다

In [44]:
#비복원 추출인 경우 - 나올수 있는 경우의 수 3가지 
samples2 = np.array([[1,2], [1,3], [2,3], [2,1], [3,1], [3,2]])
samples2_means = samples2.mean(axis=1)
samples2_means.mean(), samples2_means.std()

(2.000, 0.408)

=> 비복원추출로 뽑힌 표본들의 평균의 평균도 모평균과 같아진다

- 표본의 크기가 커지면 표본평균의 표준편차(표준오차)가 작아진다

- 중심극한정리
- 대수의 법칙

## 확률변수와 확률분포

### 1) 공정한 주사위의 확률분포를 구하는 실험

#### 10000번 시도 : 실제 확률분포에 가까워짐

### 2) 불공정한 주사위의 확률분포를 구하는 실험

#### 10000번 시도 : 실제 확률분포에 가까워짐

### 전교생의 시험점수의 분포

- 계급폭을 1점으로하여 히스토그램 작성

### 표본의 분포

### 표본 평균의 분포

- 표본 하나하나가 확률변수이므로 표본들의 평균으로 계산되는 표본 평균도 확률변수

------------------------------------------------------