# 추측통계의 기본

- 추측 통계: 일부 데이터로부터 전체의 통계적 성질을 추측


## 모집단과 표본


- 모집단(population) 
    - 조사 대상이 되는 관측 가능한 개체로 된 집단 전체
    
    
- 표본(sample)
    - 모집단에서 선택된 모집단 구성단위의 일부


**전수조사와 표본조사**
- 전수조사
    - 모집단 전체를 조사
- 표본조사
    - 모집단의 일부를 조사

- 모수와 통계량
    - 모수(parameter)
        - 모집단의 특성을 나타내는 수치
    - (표본)통계량(sample statistic)
        - 표본의 특성을 나타내는 수치


### 표본의 추출방법

- 무작위 추출(임의 추출): 임의로 표본을 추출하는 방법
- 복원추출: 여러 차례 동일한 표본을 선택하는 방법
- 비복원추출: 동일한 표본은 한 번만 선택하는 방법

## 확률 모델

### 확률의 기본

- 확률(probability)
    - 어떤 사건(event)이 일어날 가능성
    - 예. 
        - 동전 던지기에서 앞면이 나올 가능성
        - 주사위 던지기에서 특정 눈금이 나올 확률
        - 주식투자에서 이득을 볼 가능성
        
        

- 의사결정
    - 확실성(certainty) 보다는 불확실한 상황에서 이루어지는 경우가 많음
    - 미래에 대한 불확실성의 정도가 더욱 심하다고 할 수 있음 
    - 불확실성 하에서 의사결정의 오류를 줄이기 위해 확률에 대한 연구 필요


### 확률변수 : 취하는 값과 그 값이 나올 확률이 결정되어 있는 것
    - 일정한 확률로 나타나는(발생하는) 사건에 대해 숫자를 부여한 변수
    - ex. 주사위를 굴리면 1-6사이의 숫자가 약 1/6 확률로 발생

- 시행
    - 확률 변수의 결과를 관측하는 것
    - 주사위를 굴리면 어떤 숫자가 나올지 모르지만 숫자는 하나씩 확정
- 실현값
    - 시행에 의해 관측되는 값
    - 주사위를 굴려서 나온 값
- 사건
    - 시행 결과로 나타날 수 있는 일
    - 눈은 1 또는 눈은 홀수 등
    - 주사위의 눈은 확률 변수 X
        - 눈이 1이 되는 사건의 확률 P(x=1)=1/6
        - 눈이 홀수인 사건의 확률 P((X=1)U(X=3)U(X=5) = 1/6+1/6+1/6 = 1/2

    - 근원사건
        - 세부적으로 더 분해할 수 없는 사건
        
        
- 상호배반 : 동시에 일어날 수 없는 사건
    - 동전을 던져 앞면이 나왔을때 동시에 뒷변이 나오는 사건


## 확률분포

- 확률변수가 어떻게 움직이는지를 나타낸 것

![](확률분포.png)
![](확률분포2.png)

- np.random.choice(a, size=None, replace=True, p=None)

    - a : 배열이면 배열 자체, 정수이면 arange(a)명령으로 배열 생성
    - size : 정수, 샘플 숫자
    - replace : boolean. True이면 복원추출, False면 비복원추출
    - p : 배열, 각 데이터가 선택될 수 있는 확률

In [102]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%precision 3
%matplotlib inline



In [103]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [104]:
#1. 주사위를 10번 던져서 눈을 출력해보자
import random

dice=[1,2,3,4,5,6]
for i in range(1,11):
    print(i, '번째는', random.choice(dice))

1 번째는 1
2 번째는 2
3 번째는 1
4 번째는 5
5 번째는 5
6 번째는 1
7 번째는 2
8 번째는 5
9 번째는 6
10 번째는 6


In [105]:
#2. 주사위를 10번 던져서 눈이 3이 나오는 횟수 출력
dice=[1,2,3,4,5,6]

cnt = 0
for i in range(1,11):    
    res = random.choice(dice)    
    if(res==3):
        cnt+=1
print('3이 나올 확률',cnt)

3이 나올 확률 1


In [106]:
#3. 주사위를 1000번 던져서 눈이 5이 나오는 횟수 출력
dice=[1,2,3,4,5,6]

cnt = 0
for i in range(1,1001):    
    res = random.choice(dice)
    if(res==5):
        cnt+=1
print('5가 나올 확률 :',cnt/1000)
print('1/6 확률 :',1/6)

5가 나올 확률 : 0.162
1/6 확률 : 0.16666666666666666


In [107]:
#4. 주사위를 1000번 던졌을 때 짝수
dice=[1,2,3,4,5,6]

cnt = 0
for i in range(1,1001):    
    res = random.choice(dice)
    if(res%2==0):
        cnt+=1
print('짝수가 나올 확률',cnt/1000)

짝수가 나올 확률 0.485


In [108]:
#4. 주사위를 1000번 던졌을 때 짝수 5번 반복
dice=[1,2,3,4,5,6]

for k in range(1,6):
    cnt = 0
    for i in range(1,1001):    
        res = random.choice(dice)
        if(res%2==0):
            cnt+=1
    print('짝수가 나올 확률',cnt/1000)

짝수가 나올 확률 0.496
짝수가 나올 확률 0.485
짝수가 나올 확률 0.507
짝수가 나올 확률 0.524
짝수가 나올 확률 0.502


In [109]:
#6. 한개 주사위를 360번 던져서 3의 배수의 눈이 나오는 횟수를 출력하는것을 1000번 반복
# 1000개를 X 변수에 대입해서 X의 평균, 분산, 표준편차를 구하시오 np.mean(), np.var() np.std()
import numpy as np

dice=[1,2,3,4,5,6]
X=[]
for k in range(1,1001):
    cnt = 0
    for i in range(1,361):    
        res = random.choice(dice)
        if(res%3==0):
            cnt+=1
    X.append(cnt)
    
print(np.mean(X))
print(np.var(X))
print(np.std(X))    

120.337
74.521431
8.632579626044581


In [110]:
# 주사위 2개를 동시에 던져서 
# 두 개의 주사위의 합을 구하는 실행문을 1000번 반복
# 1000개를 a변수 리스트 객체에 대입
dice=[1,2,3,4,5,6]
dice2=[1,2,3,4,5,6]

a=[]
cnt=0
while(cnt<1000):
    result1 = random.choice(dice)
    result2 = random.choice(dice2)
    a.append(result1+result2)
    cnt+=1
print(len(a))

1000


In [111]:
#8. 7번에 문제에서 두 개의 주사위의 눈의 합이 10이 되는 확률을 구하시오
dice=[1,2,3,4,5,6]
dice2=[1,2,3,4,5,6]

x=[]
cnt=0
while(cnt<1000):
    result1 = random.choice(dice)
    result2 = random.choice(dice2)
    if(result1+result2==10):
        x.append(result1+result2)
    cnt+=1
print(len(x)/1000)
print(cnt)

0.095
1000


In [112]:
#9. 주사위 한개를 288회 던져서 주사위의 눈이 5이상 나오는 횟수를 출력하자 (정규분포)
dice=[1,2,3,4,5,6]

x1=[]
cnt=0
while(cnt<288):
    result1 = random.choice(dice)
    if(result1>=5):
        x1.append(result1)
    cnt+=1
print(len(x1)/288)
print(cnt)

0.3263888888888889
288


In [113]:
#9. 주사위 한개를 288회 던져서 주사위의 눈이 5이상 나오는 횟수를 출력하자 (정규분포)
# 위의 작업을 100번 하기

dice=[1,2,3,4,5,6]

for i in range(1,101):
    cnt=0
    while(cnt<288):
        result1 = random.choice(dice)
        if(result1>=5):
            cnt+=1
print(cnt)

288


In [114]:
#11. 동전 한 개와 주사위 한 개를 동시에 100번 던져서 동전이 앞면이 나오고 주사위의 눈이 5가 나오는 횟수를 
# 출력하는 그 작업을 50번 해서 횟수가 50개가 출력되게
# [조건 2] 50번 횟수를 list객체인 변수 a에 저장 후 출력한다. 길이도 구하시오
# [조건 3] 조건 2의 값의 평균을 구해라
# [조건 4] 위의 리스트 객체의 값을 하나씩 리턴받기(특정 값만)
import random
coin = ['앞면','뒷면']
dice = [1,2,3,4,5,6]

a=[] # 조건2

for j in range(1,51):
    cnt=0
    for i in range(1,101):
        result_dice = random.choice(dice)
        result_coin = random.choice(coin)
        if result_coin == '앞면' and result_dice==5:
            cnt+=1
    a.append(cnt)
print(a, len(a))
print('평균     : ',np.mean(a))
print('분산     : ',np.var(a))
print('표준편차 : ',np.std(a))

for res in a:
    if res > 10 and res < 20:
        print(res,end='\t')

[8, 8, 9, 11, 12, 5, 14, 13, 3, 8, 9, 10, 13, 12, 6, 7, 10, 5, 10, 8, 9, 11, 8, 10, 10, 3, 4, 10, 5, 9, 7, 8, 10, 7, 3, 12, 7, 12, 4, 10, 7, 9, 8, 6, 14, 10, 6, 11, 8, 11] 50
평균     :  8.6
분산     :  7.92
표준편차 :  2.814249455894058
11	12	14	13	13	12	11	12	12	14	11	11	

In [115]:
#12 . 초등학생 키 10개가 들어있는 tall이스트의 요소 10개를 
# 10000개로 증가시켜서 talll10000 리스트에 담고 출력

tall = [129.3, 130.2, 132.5, 134.7, 136.3, 137.8, 138.1, 140.2, 142.3, 145.2]
tall10000 = tall*10000
# 12-1 위 모집단의 평균, 분산, 표준편차를 구해보자
print('평균     : ',np.mean(tall10000))
print('분산     : ',np.var(tall10000))
print('표준편차 : ',np.std(tall10000))

평균     :  136.66
분산     :  23.782399999999985
표준편차 :  4.876720209321013


In [116]:
# 12-2 위의 모집단에서 랜덤으로 표본 20개 추출해서 리스트로 담기
list_tall=[]
for i in range(1,21):
    list_tall.append(random.choice(tall10000))
print(list_tall)

[138.1, 142.3, 130.2, 130.2, 134.7, 134.7, 137.8, 140.2, 138.1, 134.7, 140.2, 142.3, 130.2, 130.2, 134.7, 129.3, 142.3, 138.1, 140.2, 140.2]


In [121]:
# 13 모평균이 30 이고, 모표준편차가 7인 모집단을 구성해보자
# 가우시안 정규분포로 나타내기
avg=np.mean(np.random.randn(N))
std=np.std(np.random.randn(N))
N=1000000
avg
std
mogipdan = np.random.randn(N) * std + avg # 가우시안 정규분포에 준하는 숫자들이 난수들 숫자만큼 생성된다
mogipdan
len(mogipdan)

0.001

1.000

array([-0.312,  0.812, -1.713, ...,  1.684, -0.8  , -0.122])

1000000

In [128]:
# 14 3 모평균이 30 이고, 모표준편차가 7인 모집단에서 표본 49개 추출
# 표본의 평균
avg=30
std=7
N=1000000

mogipdan = np.random.randn(N) * std + avg 
표본=np.random.choice(mogipdan,49) #표본 49개
표본
print('표본평균 : ',np.mean(표본))

array([16.056, 33.045, 38.353, 39.201, 33.281, 25.631, 24.378, 26.209,
       34.805, 37.37 , 21.694, 26.642, 32.721, 25.912, 32.257, 31.357,
       37.193, 37.283, 38.665, 27.286, 33.497, 18.304, 29.365, 21.605,
       33.762, 30.507, 16.909, 26.548, 23.087, 23.039, 34.356, 33.25 ,
       34.065, 38.407, 36.073, 30.561, 22.763, 37.52 , 37.742, 22.183,
       24.758, 17.461, 32.62 , 34.937, 42.8  , 35.272, 24.682, 15.886,
       34.554])

표본평균 :  29.915446302809297


In [139]:
# 15 . 서울시 초등학생 백만명의 키를 모집단으로 구성
# [조건 1] 평균 키가 148.5이고 표준편차가 30인 모집단
# [조건 2] 모집단에서 100명 표본으로 추출하고 100명의 평균키를 리스트 a에 입력하는 작업을 10000번 수행
# [조건 3] a 객체에 10000개의 표본의 평균키가 대입되도록 하자
avg=148.5
std=30
N=1000000
a=[]
mogipdan = np.random.randn(N) * std + avg 
for i in range(1,10001):
    표본=np.random.choice(mogipdan,100) #표본 49개
    a.append(np.mean(표본))
len(a)
a=np.mean(a)
a

10000

148.522

In [143]:
# 15 풀이
avg=148.5
std=30
N=1000000
a=[]
mogipdan = np.random.randn(N) * std + avg 
for i in range(1,10001):
    result=np.random.choice(mogipdan,100).mean() #표본 49개
    a.append(result)

print(len(a))
print(np.mean(a))

10000
148.46804222797408
