# Project: 제32회 ADP 실기 대비 - 핵심만 요약한 통계와 머신러닝 파이썬 코드북

# 4장. 확률분포
- 확률변수(Random variable)는 일정한 확률을 가지고 발생하는 사상(Event)에 수치가 부여된 변수를 말한다.
- 일반적으로 확률변수는 X, Y, Z와 같이 대문자로 표기하고 확률변수의 값은 x, y, z와 같이 소문자로 표기한다.
- 확률분포에는 이산형 확률분포(Discrete probability distribution)와 연속형 확률분포(Continuous probability distribution)가 있다.

- 이산형 확률분포는 확률 변수가 가질 수 있는 값이 명확하고 셀 수 있는 이산형인 경우의 분포이다.
- 확률분포 X가 취하는 확률값은 확률질량함수(Probability mass function)를 이용하여 계산한다.
- 확률값은 항상 0 이상 1 이하이며, 모든 확률변수의 확률값의 합은 1이다.
- 베르누이, 기하분포, 이항분포, 다항분포, 포아송 분포, 초기하분포, 음이항분포 등이 있다.

- 연속형 확률분포는 확률변수가 가질 수 있는 값이 연속적인 실수여서 셀 수 없는 경우의 분포이며, 확률값은 확률밀도함수(Probability density function)를 이용하여 계산한다.
- 확률밀도함수의 그래프는 항상 수평축 위에 있고, 어떤 구간에서 그래프 아래의 면적이 확률의 의미를 가진다.
- 즉, 확률밀도함수를 적분함으로써 그래프 아래의 면적인 확률값을 계산한다.
- 또한, 연속확률변수는 한 점에서의 확률이 0이므로 구간의 끝점에서 등호를 붙이거나 떼거나 확률은 동일하다.
- 확률밀도곡선 아래의 전체 면적은 항상 1이다. 균일분포, 정규분포, 지수분포, t-분포, 카이제곱분포, F분포 등이 있다.

- 각종 확률분포의 확률값은 확률분포표를 보거나 SciPy 라이브러리를 사용하여 쉽게 얻을 수 있다.
- SciPy 라이브러리에는 특정 확률분포의 여러가지 조건 하의 확률값을 계산하는 메서드들이 있다.
- 예를 들어 **`pmf()`**는 probabilty mass function, **`cdf()`**는 cumulative distribution function, **`ppf()`**는 percent point function을 반환한다.

## 4-1. 특수한 이산형 확률분포들

### Bernoulli distribution
- 동등한 실험 조건 하에서 실험의 결과가 단지 두 가지의 가능한 결과만을 가질 대 이러한 실험을 베르누이 시행이라 하는데, 성공의 횟수를 확률변수 X라 하면, 확률변수 X는 성공률이 p, 실패할 확률 q=(1-p)인 베르누이 분포(Bernoulli distribution)를 따른다고 한다.
- 확률변수 X가 모수 p를 가지는 베르누이 시행을 다음과 같이 표현한다.
$$ X \sim B(1,p) $$

In [26]:
# 베르누이 분포

# p, q: 성공할 확률, 실패할 확률(1-p)
p, q = 0.3, 0.7

from scipy.stats import bernoulli

E, V = bernoulli.stats(p)
print(f"기댓값: {E}, 분산: {V}")

기댓값: 0.3, 분산: 0.21


### Binomial distribution
- 어떤 실험에서 성공의 확률이 p인 베르누이 시행을 독립적으로 n번 반복 시행했을 때 성공의 횟수를 확률변수 X라 하면 확률변수 X는 시행횟수 n과 성공의 확률 p를 모수로 가지는 이항분포(Binomial distribution)를 따른다.
$$ X \sim B(n, p) $$

- 이항분포 $B(n,p)$는 $n>20, np>=5, n(1-p)>=5$일 때 정규분포 $N(np, np(1-p))$로 근사한다.
- 또한, $p<=0.1, np=0.1\sim10, n>=50$일 때 포하송 분포 $p(np)$로 근사한다.

In [49]:
# 이항분포
import numpy as np
from scipy.stats import binom

# 근로자가 내년에 회사를 떠날 확률이 0.1이라고 추정할 경우
# 근로자 3명을 무작위로 뽑은 상황

n=3  # 근로자 샘플 갯수
p=0.1 # 떠날 확률

E, V = binom.stats(n, p)
print(f"기댓값: {E}, 분산: {V}")

기댓값: 0.30000000000000004, 분산: 0.2700000000000001


In [50]:
# 확률질량함수 계산하기: 근로자 1명이 올해에 회사를 떠날 확률은?

x=1 # 떠날 근로자 샘플 갯수
print(f"해당 분포의 확률질량함수(pmf): {binom.pmf(x, n, p)}")

# 누적확률질량함수 계산하기: 근로자 1명 이하로 떠날 확률은?
print(f"해당 분포의 누적확률질량함수(cdf): {binom.cdf(x, n, p)}")

해당 분포의 확률질량함수(pmf): 0.243
해당 분포의 누적확률질량함수(cdf): 0.972


In [51]:
# combination 함수 정의
from numpy import math
fac = math.factorial

def combi(a, b):
    result = fac(a) / fac(b) / fac(a-b)
    return result

x=1

pmf = combi(n, x) * p**x * (1-p)**(n-x)
print(f"해당 분포의 확률질량함수(pmf): {pmf}")

# 누적확률질량함수 계산하기: 근로자 1명 이하로 떠날 확률은?
cdf=0

# 확률변수의 확률값들을 합함
# 0명 떠날 확률 + 1명 떠날 확률
for i in range(0, x+1):
    cdf += binom.pmf(i, n, p)

print(f"해당 분포의 누적확률질량함수(cdf): {cdf}")

해당 분포의 확률질량함수(pmf): 0.24300000000000005
해당 분포의 누적확률질량함수(cdf): 0.9720000000000001


In [48]:
# 이항분포의 정규분포 근사
from scipy.stats import norm

x, n, p = 10, 30, 0.5
b_result = binom.pmf(x, n, p)
 
E=n*p
sigma = np.sqrt(E*(1-p))
zstat1 = (x-0.5-E)/sigma # 이항분포의 x에서 -0.5
zstat2 = (x+0.5-E)/sigma # 이항분포의 x에서 +0.5
n_result = norm.cdf(zstat2) - norm.cdf(zstat1)

print(f"이항분포: {b_result}, 정규분포: {n_result}")

이항분포: 0.02798160072416065, 정규분포: 0.027869264218675572


In [39]:
# 이항분포의 포아송분포 근사
from scipy.stats import poisson

x, n, p = 10, 100, 0.05
b_result= binom.pmf(x, n, p)

E=n*p
p_result = poisson.pmf(x, E)

print(f"이항분포: {b_result}, 포아송분포: {p_result}")

이항분포: 0.01671588409593141, 포아송분포: 0.018132788707821854


### Negative binomial distribution
- 성공의 확률이 p인 베르누이 시행을 독립적으로 반복 시행할 때 k번 성공할 때까지의 시행횟수를 확률변수 X로 하는 경우 (1)과 k번 성공할 때까지의 실패횟수를 확률변수 X로 하는 경우 (2)의 확률변수 X는 모두 k, p를 모수로 갖는 음이항분포(Negative binomial distribution)을 따른다.

$$ X \sim NB(k,p)$$

- 음이항분포의 X는 셀 수 있지만 값이 무한한 무한확률변수이다. 음이항분포에서 k=1이면, 음이항분포는 기하분포가 된다.
- 음이항분포는 확률변수 X를 (1) 시행횟수로 놓거나, (2) 실패횟수로 정할 수 있다.
- 일반적으로 분석자들은 (1)번에 관심을 갖는다. 확률변수 X에 따라 해당 분포의 확률질량함수, 기댓값, 분산은 아래와 같다.

- (1) 확률변수 X = 시행횟수
    - $f(x) =  {(n-1) \choose (k-1)}{p^k}{(1-p)}^{(x-k)}, x=k, k+1, ..., k>0 $
    - $E(X) = k/p$
    - $Var(X) = k(1-p)/p^2$
    
- (2) 확률변수 X = 실패횟수
    - $f(x) = {(x+k-1)\choose(k-1)}{p^k}{(1-p)^x}, x=0, 1, 2, ... , k>0$
    - $E(X) = k(1-p)/p$
    - $Var(X) = k(1-p)/p^2$

#### A가 승리할 확률이 0.3일 때, 5번 경기를 치르는 상황

In [10]:
from scipy.stats import nbinom
from numpy import math

fac = math.factorial
def combi(a, b):
    result = fac(a) / fac(b) / fac(a-b)
    return result

n = 5   # 총 시행횟수
k = 2   # 총 성공횟수
p = 0.3 # 성공확률
q = 1-p # 실패확률

case = 2

if case == 1: # 확률변수 X가 k번 성공할 때까지의 시행횟수 x인 경우
    x = n # 확률변수
    E = k / p
    V = k*q / p**2
    
    pmf = combi(x-1, k-1) * p**k * q**(x-k)
    E2, V2 = np.nan, np.nan # 라이브러리 지원 안함
    pkg_pmf, pkg_cdf = np.nan, np.nan # 라이브러리 지원 안함
    
    cdf = 0
    for i in range(k, x+1): # 확률변수의 확률값들을 합함
        cdf += combi(i-1, k-1) * p**k * q**(i-k)
        
elif case == 2: # 확률변수 X가 k번 성공할 때까지의 실패횟수 x인 경우
    x = n-k # 확률변수
    E = k*q / p
    V = k*q / p**2
    pmf = combi(x+k-1, k-1) * p**k * q**(x)
    E2, V2 = nbinom.stats(k, p)
    pkg_pmf, pkg_cdf = nbinom.pmf(x, k, p), nbinom.cdf(x, k, p)
    
    cdf = 0
    for i in range(x+1): # 확률변수의 확률값들을 합함
        cdf += nbinom.pmf(i, k, p)
        
# 기댓값과 분산 계산하기
print(f"[수기] 해당 분포의 기댓값은: {E}, 분산은 {V}")
print(f"[라이브러리] 해당 분포의 기댓값은 {E2}, 분산은 {V2}")
print("-"*50)

print("확률질량함수 계산하기: 5번째 경기에서 2번8째로 이길 확률은?")
print(f"[수기] 확률질량함수(pmf): {pmf}")
print(f"[라이브러리] 확률질량함수(pmf): {pkg_pmf}")
print("-"*50)

print("누적확률질량함수 계산하기: 2번째 이하로 이길 확률은?")
print(f"[수기] 누적확률질량함수(cdf): {cdf}")
print(f"[라이브러리] 누적확률질량함수(cdf): {pkg_cdf}")

[수기] 해당 분포의 기댓값은: 4.666666666666667, 분산은 15.555555555555555
[라이브러리] 해당 분포의 기댓값은 4.666666666666667, 분산은 15.555555555555555
--------------------------------------------------
확률질량함수 계산하기: 5번째 경기에서 2번째로 이길 확률은?
[수기] 확률질량함수(pmf): 0.12347999999999996
[라이브러리] 확률질량함수(pmf): 0.12348
--------------------------------------------------
누적확률질량함수 계산하기: 2번째 이하로 이길 확률은?
[수기] 누적확률질량함수(cdf): 0.47177999999999987
[라이브러리] 누적확률질량함수(cdf): 0.47178


### Poisson distribution
- 단위 시간/면적/공간 내에서 발생하는 어떤 사건의 횟수를 확률변수 X라고 할 때
    - 확률변수 X는 $\lambda$(Lambda, 단위 시간/면적/공간 내에서 발생하는 사건의 평균값)를 모수로 가지는 포아송 분포를 따른다고 한다.
    
    $$X \sim  P(\lambda)$$
    
- 포아송 분포의 확률변수 X는 셀 수는 있지만 값이 무한한 무한확률변수이다.
- 또한, 단위 시간/공간에서 발생하는 사건의 횟수는 다른 시간/공간에 대해서 독립이며 평균출현횟수는 일정하다.

- 포아송분포는 $\lambda >= 5$일 때 정규분포에 근사하고 $\lambda < 5$ 일 때 왼쪽으로 치우치고 오른쪽으로 긴 꼬리가 있는 비대칭 분포를 가진다.

#### (예1) 주말 저녁 시간당 평균 6명이 응급실에 올 경우 어떤 주말 저녁 30분 내 4명이 도착할 확률은?

In [39]:
from scipy.stats import poisson

lambd = 3  # 단위 시간 내 평균(=lambda)
X = 4 # 단위 시간 내 사건 횟수(확률변수)

# 기댓값과 분산 계산하기
E, V = poisson.stats(lambd, moments='mv')
print(f"해당 분포의 기댓값: {E}, 분산: {V}")

# 확률질량함수 계산하기
print(f"해당 분포의 확률질량함수: {poisson.pmf(X, lambd)}")

# 누적확률질량함수 계산하기: 4명 이하로 도착할 확률은?
print(f"해당 분포의 누적확률질량함수: {poisson.cdf(X, lambd)}")

해당 분포의 기댓값: 3.0, 분산: 3.0
해당 분포의 확률질량함수: 0.16803135574154085
해당 분포의 누적확률질량함수: 0.8152632445237722


#### 포아송 분포의 정규분포 근사

In [38]:
from scipy.stats import norm
import numpy as np

X = 10
lambd = 20
E=V=lambd

# 포아송 분포의 표준편차
sigma = np.sqrt(V)

# 포아송 분포 (X - 0.5 - lambda) / sigma
zstat1 = (X - 0.5 - lambd) / sigma

# 포아송 분포 (X + 0.5 - lambda) / sigma
zstat2 = (X + 0.5 - lambd) / sigma

n_result = norm.cdf(zstat2) - norm.cdf(zstat1)
p_result = poisson.pmf(X, lambd)

print(f"포아송 분포: {p_result}, 정규분포: {n_result}")

포아송 분포: 0.00581630651834512, 정규분포: 0.007383492859331415


#### (예2) 일주일에 평균적으로 2.2 마리의 유기견이 버려진다.

- Q1. 일주일 동안 한 마리의 유기견도 버려지지 않을 확률

In [40]:
from scipy.stats import poisson

lambd = 2.2
X = 0

poisson.pmf(X, lambd)

0.11080315836233387

- Q2. 일주일 동안 적어도 2마리의 유기견이 버려질 확률을 구하시오.
    - 전체 확률 1에서 1까지의 누적확률질량함수를 빼준다.

In [43]:
1 - poisson.cdf(1, lambd)

0.6454298932405317

## 4-2. 특수한 연속형 확률분포들

### Uniform distribution
- 일반적으로 구간(a, b)에서 확률변수 X가 균일하게 분포되어 있다면, 확률변수 X는 구간(a, b)에서 균일분포(Uniform distribution)를 따른다고 한다.

$$ X \sim U(a, b)$$

- 해당 분포의 확률밀도함수, 기댓값, 분산을 구하는 공식은 아래와 같다.
- $f(x) = 1/(b-a), a<x<b$
- $E(X) = (a+b)/2$
- $Var(X) = (b-a)^2/12$

#### 확률변수 X가 (5, 15)에서 균일분포를 따를 때 12와 15사이의 확률은?

In [1]:
a, b = 5, 15 # 확률변수의 범위
range_ = [(12, 15)]

p = 1 / (b-a) # 확률밀도함수
cdf = 0

for (x1, x2) in range_:
    cdf += (x2-x1) * p # 누적분포함수
    
E = (b+a) / 2
V = (b-a)**2 / 12

print(f"범위 내 누적확률은 {cdf}")
print(f"해당 분포의 기댓값은 {E}, 분산은 {V}")

범위 내 누적확률은 0.30000000000000004
해당 분포의 기댓값은 10.0, 분산은 8.333333333333334


#### 버스가 오전 7시부터 15분 간격으로 정류장을 출발한다.
- 한 승객이 이 정류장에 도착하는 시간은 7시에서 7시 30분 사이에 균등분포를 따른다고 할 때 이 승객이 버스를 5분 미만 기다릴 확률은?

In [2]:
a, b = 0, 30 # 확률변수의 범위

# 승객이 버스를 5분 미만으로 기다릴 구간: 7시 10분 ~ 7시 15분, 7시 25분 ~ 7시 30분
range_ = [(10, 15), (25, 30)]
p = 1 / (b-a)
cdf = 0

for (x1, x2) in range_:
    cdf += (x2-x1) * p # 누적분포 함수
    
E = (b+a) / 2
V = (b-a) ** 2 / 12
    
print(f"범위 내 누적확률은 {cdf}")
print(f"해당 분포의 기댓값은 {E}, 분산은 {V}")

범위 내 누적확률은 0.3333333333333333
해당 분포의 기댓값은 15.0, 분산은 75.0


# 5장. 추정과 가설 검정
- 통계적 추론의 목적은 표본(Sample)의 정보로부터 모집단(Population)에 대한 정보를 얻는 것이다.
- 여기서 모집단의 특성을 나타내는 상수들을 모수(Population parameter)라 하고, 표본의 특성을 나타내는 상수들을 통계량(Statistics)이라고 한다.
- 모집단의 모수인 평균, 비율, 분산을 추정(Estimation)하거나 가설 거정(Test of hypothesis)하기 위해, 표본들로부터 얻은 표본평균, 표본비율, 표본분산으로 통계량들을 계산하여 사용한다.
- 추정과 가설 검정에 사용하는 통계량들은 각각 특정한 확률분포를 따르기 때문에 이를 활용하는 것이다.

- 추정은 점추정(Point estimation)과 구간추정(Interval estimation)으로 나뉜다.
- 점추정은 단순히 표본평균, 표본분산, 표본비율을 계산하는 방법이다.
- 이 때문에 추정값들이 얼마나 정확하게 모수를 추정하고 있는지 알 수 없다.
- 이러한 단점을 보완하고자 점추정에 오차의 개념을 추가하여 구간으로 모수를 추정하는 방법이 구간추정이다.
- 구간추정을 할 때 위에서 언급한 통계량을 활용한다.

- 가설검정은 귀무가설($H_0$)과 대립가설($H_1$)을 세우고 귀무가설의 모수와 표본에서 얻은 값으로 검정 통계량을 계산하여 귀무가설을 기각할지 여부를 판단하는 것이다.
- 임곗값(Critical value)은 기각범위와 채택범위를 구별시켜주는 값으로서 유의수준(Significant level)과 가설 검정의 형태에 따라 정해진다.
- 가설검정의 형태는 단측검정(One sided test, One tailed test)과 양측검정(Two sided test, Two tailed test)이 있으며, 단측검정은 표본분포의 오른쪽 혹은 왼쪽에 관심을 두는 것이고, 양측검정은 표본분포의 양쪽에 관심을 두고 검정을 시행한다.
- 가설의 채택 혹은 기각을 판단하기 위한 방법은 다음의 세가지가 있다.
    - 임곗값과 검정통계량을 비교하여 검정 통계량이 채택역에 있으면 귀무가설, 기각역에 있으면 대립가설을 채택한다.
    - 유의수준과 유의확률을 비교하여 유의수준보다 유의확률이 크면 귀무가설, 적으면 대립가설을 채택한다.
    - 검정하고자 하는 값이 신뢰구간 내에 있으면 귀무가설, 없으면 대립가설을 채택한다.

- 제1종의 오류는 $\alpha$로 표기하며 유의수준이라고 한다. 귀무가설이 참인데 대립가설을 채택하는 오류를 범할 확률을 의미한다.
- 제2종의 오류는 $\beta$로 표기하며, 대립가설이 참인데 귀무가설을 기각하지 않는 오류를 범할 확률을 의미한다. $(1-\beta)$는 검정력(Statistical power)이라고 한다.
- 제1종의 오류와 제2종의 오류는 상호 역의 관계(Trade-off)에 있으므로 제1종의 오류를 범할 확률을 증가시키면 제2종의 오류를 범할 확률은 감소하고 제1종의 오류를 범할 확률을 감소시키면 제2종의 오류를 범할 확률을 증가한다.
- 제1종의 오류를 고정한 채로 제2종의 오류를 줄이려면 표본의 크기를 크게하는 방법이 있다.
- 한편, 일표본(One-sample), 이표본(Two-sample), K표본(K-sample) 별로 추정과 가설검정을 실시할 수 있다.

### 5-1. 일표본(One-sample)

#### 모평균의 추정과 가설검정: Z분포, t분포
- [추정]
    - 표본의 크기가 30 이상이거나 모집단의 분산을 아는 경우: Z분포
    - 표본의 크기가 30 미만이고 모집단의 분산을 모르는 경우: t분포

- [가설검정] 아래 t분포를 활용한 검정을 '일표본 t검정'이라고 한다.
    - 표본의 크기가 30 이상이거나 모집단의 분산을 아는 경우: Z분포
    - 표본의 크기가 30 미만이고 모집단의 분산을 모르는 경우: t분포

- 참고로, 표본의 개수가 커질수록 표본평균의 확률분포는 정규분포에 가까워지는데 이를 중심극한정리(Central limit theorem)라고 한다.
- 또한, 표본의 개수가 커질수록 표본평균의 값은 모평균의 값에 가까워지는데 이를 큰 수의 법칙(Law of large numbers)이라고 한다.
- 일표본 모평균의 추정과 가설 검정은 다음과 같이 모표준편차를 아는 경우와 모르는 경우로 나누어 생각해볼 수 있다.

#### 모표준편차를 아는 경우의 추정

In [16]:
import numpy as np

# 모평균의 추정
x = 31100     # 표본평균
n = 36        # 표본크기
sigma = 4500  # 모표준편차
conf_a = 0.05 # 신뢰수준(confidence level) 95% 기준

from scipy.stats import norm # 표준정규분포 Z를 사용
SE = sigma / np.sqrt(n) # 표준오차(standard error)
conf_z = norm.ppf(1-conf_a / 2) # 신뢰계수(Confidence coefficient)
ME = conf_z * SE # 오차의 한계 = 허용오차(ME: margin of error)

print("[추정]")
print(f"점 추정량: {x}")
print(f"구간 추정량: {x-ME} ~ {x+ME}")
print(f"오차의 한계: {ME}")

# 오차의 한계에 따른 표본 규모
# 오차의 한계가 500 이하일 확률이 0.95가 되도록 모집단 평균의 추정치를 원하는 경우, 표본 규모는 얼마가 되어야 하는가?
ME = 500
conf_a = 1-0.95 # 신뢰수준(confidence level) 95% 기준
conf_z = norm.ppf(conf_a/2) # 혹은 norm.ppf(1-conf_a/2)
ssize = conf_z**2 * sigma**2 / ME**2

print("[표본규모]")
print(f"유의수준 {conf_a}에서 오차의 한계를 {ME} 이하로 하려면: 표본 규모 {ssize} 이상")

[추정]
점 추정량: 31100
구간 추정량: 29630.02701159496 ~ 32569.97298840504
오차의 한계: 1469.9729884050405
[표본규모]
유의수준 0.050000000000000044에서 오차의 한계를 500 이하로 하려면: 표본 규모 311.15816447622416 이상


In [15]:
# 모평균의 가설검정
# H0: mu=mu0, H1: mu != mu0

x = 31100     # 표본평균
n = 36        # 표본크기
sigma = 4500  # 모표준편차
mu0 = 30000   # 귀무가설의 모평균
test_a = 0.05 # 가설검정을 위한 유의수준

SE = sigma / np.sqrt(n) # standard error
zstat = (x -mu0) / SE   # 검정통계량

# 단측(one) / 양측(two) 검정에 따른 유의확률과 임계값
ways = 'two' # 'two', 'one-right', 'one-left' # 대립가설 기준

if ways == 'two':
    sp = (1-norm.cdf(np.abs(zstat))) * 2 # significance probability
    cv = norm.ppf(1-test_a/2) # critical value
    cv = f"+/-{cv}"
elif ways == 'one-right':
    sp = 1-norm.cdf(zstat)
    cv = norm.ppf(1-test_a)
    cv = f"{cv}"
elif ways == 'one-left':
    sp = norm.cdf(zstat)
    cv = norm.ppf(test_a)
    cv = f"{cv}"
    
print("[검정]")
print(f"임계값: {cv}, 검정통계량: {zstat}")
print(f"유의수준: {test_a}, 유의확률: {sp}")

[검정]
임계값: +/-1.959963984540054, 검정통계량: 1.4666666666666666
유의수준: 0.05, 유의확률: 0.14246675482797233


#### 모표준편차를 모르는 경우

In [17]:
# 모평균의 추정
x = 650       # 표본평균
n = 16        # 표본크기
s = 55        # 표본표준편차
conf_a = 0.05 # 신뢰수준(confidence level) 95% 기준
df = n-1

from scipy.stats import t
SE = s / np.sqrt(n)
conf_t = t.ppf(1-conf_a/2, df)
ME = conf_t * SE

print("[추정]")
print(f"점 추정량: {x}")
print(f"구간 추정량: {x-ME} ~ {x+ME}")
print(f"오차의 한계: {ME}")

[추정]
점 추정량: 650
구간 추정량: 620.6925687485593 ~ 679.3074312514407
오차의 한계: 29.30743125144069


In [18]:
# 오차의 한계에 따른 표본 규모
# 오차의 한계가 20 이하일 확률이 0.95가 되도록 모집단 평균의 추정치를 원하는 경우, 표본 규모는 얼마가 되어야 하는가?

ME2 = 20
conf_a2 = 1 - 0.95 # 신뢰수준(confidence level) 95% 기준
conf_t2 = t.ppf(conf_a2/2, df)
ssize = conf_t2**2 * s**2 / ME2**2

print("[표본규모]")
print(f"유의수준 {conf_a2}에서 오차의 한계를 {ME2} 이하로 하려면: 표본 규모 {ssize} 이상")

[표본규모]
유의수준 0.050000000000000044에서 오차의 한계를 20 이하로 하려면: 표본 규모 34.357021062316896 이상


In [19]:
# 모평균의 가설검정(=one-sample t-test)
# H0: mu = mu0, H1: mu > mu0

mu0 = 600 # 귀무가설의 모평균
test_a = 0.05 # 가설검정을 위한 유의수준
x = 650 # 표본평균
n = 16 # 표본크기
s = 55 # 표본표준편차
df = n-1 # 자유도

SE = s / np.sqrt(n)
tstat = (x-mu0) / SE

# 단측(one) / 양측(two) 검정에 따른 유의확률과 임계값
ways = 'one-right' # 'two', 'one-right(mu>mu0)', 'one-left(mu<mu0)' # 대립가설 기준

if ways == 'two':
    sp = (1-t.cdf(np.abs(tstat), df)) * 2 # significance probability
    cv = t.ppf(1-test_a/2, df) # critical value
    cv = f"+/-{cv}"
elif ways == 'one-right':
    sp = 1-t.cdf(tstat, df)
    cv = t.ppf(1-test_a, df)
    cv = f"{cv}"
elif ways == 'one-left':
    sp = t.cdf(tstat, df)
    cv = t.ppf(test_a, df)
    cv = f"{cv}"
    
print("[검정]")
print(f"임계값: {cv}, 검정통계량: {tstat}")
print(f"유의수준: {test_a}, 유의확률: {sp}")

[검정]
임계값: 1.7530503556925547, 검정통계량: 3.6363636363636362
유의수준: 0.05, 유의확률: 0.0012185096017776065


# 6장. 비모수 검정
- 비모수 검정(Non-parametic test)은 모수에 대한 가정 없이 가설 검정하는 것으로서 분포무관(Distribution-free) 검정이라고도 한다.
- 모수 검정은 모집단의 분포에 대한 가정 하에 모수(예: 평균, 분산 등)에 대해 가설을 설정하고 표본의 정보를 사용하여 가설 검정을 하는 반면, 비모수 검정에서는 모집단의 분포에 대해 가정하지 않고, 표본의 정보를 사용하여 분포의 형태가 동일한지 여부에 대해서 검정한다.
- 비모수 검정은 **`자료가 정규분포가 아닌 경우, 표본의 크기가 작은 경우, 자료가 순서식 데이터(서열척도) 혹은 빈도/바이너리 데이터(명목척도)인 경우`**에 사용한다.
- 표본 개수와 척도 종류에 따라 아래와 같이 검정 방법을 적용한다.

## 6-1. 카이제곱검정: 카이제곱분포

### 적합성 검정: 다항모집단 비율의 차이
- 적합성 검정(Goodness of fit test)은 관측값들이 어떤 이론이나 이론적 분포를 따르고 있는지를 검정하는 것이다.
- 카이제곱분포를 이용한 검정은 기대도수가 적어도 5 이상이 될 때 적용해야 한다.
- **`[가설 설정]`**
    - 귀무가설($H_0$): 구해진 도수분포의 도수와 이론도수가 차이가 없다.
    - 대립가설($H_1$): 구해진 도수분포의 도수와 이론도수가 차이가 있다.

#### (예1) 세 후보자의 지지도가 다르다고 할 수 있을까?
- 귀무가설: 세 후보자의 지지도는 동일하다.
- 대립가설: 세 후보자의 지지도는 차이가 있다.

In [1]:
import numpy as np

data = np.array([60, 50, 40])
data

array([60, 50, 40])

In [6]:
from scipy.stats import chisquare, chi2

chisquare(data, data.mean())

Power_divergenceResult(statistic=4.0, pvalue=0.1353352832366127)

- **`[결론]`** 유의수준 0.05 하에서 p-value가 0.05 보다 크므로 귀무가설을 채택한다. 즉, 세 후보자의 지지도는 동일하다.

### 독립성 검정: 한 모집단 내 여러 수준의 차이
- 독립성 검정(Test of independence) 혹은 교차분석이라고 한다.
- 다수의 인자들에 의해 분할되어 있는 데이터에서, 인자들이 관찰값에 영향을 주고 있는지 여부를 검정한다.
- **`[검정 조건]`**
    - 자유도가 1인 경우 전체 데이터 수가 30보다 크면서 각 칸의 빈도가 5 이상일 때 사용
    - 데이터 수가 30보다 크면서 5 미만의 기대빈도의 칸이 전체 칸의 20%보다 적고 모든 칸에 1 이상의 기대빈도가 있다면 척도에 관계없이 사용 가능
    - 각 칸의 기대빈도가 5 미만인 경우 변수들의 범주를 묶거나 이항검정법을 사용
    - 도수가 작아도 피셔의 정확검정(Fisher's exact test)을 이용하면 집계표의 독립성을 검정할 수 있음
    
- **`[가설 설정]`**
    - 귀무가설($H_0$): 두 인자는 독립이다. (연관이 없다)
    - 대립가설($H_1$): 두 인자는 독립이 아니다. (연관이 있다)

#### (예1) 성별 변량과 안경 착용여부 변량이 서로 독립인지 관련이 있는지 유의수준 5% 검정
- 귀무가설: 성별과 안경 착용여부는 서로 독립이다.
- 대립가설: 성별과 안경 착용여부는 서로 독립이 아니다.

In [15]:
import pandas as pd

data = pd.DataFrame({
    "성별" : ['남자', '여자'],
    '안경착용' : [10, 30],
    '안경미착용' : [40, 20
    ]}).set_index("성별")

data

Unnamed: 0_level_0,안경착용,안경미착용
성별,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,10,40
여자,30,20


In [16]:
from scipy.stats import chi2_contingency, chi2

chi2, p, df, expec = chi2_contingency(data, correction=False)

print(f"검정통계량: {chi2}")
print(f"p-value: {p}")
print(f"기댓값:\n{expec}")

검정통계량: 16.666666666666668
p-value: 4.455709060405612e-05
기댓값:
[[20. 30.]
 [20. 30.]]


#### [참고] Fisher's exact test
- 귀무가설: A와 B의 실력은 차이가 없다.
- 대립가설: A와 B의 실력은 차이가 있다.

In [18]:
import pandas as pd

data = pd.DataFrame([[10, 2], [3, 5]], index=['A', 'B'], columns=['승', '패'])
data

Unnamed: 0,승,패
A,10,2
B,3,5


In [19]:
from scipy.stats import fisher_exact

stats, p = fisher_exact(data, alternative='greater')

print(f"검정통계량: {stats}")
print(f"p-value: {p}")

검정통계량: 8.333333333333334
p-value: 0.05211558307533548


- **`[결론]`** 유의수준 0.05 하에서 p-value가 0.05보다 크므로 귀무가설을 채택한다. 즉, A와 B의 실력은 차이가 없다.

### 동질성 검정: 여러 (부)모집단 간 여러 수준에 대한 차이
- 동질성 검정(Test of homogeneity)은 속성 A, B를 가진 부모집단(Sub-population)들로부터 정해진 표본의 크기만큼 자료를 추출하는 경우에 분할표에서 부모집단의 비율이 동일한지 여부를 검정하는 것이다.
- **`[가설 설정]`**
    - 귀무가설($H_0$): 모든 집단의 분포가 차이가 없다. (동일하다)
    - 대립가설($H_1$): 적어도 한 집단은 분포상 서로 차이가 있다. (동일하지 않다)

#### (예1) 프로그램 A, B, C에 대해 연령층별 시청자들의 선호가 다른지 유의수준 5%로 검정
- 귀무가설: 프로그램에 대한 연령별 선호에 차이가 없다.
- 대립가설: 적어도 한 집단은 차이가 있다.

In [20]:
import pandas as pd

data = pd.DataFrame({
    "TV" : ["A", "B", "C"],
    '청년' : [120, 30, 50],
    '중년' : [10, 75, 15],
    '장년' : [10, 30, 60]    
}).set_index("TV")

data

Unnamed: 0_level_0,청년,중년,장년
TV,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,120,10,10
B,30,75,30
C,50,15,60


In [21]:
from scipy.stats import chi2_contingency, chi2

chi2, p, df, expec = chi2_contingency(data, correction=False)

print(f"검정통계량: {chi2}")
print(f"p-value: {p}")
print(f"기댓값:\n{expec}")

검정통계량: 180.49523809523808
p-value: 5.836850688101578e-38
기댓값:
[[70.   35.   35.  ]
 [67.5  33.75 33.75]
 [62.5  31.25 31.25]]


- **`[결론]`** 유의수준 0.05 하에서 p-value가 0.05보다 작으므로 귀무가설을 기각한다. 즉, 프로그램에 대한 연령별 선호에 적어도 한 집단은 차이가 있다.

## 6-3. 이항변수 데이터 검정: 카이제곱분포

### McNemar's test
- 맥니머 검정(McNemar's test)은 이항변수인 두 변수의 대응관계(Paired)가 있는 데이터 분포의 차이를 검정할 때 사용한다.
- **`[가설 설정]`**
    - 귀무가설($H_0$): 두 변수의 데이터 분포는 차이가 없다.
    - 대립가설($H_1$): 두 변수의 데이터 분포는 차이가 있다.

#### (예) 프로모션 행사 전/후로 상품에 대한 흥미 유무 데이터

In [20]:
import pandas as pd

df = pd.DataFrame([[9, 12], [24, 35]], index=['전_흥미있음', '전_흥미없음'], columns=['후_흥미있음', '후_흥미없음'])
df

Unnamed: 0,후_흥미있음,후_흥미없음
전_흥미있음,9,12
전_흥미없음,24,35


In [21]:
from statsmodels.stats.contingency_tables import mcnemar

# exact=True이면 이항분포, exact=False이면 카이제곱분포를 사용
mc = mcnemar(df.values, exact=False, correction=False)
print(mc)

pvalue      0.04550026389635857
statistic   4.0


- **`[결론]`** 유의수준 0.05 하에서 p-value가 0.05 보다 작으므로 귀무가설을 기각한다. 즉, 두 변수의 데이터 분포는 차이가 있다.
- 맥니머 검정 결과 대립가설을 채택하며 프로모션 행사의 효과가 있었다는 결론을 얻었다.

### Cochran's Q test
- 코크란Q 검정(Cochran's Q test)은 이항변수인 세 변수 이상의 대응관계(Paired)가 있는 데이터 분포의 차이를 검정할 때 사용한다.
- 대응 관계가 있는 일원배치 분산분석의 비모수 버전이다.
- **`[가설 설정]`**
    - 귀무가설($H_0$): 각 변수의 데이터 분포는 차이가 없다.
    - 대립가설($H_1$): 적어도 한 쌍의 변수의 데이터 분포는 차이가 있다.

#### (예1) 연예인 3명에 대한 호감도 데이터를 얻기 위해 8명에게 설문 조사를 실시하였다. 연예인에 대한 호감도 비율에 차이가 있는가?

In [22]:
import pandas as pd

df = pd.DataFrame([
    [0, 1, 0, 1, 0, 0, 0, 0],
    [1, 1, 0, 1, 0, 0, 1, 1],
    [0, 1, 1, 1, 1, 1, 1, 1]
    ], index=['가수1', '가수2', '가수3'], columns=[1, 2, 3, 4, 5, 6, 7, 8]
).T

df

Unnamed: 0,가수1,가수2,가수3
1,0,1,0
2,1,1,1
3,0,0,1
4,1,1,1
5,0,0,1
6,0,0,1
7,0,1,1
8,0,1,1


In [23]:
from statsmodels.stats.contingency_tables import cochrans_q

print(cochrans_q(df))

df          2
pvalue      0.042143843509276406
statistic   6.333333333333333


- **`[결론]`** 유의수준 0.05 하에서 p-value가 0.05 보다 작으므로 귀무가설을 기각한다. 즉, 적어도 한 쌍의 변수의 데이터 분포는 차이가 있다.

#### (예2) 영업사원 A, B, C, D, E의 각 계약 성사 유무(0: 미계약, 1:계약)를 나타낸 데이터. 영업사원의 평균 계약 성사 건수가 같은지 통계 검정

In [24]:
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/31/adp_31_7.csv")
df.drop(df.columns[0], axis=1, inplace=True)
df

Unnamed: 0,A,B,C,D,E
0,1,0,1,1,1
1,0,1,0,1,0
2,1,0,0,0,0
3,0,1,1,1,1
4,0,1,0,1,0
5,1,1,0,1,1
6,0,1,1,0,0
7,0,1,0,0,0
8,1,0,0,1,1
9,1,1,0,0,0


- 이진 변수인 계약 유무에 대해 영업사원의 수가 3명 이상이고 각 계약별로 대응되어 있는 형태이므로 Corchrans'Q 검정을 이용한다.
- 귀무가설($H_0$): 영업사원 별 계약 성사 비율은 차이가 없다.
- 대립가설($H_1$): 적어도 한 쌍의 영업사원 별 계약 성사 비율은 차이가 있다.

In [27]:
from statsmodels.stats.contingency_tables import cochrans_q

print(cochrans_q(df))

df          4
pvalue      0.3406392758219471
statistic   4.516129032258065


- **`[결론]`** 유의수준 0.05 하에서 p-value가 0.05 보다 크므로 귀무가설을 채택한다. 즉, 영업사원 별 계약 성사 비율에는 차이가 없다.