# Inferential Statistcs

추측 통계 

In [1]:
# 경고 메시지 출력 끄기
import warnings 
warnings.filterwarnings(action='ignore')

# 노트북 셀 표시를 브라우저 전체 폭 사용하기
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))
from IPython.display import clear_output

%matplotlib inline
import matplotlib.pyplot as plt

import os, sys, shutil, functools
import collections, pathlib, re, string

rseed = 22
import random
random.seed(rseed)

import numpy as np
np.random.seed(rseed)
np.set_printoptions(precision=5)
np.set_printoptions(formatter={'float_kind': "{:.5f}".format})

import pandas as pd
pd.set_option('display.max_rows', None) 
pd.set_option('display.max_columns', None) 
pd.set_option('display.max_colwidth', None)
pd.options.display.float_format = '{:,.5f}'.format

import seaborn as sns

from pydataset import data

print(f"python ver={sys.version}")
print(f"pandas ver={pd.__version__}")
print(f"numpy ver={np.__version__}")

python ver=3.8.9 (default, Jun 27 2021, 02:41:12) 
[GCC 7.5.0]
pandas ver=1.2.5
numpy ver=1.19.5


## 추정 (Estimation)

기술 통계학에서는 분석 하고자 하는 모든 데이터의 통계적 특성을 통해 데이터를 분석하였습니다. 하지만, 현실에서는 시간/비용 등의 문제로 인하여 원하는 모든 데이터를 수집하여 분석할 수 없는 경우가 종종 발생합니다. 추정에서는 표본 데이터를 수집하여 해당 데이터를 통해 모집단의 통계적 특성을 추론함으로써 이런 문제점을 극복할 수 있습니다.

표본의 평균에서 모집단의 평균을 추정하는 것은 중심극한정리에 이론적 근간을 두고 있습니다. 

**중심극한정리(Central Limit Throrem)**

모집단(Population)이 정규분포하지 않아도 거기서 추출(sampling)한 표본(Sample)이 충분히(30 이상)크면 표본평균의 분포는 정규분포 한다.

표본 수: $n$, 모평균: $\mu$, 모분산: $\sigma^2$, 모표준편차: $\sigma$, 표본평균: $\bar{X}$, 표본분산: $s^2$, 표본표준편차: $s$

* 표본평균 $\bar{X}$ 의 분포 평균은 모집단의 평균 $\mu$ 과 일치
* 표본평균 $\bar{X}$ 의 분포 분산은 $\frac{\sigma^2}{n}$ (표준편차: $\frac{\sigma}{\sqrt{n}}$)
* 모집단의 분포가 어떠하든 표본 수 $n$ 가 커질수록 표본평균 $\bar{X}$ 의 분포는 정규분포

![](https://i.ibb.co/ZdZYZxW/central-limit-theorem.jpg)

https://www.youtube.com/watch?v=3SKwerKHbRk

여기서 표본평균의 분포 평균과 모집단의 평균은 일치하고 표본 평균의 분포는 정규분포이기 때문에 정규분포를 이용하여 신뢰 구간을 추청하는 방식을 이용하면 모평균의 분산을 알고 있을 경우, 모평균의 95% 신뢰 구간을 아래와 추정 할 수 있게 됩니다. 

$\bar{X} - 1.96 \times \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + 1.96 \times \frac{\sigma}{\sqrt{n}}$

하지만, 일반적으로 모집단의 분산을 모르기때문에, 모집단이 정규분포를 따른다른 가정하에 t 분포를 이용하여 모평균의 신뢰 구간을 추정할 수 있습니다. t 분포는 표본 수가 적어도 사용 가능하며, 충분히 (30 이상)이면 정규 분포와 거의 같아지므로 작은 표본에서도 사용할 수 있습니다. t 분포에서 95% 신뢰 구간은 아래와 같이 추정할 수 있게 됩니다.  

$\bar{X} - 2.26 \times \frac{s}{\sqrt{n-1}} \leq \mu \leq \bar{X} + 2.26 \times \frac{s}{\sqrt{n-1}}$

95% 모평균의 신뢰 구간을 추청한다는 의미는 여러 표본을 만들경우 그 표본 중 95% 정도는 모평균을 포함한다는 의미입니다.

![](https://www.spss-tutorials.com/img/confidence-interval-mean.png)

https://www.spss-tutorials.com/confidence-intervals/



## 가설검증 (Testing Hypothesis)