## 통계분포
### 난수 : 분포로부터 추출한 난수는, 분포를 갖는 확률변수 X의 실현값

## 
## 연속형 확률분포
### 정규분포

### $f(x) = {1 \over {\sigma \sqrt{2 \pi}}} e^{ -{1 \over 2} ({{x-\mu} \over \sigma})^2 } \;\;\; 평균 = \mu \;\;\; 분산 = \sigma^2$

#### ```rnorm(n, mean, sd)``` : 평균이 mean, 표준편차가 sd인 정규분포를 따르는 n개의 난수추출

In [223]:
rnorm(10, 0, 1)

#### ```dnorm(x, mean, sd)``` : 평균이 mean, 표준편차가 sd인 정규분포에서, x의 확률밀도함수 값 $f(x)$


In [224]:
dnorm(1.96, 0, 1)

#### ```pnorm(q, mean, sd, lower.tail)``` : 평균이 mean, 표준편차가 sd인 정규분포에서 누적분포함수 값$P(X \leq q)$
- ```lower.tail``` : TRUE : 기본값 / FALSE : $1-P(X\leq q)$

In [26]:
pnorm(1.96, 0, 1, lower.tail = T)
pnorm(1.96, 0, 1, lower.tail = F)

#### ```qnorm(p, mean, sd, lower.tail)``` : 평균이 mean, 표준편차가 sd인 정규분포에서 상위 p분위수

In [31]:
qnorm(0.975) 

### 
# 
### 연속균등분포 (uniform)

### $f(x) = {1 \over {b-a}} \;\;\; 평균 = {{a+b}\over 2} \;\;\; 분산 = {{(b-a)}^3\over 12}$

#### ```runif(n, min, size)``` : 최솟값이 min이고 최대값이 max인 연속균등분포에서, n개의 난수추출

In [39]:
runif(10, 0, 1)

#### ```dunif(x, min, size)``` : 최솟값이 min이고 최대값이 max인 연속균등분포에서, x의 확률밀도함수 값 $f(x)$
#### ```punif(q, min, size, lower.tail)``` : 최솟값이 min이고 최대값이 max인 연속균등분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qunif(p, min, size, lower.tail)``` : 최솟값이 min이고 최대값이 max인 연속균등분포에서, 상위 p분위수

### 
# 
### 지수분포

### $f(x) = {{1\over {\beta}} e^{1/\beta}}, \;\; x > 0 \;\;\; 평균 = \beta \;\;\; 분산 = \beta^2$

#### ```rexp(n, rate)``` : $\beta\;$(= 평균)이 1 / rate인 지수분포에서, n개의 난수추출
#### ```dexp(x, rate)``` : $\beta\;$(= 평균)이 1 / rate인 지수분포에서, x의 확률밀도함수 값 $f(x)$
#### ```pexp(q, rate, lower.tail)``` : $\beta\;$(= 평균)이 1 / rate인 지수분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qexp(p, rate, lower.tail)``` : $\beta\;$(= 평균)이 1 / rate인 지수분포에서, 상위 p분위수

### 
# 
### 감마분포
- **$1/\lambda = \theta$사건의 횟수 $(1/\lambda)$가 포아송분포를 따른다면, 다음 사건이 일어날 대 까지의 대기시간 $\theta$**



### $f(x, k, \theta) = {1 \over {\Gamma(k) \theta^k}} x^{k-1} e^{-x / \theta} \;\;\; 평균 = k\theta \;\;\; 분산 = k\theta^2$


### $\Gamma(k) : 감마함수 = \int^{\infty}_0 x^{k-1} e^{-x} \; dx = $

$\begin{cases}
(k-1)!\;, \;\;\; 양의 정수\\
\sqrt{\pi}\;, \;\;\; k = 1/2
\end{cases}
$

### 
#### ```rgamma(n, shape, rate, scale)``` : k가 shape, $\theta$가 scale인 감마분포에서 ($1 / \theta$가 rate), n개의 난수추출
#### ```dgamma(x, shape, rate, scale)``` : k가 shape, $\theta$가 scale인 감마분포에서, x의 확률밀도함수 값 $f(x)$
#### ```pgamma(q, shape, rate, scale, lower.tail)``` : k가 shape, $\theta$가 scale인 감마분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qgamma(p, shape, rate, scale, lower.tail)``` : k가 shape, $\theta$가 scale인 감마분포에서, 상위 p분위수

### 
# 
### 카이제곱분포
- **k개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포**
- **표준정규분포를 따르는 확률변수 $X_1, X_2, ... X_k$에서 k의 카이제곱분포는 $W = \sum^k_{i=1} X^2_i$를 확률변수로 가짐**
- **자유도 : k를 지칭**

### $f(x; k) = {1 \over {2^{k/2} \Gamma({k \over 2})}} x^{{1 \over 2} -1} e^{- {x \over 2}} \;\;\; \{x \geq 0\} \;\;\; 평균 = k \;\;\; 분산 = 2k$

### $\Gamma(k) = \int^{\infty}_0 t^{k-1} e^{-t} \; dt$ (단, k가 자연수이면 $\Gamma(k) = (k-1)!$)

### 
#### ```rchisq(n, df, ncp)``` : 자유도가 df인 카이제곱분포에서, n개의 난수추출
#### ```dchisq(x, df, ncp)``` : 자유도가 df인 카이제곱분포에서, x의 확률밀도함수 값 $f(x)$
#### ```pchisq(q, df, ncp, lower.tail)``` : 자유도가 df인 카이제곱분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qchisq(p, df, ncp, lower.tail)``` : 자유도가 df인 카이제곱분포에서, 상위 p분위수

### 
# 
### 스튜던트 t분포
- **정규분포의 평균 측정 시 주로 사용, t = 0에서 대칭**
- **확률변수의 분포 (검정통계량) $t = {Z\over \sqrt{V / v}}$ (Z는 표준정규분포, V는 자유도 $v$인 카이제곱분포)**
- **자유도 : n - 1**

### $f(x) = {{\Gamma({{(v+1)} \over 2})} \over {\sqrt{v \pi}\Gamma({v \over 2})}} (1 + {{x^2 \over v}})^{-({v+1}) \over 2}$

#### ```rt(n, df, ncp)``` : 자유도가 df인 t분포에서, n개의 난수 추출
#### ```dt(x, df, ncp)``` : 자유도가 df인 t분포에서, x의 확률밀도함수 값 $f(x)$
#### ```pt(q, df, ncp, lower.tail)``` : 자유도가 df인 t분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qt(p, df, ncp, lower.tail)``` : 자유도가 df인 t분포에서, 상위 p분위수

### 
# 
### F분포
- **두 개의 확률변수 $V_1, V_2$의 자유도가 각각 $k_1, k_2$이고, 서로 카이제곱분포를 따를때, $F = {{V_1 / k_1} \over {V_2 / k_2}} \sim F(k_1, k_2)$**

### $f(x) = {1 \over {B(d_1/2, d_2/2}} ({{d_1x} \over {d_1x_1 + d_2}})^{{d_1 \over 2}} (1 - {{d_1x} \over {d_1x_1 + d_2}})^{{d_2 \over 2}} x^{-1} \;;\;\; 평균 = {d_2 \over {d_2-2}} \;\;\; (단, d_2 > 2)$

### $B(x, y) = \int^1_0 t^{x-1} (1-t)^{y-1} \; dt$
### 

#### ```rf(n, df1, df2, ncp)``` : 자유도가 각각 df1, df2인 F분포에서, n개의 난수추출
#### ```df(x, df1, df2, ncp)``` : 자유도가 각각 df1, df2인 F분포에서, x의 확률밀도함수 값 $f(x)$
#### ```pf(q, df1, df2, ncp, lower.tail)``` : 자유도가 각각 df1, df2인 F분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qf(p, df1, df2, ncp, lower.tail)``` : 자유도가 각각 df1, df2인 F분포에서, 상위 p분위수

## 
## 
## 이산형 확률분포
### 이항분포

### $P(X = x) =\; _nC_p p^x q^{n-x} \;\;\; 기댓값 = np \;\;\; 분산 = npq$

### 

#### ```rbinom(n, size, prob)``` : 크기가 size이고 p = prob인 이항분포에서, n개 난수추출
#### ```dbinom(x, size, prob)``` : 크기가 size이고 p = prob인 이항분포에서, x의 확률밀도함수 값 $P(x)$
#### ```pbinom(q, size, prob, lower.tail)``` : 크기가 size이고 p = prob인 이항분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qbinom(p, size, prob, lower.tail)``` : 크기가 size이고 p = prob인 이항분포에서, 상위 p분위수

## 
## 
### 포아송분포 
- **단위 시간 안에 어던 사건이 몇 번 발생할 것인지를 표현**
- **X를 단위시간당 발생건수, 평균 사건 발생수 $\lambda$**

### $P(X = x) = {{\lambda^x e^{-\lambda}} \over {x!}} \;\;\; 기댓값 = \lambda \;\;\; 분산 = \lambda$

#### ```rpois(n, lambda)``` : 기댓값이 lambda인 포아송분포에서, n개의 난수추출
#### ```dpois(n, lambda)``` : 기댓값이 lambda인 포아송분포에서, x의 확률밀도함수 값 $P(x)$
#### ```ppois(q, lambda, lower.tail)``` : 기댓값이 lambda인 포아송분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qpois(p, lambda, lower.tail)``` : 기댓값이 lambda인 포아송분포에서, 상위 p분위수

## 
## 
### 기하분포
- **베르누이 시행에서 처음 성공까지 시도한 쇳수를 분포화**

### $P(X = x) = pq^{x-1}, \;\;\; (q = 1-p) \;\;\; 기댓값 = {1 \over p} \;\;\; 분산 = {q \over p^2}$ 

#### ```rgeom(n, prob)``` : 성공확률이 prob인 기하분포에서, n개의 난수추출
#### ```dgeom(x, prob)``` : 성공확률이 prob인 기하분포에서, x의 확률밀도함수 값 $P(x)$
#### ```pgeom(q, prob, lower.tail)``` : 성공확률이 prob인 기하분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qgeom(p, prob, lower.tail)``` : 성공확률이 prob인 기하분포에서, 상위 p분위수

## 
## 
### 음이항분포
- **p : 실패확률 / n : 실패횟수**
- **n번째 실패가 나왔을 때, 성공횟수가 x번째일 확률, (x번째 성공을 얻기 위해 걸렸던 n번의 실패)**

### $P(X = x) = {\;_{x+n-1}C_{n-1} (1-p)^{x} p^{n-1}p}, \;\;\; 기댓값 = n{{1-p}\over p}  \;\;\; 분산 = n{{1-p}\over {p^2}}$

#### ```rnbinom(n, size, prob, mu)``` : 성공확률이 prob, 실패횟수가 size인 음이항분포에서, n개의 난수추출
#### ```dnbinom(x, size, prob, mu)``` : 성공확률이 prob, 실패횟수가 size인 음이항분포에서, x의 확률밀도함수 값 $P(x)$
#### ```pnbinom(q, size, prob, mu, lower.tail)``` : 성공확률이 prob, 실패횟수가 size인 음이항분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qnbinom(p, size, prob, mu, lower.tail)``` : 성공확률이 prob, 실패횟수가 size인 음이항분포에서, 상위 p분위수

### 
### 
### 초기하분포 
- **m + n개의 모집단에서 관심있는 원소 m개가 존재 => k개의 비복원 추출 시행 => k개의 비복원 추출에서 관심있는 원소가 x개가 포함될 확률**

### $P(X = x) =  {{{\;_mC_x}\;\times\;{\;_{n}C_{k-x}}} \over {\;_{m+n}C_k}} \;\;\; 기댓값 = n {m \over {m+n}} \;\;\; 분산 = n {m \over {m+n}} ({n\over {m+n}}) ({{m} \over {m+n-1}})$

#### ```rhyper(nn, m, n, k)``` : 모집단의 크기가 m+n, 모집단 안에 들어있는 원하는 원소의수가 m, 표본의 크기가 k인 초기하분포에서, nn개의 난수 추출
#### ```dhyper(x, m, n, k)``` : 모집단의 크기가 m+n, 모집단 안에 들어있는 원하는 원소의수가 m, 표본의 크기가 k인 초기하분포에서, x의 확률밀도함수 값 $P(x)$
#### ```phyper(q, m, n, k, lower.tail)``` : 모집단의 크기가 m+n, 모집단 안에 들어있는 원하는 원소의수가 m, 표본의 크기가 k인 초기하분포에서, 누적분포함수 값 $P(X \leq q)$
#### ```qhyper(p, m, n, k, lower.tail)``` : 모집단의 크기가 m+n, 모집단 안에 들어있는 원하는 원소의수가 m, 표본의 크기가 k인 초기하분포에서, 상위 p분위수

## 
## 
## 추론통계
### 점추정 
#### 1. 불편성 : 표본통계량의 기댓값이 모수의 실제값과 같음 $E(\hat{\theta}) = \theta$

#### 2. 효율성 : 추정량 중 최소의 분산을 가진 추정량 (표준편차가 작은 추정량)이 효율적
#### 3. 일치성 : 표본크기가 증가할수록, 추정량 $\hat{\theta}$가 모수 $\theta$에 근접함
#### 4. 충분성 : 추정량이 모수에 대하여 가장 많은 정보를 제공할 때, 그 추정량은 충분추정량
### 
### 최소분산불편추정량 (MVUE) : 모든 불편추정량 중에서 가장 작은 분산을 가지는 추정량

## 
## 점추정

### 
### 모평균의 점추정
- 무작위추출로 얻은 n = 20의 표본은, 기댓값이 $\mu$, 분산이 $\sigma^2$인 확률분포를 따르고, 서로 독립인 확률변수 $X_1, X_2, ... X_20$이라고 가정
- 표본평균 $\bar{X} = {{X_1 + X_2 + ... + X_n} \over n}$도 확률변수가 되고, 시행할 때마다 얻게 되는 결과는 다름
- 표본평균 $\bar{X}$의 기댓값 : $E(\bar{X}) = \mu$ => 모평균과 일치

### 
### 모분산의 점추정
- **표본분산 ${1 \over n} \sum_{i = 1}^n (X_i - \bar{X})^2$은 확률변수 => 시행할 때마다 결과가 달라짐**
- **표본분산의 평균은 모분산의 불편추정량이 아님**

### 

| **모수** | **추정량** | **비고** |
| -- | -- | -- |
| **$$모평균\mu$$** | 표본집단의 표본평균 $$\bar{x} = {1 \over n} \sum^k_{i=1} x_i$$ | 모집단의 크기가 무한대에 한해서 표본평균의 표준오차 = $${\sigma \over {\sqrt{n}}}$$ |
| **$$모분산\sigma^2$$** | 표본집단의 표본분산 $$s^2 = {1 \over {n-1}} \sum^n_{i=1} {(x_i - \bar{x})^2}$$ |  |
| **$$모비율p$$** | $\hat{p} = {X \over n}$ | 표준오차 = $\sqrt{{{pq} \over n}}$ |

## 
## 구간추정
### 신뢰수준, 유의수준 ($\alpha$)

### $P(\hat{\theta_L}\; \leq \; \theta \;\leq\; \hat{\theta_H}) = 1 - \alpha$

### 신뢰구간

| **구분** | **신뢰구간**$$\;100(1-\alpha\%)\;$$ |
| -- | -- |
| **모분산을 알고 있는 경우** | $$\bar{X} - Z_{\alpha/2} {\sigma \over \sqrt{n}} \;\leq\; \mu \;\leq\; \bar{X} + Z_{\alpha/2} {\sigma \over \sqrt{n}}$$ |  
| **모분산을 모르는 경우** | $$\bar{X} - t_{\alpha/2}(n-1) {S \over \sqrt{n}} \;\leq\; \mu \;\leq\; \bar{X} + t_{\alpha/2}(n-1) {S \over \sqrt{n}}$$ |
| **모분산을 모르는 경우 (대표본)** | $$\bar{X} - Z_{\alpha/2} {S \over \sqrt{n}} \;\leq\; \mu \;\leq\; \bar{X} + Z_{\alpha/2} {S \over \sqrt{n}}$$ |

### 
### 정규분포의 모평균(모분산을 알고 있는)의 구간추정

#### 표본평균 $\bar{X} \sim N(\mu, {\sigma^2 \over n})$
- **표본평균이라는 추정량은 기댓값 그 자체인 모평균 $\mu$와 표준편차 ${\sigma^2 \over n}$으로 분산되어 있음** 

#### 표본오차 : 추정량의 표준편차 ${\sigma \over \sqrt{n}}$

### 
#### 모분산 $\sigma^2$를 알고 있는 상황 => 표준오차 ${\sigma^2 \over n}$ 계산 가능 => 오차 예측 가능

#### 표본평균 $\bar{X} \sim N(\mu, {\sigma^2 \over n})$이므로, $Z = {(\bar{X} - \mu) \over {\sqrt{{\sigma^2 \over n}}}}$으로 표준화가능 (표준정규분포 변환) => $100(1-\alpha)$%구간 계산 가능

### 
#### 모분산을 알고 있을 때 모평균의 신뢰구간
- **$X_1, X_2, ..., X_n \sim N(\mu, \sigma^2)$일 때 모분산 $\sigma^2$를 알고 있다면, 신뢰수준 $100(1-\alpha)\%$인 신뢰구간은**

### $[\bar{X} - z_{\alpha / 2}\sqrt{{\sigma^2 \over n}}, \;\;\; \bar{X} - z_{1-{\alpha / 2}}\sqrt{{\sigma^2 \over n}}] \;\; = \;\;$ [신뢰하한, 신뢰하한]

#### 

#### N = 400인 모집단의 모평균, 모분산

In [135]:
library(tidyverse)

In [136]:
df1 <- read.csv("C:/Soongsil/Python/Python_Statistics/python_stat_sample-master/data/ch4_scores400.csv")
colnames(df1)[1] = "scores"
N <- df1 %>% nrow(); N

In [158]:
p_mean <- mean(df1$scores)
p_var <- mean((df1$scores - mean(df1$scores))^2)
p_mean ; p_var

#### n = 20 표본, 표본평균

In [165]:
n = 20
sample = sample(df1$scores, n)
s_mean <- mean(sample); s_mean

#### 모평균의 95% 신뢰구간 => 모평균 69.53이 구간내에 포함

In [166]:
lcl <- s_mean + qnorm(0.025, 0, 1) * sqrt(p_var / n)
ucl <- s_mean + qnorm(0.975, 0, 1) * sqrt(p_var / n)
lcl; ucl

### 
### 정규분포의 모평균(모분산을 모르는)의 구간추정

#### 모분산 $\sigma^2$를 알지 못하기에 표준오차 $\sqrt{{\sigma^2 \over n}}$를 계산할 수 없음  => 모분산 $\sigma^2$대신 불편분산 $\sqrt{{s^2 \over n}}$를 사용하여 표본평균 $\bar{X}$에 대해서 t변환

####  $t = {{\bar{X} - \mu} \over {\sqrt{s^2 \over n}}}$



### 

#### t는 표준정규분포를 따르지 않음
#### **$Z = {(\bar{X} - \mu) \over {\sqrt{{\sigma^2 \over n}}}}$와 비교시 => $T = Z / \sqrt{{s^2 \over \sigma^2}}$**
#### ${s^2 \over \sigma^2}$는 카이제곱분포의 관계식 $Y = {{(n-1)s^2} \over \sigma^2}$을 사용함으로써 ${{(n-1)}\over \sigma^2} = {Y \over {n-1}}$
#### => 결국 t는 표준정규분포 Z와 자유도 n-1인 카이제곱분포 Y에 의해 $t = {Z \over {\sqrt{Y / (n-1)}}}$이며, 자유도 n-1인 t분포를 따름

### 
### 모분산을 모를 때 모평균의 신뢰구간
- **$X_1, X_2, ..., X_n \sim N(\mu, \sigma^2)$일 때 모분산 $\sigma^2$를 모른다면, 신뢰수준 $100(1-\alpha)\%$인 신뢰구간은**

### $[\bar{X} - t_{\alpha / 2}(n-1)\sqrt{{s^2 \over n}}, \;\;\; \bar{X} - t_{1-{\alpha / 2}}(n-1)\sqrt{{s^2 \over n}}] \;\; = \;\;$ [신뢰하한, 신뢰하한]

#### 
#### n = 20의 표본의 불편분산 ( $s^2$ )

In [188]:
u_var <- var(sample) ; u_var

#### 모평균의 95% 신뢰구간 => 모평균 69.53이 구간내에 포함

In [179]:
lcl <- s_mean + qt(0.025, n - 1) * sqrt(u_var / n)
ucl <- s_mean + qt(0.975, n - 1) * sqrt(u_var / n)
lcl; ucl

# 
## 정규분포의 모분산(모평균을 알지 못하는) 구간추정

### $P(* \; \leq \; \sigma^2 \; \leq \; *) = 0.95$
- **불편분산 $s^2$를 변환하여, 확률분포를 따르는 확률변수를 생성**

### 불편분산 $s^2$에 카이제곱 변환 : $Y = {{(n-1)s^2} \over \sigma^2}$ => $Y \sim \chi^2(n-1)$


### 
### 모분산의 구간추정 
- **$X_1, X_2, ..., X_n \sim N(\mu, \sigma^2)$이라고 가정하고, 모평균 $\mu$를 모를 때, 신뢰수준 $100(1-\alpha)\%$인 신뢰구간은**

### [${{(n-1)s^2} \over {\chi^2_{\alpha / 2}(n-1)}}\;, \;\; {{(n-1)s^2} \over {\chi^2_{1 - \alpha / 2}(n-1)}} $]

### 
####  $\chi^2 (n-1)$의 95% 신뢰구간

- $P(\chi^2_{0.975}(n-1) \; \leq \; {{(n-1)s^2} \over \sigma^2} \; \leq \; \chi^2_{0.025}(n-1) = 0.95$
- P(${{(n-1)s^2} \over {\chi^2_{\alpha / 2}(n-1)}} \; \leq \; \sigma^2 \; \leq \; {{(n-1)s^2} \over {\chi^2_{1-\alpha / 2}(n-1)}}$) = 0.95

#### 
#### 모분산의 95% 신뢰구간 => 모분산 206.669가 구간내에 포함

In [195]:
lcl <- (n-1) * u_var / qchisq(0.025, n-1)
ucl <- (n-1) * u_var / qchisq(0.975, n-1)
lcl; ucl

### 
### 
### 모비율의 추정 (베르누이 분포의 모평균 구간추정)
- **$X_1, X_2, ..., X_n \sim Bern(p)$일 때, 모비율의 신뢰수준 $100(1-\alpha)\%$의 신뢰구간**

### [$\bar{X} - z_{\alpha / 2} \sqrt{{{\bar{X}(1-\bar{X})} \over n}}, \; \bar{X} - z_{1-\alpha / 2} \sqrt{{{\bar{X}(1-\bar{X})} \over n}}$]

### 
### 베르누이 분포 표본평균 $\bar{X}$의 기댓값은 $p$, 분산은 $p(1-p) \over n$

### 
####  베르누이 분포 모평균의 95% 신뢰구간
- **베르누이 분포의 표본평균이 따르는 확률분포를 알지 못함 => 중심극한정리 사용**
- **중심극한정리에 따라 표본평균 $\bar{X}$는 근사적으로 $N(p, \; {{p(1-p)}\over n})$**를 따름
- **이를 표준화 => $Z = (\bar{X}-p) / \sqrt{(p(1-p) \over n}$로 변환 => Z는 표준정규분포를 따르는 것으로 간주** 

#### $0.95 \simeq P(z_{0.975} \; \leq \; (\bar{X}-p) / \sqrt{(p(1-p) \over n} \; \leq \; z_{0.025})$

**= $P(\bar{X} - z_{0.025} \; \sqrt{(p(1-p) \over n} \; \leq \; p  \; \leq \; \bar{X} - z_{0.975} \; \sqrt{(p(1-p) \over n})$**

**= $P(\bar{X} - z_{0.025} \; \sqrt{(\bar{X}(1-\bar{X}) \over n} \; \leq \; p  \; \leq \; \bar{X} - z_{0.975} \; \sqrt{(\bar{X}(1-\bar{X}) \over n})$**

### 
#### n = 1000인 표본

In [200]:
df2 <- read.csv("C:/Soongsil/Python/Python_Statistics/python_stat_sample-master/data/ch10_enquete.csv")
colnames(df2)[1] <- "known"

In [210]:
n <- nrow(df2)
df2$known %>% head; n

#### 표본평균

In [209]:
s_mean <- mean(df2$known); s_mean

#### p의 95% 신뢰구간

In [212]:
lcl <- s_mean + qnorm(0.025, 0, 1) * sqrt(s_mean * (1 - s_mean) / n)
ucl <- s_mean + qnorm(0.975, 0, 1) * sqrt(s_mean * (1 - s_mean) / n)
lcl; ucl

### 
### 포아송 분포의 모평균의 구간추정
- **$X_1, X_2, ..., X_n$이 서로 독립이고 $\sim Poi(\lambda)$일 때, $Poi(\lambda)$의 기댓값과 분산은 모두 $\lambda$이었기 때문에, 표본평균 $\bar{X}$의 기댓값은 $\lambda$, 분산은 $\lambda \over n$**
- **$X_1, X_2, ..., X_n \sim Poi(\lambda)$일 때, 모평균의 신뢰수준 $100(1-\alpha)\%$의 신뢰구간**

### [$\bar{X}- z_{\alpha / 2} \sqrt{{\bar{X}} \over n} \; \leq \; \lambda \; \leq \; \bar{X}-z_{1-\alpha/2}\sqrt{{{\bar{X}}\over n}}$]

### 
####  포아송 분포 모평균의 95% 신뢰구간
- **포아송 분포의 표본평균이 따르는 확률분포를 알지 못함 => 중심극한정리 사용**
- **중심극한정리에 따라 표본평균 $\bar{X}$는 근사적으로 $N(\lambda, \; {\lambda \over n})$**를 따름
- **이를 표준화 => $Z = (\bar{X}-\lambda) / \sqrt{\lambda \over n}$로 변환 => Z는 표준정규분포를 따르는 것으로 간주** 

#### $0.95 \simeq P(z_{0.975} \; \leq \; (\bar{X}-\lambda) / \sqrt{\lambda \over n} \; \leq \; z_{0.025})$
**= $P(\bar{X} - z_{0.025}\;\sqrt{\lambda \over n} \; \leq \; lambda  \; \leq \; \bar{X} - z_{0.975} \; \sqrt{\lambda \over n})$**

**= $P(\bar{X} - z_{0.025} \; \sqrt{\bar{X} \over n} \; \leq \; \lambda  \; \leq \; \bar{X} - z_{0.975} \; \sqrt{\bar{X} \over n})$**

### 
#### n = 72인 표본

In [218]:
df3 <- read.csv("C:/Soongsil/Python/Python_Statistics/python_stat_sample-master/data/ch10_access.csv")
colnames(df3)[1] <- 'access.number'

In [220]:
n <- nrow(df3)
df3$access.number %>% head; n

#### 표본평균 

In [221]:
s_mean <- df3$access.number %>% mean ; s_mean

#### $\lambda$의 95%신뢰구간

In [222]:
lcl <- s_mean + qnorm(0.025, 0, 1) * sqrt(s_mean / n)
ucl <- s_mean + qnorm(0.975, 0, 1) * sqrt(s_mean / n)
lcl ; ucl

### 
### 표본크기의 결정

#### 모평균 추정시  $100(1-\alpha)\%$에 대한 신뢰구간

$\bar{X} - z_{\alpha / 2}\sqrt{{\sigma^2 \over n}} \;\leq\; \mu \;\leq \; \bar{X} - z_{1-{\alpha / 2}}\sqrt{{\sigma^2 \over n}} \;\; = \;\; \bar{X} - z_{\alpha/2} {\sigma \over \sqrt{n}} \;\leq\; \mu \;\leq\; \bar{X} + z_{\alpha/2} {\sigma \over \sqrt{n}}$

- **상기식을 정리하면 신뢰구간상의 허용오차 범위는($-z_{\alpha/2} {\sigma \over \sqrt{n}}$, $z_{\alpha/2} {\sigma \over \sqrt{n}}$)**

- **허용오차 d에 대해서 $\;d = z_{\alpha/2} {\sigma \over \sqrt{n}}$**
- **n에 대해서 정리하면 $\;n = (z_{\alpha/2}\;{\sigma \over d})^2$**

#### 모비율 추정시  100(1−𝛼)% 에 대한 신뢰구간

- **$\;n = (z_{\alpha/2}\;{pq \over d})^2\;\;\;$ (모비율에 대한 정보가 없는경우 $p = 0.5$)**