## 기본 통계량 구하기  

- numpy는 계산에 특화한 필수 라이브러리
- 기초통계량도 함께 제공

### 샘플 데이터 생성

In [63]:
import numpy as np

# 12개 요소를 가진 샘플 데이터 생성, 일부 값은 NaN으로 설정
# NaN은 missing value (결측값)
data = np.array([1.5, 3.2, np.nan, 5.8, 7.1, np.nan, 2.4, 4.9, 6.5, 8.2, 0.9, np.nan])
data

array([1.5, 3.2, nan, 5.8, 7.1, nan, 2.4, 4.9, 6.5, 8.2, 0.9, nan])

### 갯수

In [64]:
len(data)

12

In [65]:
len(data[~np.isnan(data)])

9

### (산술)평균

$ 
\begin{align} 
    \bar{X} \, or \, E[X]  &= \frac{1}{n} (X_1 + X_2 + \cdots + X_n) \nonumber \\
     &= \frac{1}{n} \sum_{i=1}^{n} X_i \nonumber  
\end{align}
$


- [numpy.mean](https://numpy.org/doc/stable/reference/generated/numpy.mean.html)
- [numpy.nanmean](https://numpy.org/doc/stable/reference/generated/numpy.nanmean.html)

In [45]:


# 일반 평균 (NaN을 포함한 평균)
mean_val = np.mean(data)
mean_val

nan

In [12]:
(1.5 + 3.2 + 5.8 + 7.1 + 2.4 + 4.9 + 6.5 + 8.2 + 0.9) / 9

4.499999999999999

In [36]:
np.mean(data[~np.isnan(data)])

4.499999999999999

In [44]:
# NaN 값을 무시하고 평균 계산
nanmean_val = np.nanmean(data)
nanmean_val

4.499999999999999

### 분산과 표준편차

분산
$ \begin{align} 
    \sigma_X^2 \, or \, Var(X) &= E[(X-E[X])^2] \nonumber \\
    &= \frac{1}{n} \sum_{i=1}^{n} (X_i - E[X])^2 \nonumber
\end{align} $

Unbiased sample variance $ s_X^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - E[X])^2 $


표준편차
$ \begin{align} 
    \sigma_X \, &= \sqrt{Var(X)} \nonumber = (Var(X))^{1/2}\\
    & \nonumber
\end{align} $

In [48]:
# 일반 분산
var_val = np.var(data, 
                # 자유도 조정
                ddof=1)
var_val

nan

In [47]:
np.var(data[~np.isnan(data)] , 
       # 자유도 조정
       ddof=1)

6.794999999999999

In [46]:
# NaN 값을 무시하고 분산 계산
nanvar_val = np.nanvar(data, 
                       # 자유도 조정
                       ddof=1)
nanvar_val

6.794999999999999

In [50]:
# 일반 표준편차
std_val = np.std(data,
                # 자유도 조정
                ddof=1)
std_val

nan

In [51]:
np.std([1.5, 3.2, 5.8, 7.1, 2.4, 4.9, 6.5, 8.2, 0.9],
        # 자유도 조정
        ddof=1)

2.606722079547415

In [52]:
# NaN 값을 무시하고 표준편차 계산
nanstd_val = np.nanstd(data,
                       # 자유도 조정
                       ddof=1)
nanstd_val

2.606722079547415

### Confidence interval (신뢰구간)  

Student's t 분포



$ [E[X] - {critical \, value}_{\alpha=0.975}  \frac{\sigma_X}{\sqrt{obs}}, \quad E[X] + {critical \, value}_{\alpha=0.975}  \frac{\sigma_X}{\sqrt{obs}}] $

In [60]:
import scipy.stats as st

#create 95% confidence interval for population mean weight
st.t.interval(
    # 유의수준
    confidence=0.90, 
    # 자유도 = N-1
    df=len(data[~np.isnan(data)])-1, 
    # 평균
    loc=np.nanmean(data), 
    # 표준편차
    scale=np.nanstd(data)) 

(-0.07010176902927956, 9.070101769029275)

In [61]:
st.t.ppf(0.1, len(data[~np.isnan(data)])-1)

-1.3968153097434188