# 기본 통계량 구하기  

- 분포(distribution)와 관계없는 통계량
    - (단순)평균; (arithmetic)mean  
    $ 
\begin{align} 
    \bar{X} \, or \, E[X]  &= \frac{1}{n} (X_1 + X_2 + \cdots + X_n) \nonumber \\
     &= \frac{1}{n} \sum_{i=1}^{n} X_i \nonumber  
\end{align}
$
    - 분산; variance  
        $ \begin{align} 
            \sigma_X^2 \, or \, Var(X) &= E[(X-E[X])^2] \nonumber \\
            &= \frac{1}{n} \sum_{i=1}^{n} (X_i - E[X])^2 \nonumber
        \end{align} $
          
        [Unbiased sample variance](https://en.wikipedia.org/wiki/Variance#Unbiased_sample_variance):  
        $ \begin{align} 
            s_X^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - E[X])^2 \nonumber
        \end{align} $


    - 표준편차; standard deviation (unbiased)  
        $ \begin{align} 
            s_X &= \sqrt{s_X^2} \nonumber
        \end{align} $

<!-- - (거의) 모든것이 정규분포가 된다? 중심극한정리; the central limit theorem  
[![3b1b_clt](https://i.ytimg.com/an_webp/SoKjCUcDBf0/mqdefault_6s.webp?du=3000&sqp=CKbKuq8G&rs=AOn4CLCrxrSFlh-cHNIeeD9MJZTDVFaWEQ)](https://www.youtube.com/watch?v=SoKjCUcDBf0)  
[![statquest_normal](https://i.ytimg.com/vi/rzFX5NWojp0/hqdefault.jpg?sqp=-oaymwEcCNACELwBSFXyq4qpAw4IARUAAIhCGAFwAcABBg==&rs=AOn4CLCKnTAtZLuIfqY6Rp_SaAAWLvpFig)](https://www.youtube.com/watch?v=rzFX5NWojp0&t=13)

- 정규분포일때, 의미를 가지는 통계량
    - student's t-test  
        $
        \begin{align}
            t = \frac{\bar{X}}{s_X / \sqrt{n}}
        \end{align}
        $
    - 의미부여의 기준이 되는 유의도 $\alpha$와 $t_\alpha$; critical value
    - 통계량과 유의도를 더해, 편리하게 표시하는 신뢰구간; confidence interval -->


## (단순)평균

In [None]:
(1.5 + 3.2 + 5.8 + 7.1 + 2.4 + 4.9 + 6.5 + 8.2 + 0.9) / 9

[np.mean()](https://numpy.org/doc/stable/reference/generated/numpy.mean.html)

In [None]:
import numpy as np

# 샘플 데이터 생성
data = np.array([1.5, 3.2, 5.8, 7.1, 2.4, 4.9, 6.5, 8.2, 0.9])
data

In [None]:
# 갯수
len(data)

In [None]:
# 평균값
np.mean(data)

In [None]:
# 최대값 최소값
print(np.max(data), np.min(data))

[np.nanmean()](https://numpy.org/doc/stable/reference/generated/numpy.nanmean.html) 결측값을 무시함

In [None]:
# 12개 요소를 가진 샘플 데이터 생성, 일부 값은 NaN으로 설정
# NaN은 missing value (결측값)
data_missing = np.array([1.5, 3.2, np.nan, 5.8, 7.1, np.nan, 2.4, 4.9, 6.5, 8.2, 0.9, np.nan])
data_missing

In [None]:
# np.mean(), max(), min()은 결측값이 있는 경우, 제대로 동작하지 않음
print(np.max(data_missing), np.min(data_missing))
np.mean(data_missing)

In [None]:
# np.nanmean()은 오류없이 결측값을 무시한 값을 출력
np.nanmean(data_missing)

In [None]:
# np.nanmax()와 nanmin()역시 결측값을 무시한 값을 출력
print(np.nanmax(data_missing), np.nanmin(data_missing))

In [None]:
# len()함수는 결측값도 세아리기 때문에 인덱스를 사용하여야 함
print(len(data_missing))
len(data_missing[~np.isnan(data_missing)]) 

## 분산

In [None]:
mean = (1.5 + 3.2 + 5.8 + 7.1 + 2.4 + 4.9 + 6.5 + 8.2 + 0.9) / 9
((1.5-mean)**2 + (3.2-mean)**2 + (5.8-mean)**2 + (7.1-mean)**2 + (2.4-mean)**2 + (4.9-mean)**2 + (6.5-mean)**2 + (8.2-mean)**2 + (0.9-mean)**2) / 8

[np.var()](https://numpy.org/doc/stable/reference/generated/numpy.var.html)

In [None]:
# 일반 분산
np.var(data, 
        # 자유도 조정
        ddof=1)

In [None]:
np.var(data_missing, 
        # 자유도 조정
        ddof=1)

[np.nanvar()](https://numpy.org/doc/stable/reference/generated/numpy.nanvar.html)

In [None]:
# NaN 값을 무시하고 분산 계산
np.nanvar(data_missing, 
            # 자유도 조정
            ddof=1)

In [None]:
# 자유도 조정을 하지 않는다면?
print('DoF adjusted',np.nanvar(data_missing, 
            # 자유도 조정
            ddof=1),
       '\nDoF not adjusted',
        np.nanvar(data_missing, 
            # 자유도 조정
            ddof=0))

## 표준편차

[np.std()](https://numpy.org/doc/stable/reference/generated/numpy.std.html)

In [None]:
# 일반 표준편차
np.std(data,
        # 자유도 조정
        ddof=1)

In [None]:
np.std(data_missing,
        # 자유도 조정
        ddof=1)

[np.nanstd()](https://numpy.org/doc/stable/reference/generated/numpy.nanstd.html)

In [None]:
# NaN 값을 무시하고 표준편차 계산
np.nanstd(data_missing,
            # 자유도 조정
            ddof=1)


In [None]:
# 자유도 조정을 하지 않는다면?
print('DoF adjusted',np.nanstd(data_missing, 
            # 자유도 조정
            ddof=1),
       '\nDoF not adjusted',
        np.nanstd(data_missing, 
            # 자유도 조정
            ddof=0))

<!-- ### Confidence interval (신뢰구간)  

Student's t 분포
![t-stat](https://www.scribbr.com/wp-content/uploads/2020/08/diff_scores_ci.png)


$ [E[X] - {critical \, value}_{\alpha=0.975}  \frac{\sigma_X}{\sqrt{obs}}, \quad E[X] + {critical \, value}_{\alpha=0.975}  \frac{\sigma_X}{\sqrt{obs}}] $ -->

<!-- import scipy.stats as st

#create 95% confidence interval for population mean weight
st.t.interval(
    # 유의수준
    confidence=0.90, 
    # 자유도 = N-1
    df=len(data[~np.isnan(data)])-1, 
    # 평균
    loc=np.nanmean(data), 
    # 표준편차
    scale=np.nanstd(data)) 
st.t.ppf(0.1, len(data[~np.isnan(data)])-1) -->

# 불러온 데이터의 기초통계량

In [None]:
import pandas as pd
import numpy as np

# 소수점 설정
pd.options.display.float_format = "{:,.1f}".format

# CSV 파일 불러오기
df_income_csv = pd.read_csv(r'data_cps78_income.csv')
print(df_income_csv.dtypes)
df_income_csv