# 1. 통계기반 실무 데이터 분석

## 1-1. 기술통계

### 기초통계

In [1]:
# 필요한 패키지 불러오기

import numpy as np
import scipy as sp

In [2]:
# 넘파이 소수점 자리수 세팅
np.set_printoptions(precision=3, suppress=True) # 소수점 3자리까지 표현
print(np.array([0.12345]))

[0.123]


In [3]:
# 파이썬 소수점 자리수 세팅
%precision 3

'%.3f'

### 데이터

In [4]:
data = np.array([1,2,3,4,5,6,7,8,9,10])
data

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

### 합계

In [5]:
# 1. Numpy 모듈 활용

np.sum(data)

55

In [6]:
# 2. 데이터 자체 함수

data.sum()

55

In [7]:
# 3. 파이썬 내장함수

sum(data)

55

## 평균, 분산, 표준편차

### 1. 모평균, 모분산, 모표준편차

모집단에서 조사하고자 하는 특성을 나타내는 확률변수를 라고 할 때,  
평균, 분산, 표준편차를 각각 모평균, 모분산, 모표준편차라고 하며, 수식은 다음과 같습니다.

 - 모 평균 $\mu = \frac{X_1+X_2+X_3+. . .+Xn}{n}$   
 - 모 분산 $\sigma^2 = \frac{(X_1-\mu)^2+(X_2-\mu)^2+(X_3-\mu)^2+. . .+(X_n-\mu)^2}{n}$  
 - 모 표준편차 $\sigma = \sqrt{\sigma^2}$

### 2. 표본평균, 표본분산, 표본표준편차

모집단에서 임의추출한 크기가 n인 표본을 $X$ 이라고 할 때,  
이 표본의 평균, 분산, 표준편차를 각각 표본 평균 $\bar{X}$, 표본 분산 $S^2$, 표본 표준편차 $S$ 라고 하며, 수식은 다음과 같습니다.

 - 표본 평균 $\bar{X} = \frac{X_1+X_2+X_3+. . .+X_n}{n}$  
 - 표본 분산 $S^2 = \frac{\sum\limits_{i=1}^{n}(X_i-\bar{X})^2}{n-1}$  
 - 표본 표준편차 $S = \sqrt{S^2}$  

### 2-1. 평균

모평균
${\displaystyle {\mu}={\frac {1}{n}}\cdot \sum _{i=1}^{n}{X_{i}}}$  

표본 평균
${\displaystyle {\bar {X}}={\frac {1}{n}}\cdot \sum _{i=1}^{n}{X_{i}}}$  

표본평균은 샘플링을 할 때마다 다른 값이 나오므로 실제 모평균(mean of population)과 같을 수 없습니다.  
표본평균들을 새로운 확률변수로 생각하고 이 값들의 평균을 구할 수 있는데,  
이를 '표본평균의 평균(표본평균의 기댓값)'이라고 하며 이 값이 모평균과 같습니다.

In [8]:
# 샘플의 갯수

n = len(data)
n

10

In [9]:
# 평균 = 합계 ÷ 갯수

sum_value = np.sum(data)
mu = sum_value / n
mu

5.5

In [10]:
# Numpy 모듈 mean 함수

np.mean(data)

5.5

### 표본 분산

${\displaystyle {s^2 = \frac{1}{n} \sum_{i=1}^{n}(X_{i}-\bar{X})}}$  

In [11]:
# 데이터 - 평균 = 편차
data - mu

array([-4.5, -3.5, -2.5, -1.5, -0.5,  0.5,  1.5,  2.5,  3.5,  4.5])

In [12]:
# 편차의 제곱

(data - mu) ** 2

array([20.25, 12.25,  6.25,  2.25,  0.25,  0.25,  2.25,  6.25, 12.25,
       20.25])

In [13]:
# 편차 제곱의 총합

np.sum((data - mu) ** 2)

82.5

In [14]:
# 샘플의 갯수

n

10

In [15]:
# 편차 제곱의 총합 / 샘플의 갯수

np.sum((data - mu) ** 2) / n

8.25

In [16]:
# 표본 분산 - 넘파이 함수로 간단히 계산
unbiased_variance = np.var(data, ddof = 0)
unbiased_variance

8.25

### 불편분산

표본 분산은 표본의 평균(S) 를 사용. 표본은 샘플이 작으므로, 실제 흩어진 정도인 분산을 지나치게 작게 추정하는 현상이 나타남.  
**따라서 불편분산을 사용**

[표본분산과 불편분산에 대하여-1](https://1992jhlee.tistory.com/19)  
[표본분산과 불편분산에 대하여-2](https://recipesds.tistory.com/entry/%EC%99%9C-%ED%91%9C%EB%B3%B8%EB%B6%84%EC%82%B0%EC%9D%80-n-1%EB%A1%9C-%EB%82%98%EB%88%84%EC%A3%A0-%EC%9E%90%EC%9C%A0%EB%8F%84-%EB%B6%88%ED%8E%B8%EC%B6%94%EC%A0%95%EB%9F%89%EC%97%90-%EB%8C%80%ED%95%9C-%EA%B3%A0%EB%B0%B1)

${\displaystyle {s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(X_{i}-\bar{X})}}$  

In [17]:
# 불편분산 직접 계산
N = len(data)

biased_variance = np.sum((data - mu) ** 2) / (N - 1)
biased_variance

9.166666666666666

In [18]:
# 불편 분산 - 넘파이 함수로 간단히 계산
np.var(data, ddof = 1)

9.166666666666666

### 표준편차

### 표본 분산을 활용한 표준편차 계산

In [19]:
# 표본 분산
unbiased_variance

8.25

In [20]:
# 표준편차 - 넙파이 분산의 제곱근 # sd : standard_deviation
sd = np.sqrt(unbiased_variance)
sd

2.8722813232690143

In [21]:
# 자유도=0 일때 std함수를 사용한 표준편차
np.std(data, ddof = 0)

2.8722813232690143

### 불편 분산을 활용한 표준편차 계산

In [22]:
# 불편 분산
biased_variance

9.166666666666666

In [23]:
# 표준편차 - 넙파이 분산의 제곱근 # usd : unbiased_standard_deviation
unbiased_std = np.sqrt(biased_variance)
unbiased_std

3.0276503540974917

In [24]:
# 자유도=1 일때 std함수를 사용한 표준편차
np.std(data, ddof = 1)

3.0276503540974917

### 결국 no.std 함수에서 ddof 인자값이 0 : 표본분산에 의한 표준편차, 1 : 불편 분산에 의한 표준편차를 나타냄

### 표준화

In [25]:
data

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [26]:
# 데이터의 평균을 0으로 만드는 방법

In [27]:
mu

5.5

In [28]:
# 데이터 에서 평균을 빼주기
data - mu

array([-4.5, -3.5, -2.5, -1.5, -0.5,  0.5,  1.5,  2.5,  3.5,  4.5])

In [29]:
# 데이터의 평균 = 0
np.mean(data - mu)

0.0

In [30]:
# 표준편차를 1로 만드는 방법

In [31]:
# 자유도=1 일때 std함수를 사용한 표준편차
unbiased_std 

3.0276503540974917

In [32]:
# 데이터를 표준편차로 나눠주기
data / unbiased_std

array([0.33 , 0.661, 0.991, 1.321, 1.651, 1.982, 2.312, 2.642, 2.973,
       3.303])

In [33]:
np.std(data / unbiased_std, ddof = 1)

1.0

In [34]:
# 표준화 한 데이터
standardization = (data - mu) / unbiased_std
standardization

array([-1.486, -1.156, -0.826, -0.495, -0.165,  0.165,  0.495,  0.826,
        1.156,  1.486])

In [35]:
np.round(np.mean(standardization), 3)

0.0

In [36]:
np.std(standardization, ddof = 1)

1.0

### 기초통계량

In [37]:
# 최대값
np.max(data)

10

In [38]:
# 최소값
np.min(data)

1

In [39]:
#  중앙값
np.median(data)

5.5

In [40]:
data_2 = np.array([2,3,3,4,4,4,4,5,5,100])

In [41]:
np.mean(data_2)

13.4

In [42]:
np.median(data_2)

4.0

### scipy.stats 을 활용한 사분위값 

In [43]:
from scipy import stats

In [44]:
data_3 = np.array([1,2,3,4,5,6,7,8,9])

In [45]:
stats.scoreatpercentile(data_3, 25)

3.0

In [46]:
stats.scoreatpercentile(data_3, 75)

7.0