# 일변량 데이터 (Univariate data)
* 1 가지 종류의 데이터만 가지고 있을 경우 일변량 데이터라고 불림.
* 아래의 예제에서는 fish_data 라는 변수에 10개의 데이터를 저장, 이는 가공의 물고기 몸길이 데이터

In [2]:
import numpy as np
import scipy as sp

fish_data = np.array([2,3,3,4,4,4,4,5,5,6])
fish_data

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

# 1.1 합계와 sample size



In [0]:
np.sum(fish_data)                      # 합계값 계산

40

In [0]:
len(fish_data)                         # 데이터의 length, 갯수 

10

# 1.2 평균값 (기댓값, expected value)

---

\begin{align}
\bar x = \dfrac{1}{N} \sum_{i=1}^N x_i 
\end{align}

> formula written in LaTeX

* Sample size는 N, 합계값은 sum_value라는 변수에 저장해 평균값을 구함
* 평균값은 mu라는 변수에 저장
* scipy의 mean 함수를 사용

In [4]:
N = len(fish_data)
sum_value = sp.sum(fish_data)               # 합계값-sp.sum
mu = sum_value / N                          # mu(평균값) = 합계값 / N(sample size)
mu 

  


4.0

In [0]:
sp.mean(fish_data)

  """Entry point for launching an IPython kernel.


4.0

# 1.3 표본분산 (Sample variance)

----
\begin{align}
\sigma^2 = \dfrac{1}{N} \sum_{i=1}^N (x_i-\mu )^2 
\end{align}

> formula written in LaTeX 

* 분산(variance)는 데이터가 평균값에서 얼마나 떨어져 있는지를 나타내는 지표

In [0]:
sigma_2_sample = sp.sum((fish_data - mu) **2) / N
sigma_2_sample

  """Entry point for launching an IPython kernel.


1.2

In [0]:
fish_data                               # x_i를 의미

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [0]:
fish_data - mu                          # fish_data - mu를 실행하면 x_i - mu(4)에 대한  모든 요소 실행

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [0]:
(fish_data - mu) ** 2

array([4., 1., 1., 0., 0., 0., 0., 1., 1., 4.])

In [0]:
sp.sum((fish_data - mu) **2)            # (fish_data - mu)** 2를 하면 모든 요소에 제곱이 됨. (x_i - mu)^2을 모든 요소로 실행한 값

  """Entry point for launching an IPython kernel.


12.0

In [0]:
sp.var(fish_data, ddof = 0)            # 위 12.0를 sample size (10)으로 나눈 결괏 값

  """Entry point for launching an IPython kernel.


1.2

# 1.4 불편분산 (Unbiased estimate of variance) 



---

\begin{align}
\sigma^2 = \dfrac{1}{N-1} \sum_{i=1}^N (x_i-\mu )^2 
\end{align}


> formula written in LaTeX

* 표본분산(sample variance)은 표본(sample)의 평균(mean)을 사용해서 분산(variance)을 계산한 값이다. 
* 표본분산은 분산을 과소추정하는 경향을 가짐

* 불편분산은 경향을 없애기 위해 고안, 표본분산보다 조금 큰 값을 가지고 있음

In [5]:
sigma_2 = sp.sum((fish_data - mu) ** 2) / (N - 1)
sigma_2

  """Entry point for launching an IPython kernel.


1.3333333333333333

In [6]:
sp.var(fish_data, ddof = 1)

  """Entry point for launching an IPython kernel.


1.3333333333333333

# 1.5 표준편차 (standard deviation) 



---

\begin{align}
\sigma = \sqrt \sigma^2 = \sqrt {\dfrac{1}{N-1} \sum_{i=1}^N (x_i-\mu )^2} 
\end{align}


> formula written in LaTeX

* 분산은 데이터를 제곱하여 계산
* 분산에 루트(square root)를 취하여 표준편차 사용

In [7]:
sigma = sp.sqrt(sigma_2)
sigma

  """Entry point for launching an IPython kernel.


1.1547005383792515

In [8]:
sp.std(fish_data, ddof= 1)

  """Entry point for launching an IPython kernel.


1.1547005383792515

# 1.6 표준화 (Normalization) 


---
* 데이터의 평균을 0으로, 표준편차(분산)를 1로 하는 변환을 **표준화** 라고 함.
* 여러 변수를 다룰 때 평균값이 큰 변수와 작은 변수가 섞여 있으면 다루기 어려우니 표준화로 데이터 비교를 실행
* 데이터의 평균값을 0으로 하는 것은 모든 데이터에서 평균값을 빼는 것으로 실행


In [9]:
fish_data - mu                          # 데이터에서 평균값(mu)를 뺌

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [10]:
sp.mean(fish_data - mu)                 # fish_data - mu의 평균값은 0이됨

  """Entry point for launching an IPython kernel.


0.0

* 데이터의 표준편차(분산)을 1로 만드는 방법은 데이터를 일률적으로 표준편차로 나눈다

In [11]:
fish_data / sigma

array([1.73205081, 2.59807621, 2.59807621, 3.46410162, 3.46410162,
       3.46410162, 3.46410162, 4.33012702, 4.33012702, 5.19615242])

In [12]:
sp.std (fish_data / sigma, ddof = 1)     # fish_data의 표준편차는 1이 됨

  """Entry point for launching an IPython kernel.


1.0

In [13]:
standard = (fish_data - mu) / sigma      # 2개의 변환을 합치면 평균이 0이고, 표준편차가 1인 데이터로 변환가능 
standard

array([-1.73205081, -0.8660254 , -0.8660254 ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.8660254 ,  0.8660254 ,  1.73205081])

In [14]:
sp.mean(standard)                        # 평균은 0

  """Entry point for launching an IPython kernel.


2.2204460492503132e-17

In [15]:
sp.std(standard, ddof=1)                # 표준편차는 1

  """Entry point for launching an IPython kernel.


1.0