In [2]:
import numpy as np
from scipy.stats import *
import pandas as pd


In [4]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"


## 데이터가 얼마나 퍼져있는지 : 변이통계량

- 데이터들이 얼만 ㅏ흩어져 있는가를 나타내는 것(산포도)
- 하나의 수치로 데이터가 흩어진정도를 계산해서 표현
- 대표값과 더불어 데이터를 비교하는 경우에 유용하게 사용
- 예) 평균이 같은 A집단과 B집단의 성적 : 두 집단이 동일한 집단?
![](성적분포비교.PNG)
- 어느 대학에서 같은 과목을 두 교수가 가르친다고 하자.두 교수 모두 평균 C학점을 학생들에게 준다면 그 과목을 배우려는 학생들은 어떤 교수를 선택해도 마찬가지라고 생각할 것이다.
- 그러나 한 교수는 대부분의 학생들이 평범하다고 생각하여 C만 주고 다른 교수는 학생들이 반은 우수하고 반은 공부를 안 한다고 생각하여 A를 주거나 D-만 준다.
- 그러므로 이러한 흩어짐의 정보 없이 학생들이 평균 성적 C라는 사실만 가지고 교수를 선택한다면 학점 때문에 어려움에 처할 수도 있게 된다.


#### 범위(range)

- 데이터의 최대값과 최소값의 차이
- 데이터가 퍼져 있는 정도를 나타내는 가장 간단한 방법
- 범위가 클수록 산포가 크다고 말할 수 있지만
- 중앙값과 마찬가지로 극단적인 값에 영향을 받음
- 데이터 중 2개의 정보(최대값, 최소값)만을 이용하므로 적절한 척도로 사용하기 어려움

**범위(R)=최댓값 - 최솟값**


#### 사분위간 범위 (interquartile range: IQR)

- 데이터를 크기순서로 나열한 다음, 개수로 4등분할 때 첫 번째 사분위수(Q1:1사분위수, 25%지점)와 세 번째 사분위수(Q3:3사분위수, 75%지점)의 차이


In [7]:
## ddof인수 :  (자유도-모수집단냐 표본이냐)는 값을 1로 두고 사용한다고 생각하면 편함
## 특별한 경우 제외하고는 모두 sample 데이터이므로 분모를 n-1로 둠
## 즉 , ddof는 1로 둔다

x = [1,2,3,4,5]

np.var(x, ddof=1) # 분모 n-1
np.var(x) # 분모 : n
np.array(x).var()
pd.Series(x).var(ddof=0)

# 값의 스케일에 크게 영향을 받으므로
# 변수를 스케일링한 후 분산



2.5

2.0

2.0

2.0

### 표준편차(standard deviation)

- 계산된 분산의 제곱근으로 계산
- 평균을 중심으로 일정한 거리에 포함된 데이터의 비율이 얼마인가를 계산
- 모든 데이터를 고려한 척도

- 특징
    - 모든 데이터가 동일한 값을 갖는다면 분산과 표준편차는 0으로 계산
    - 모든 데이터에 동일한 값을 더해 주거나 빼도 변하지 않음
    - 모든 데이터에 동일한 값(C)을 곱하면 분산은 $분산×C^2$으로 표준편차는 $표준편차×C$ 만큼 커짐
    
![](분산표준편차예시.PNG)


### 표준편차 계산 : std() 함수 사용
- 분산에서 제곱의 영향을 없앤 지표
- 분산과 표준편차가 크면 클수록 산포가 크다

In [9]:
x = [1,2,3,4,5]

np.std(x, ddof = 1)
np.array(x).std(ddof=0)
pd.Series(x).std(ddof=1)

1.5811388300841898

1.4142135623730951

1.5811388300841898

#### 변동계수 (CV : Coefficient of Variable)

- 표본 표준편차를 표본 평균으로 나눈 값 또는 그 값에 100을 곱한 값
- 상대 표준편차
- 서로 다른 평균과 표준편차를 갖는 여러 데이터의 흩어진 정도를 비교할 때 사용
- 변동계수값이 크다는 것은 데이터 흩어진 정도가 상대적으로 크다는 의미
- 표본 변동계수 $ 𝐶𝑉=\frac{S}{\overline{x}}$,  모변동계수  $𝐶𝑉= \frac{𝜎}{𝜇}$
![](변동계수.png)

#### 변동계수 계산 함수 : variation(data)
- 모든 계수가 양수가 아니면 잘 쓰이지 않음
- 자유도는 0


#### 변동계수의 필요성

- 표준편차를 구할 때 스케일에 영향 받지 않기 위해서 변수 스케일링을 한 후 편차를 구함
    - 데이터가 모두 양수인 경우 변동계수 사용
    

In [10]:
x1 = np.array([1,2,3,4,5])
x2 = x1 * 10
x2

array([10, 20, 30, 40, 50])

In [13]:
np.std(x1, ddof=1)
np.std(x2, ddof=1) # 표준편차는 * 10만큼 차이가 남


1.5811388300841898

15.811388300841896

In [14]:
# 변동계수는 동일
variation(x1)
variation(x2)

0.47140452079103173

0.4714045207910317

In [16]:
# 변동계수 수식
np.std(x1, ddof=1)/np.mean(x1)
np.std(x2, ddof=1)/np.mean(x2)


0.5270462766947299

0.5270462766947299

#### 스케일링 (표준화)

- 평균 : 0으로 표준편차 : 1 이됨
- 각 값들을 상대적인 값으로 변화시키는 기법
- 평균이 95점(국어), 30점(수학) 인 반에서
    - 길동이가 받은 취득점수 90점(국어), 80점(수학) 이라면 길동이는 어떤 과목을 더 잘한건가?
- 표준화된 데이터는 점수와 같은 단위를 사용하지 않는다.

In [17]:
x1
x2


array([1, 2, 3, 4, 5])

array([10, 20, 30, 40, 50])

In [22]:
z1 = (x1 - x1.mean()) / x1.std()
z2 = (x2 - x2.mean()) / x2.std()
z1
z2

# 보통 -3 ~ +3 까지 분포 됨

array([-1.41421356, -0.70710678,  0.        ,  0.70710678,  1.41421356])

array([-1.41421356, -0.70710678,  0.        ,  0.70710678,  1.41421356])

In [24]:
z1.mean()
z2.mean()
z1.std(ddof=0)

0.0

0.0

0.9999999999999999

In [26]:
z1 = (x1 - x1.min()) / (x1.max() - x1.min())
z2 = (x2 - x2.min()) / (x2.max() - x2.min())

x1
x2
print(z1)
print(z2)


array([1, 2, 3, 4, 5])

array([10, 20, 30, 40, 50])

[0.   0.25 0.5  0.75 1.  ]
[0.   0.25 0.5  0.75 1.  ]
