# 변이통계량(measure of dispersion)
- 데이터의 퍼짐 정도
- 범위, 사분위간 범위, 표준편차, 분산, 변동계수


- 데이터들이 얼마나 흩어져 있는가를 나타내는 것(산포도)
- 하나의 수치로 데이터가 흩어진 정도를 계산
- 대표값과 더불어 데이터를 비교하는 경우에 유용하게 사용
- 예. 평균이 같은 A와 B반의 성적 : 두 집단이 동일한 집단?

<img src='./image/2_00001.png' width='70%'>


- 어느 대학에서 같은 과목을 두 교수가 가르친다고 하자. 두 교수 모두 평균 C학점을 학생들에게 준다면 그 과목을 배우려는 학생들은 어떤 교수를 선택해도 마찬가지라고 생각할 것이다.
- 그러나 한 교수는 대부분의 학생들이 평범하다고 생각하여 C만 주고 다른 교수는 학생들의 반은 우수하고 반은 공부를 안한다고 생각하여 A를 주거나 D만 준다
- 그러므로 이러한 흩어짐의 정보 없이 학생들이 평균 성적 C라는 사실만 가지고 교수를 선택한다면 학점때문에 어려움에 처할 수도 있게 된다.

In [1]:
import numpy as np
import pandas as pd
from scipy.stats import *

In [2]:
# numpy float 출력옵션 변경
# np.set_printoptions(precision=3)
# np.set_printoptions(precision=20, suppress=True)
# pd.options.display.float_format = '{:.2f}'.format
np.set_printoptions(formatter={'float_kind': lambda x: "{0:0.3f}".format(x)})

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## 범위(range)
- 데이터의 최대값과 최소값의 차이
- 데이터가 퍼져있는 정도를 나타내는 가장 간단한 방법
- 범위가 클수록 산포가 크다고 말할 수 있지만
- 중앙값과 마찬가지로 극단적인 값에 영향을 받음
- 데이터 중 2개의 정보(최대값, 최소값)만을 이용하므로 적절한 척도로 사용하기 어려움

**범위(R)= 최댓값 - 최솟값**

In [4]:
np.random.seed(123)
data = np.random.normal(100,20, size=1000)
data[:10]

array([78.287, 119.947, 105.660, 69.874, 88.428, 133.029, 51.466, 91.422,
       125.319, 82.665])

In [6]:
np.min(data),np.max(data)

(35.37889984161376, 171.43158436052622)

- numpy의 max(), min() 함수 이용하여 범위 계산

In [7]:
# 범위 = 최대값 - 최소값
np.max(data) - np.min(data)

136.05268451891246

- numpy의 ptp(a[,axis,out,keepdims]) 함수 이용하여 범위 계산

In [8]:
# numpy.ptp() 이용
np.ptp(data)

136.05268451891246

### 중간 범위
- 최대값과 최소값의 평균

In [10]:
# 중간 범위 계산
(np.max(data)+np.min(data))/2

103.40524210106999

### 사분위간 범위(interquartile range : IQR)
- IQR = Q3-Q1

In [11]:
# numpy.quantile() 이용하여 IQR 계산
np.quantile(data,0.75) - np.quantile(data,0.25) 

27.06844676167337

In [13]:
# scipt.stats.iqr(x[,axis,rng,scale,nan_policy, ... ]) 이용
iqr(data)

27.06844676167337

### 사분위수 편차
- 범위(range)의 문제점을 보완한 척도
- 사분위간 범위의 값을 2로 나눈 값으로 사분위 범위의 평균


<img src='./image/2_00002.png' width='70%'>

In [14]:
# numpy.quantile() 이용
(np.quantile(data,0.75) - np.quantile(data,0.25))/2

13.534223380836686

In [15]:
# scipy.stats.iqr(x[, axis, rng, scale, nan_policy, ...]) 이용
iqr(data)/2

13.534223380836686

### 편차(deviation)
- 자료값과 평균과의 차이
- xi - mean() 

In [16]:
data-np.mean(data)

array([-20.921, 20.738, 6.451, -29.335, -10.781, 33.820, -47.742, -7.787,
       26.110, -16.544, -12.786, -1.103, 30.619, -11.987, -8.088, -7.896,
       44.910, 44.527, 20.872, 8.515, 15.539, 30.606, -17.925, 24.308,
       -24.286, -11.964, 18.933, -27.782, -2.010, -16.444, -4.321,
       -55.180, -34.639, -13.206, 19.341, -2.681, 0.848, 14.556, -16.799,
       6.464, -15.316, -33.762, -7.027, 12.267, 7.563, 0.555, 48.639,
       9.050, 20.366, 45.554, -25.090, -19.984, 35.666, -15.170, 1.385,
       22.178, 18.605, 35.889, 30.704, 22.179, -14.663, 16.689, 7.077,
       -25.734, 29.137, 16.936, 1.701, -3.871, -23.175, 4.782, 10.160,
       -15.832, 24.035, -21.153, -41.671, 21.586, -7.276, -1.729, -15.959,
       -31.328, 25.896, -12.986, 34.010, 16.937, -5.504, -20.927, -13.858,
       -23.459, 42.534, 4.080, 23.795, -24.556, 4.412, 24.349, -5.909,
       21.414, -20.900, -26.478, 8.379, -6.792, 13.632, -38.766, 15.037,
       52.757, 0.299, 1.474, 4.382, -36.448, 9.314, -31.317, -

In [17]:
# 편차의 합은 항상 0
(data-np.mean(data)).sum()

-7.815970093361102e-12

### 분산(variaince)
- 산포도의 척도로 가장 널리 사용되는 방법
- 평균을 중심으로 데이터가 퍼져있는 정도의 측도


- 각 데이터와 평균과의 차이를 제곱하여 합한 값의 평균
    - 모분산 : n으로 나눠줌
    - 표본분산 : n-1로 나눠줌
    
<img src='./image/2_00003.png' width='70%'>


**분산 계산 : var(a, ddof=0) 함수**
- numpy.var(a[, axis, dtype, out, ddof, keepdims, where])
- pandas.Series.var(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)
- ddof 인수:
    - 기본값은 0 => 모집단 분산
    - 표본 분산의 경우 1로 설정

In [20]:
# ddof=0 : 모분산, ddof=1 : 표준분산
x = [1,2,3,4,5]

# 표본 분산
np.var(x, ddof=1) 

# 모분산
np.var(x, ddof=0) # =np.var(x) 

# 모분산
np.array(x).var()
pd.Series(x).var(ddof=0) 

2.5

2.0

2.0

### 표준편차(standard deviation)
- 계산된 분산의 제곱근으로 계산
- 평균을 중심으로 일정한 거리에 포함된 데이터의 비율이 얼마인가를 계산
- 모든 데이터를 고려한 척도

- 특징
    - 모든 데이터가 동일한 값을 갖는다면 분산과 표준편차는 0으로 계산
    - 모든 데이터에 동일한 값을 더해주거나 빼도 변하지 않음
    - 모든 데이터에 동일한 값(C)를 곱하면 분산은 분산 * C²으로 표준편차는 표준편차 * C 만큼 커짐
    
<img src='./image/2_00004.png' width='70%'>

**표준편차 계산: std(a, ddof=0) 함수 사용**
- 데이터의 단위와 동일하게 만듦
    - 분산에서 제곱의 영향을 없앤 지표
- 분산과 표준편차가 크면 클수록 산포가 크다

- numpy.std(a[, axis, dtype, out, ddof, keepdims,where])
- pandas.Series.std(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, **kwargs)
- ddof 인수 :
    - 기본값은 0 => 모집단 분산
    - 표본 분산의 경우 1로 설정

In [21]:
# ddof=0 : 모분산, ddof=1 : 표준분산
x = [1,2,3,4,5]

# 표본 표준편차(S)
np.std(x, ddof=1) 

# 모표준편차 (sigma)
np.std(x, ddof=0) # =np.var(x) 
np.array(x).std()
pd.Series(x).std(ddof=0) 

1.5811388300841898

1.4142135623730951

1.4142135623730951

1.4142135623730951

### 변동계수(CV : Coefficient of Variable)
- 표본 표준편차를 표본평균으로 나눈 값 또는 그 값에 100을 곱한 값
- 상대표준편차
- 서로 다른 평균과 표준편차를 갖는 여러 데이터의 흩어진 정도를 비교할 때 사용
- 변동계수 값이 크다는 것은 데이터의 흩어진 정도가 상대적으로 크다는 의미

<img src='./image/2_00005.png' width='70%'>

**변동계수 계산**
- scipy.stats.variation(a, axis=0, nan_policy='propagate', ddof=0, *, keepdims=False)
- np.std(x, axis=axis, ddof=ddof) / np.mean(x)

In [25]:
men = [72,74,77,68,66,75]
women = [45,48,52,53,46,50]

print('----평균----')
np.mean(men)
np.mean(women)
print('--표본 표준편차--')
np.std(men, ddof=1)
np.std(women, ddof=1)

----평균----


72.0

49.0

--표본 표준편차--


4.242640687119285

3.22490309931942

In [26]:
# np.std(x, axis=axis, ddof=ddof) / np.mean(x) 이용
print('변동계수(남자)', np.std(men, ddof=1) /np.mean(men))
print('변동계수(여자)', np.std(women, ddof=1) /np.mean(women))

변동계수(남자) 0.05892556509887895
변동계수(여자) 0.06581434896570246


In [29]:
#scipt.stats.variation(a, axis=0, nan_policy='propagate', ddof=0, *, keepdims=False)
print('변동계수(남자)',variation(men, ddof=1))
print('변동계수(여자)',variation(women, ddof=1))

변동계수(남자) 0.05892556509887895
변동계수(여자) 0.06581434896570246


## 데이터의 정규화
: scaling(표준화)
- 각 값들을 상대적인 값으로 변화시키는 기법
- 예. 국어 평균 95점, 수학 평균 30점인 경우
    - 취득점수 국어 90, 수학 80이라면 어떤 과목을 더 잘한 것인가?

1. standard scaling(Z)
    - ${ z_i = \frac {x_i - mean(x)} {S} }$
    - 평균 : 0, 표준편차 : 1 이 됨


2. min-max scaling
    - ${ s_i = \frac {x_i - min(x)} {max(x)-min(x)} }$
    - 0 ~ 1 사이의 값으로 변환

### 표준화 예제

In [32]:
df = pd.read_csv('./data/ch2_scores_em.csv',
                 index_col='student number')
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [33]:
df['english'].describe()

count    50.000000
mean     58.380000
std       9.799813
min      37.000000
25%      54.000000
50%      57.500000
75%      65.000000
max      79.000000
Name: english, dtype: float64

In [36]:
df['mathematics'].describe()

count    50.000000
mean     78.880000
std       8.414371
min      57.000000
25%      76.000000
50%      80.000000
75%      84.000000
max      94.000000
Name: mathematics, dtype: float64

In [37]:
df.describe()

Unnamed: 0,english,mathematics
count,50.0,50.0
mean,58.38,78.88
std,9.799813,8.414371
min,37.0,57.0
25%,54.0,76.0
50%,57.5,80.0
75%,65.0,84.0
max,79.0,94.0


### Z-scaling

In [41]:
# Z-scaling : 평균이 0 , 표준편차가 1이 됨
z1 = (df['english'] - df['english'].mean()) / df['english'].std()
z2 = (df['mathematics'] - df['mathematics'].mean()) / df['mathematics'].std()

print(z1.min(), z1.max())
print(z2.min(), z2.max())

# -3 ~ 3 사이의 값으로 분포됨 => 비교 가능해짐

-2.1816743772942324 2.104121873704727
-2.600313324789425 1.796925844187209


In [42]:
z1.mean(), z1.std()

(-2.3092638912203257e-16, 1.0)

### min-max scaling

In [43]:
# min-max scaling -> 데이터를 최솟값으로 빼고 (최댓값-최솟값)으로 나눔
s1 = (df['english'] - df['english'].min()) / (df['english'].max()-df['english'].min())
s2 = (df['mathematics'] - df['mathematics'].min()) / (df['mathematics'].max()-df['mathematics'].min())

print('eng :',s1.min(),s1.max())
print('math :',s2.min(),s2.max())
# 0 ~ 1 사이의 값으로 분포됨 

eng : 0.0 1.0
math : 0.0 1.0


### sklearn.preprocessing.MinMaxScaler를 이용한 스케일링
- 머신러닝을 위해 쓰는 경우가 대부분
- df의 각 열에 대해서 스케일링하는데 적합함

In [45]:
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [46]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
S = scaler.fit_transform(df)
pd.DataFrame(S, columns=df.columns, index=df.index).head()

# 0 ~ 1사이로 분포됨

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.119048,0.216216
2,0.761905,0.621622
3,0.452381,0.162162
4,0.095238,0.162162
5,0.47619,0.513514
