# 데이터의 산포도 지표

다음과 같은 경우를 가정해 보자.   

A반은 전원이 50점을 받았다. B반에서는 절반이 0점을 받았지만 나머지 절반은 100점을 받았다.  
결과는 완전히 다르지만 두 경우 평군과 중앙값이 동일하게 50점이 되어 버린다.  
A반은 50점에 점수가 몰려있고 B반은 점수가 극단으로 흩어져있다.  

이와 같은 데이터의 산포도를 수치로 표현하려면 어떻게 해야 할까?


* 분산(variance)과 표준편차(standard deviation)
* 범위(range)와 사분위수(quantile)
* 사분위 범위(inter quantile range)


In [4]:
import numpy as np
import pandas as pd

# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3
# Dataframe의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision', 3)

In [5]:
df = pd.read_csv('./data/ch2_scores_em.csv',
                 index_col='student number')
# df의 처음 5행을 표시
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [6]:
scores = np.array(df['english'])[:10]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58], dtype=int64)

In [7]:
# 각 학생의 이름을 A, B, C...로 인덱스를 만든다.

scores_df = pd.DataFrame({'score':scores},
                         index=pd.Index(['A', 'B', 'C', 'D', 'E',
                                         'F', 'G', 'H', 'I', 'J'],
                                        name='student'))
scores_df

Unnamed: 0_level_0,score
student,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


### 분산과 표준편차

#### 편차, deviation
편차는 각 데이터가 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표이다.

In [8]:
mean = np.mean(scores)
deviation = scores - mean # 편차 =  데이터 - 평균
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [9]:
another_scores = [50, 60, 58, 54, 51, 56, 57, 53, 52, 59]
another_mean = np.mean(another_scores)
another_deviation = another_scores - another_mean
another_deviation

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

#### 편차의 평균
편차의 평균을 구하면 어떻게 될까?

In [10]:
np.mean(deviation)

0.0

In [11]:
np.mean(another_deviation)

0.0

In [12]:
summary_df = scores_df.copy()
summary_df['deviation'] = deviation
summary_df

Unnamed: 0_level_0,score,deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [13]:
summary_df.mean()

score        55.0
deviation     0.0
dtype: float64

#### 분산, Variance

편차의 평균은 항상 0이 되기 때문에 사용하지 않는다. 편차의 제곱을 사용한다. 편차 제곱의 평균을 분산이라고 할 수 있다. 

$$ Variance = \frac{1}{N}{\sum_{i=1}^N (x_i - \bar x)^2} $$

In [36]:
np.var(df['english'].values)

94.1156

In [14]:
np.mean(deviation ** 2)

86.0

In [28]:
np.var(scores)

86.0

In [37]:
scores_df.var(ddof=0)

score    86.0
dtype: float64

In [17]:
summary_df['square of deviation'] = np.square(deviation)
summary_df

Unnamed: 0_level_0,score,deviation,square of deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [18]:
summary_df.mean()

score                  55.0
deviation               0.0
square of deviation    86.0
dtype: float64

#### 표준편차, standard deviation

분산에 제곱근을 취한 것이 표준편차이다.

In [19]:
np.sqrt(np.var(scores, ddof=1)) # ddof가 1이면 불편분산 즉 n-1 나눈다.

9.775252199076787

In [20]:
np.std(scores, ddof=0) #  표준편차 함수이다.

9.273618495495704

### 범위(range)와 사분위수(quantile)

#### 범위 range
최대값과 최소값이 차이를 말한다.  
$ range = max - min $

In [21]:
np.max(scores)

69

In [22]:
np.min(scores)

41

In [23]:
np.max(scores) - np.min(scores)

28

#### 사분위수 quantile

In [24]:
scores_Q1 = np.percentile(scores, 25)
scores_Q2 = np.percentile(scores, 50)
scores_Q3 = np.percentile(scores, 75)

In [25]:
scores_Q1

48.25

In [26]:
scores_Q3

63.25

#### 사분위수 범위 Inter Quantile Range, IQR

$ IQR = Q3 - Q1 $

In [22]:
scores_IQR = scores_Q3 - scores_Q1
scores_IQR

15.0

### 데이터의 지표 정리

In [23]:
pd.Series(scores).describe()

count    10.000
mean     55.000
std       9.775
min      41.000
25%      48.250
50%      56.500
75%      63.250
max      69.000
dtype: float64