In [1]:
import numpy as np
import pandas as pd


# 쥬피터와 DataFrame의 출력을 소수점 이하 3자리로 제한
%precision 3
pd.set_option("display.precision", 3)

df = pd.read_csv("../data/ch2_scores_em.csv", index_col="student number")
scores = np.array(df["english"])[:10]
scores_df = pd.DataFrame({'score': scores}, index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name="student"))

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76
6,48,60
7,65,81
8,49,66
9,65,78
10,58,82


# 2.2 데이터의 산포도 지표
평균값이나 중앙값으로 데이터를 대표하는 값을 얻는 방법은 이해했다. 그러나 다음과 같은 경우를 가정해보자. 학급 전원이 50점을 받은 시험이 있고, 학급에서 절반은 0점을 받았지만 나머지 절반은 100점을 받은 시험이 있다.
결과는 완전히 다르지만 두 경우 모두 평균값과 중앙값은 도잉ㄹ하게 50점이 되어버린다.
전자는 개개인의 점수가 모여 있고, 후자는 개개인의 점수가 심하게 흩어져 잇는 이미지를 떠올릴 수 있다.
이와 같은 데이터의 산포도를 수치로 표현하려면 어떻게 해야 할까?

## 2.2.1 분산과 표준편차
### 편차
산포도를 구하는 첫걸은 **편차(deviation)**를 알아보는 것이다. 편차는 각 데이터가 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표다.
예를 들어, A학생의 점수가 42점이고, 학생 10명의 평균 점수가 55점이라면, A학생의 편차는 42-55로 -13이 된다.

In [4]:
mean = np.mean(scores)
deviation = scores - mean
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [5]:
# 다른 시험의 결과도 보자 평균값은 마찬가지로 55점이다.
another_scores = [50, 60, 58, 54, 51, 56, 57, 53, 52, 59]
another_mean = np.mean(another_scores)
another_deviation = another_scores - another_mean
another_deviation

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

In [6]:
np.mean(deviation)
np.mean(another_deviation)

# 편차 평균은 항상 0이 된다.

0.000

In [7]:
summary_df = scores_df.copy()
summary_df["deviation"] = deviation
summary_df

Unnamed: 0_level_0,score,deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [8]:
summary_df.mean()

score        55.0
deviation     0.0
dtype: float64

### 분산
산포도의 지표로 각 데이터와 평균 간 차이를 나타내는 편차를 이용하는 것은 바람직한 생각이지만, 편차의 평균이 항상 0이 되므로 잘 사용하지 않는다.
그렇다면 어떻게 해야 할까? 각각의 산포도라는 의미에서 보면 B학생과 D학생 모두 평균에서 14점 떨어져 있으므로 동일한 산포도를 가지고 있는 거 같다. 이 때문에 평균보다 14점이 크든 14점이 작든 이 둘을 동일하게 취급하여 편차의 제곱을 이용한다. 그리고 그 평균으로 정의되는 지표가 **분산(variance)**이 된다.

In [9]:
np.mean(deviation ** 2)

86.000

In [10]:
np.var(scores, ddof=0)

86.000

In [11]:
# numpy 기본 분산: 표본 분산
# pandas 기본 분산: 불편 분산
# summary_df.var() # 결과값이 다르다.

# ddof=0 -> 표본분산
# ddof=1 -> 불편분산
summary_df.var(ddof=0)

score        86.0
deviation    86.0
dtype: float64

In [12]:
summary_df["square of deviation"] = np.square(deviation)
summary_df

Unnamed: 0_level_0,score,deviation,square of deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [13]:
summary_df.mean()

score                  55.0
deviation               0.0
square of deviation    86.0
dtype: float64

### 표준편차
평균의 단위는 원래의 데이터 단위와 다르지 않으므로, 영어 시험 점수라면 평균도 점수라는 단위를 쓴다. 결국 평균은 55점으로 표현할 수 있다. 그러나 분산은 점수의 면적으로 나타내므로 점수의 제곱이라는 이해하기 어려운 단위를 사용한다. 영어 점수의 분산이 86^2라고 말해도 그다지 감이 오지 않는다.
이 때문에 원래의 데이터와 동일한 단위를 쓰는 산포도의 지표가 있다면 도움이 된다. 이와 같은 산포도 지표로 분산에 제곱근을 취한 **표준편차(standard deviation)**를 이용한다.

In [14]:
np.sqrt(np.var(scores, ddof=0))

9.274

In [15]:
np.std(scores, ddof=0)

9.274

## 2.2.2 범위와 사분위 범위

## 범위(Range)
범위는 분산이나 표준편차와 달리, 데이터 전체를 보는 것이 아니라 데이터의 최댓값과 최솟값만으로 산포도를 표현하는 방법이다.
최댓값과 최솟값의 차이가 크면 산포다가 크고, 그 차이가 작으면 산포도도 작다는 의미다.

In [16]:
np.max(scores) - np.min(scores)

28

## 사분위 범위(Interquartile range)
범위는 최댓값과 최솟값밖에 보이지 않으므로, 큰 이상값이 하나라도 있으면 범위도 크게 변화한다. 이 때문에 최댓값과 최솟값이 아니라, 데이터의 상위수%에 위치하는 값과 하위수%에 위치하는 값의 차이를 취하는 방법을 생각할 수 있다.
특히 **사분위 범위**에서는 데이터의 하위 25%, 50%, 75%에 위치하는 값에 주목한다. 이를 각각 제1사분위수, 제2사분위수, 제3사분위수라고 하며 Q1, Q2, Q3로 나타낸다. 그리고 Q3-Q1을 사분위 범위 IQR로 정의한다.


In [17]:
scores_Q1 = np.percentile(scores, 25)
scores_Q3 = np.percentile(scores, 75)
scores_IQR = scores_Q3 - scores_Q1
scores_IQR

15.000

## 2.2.3 데이터의 지표 정리
DataFame이나 Series에서는 지금까지 다룬 다양한 지표를 한 번에 구할 수 잇는 편리한 메서드 describe가 있다.


In [18]:
pd.Series(scores).describe()

count    10.000
mean     55.000
std       9.775
min      41.000
25%      48.250
50%      56.500
75%      63.250
max      69.000
dtype: float64