In [9]:
import numpy as np
import pandas as pd

# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3

# DataFrame의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision', 3)

In [3]:
df = pd.read_csv('../data/ch2_scores_em.csv', index_col='student number')
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [4]:
scores = np.array(df['english'])[:10]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58], dtype=int64)

In [5]:
scores_df = pd.DataFrame({'score': scores}, index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name='student'))
scores_df

Unnamed: 0_level_0,score
student,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


## 2.1 데이터 중심의 지표

+ 대푯값: 데이터를 하나의 값으로 요약한 지표

### 2.1.1 평균값

In [10]:
sum(scores) / len(scores)

55.0

In [11]:
np.mean(scores)

55.0

In [12]:
scores_df.mean()

score    55.0
dtype: float64

### 2.1.2 중앙값

+ 중앙값(median): 데이터를 크기 순서대로 나열할 때 정확하게 중앙에 위치한 값
    - 중앙값은 평균값에 비해 이상값에 강하다는 특성이 있다. 즉 이상값에 영향을 덜 받는다는 의미
    - 데이터의 개수 n이 홀수라면, (n+1)/2번째 데이터가 중앙값
    - 데이터의 개수 n이 짝수라면, n/2번째 데이터와 (n/2)+1번째 데이터의 평균이 중앙값

In [13]:
sorted_scores = np.sort(scores)
sorted_scores

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69], dtype=int64)

In [14]:
n = len(sorted_scores)
if n % 2 == 0:
    m0 = sorted_scores[n//2 - 1]
    m1 = sorted_scores[n//2]
    median = (m0 + m1) / 2
else:
    median = sorted_scores[(n+1)//2 -1]
    
median

56.5

In [16]:
np.median(scores)

56.5

In [17]:
scores_df.median()

score    56.5
dtype: float64

### 2.1.3 최빈값

+ 최빈값(mode): 데이터에서 가장 많이 나타나는 값
    - 최빈값은 기본적으로는 질적 데이터의 기본값을 구할 때 사용하는 지표
    - 다만 도수분포표를 도입하면 양적 데이터에서도 최빈값을 자연스럽게 정의할 수 있다

In [18]:
pd.Series([1, 1, 1, 2, 2, 3]).mode()

0    1
dtype: int64

## 2.2 데이터의 산포도

### 2.2.1 분산과 표준편차

+ 편차 deviation
    - 편차는 각 데이터가 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표

In [19]:
mean = np.mean(scores)

deviation = scores - mean
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [20]:
another_scores = [50, 60, 58, 54, 51, 56, 57, 53, 52, 59]
another_mean = np.mean(another_scores)
another_deviation = another_scores - another_mean
another_deviation

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

In [22]:
np.mean(deviation)

0.0

In [23]:
np.mean(another_scores)

55.0

In [24]:
summary_df = scores_df.copy()
summary_df['deviation'] = deviation
summary_df

Unnamed: 0_level_0,score,deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [25]:
summary_df.mean()

score        55.0
deviation     0.0
dtype: float64

+ 분산

In [26]:
np.mean(deviation**2)

86.0

In [27]:
np.var(scores)

86.0

In [28]:
scores_df.var()

score    95.556
dtype: float64

In [29]:
summary_df['square of deviation'] = np.square(deviation)
summary_df

Unnamed: 0_level_0,score,deviation,square of deviation
student,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [30]:
summary_df.mean()

score                  55.0
deviation               0.0
square of deviation    86.0
dtype: float64

+ 표준편차 standard deviation

In [31]:
np.sqrt(np.var(scores, ddof=0))

9.273618495495704

In [32]:
np.std(scores, ddof=0)

9.273618495495704

### 2.2.2 범위와 사분위 범위

+ 범위 range
    - 데이터의 최댓값과 최소값만으로 산포도를 표현하는 방법
    - 최댓값과 최소값의 차이가 크면 산포도가 크고, 그 차이가 작으면 산포도도 작다는 의미
    - 간단히 계산할 수 있지만, 값이 2개뿐이므로 개략적인 지표이고 이상값에 약하다

In [33]:
np.max(scores) - np.min(scores)

28

+ 사분위 범위 interquartile range
    - IQR = Q3 - Q1

In [34]:
scores_Q1 = np.percentile(scores, 25)
scores_Q3 = np.percentile(scores, 75)
scores_IQR = scores_Q3 - scores_Q1
scores_IQR

15.0

### 2.2.3 데이터의 지표 정리

In [35]:
pd.Series(scores).describe()

count    10.000
mean     55.000
std       9.775
min      41.000
25%      48.250
50%      56.500
75%      63.250
max      69.000
dtype: float64