# 데이터의 중심위치(대표값)

* 평균
* 중앙값
* 최빈값

## 데이터 중심의 지표

In [1]:
import numpy as np
import pandas as pd

# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3
# Dataframe의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision', 3)

In [2]:
df = pd.read_csv('./data/ch2_scores_em.csv',
                 index_col='student number')
# df의 처음 5행을 표시
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [3]:
scores = np.array(df['english'])[:10]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58], dtype=int64)

In [4]:
# 각 학생의 이름을 A, B, C...로 인덱스를 만든다.

scores_df = pd.DataFrame({'score':scores},
                         index=pd.Index(['A', 'B', 'C', 'D', 'E',
                                         'F', 'G', 'H', 'I', 'J'],
                                        name='student'))
scores_df

Unnamed: 0_level_0,score
student,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


### 평균값, mean

평균은 가장 잘 알려진 대표값이다. 평균은 다음과 같은 식으로 계산한다.

$$ \bar X = \frac{1}{N}{\sum_{i=1}^N x_i} $$

In [5]:
# score의 평균을 계산한다.
sum(scores) / len(scores)

55.0

In [6]:
np.mean(scores)

55.0

In [7]:
scores_df.mean()

score    55.0
dtype: float64

### 중앙값, meadian

중앙값은 데이터를 크기순으로 나열 할 때 가운데 오는 값이다. 특이값인 지나치게 큰 값이나 작은 값에 의해 영향을 받는 평균의 단점을 보완해 주는 중심위치 통계량이다.

In [8]:
# 데이터를 오름차순 정렬
sorted_scores = np.sort(scores)
sorted_scores

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69], dtype=int64)

중앙값은 데이터를 순서대로 나열할 때 정확하게 중앙에 위치하는 값이지만 데이터가 짝수 개일 때는 중앙에 위치하는 값이 2개이다. 이때는 두 값의 평균으로 정의할 수 있다.

In [9]:
n = len(sorted_scores)
if n % 2 == 0:
    m0 = sorted_scores[n//2 - 1]
    m1 = sorted_scores[n//2]
    median = (m0 + m1) / 2
else:
    median = sorted_scores[(n+1)//2 - 1]
median

56.5

In [10]:
np.median(scores)

56.5

In [11]:
scores_df.median()

score    56.5
dtype: float64

### 최빈값, mode

데이터에서 가장 많이 나타나는 값이다. 최빈값은 기본적으로 질적 데이터의 대표값을 구할 때 사용하는 지표이다. 양정 데이터에서는 최빈값을 구하려고 해도 완전히 동일한 점수가 여러번 나오는 경우가 거의 없기 때문이다.

In [12]:
pd.Series([1, 1, 1, 2, 2, 3]).mode()

0    1
dtype: int64

In [13]:
pd.Series([1, 2, 3, 4, 5]).mode()

0    1
1    2
2    3
3    4
4    5
dtype: int64

## 도수분포표(Frequency Table)


In [14]:
# 50명의 영어 점수 array
english_scores = np.array(df['english'])
# Series로 변환하여 describe를 표시
pd.Series(english_scores).describe()

count    50.00
mean     58.38
std       9.80
min      37.00
25%      54.00
50%      57.50
75%      65.00
max      79.00
dtype: float64

### 도수분포표

데이터의 분포 상태를 확인할 때 사용한다.   
데이터 값을 몇 개의 구간으로 나누고 각 구간에 몇 개의 데이터가 들어가는가를 세어서 나타낸 표이다.


In [15]:
freq, _ = np.histogram(english_scores, bins=10, range=(0, 100))
freq

array([ 0,  0,  0,  2,  8, 16, 18,  6,  0,  0], dtype=int64)

In [16]:
# 0~10, 10~20, ... 이라는 문자열의 리스트를 작성
freq_class = [f'{i}~{i+10}' for i in range(0, 100, 10)]
# freq_class를 인덱스로 DataFrame을 작성
freq_dist_df = pd.DataFrame({'frequency':freq},
                            index=pd.Index(freq_class,
                                           name='class'))
freq_dist_df

Unnamed: 0_level_0,frequency
class,Unnamed: 1_level_1
0~10,0
10~20,0
20~30,0
30~40,2
40~50,8
50~60,16
60~70,18
70~80,6
80~90,0
90~100,0


#### 계급값

In [17]:
class_value = [(i+(i+10))//2 for i in range(0, 100, 10)]
class_value

[5, 15, 25, 35, 45, 55, 65, 75, 85, 95]

#### 상대도수

도수의 총합에 대한 각 계급의 도수의 비율을 말한다.

In [18]:
rel_freq = freq / freq.sum()
rel_freq

array([0.  , 0.  , 0.  , 0.04, 0.16, 0.32, 0.36, 0.12, 0.  , 0.  ])

#### 누적상대도수
해당 계급까지의 상대도수의 합을 나타낸다.

In [19]:
cum_rel_freq = np.cumsum(rel_freq)
cum_rel_freq

array([0.  , 0.  , 0.  , 0.04, 0.2 , 0.52, 0.88, 1.  , 1.  , 1.  ])

In [20]:
freq_dist_df['class value'] = class_value
freq_dist_df['relative frequency'] = rel_freq
freq_dist_df['cumulative relative frequency'] = cum_rel_freq
freq_dist_df = freq_dist_df[['class value', 'frequency',
                             'relative frequency', 'cumulative relative frequency']]

freq_dist_df

Unnamed: 0_level_0,class value,frequency,relative frequency,cumulative relative frequency
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0~10,5,0,0.0,0.0
10~20,15,0,0.0,0.0
20~30,25,0,0.0,0.0
30~40,35,2,0.04,0.04
40~50,45,8,0.16,0.2
50~60,55,16,0.32,0.52
60~70,65,18,0.36,0.88
70~80,75,6,0.12,1.0
80~90,85,0,0.0,1.0
90~100,95,0,0.0,1.0


#### 최빈값 재검토

연속형 수치데이터의 최빈값은 구간을 나누어 계산할 수 있다. 도수가 최대인 계급값을 최빈값으로 할 수 있다.  
다만 주의할 것은 최빈값이 도수분포표의 계급폭에 따라서 달라질 수 있다.

In [21]:
freq_dist_df.loc[freq_dist_df['frequency'].idxmax(), 'class value']

65