## 상대도수

- 상대도수는 주어진 데이터 집합에서 특정 값 또는 범위의 발생 빈도를 나타내는 통계적 개념
- 상대도수를 계산하기 위해서는 frequency(빈도) 를 total 전체 데이터의 개수로 나누면 된다.

- 상대 도수를 사용하면 데이터 집합에서 각 값이 얼마나 흔하게 발생하는지를 비교할 수 있다.
- 또한 데이터의 상대적인 분포와 패턴을 파악하는데 용이하여 특정 값들 간의 비교나 관계를 이해하는데 효과적이다.

In [42]:
import pandas as pd
df = pd.read_csv('scores_em.csv')
import numpy as np

In [43]:
freq, _ = np.histogram(df, bins=10, range=(0,100))

In [44]:
# 데이터프레임으로 만들기 
fclass = [f'{i}-{i+10}' for i in range(0,100,10)]

In [45]:
# 데이터프레임 만들기
dffreq = pd.DataFrame({'frequency':freq},
                      index = pd.Index(fclass,name='class'))

In [46]:
dffreq

Unnamed: 0_level_0,frequency
class,Unnamed: 1_level_1
0-10,9
10-20,10
20-30,10
30-40,12
40-50,18
50-60,18
60-70,24
70-80,22
80-90,23
90-100,4


In [47]:
# 상대도수 공식 적용
dffreq['relative_frequency'] = dffreq['frequency'] / sum(dffreq['frequency'])

In [48]:
dffreq

Unnamed: 0_level_0,frequency,relative_frequency
class,Unnamed: 1_level_1,Unnamed: 2_level_1
0-10,9,0.06
10-20,10,0.066667
20-30,10,0.066667
30-40,12,0.08
40-50,18,0.12
50-60,18,0.12
60-70,24,0.16
70-80,22,0.146667
80-90,23,0.153333
90-100,4,0.026667


### 누적도수

- 누적도수는 주어진 데ㅣ터 집합에서 특정 값이나 범위보다 작거나 같은 값들의 발생 빈도를 누적시켜 계산한 값이다.
- 누적도수는 그 계급의 도수 + 처음 계급부터 앞 계급까지의 도수의 합으로 계산
- 또는 그 계급의 두수 + 앞 계급의 누적도수로 계산한다.
- 해당 값 또는 값의 범위 이하의 값들이 데이터에서 차지하는 비율을 계산할 때 사용되며 누적도수를 계산하면 값들의 분포와 순서를 이해하는데 효과적이다.

In [49]:
cumulative_frequency = [sum(dffreq['frequency'][:i+1]) for i in range(len(dffreq['frequency']))]


In [52]:
dffreq['cumulative_frequency'] = dffreq['frequency'].cumsum()


In [53]:
dffreq

Unnamed: 0_level_0,frequency,relative_frequency,cum_freq,cumulative_frequency
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0-10,9,0.06,9,9
10-20,10,0.066667,19,19
20-30,10,0.066667,29,29
30-40,12,0.08,41,41
40-50,18,0.12,59,59
50-60,18,0.12,77,77
60-70,24,0.16,101,101
70-80,22,0.146667,123,123
80-90,23,0.153333,146,146
90-100,4,0.026667,150,150
