# Numpy 도수분포

## #01. 개요

### [1] 도수

특정한 구간 또는 범주에 속하는 자료의 개수

(예) 어떤 학급의 학생들의 시험 점수를 기록한다면 각 점수 대여겡 속하는 학생의 수를 세어 도수를 구할 수 있다.

### [2] 도수분포표

도수들을 정리하여 구간별 도수를 표로 나타낸 것

도수분포는 평균, 중앙값, 최빈값과 같은 중심 경향성 통계량을 게산하거나 자료의 분산과 퍼짐 정도를 파악하는 데에도 사용된다.

이를 통해 데이터의 특성을 더 잘 이해하고 추론할 수 있다.

## #02. 준비과정

### [1] 패키지 참조

In [1]:
import numpy as np

### [2] 샘플 데이터 준비
어느 학급의 시험 점수

In [13]:
point = np.array([100, 91, 89, 86, 84, 79, 78, 77, 74, 71, 69, 66, 65, 60, 58, 57, 55])
point


array([100,  91,  89,  86,  84,  79,  78,  77,  74,  71,  69,  66,  65,
        60,  58,  57,  55])

## #03. Numpy의 histogram : 도수분포도
### [1] 5개의 구간으로 나누기

In [15]:
hist, bins = np.histogram(point, 5,) # 개수로 지정시 최대값 - 최소값을 개수로 나눠서 표현
print("구간별 데이터 수 :",hist)
print("구간 경계 :",bins)

구간별 데이터 수 : [4 4 4 3 2]
구간 경계 : [ 55.  64.  73.  82.  91. 100.]


In [4]:
s = len(bins)

for i in range(s-1):
    if i <s-2:
        print(f'{bins[i]}이상 {bins[i+1]}미만 : {hist[i]}개')
    else : 
        print(f'{bins[i]}이상 {bins[i+1]}이하 : {hist[i]}개')

55.0이상 64.0미만 : 4개
64.0이상 73.0미만 : 4개
73.0이상 82.0미만 : 4개
82.0이상 91.0미만 : 3개
91.0이상 100.0이하 : 2개


### [2] 데이터 구간을 직접 정의하기

In [5]:
hist, bins = np.histogram(point, [50,65,70,80,100]) # 직접 정의시 임의의 숫자 표현 가능하며 각 구간별 길이가 달라도 상관없음
print("구간별 데이터 수 :",hist)
print("구간 경계 :",bins)

구간별 데이터 수 : [4 3 5 5]
구간 경계 : [ 50  65  70  80 100]


## #04. 도수의 종류

### [1] 절대도수

어떠한 변수에 대한 실제 빈도수

`np.histogram()`에서 리턴하는 `hist`값이 절대 도수임.

### [2] 상대도수

절대도수를 백분률로 환산한 값

각 도수를 도수의 총 합으로 나눈 값 ( 별도로 연산해서 표시해야함 )

In [6]:
print(type(hist))

<class 'numpy.ndarray'>


In [7]:
def relativeFreq(nparr):
    return nparr/np.sum(nparr)

In [8]:
relative_freq = relativeFreq(hist)
relative_freq

array([0.23529412, 0.17647059, 0.29411765, 0.29411765])

### [3] 누적도수

절대도수에서 자기 앞 도수를 모두 다 더한 값


In [9]:
def cumFreq(nparr):
    freq = []
    prev = 0
    for i in nparr:
        prev += i
        freq.append(prev)
    return np.array(freq)

In [10]:
cum_freq = cumFreq(hist)
cum_freq

array([ 4,  7, 12, 17], dtype=int64)