##대표 통계량

In [13]:
import numpy as np
from scipy import stats
import pandas as pd

## 산술평균 계산

In [16]:
#성적 평균 구하기
x = [70, 60, 80, 60, 50]
# sum(x) / len(x)
# np.sum(x)/len(x)

# array 요소에는 동일한 객체만 저장할 수 있다.
np.array(x).mean()

# pandas 사용해보기

pd.Series(x).mean()

np.float64(64.0)

## 조화평균 구하기

In [None]:
# 거리가 같을 때: 조화평균 (역수의 산술평균의 역수)
# 문제: 자동차가 60km를 60km/h로 이동하고, 같은 60km를 40km/h로 이동했을 때 평균 속도는?
x = np.array([60, 40])
print(len(x) / (1/60 + 1/40))
print(len(x) / np.sum(1/x))
print(stats.hmean(x))

In [18]:
# 상황: 두 생산 라인이 동일한 수의 제품(작업량)을 생산하지만, 
# 각 라인의 처리 속도가 다를 때 평균 처리 속도를 계산하기

# 라인 A: 60개/시간, 라인 B: 30개/시간  → 동일 작업량(120개 제품 생산) 처리 시 평균 처리속도

y = np.array([60, 30])
print(stats.hmean(y))

40.0


## 절사평균

In [28]:
# 자료 왜곡을막기 위하여

# 월 평균이 3백만원이고 표준편차가 50만원인 정규 분포를 따르는 소득을 갖는 100명 생성
income = np.random.normal(3000000, 500000, 100) 
print(round(np.mean(income), 2))

3065650.2


In [29]:
# 월 소득이 1억원인 사람의 등장
# 100명의 소득이 300만원에 가까운데, 한 명 때문에 대표값인 평균이 약 1300만원에 달함
income = np.append(income, 10**8) 
print(10**8)
print(round(np.mean(income), 2)) 

100000000
4025396.23


In [30]:
print(round(stats.trim_mean(income, 0.2),2)) # [20% ~ 80%]은 제외하고 계산

3050869.54


## 최빈값

In [35]:
x = np.random.choice(['A', 'B', 'C'],1000)
x[:5]
len(x)

1000

In [36]:
np.unique(x)

array(['A', 'B', 'C'], dtype='<U1')

In [37]:
pd.Series(x).value_counts()

C    355
A    323
B    322
Name: count, dtype: int64

In [41]:
pd.Series(x).value_counts().index[0]

'C'

In [46]:
# PYTHON collections 사용
from collections import Counter

In [49]:
Counter(x)
print(dict(Counter(x)))

{np.str_('B'): 322, np.str_('C'): 355, np.str_('A'): 323}


In [58]:
counter =  Counter(x)
print(counter.most_common(1))

print(counter.most_common(1)[0])
mode_value, mode_count = counter.most_common(1)[0]
print(f"최빈값 : {mode_value}, 최빈수 : {mode_count}")

[(np.str_('C'), 355)]
(np.str_('C'), 355)
최빈값 : C, 최빈수 : 355


In [57]:
counter.most_common(3)

[(np.str_('C'), 355), (np.str_('A'), 323), (np.str_('B'), 322)]

## 데이터의 대푯값

In [59]:
#평균, 중앙값, 최빈값


In [125]:
#데이터 생성
np.random.seed(2025)  # random자료의 값이 바뀌지 않음. 타인도 동일한 결과를 도출할 수 있도록.
data = np.random.randint(0,5,10) 

In [126]:
data

array([2, 4, 0, 3, 3, 4, 0, 0, 2, 1], dtype=int32)

In [130]:
data.sort()
data

array([0, 0, 0, 1, 2, 2, 3, 3, 4, 4], dtype=int32)

In [131]:
mean_val = np.mean(data)
median_val = np.median(data)
median_val

np.float64(2.0)

In [133]:
mode_val = stats.mode(data)
mode_val

ModeResult(mode=np.int32(0), count=np.int64(3))

In [135]:
f"최빈값 : {mode_val.mode} , 최빈갯수 : {mode_val.count}"

'최빈값 : 0 , 최빈갯수 : 3'