# 대표 통계량

In [3]:
import numpy as np
from scipy import stats
import pandas as pd

## 산술평균 계산

In [10]:
# 성적 평균 구하기
x = [70, 60, 80, 60, 50]
# sum(x)/len(x)
# np.sum(x)/len(x)
# print(np.array(x).mean())
print(pd.Series(x).mean())

64.0


## 조화평균 구하기

In [14]:
# 상황: 두 생산 라인이 동일한 수의 제품(작업량)을 생산하지만, 
# 각 라인의 처리 속도가 다를 때 평균 처리 속도를 계산하기

# 라인 A: 60개/시간, 라인 B: 30개/시간  → 
# 동일 작업량(120개 제품 생산) 처리 시 평균 처리속도

x = np.array([60, 30])
print(len(x)/(1/60 + 1/30))
print(len(x) / np.sum(1/x))
print(stats.hmean(x))

40.0
40.0
40.0


## 절사평균 계산

In [60]:
# 월 평균이 3백만원이고 표준편차가 50만원인 정규 분포를 따르는 소득을 갖는 100명 생성
income = np.random.normal(3000000, 500000, 100) 
print(round(np.mean(income), 2))

# 월 소득이 1억원인 사람의 등장
# 100명의 소득이 300만원에 가까운데, 한 명 때문에 대표값인 평균이 약 1300만원에 달함

income = np.append(income, 10**9)
# print(round(np.mean(income), 2)
stats.trim_mean(income, 0.2)
print(round(np.mean(income), 2))

2921386.15
12793451.64


## 최빈값 계산

In [45]:
x = np.random.choice(['A', 'B', 'C'], 1000)
x[:5]
len(x)

1000

In [51]:
np.unique(x)

array(['A', 'B', 'C'], dtype='<U1')

In [53]:
pd.Series(x).value_counts()

B    355
A    330
C    315
Name: count, dtype: int64

In [48]:
pd.Series(x).value_counts().index[0]

'B'

In [58]:
# python collections 사용
from collections import Counter
# print(dict(Counter(x)))
counter = Counter(x)
mode_value, mode_cnt = counter.most_common(1)[0]
# mode_value, mode_cnt
print(f"최빈값 : {mode_value}, 최빈갯수 : {mode_cnt}")

최빈값 : B, 최빈갯수 : 355


# 데이터의 대표값

In [61]:
# 평균, 중앙값, 최빈값 구하기

In [90]:
# 데이터 생성
np.random.seed(2024)
data = np.random.randint(0, 5, 10)
data

array([0, 2, 0, 0, 3, 4, 1, 1, 4, 3], dtype=int32)

In [91]:
data.sort()
data

array([0, 0, 0, 1, 1, 2, 3, 3, 4, 4], dtype=int32)

In [92]:
mean_val = np.mean(data)
median_val = np.median(data)
median_val

np.float64(1.5)

In [96]:
mode_val = stats.mode(data)
mode_val

ModeResult(mode=np.int32(0), count=np.int64(3))

In [99]:
print(f"최빈값 : {mode_val.mode}, 최빈 갯수{mode_val.count}")

최빈값 : 0, 최빈 갯수3
