# 대표 통계량

In [1]:
import numpy as np
from scipy import stats
import pandas as pd

## 산술평균계산

In [2]:
x = [70, 60, 80, 60, 50]
print(np.sum(x)/len(x))
print(np.mean(x))
print(np.array(x).mean())
print(pd.Series(x).mean())

64.0
64.0
64.0
64.0


## 조화평균

In [3]:
# 문제 : 자동차가 60km/h로 거리의 반, 40km/h로 나머지 거리를 주행을 했을 때, 평균 속도 구하기
x = np.array([60, 40])
print(len(x) / np.sum(1/x))
print(stats.hmean(x))

47.99999999999999
47.99999999999999


## 절사평균

In [4]:
# 월 평균이 3백만원이고 표준편차가 50만원인 정규 분포를 따르는 소득을 갖는 100명 생성
income = np.random.normal(300, 50, 100)
print(round(np.mean(income), 2))

297.0


In [5]:
# 월 소득이 10억원인 사람의 등장
# 100명의 소득이 300만원에 가까운데, 한 명 때문에 대표값인 평균이 약 1300만원에 달함
income = np.append(income, 100000)
print(round(np.mean(income), 2))

1284.16


In [6]:
stats.trim_mean(income, 0.2)

np.float64(295.96951182663435)

## 최빈값 계산

In [7]:
x = np.random.choice(['A', 'B', 'C'], 1000)
print(x[:10])
print(len(x))

['A' 'B' 'C' 'A' 'A' 'A' 'C' 'C' 'B' 'B']
1000


In [8]:
np.unique(x)

array(['A', 'B', 'C'], dtype='<U1')

In [9]:
pd.Series(x).value_counts()

A    357
B    341
C    302
Name: count, dtype: int64

In [10]:
pd.Series(x).value_counts().index[0]

'A'

In [11]:
from collections import Counter
counter = Counter(x)
mode_value, mode_count = counter.most_common(1)[0]

print("최빈값 :", mode_value)
print("최빈값의 빈도수 :", mode_count)

최빈값 : A
최빈값의 빈도수 : 357


## 데이터의 대푯값

In [12]:
data = np.random.randint(0, 5, 10)
print(data)

mean = np.mean(data)
print("평균값 :", mean.round(2))
median = np.median(data)
print("중앙값 :", median)
mode = stats.mode(data)
print(f"최빈값 : {mode.mode}, 최빈횟수 : {mode.count}")

[4 2 3 4 3 0 1 2 1 2]
평균값 : 2.2
중앙값 : 2.0
최빈값 : 2, 최빈횟수 : 3


In [13]:
data = pd.Series([60, 40, 60, 80, 50, 80])

print("평균값 : ", data.mean())
print("중앙값 : ", data.median())
print("최빈값 : ", data.mode())
print("최빈값 : ", data.mode().to_list())

평균값 :  61.666666666666664
중앙값 :  60.0
최빈값 :  0    60
1    80
dtype: int64
최빈값 :  [60, 80]
