# 대표통계량

- 라이브러리 설치 pip install numpy scipy pandas

In [4]:
import numpy as np
from scipy import stats
import pandas as pd

### 산술평균계산

In [5]:
# 성적의 평균 구하기
x = [70, 60, 80, 60, 50]
print(np.sum(x)/len(x))
print(np.mean(x))
print(np.array(x).mean())
print(pd.Series(x).mean())

64.0
64.0
64.0
64.0


### 조화 평균 

In [6]:
# 문제 : 자동차가 60km/h로 1시간, 40km/h로 1시간 주행을 했을 때, 평균 속도 구하기
x = np.array([60, 40])
print(len(x) / np.sum(1/x))
print(stats.hmean(x))


47.99999999999999
47.99999999999999


### 절사 평균

In [7]:
# 월 평균이 3백만원이고 표준편차가 50만원인 정규 분포를 따르는 소득을 갖는 100명 생성
income = np.random.normal(3000000, 500000, 100) #namal = 정규분포를 따름 
print(round(np.mean(income), 2)) #2=소수둘째자리까지 

3011219.71


In [8]:
# 월 소득이 10억원인 사람의 등장
# 100명의 소득이 300만원에 가까운데, 한 명 때문에 대표값인 평균이 약 1300만원에 달함
income = np.append(income, 10**9) 
print(round(np.mean(income), 2)) 

12882395.75


In [9]:
# 그래서 절사값으로 계산함
stats.trim_mean(income, 0.2) # [20% ~ 80%]은 제외하고 계산

np.float64(3027550.5203864453)

### 최빈값 계산

In [10]:
# A, B, C라는 요소로 데이터 1000개 만들기
x = np.random.choice(['A', 'B', 'C'], 1000) 
print(x[:10])
print(len(x))

['B' 'A' 'A' 'A' 'A' 'B' 'C' 'A' 'A' 'C']
1000


In [11]:
# 유니크한 값만 추출
np.unique(x) 

array(['A', 'B', 'C'], dtype='<U1')

In [12]:
pd.Series(x).value_counts()

B    360
A    322
C    318
Name: count, dtype: int64

In [13]:
pd.Series(x).value_counts().index[0] # 맨 앞에 있는 것이 최빈 값

'B'

In [14]:
from collections import Counter
counter = Counter(x)
mode_value, mode_count = counter.most_common(1)[0]  # 최빈값과 빈도수 추출

print("최빈값:", mode_value)
print("최빈값의 빈도수:", mode_count)

최빈값: B
최빈값의 빈도수: 360


### 데이터의 대푯값

In [14]:
import numpy as np
from scipy import stats
import pandas as pd

In [15]:
#np.random.seed(0)
data = np.random.randint(0, 5, 10)
print(data)

mean = np.mean(data); print("평균값 :", mean.round(2))
median = np.median(data); print("중앙값 : ", median)
mode = stats.mode(data); print(f"최빈값 : {mode.mode}, 최빈 횟수 : {mode.count} ")

[4 4 2 1 1 0 3 0 2 3]
평균값 : 2.0
중앙값 :  2.0
최빈값 : 0, 최빈 횟수 : 2 


### 판다스로 대푯값 구하기 

- 평균값, 중앙값, 최빈값

In [16]:
import pandas as pd

data = pd.Series([60, 40, 60, 80, 50, 80])
print("평균값 : ", data.mean())
print("중앙값 : ", data.median())
print("최빈값 : ", data.mode())
print("최빈값 : ", data.mode().to_list())

평균값 :  61.666666666666664
중앙값 :  60.0
최빈값 :  0    60
1    80
dtype: int64
최빈값 :  [60, 80]
