In [1]:
import numpy as np
from scipy.stats import *
from scipy import stats
import pandas as pd

### 산술평균 (Arithmetic Mean)

In [2]:
x = [1, 2, 3, 4, 5]
print(np.mean(x))
print(np.array(x).mean()) # array : numpy의 기본 형태, 다차원 형태의 데이터를 만들 수 있음
print(pd.Series(x).mean())

3.0
3.0
3.0


### 조화평균 (Harmonic Mean)

2ab / (a+b)

In [3]:
x = np.array([0.1, 0.2, 0.3, 0.4, 0.5])
type(x) # numpy, ndarray

numpy.ndarray

In [4]:
print(len(x)/np.sum(1/x))
print(hmean(x))

0.21897810218978103
0.21897810218978103


### 절사평균 (Trimmed Mean)

In [5]:
income = np.random.normal(2000000, 500000, 100)
print(round(np.mean(income),1))

2070350.2


In [6]:
income = np.append(income, 10**9)

print(round(np.mean(income),1))

11950841.8


In [7]:
round(trim_mean(income, 0.2),1) # 20% ~ 80%

2072073.2

vs-code의 주피노트북 단축키
- a : 현재 셀 위쪽에 코드셀 추가
- b : 현재 셀 아래쪽에 코드셀 추가
- m  : 텍스트 셀로 변환
- y  : 코드셀로 변환
- dd : 현재 커서가 있는 셀 삭제
- esc키 : 입력모드에서 탈출

### 최빈값 (Mode)

In [8]:
np.random.seed(0) # 시작점 설정 및 재현성 보장
data = np.random.randint(0, 100, 10000)
len(data)

10000

In [9]:
mode = stats.mode(data, keepdims=False) 
# keepdimension, false : 원본보다 낮은 차원으로 최빈값 출력, true : 원본과 같은 차원으로 최빈값 출력
print(type(mode))
print(mode) # tuple
print("mode : {} ({})".format(mode[0], mode[1]))

<class 'scipy.stats._stats_py.ModeResult'>
ModeResult(mode=3, count=125)
mode : 3 (125)


In [10]:
x = np.random.choice(['A', 'B', 'C'], 1000)
x[:10]

array(['C', 'A', 'B', 'C', 'C', 'B', 'C', 'C', 'B', 'C'], dtype='<U1')

In [11]:
unique_values, counts = np.unique(x, return_counts=True)
unique_values, counts
# dtype : numpy array type

(array(['A', 'B', 'C'], dtype='<U1'), array([323, 339, 338], dtype=int64))

In [12]:
most_common_value = unique_values[np.argmax(counts)] 
print(np.argmax(counts)) # argmax : 가장 큰 value의 index를 출력
most_common_value

1


'B'

In [13]:
frequency = counts[np.argmax(counts)]
frequency

339

In [14]:
print("mode : ", most_common_value)
print("frequency: ", frequency)

mode :  B
frequency:  339


In [15]:
freq_cnt = pd.Series(x).value_counts()
print(freq_cnt)
print('mode: ', freq_cnt.iloc[1])

B    339
C    338
A    323
Name: count, dtype: int64
mode:  338


In [16]:
x = np.array([1,1,1,2,2,2,3,4,5])

In [18]:
freq_cnt = pd.Series(x).value_counts()
print(freq_cnt)
print('mode : ', freq_cnt.iloc[1])

1    3
2    3
3    1
4    1
5    1
Name: count, dtype: int64
mode :  3


In [19]:
mode = stats.mode(x, keepdims=False)

In [20]:
print(mode)
print(type(mode))
print('mode : {} ({})'.format(mode[0], mode[1]))

ModeResult(mode=1, count=3)
<class 'scipy.stats._stats_py.ModeResult'>
mode : 1 (3)


### 데이터의 대푯값

In [25]:
data = np.random.randint(0,5, 10)
print(data)

mean = np.mean(data)
print("mean : ", mean.round(2))

median = np.median(data)
print('median : ', median)

mode = stats.mode(data)
print('mode : ', mode[0], "\nfrequency : ", mode[1])

[2 0 1 1 0 0 0 0 1 1]
mean :  0.6
median :  0.5
mode :  0 
frequency :  5


### pandas로 대푯값 구하기

In [36]:
data = np.random.randint(0, 100, 10000)
data_s = pd.Series(data)

mean = data_s.mean()
print("mean : {:.1f}".format(mean))

median = data_s.median()
print("median : ", median)

mode = data_s.mode()
print('mode : ', mode) # 인덱스와 최빈값을 함께 출력

mean : 49.7
median :  50.0
mode :  0    67
dtype: int32
