# 집계: 최솟값, 최댓값, 그리고 그 사이의 모든 것

- 대규모 데이터에 직면 → 먼저 데이터의 요약 통계를 계산!
- 보편적인 요약 통계 = 평균, 표준편차
- 다른 집계도 유용(합, 곱, 중앙값, 최솟값, 최댓값, 분위 수 등)
- NumPy에는 배열에서 사용 가능한 내장 집계 함수 존재!

## 배열의 값의 합 구하기

In [1]:
# 배열 내의 모든 값의 합 계산

import numpy as np

L=np.random.random(100)
sum(L) # 파이썬 내장 

np.float64(51.79553371531157)

In [2]:
np.sum(L) # NumPy 함수, 기능은 같음

np.float64(51.795533715311585)

In [None]:
big_array=np.random.rand(100000)

%timeit sum(big_array)
%timeit np.sum(big_array) # NumPy에서의 연산이 압도적으로 빠름. 또한 np.sum은 다중 배열 차원을 인지함.

11 ms ± 565 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
63.9 μs ± 4.51 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


## 최솟값과 최댓값

In [6]:
# 배열의 최솟값을 찾는 min, 최댓값을 찾는 max (파이썬 내장)
print(min(big_array), max(big_array))

1.2440975593941417e-05 0.9999923313830181


In [7]:
# NumPy의 함수인 np.min, np.max도 존재
print(np.min(big_array), np.max(big_array))

1.2440975593941417e-05 0.9999923313830181


In [None]:
%timeit min(big_array)
%timeit np.min(big_array) # NumPy 연산이 압도적으로 빠름

7.07 ms ± 508 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
38 μs ± 6.09 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [9]:
# 배열 객체 자체의 매서드를 사용한 구문도 가능 (sum, min, max)
print(big_array.sum(), big_array.min(), big_array.max())

49959.79576329344 1.2440975593941417e-05 0.9999923313830181


## 다차원 집계

In [10]:
# 2차원 배열
M=np.random.random((3,4))
print(M)

[[0.38425224 0.81748501 0.80762655 0.20291402]
 [0.83418549 0.82974952 0.95277999 0.89816468]
 [0.83804987 0.55153032 0.34152039 0.26726341]]


In [11]:
M.sum() # 일반적으로 NumPy의 집계 함수는 전체 배열의 집계 값을 반환

np.float64(7.725521486981107)

In [12]:
M.min(axis=0) # 열의 최솟값 찾기

array([0.38425224, 0.55153032, 0.34152039, 0.20291402])

In [14]:
M.min(axis=1) # 행의 최솟값 찾기

array([0.20291402, 0.82974952, 0.26726341])

## 기타 집계 함수

- NumPy 1.8 이상에서는 누락된 값을 무시한 채 값을 계산하는 NaN 안전 모드가 존재

| 함수명        | NaN 안전 모드     | 설명                        |
|---------------|-------------------|-----------------------------|
| np.sum        | np.nansum         | 요소의 합 계산              |
| np.prod       | np.nanprod        | 요소의 곱 계산              |
| np.mean       | np.nanmean        | 요소의 평균 계산            |
| np.std        | np.nanstd         | 표준 편차 계산              |
| np.var        | np.nanvar         | 분산 계산                   |
| np.min        | np.nanmin         | 최소값 찾기                 |
| np.max        | np.nanmax         | 최대값 찾기                 |
| np.argmin     | np.nanargmin      | 최소값의 인덱스 찾기        |
| np.argmax     | np.nanargmax      | 최대값의 인덱스 찾기        |
| np.median     | np.nanmedian      | 요소의 중앙값 계산          |
| np.percentile | np.nanpercentile  | 요소의 순위 기반 백분위 수 계산 |
| np.any        | N/A               | 요소 중 참이 있는지 검사    |
| np.all        | N/A               | 모든 요소가 참인지 검사     |
