# Numpy 집계 함수

- Numpy 배열에 대해 집계 함수를 적용할 때는 반드시 axis로 설정된 기준에 따라 연산 수행
- 별도로 값을 지정하지 않으면 기본값은 axis = None으로 지정
- axis
    - axis = None <br>
    전체 데이터를 하나의 배열로 간주하고 집계 함수의 연산 범위를 전체 배열로 지정
    <br>
    <img src='img/axis_none.jpg' width='150' height='150' align='left'>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    - axis = 0 <br>
    열을 기준으로 동일한 열에 있는 요소를 하나의 그룹으로 묶어 집계 함수의 연산 범위로 지정
    <br>
    <img src='img/axis_0.jpg' width='150' height='150' align='left'>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    - axis = 1 <br>
    행을 기준으로 동일한 행에 있는 요소를 하나의 그룹으로 묶어 집계 함수의 연산 범위로 지정
    <br>
    <img src='img/axis_1.jpg' width='150' height='150' align='left'>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
    <br>
- 집계 함수 : 배열객체에 대한 메소드로 사용하거나 Numpy 라이브러리의 메소드로 사용하는 두 가지 방법
    - 합계 : sum()
    - 최소값 : min()
    - 최대값 : max()
    - 누적 합계 : cumsum()
    - 평균 : mean()
    - 중앙값 : median()
        - 크기 순으로 나열된 데이터에 대해 중앙에 위치하는 값
    - 상관계수 : corrcoef()
        - 데이터 간의 상관관계를 나타내는 수치(-1 <= r <= 1)
    - 표준편차 : std()
        - 분산의 제곱근, 데이터가 평균으로부터 흩어져 있는 정도
        - 분산 = 편차(요소-전체평균)제곱의 평균
    - 고유값 : unique()

In [2]:
import numpy as np

a = np.arange(1,10).reshape(3,3)
b = np.arange(11,20).reshape(3,3)

In [5]:
# 합계 - 전체 기준 => 모든 요소에 대한 합
# 1) 배열 타입 메서드 : arr.sum()
# 2) numpy 함수 : np.sum(arr)
a.sum(), np.sum(a)

(45, 45)

In [13]:
c = np.full((3,4), 10)
c

array([[10, 10, 10, 10],
       [10, 10, 10, 10],
       [10, 10, 10, 10]])

In [14]:
# 합계 - row 행별 합산
# 메서드, np 함수의 파라미터값 axis = 1
# 결과값: [0번 row 합계, 1번 행 합계, 3번 행 합계, ...]
print(c)
print( c.sum(axis=1) ) # 행 1의 한자 표기로 암기(-)
print(c.sum(axis=0)) # 열

[[10 10 10 10]
 [10 10 10 10]
 [10 10 10 10]]
[40 40 40]
[30 30 30 30]


In [15]:
# 최솟값
# 파이썬 min()보다 넘파이가 더 빠름
a.min(), np.min(a)

(1, 1)

In [20]:
# 최솟값 - 행별 최솟값 찾기

print(a.min(axis=1))
print(a)
print(np.min(a, axis=1))

[1 4 7]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 4 7]


In [22]:
# 최솟값 - 열별 최솟값 찾기
print(a.min(axis=0))
print(a)
print(np.min(a, axis=0))

[1 2 3]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3]


In [23]:
# 최댓값
a.max(), np.max(0)

(9, 0)

In [27]:
# 행별, 열별 최댓값
print(a)
a.max(axis=1), np.max(a, axis=1), a.max(axis=0), np.max(a, axis=0)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


(array([3, 6, 9]), array([3, 6, 9]), array([7, 8, 9]), array([7, 8, 9]))

In [30]:
# 누적합계 - 전체 기준
print(c)
c.sum(), c.cumsum()

[[10 10 10 10]
 [10 10 10 10]
 [10 10 10 10]]


(120, array([ 10,  20,  30,  40,  50,  60,  70,  80,  90, 100, 110, 120]))

In [31]:
c.cumsum(axis=1)

array([[10, 20, 30, 40],
       [10, 20, 30, 40],
       [10, 20, 30, 40]])

In [32]:
c.cumsum(axis=0)

array([[10, 10, 10, 10],
       [20, 20, 20, 20],
       [30, 30, 30, 30]])

In [34]:
# 평균
a.mean(), np.mean(a)

(5.0, 5.0)

In [43]:
a = np.arange(1,13).reshape(3,4)
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [44]:
a.mean(axis=1), np.mean(a, axis=1)

(array([ 2.5,  6.5, 10.5]), array([ 2.5,  6.5, 10.5]))

In [45]:
a.mean(axis=0), np.mean(a, axis=0)

(array([5., 6., 7., 8.]), array([5., 6., 7., 8.]))

In [46]:
# 중앙값
# arr.median() 쓸 수 없음

np.median(a, axis=1)

array([ 2.5,  6.5, 10.5])

In [48]:
# 상관계수
# np.corrcoef(arr1, arr2)
# 반환 : 대칭형 매트릭스(대각선을 경계로 상위, 하위 삼각형 중 하나만 해석해도 됨다)
# 대각선은 자신과의 상관관계(항상 1)

x = np.array([15,12,27,37,29])
y = np.array([1,4,2,9,7])
np.corrcoef(x, y)

array([[1.        , 0.72615657],
       [0.72615657, 1.        ]])

In [49]:
# numpy는 3개 요소 사이의 상관계수 구하는 게 불가능
# pandas는 인자를 3개 넣으면 2개씩 쌍으로 모든 경우의 상관계수를 구해준다.

In [50]:
# 표준편차
a.std(), np.std(a)

(3.452052529534663, 3.452052529534663)

In [51]:
a.std(axis=1), np.std(a, axis=1)

(array([1.11803399, 1.11803399, 1.11803399]),
 array([1.11803399, 1.11803399, 1.11803399]))

In [52]:
a.std(axis=0), np.std(a, axis=0)

(array([3.26598632, 3.26598632, 3.26598632, 3.26598632]),
 array([3.26598632, 3.26598632, 3.26598632, 3.26598632]))

- 요소들에 대한 연산을 벡터 연산으로 처리하면 일반 for문으로 연산하는 것보다 월등히 뛰어난 속도 

In [3]:
x = np.arange(100000000)
x

array([       0,        1,        2, ..., 99999997, 99999998, 99999999])

In [5]:
%%time
# 해당 셀을 수행하는 데 소요된 시간을 표시해주는 주피터 명령어
# 셀의 가장 상단에 위치해야 함(주석 포함)

# 반복문으로 합계 구하기
# 시간단위 : 1s = 1,000ms = 1,000,000㎲ 마이크로 세컨드

loop_result = 0
for i in x:
    loop_result += i
print(loop_result)

4999999950000000
CPU times: user 15.8 s, sys: 0 ns, total: 15.8 s
Wall time: 15.8 s


In [6]:
%%time
np.sum(x)

CPU times: user 86.4 ms, sys: 0 ns, total: 86.4 ms
Wall time: 82.9 ms


4999999950000000

In [7]:
%%time
x.sum()

CPU times: user 87.6 ms, sys: 180 µs, total: 87.8 ms
Wall time: 84.9 ms


4999999950000000