<i><b>Public AI</b></i>
<br>
### Week 2. Numpy 기본기 다지기

# Section 3. Numpy의 다양한 함수: 축 단위

Numpy Array에서는 축을 기준으로 집계연산을 할 수 있기 때문에, 집계 연산을 해내야 하는 데이터의 묶음과 기준을 명확히 이해하고 이를 적절한 Numpy Array의 shape으로 구성하거나 변형할 수 있어야 합니다. 그래야 Numpy Array로부터 다양한 정보를 뽑아낼 수 있습니다. 이번 Section에서는 앞서 Section 2에서 배운 Numpy Array의 **축** 개념을 활용하여 집계 연산에 활용해보겠습니다. 

### _Objective_
1. **Numpy Array의 축 단위 적용 함수의 작동 원리** : 2차원 행렬과 3차원 행렬의 예시를 통해 축을 기준으로 작동하는 함수의 작동 원리를 배웁니다. 
2. **Numpy Array의 축 기준 집계 연산**: Numpy Array에서 축을 따라 연산하는 집계함수들(sum, mean 등)을 배웁니다. <br>
3. **Numpy Array의 축 기준 정렬**: Numpy Array에서 축을 따라 정렬하고 정렬 결과의 인덱스를 가져오는 함수에 대해 배웁니다.<br>

In [1]:
import numpy as np

# \[ 1. Numpy Array의 축 단위 적용 함수의 작동 원리 \]

앞서 Section 2에서 Numpy Array의 핵심 개념 중 '축(axis)'에 대해 배웠습니다. 이번 Section 6에서는 축 기준으로 작동하는 다양한 Numpy 함수를 배워 보려 합니다. 축을 기준으로 작동하는 함수는 함수의 파라미터로 `axis`를 설정할 수 있게 되어있습니다. 축 단위로 작동하는 함수를 배우기 전에 축 기준 연산의 어떻게 작동하는지 2차원 행렬과 3차원 행렬을 예시로 살펴보며 하나씩 뜯어봅시다.

## 1. 2차원 행렬에서 축 기준 연산의 작동

아래와 같은 2차원 행렬의 shape은 `(3,7)`입니다.

In [46]:
A = np.array(
    [[ 0,  1,  2,  3,  4,  5,  6],
    [ 7,  8,  9, 10, 11, 12, 13],
    [ 14,  15,  16, 17, 18, 19, 20]])
A.shape

(3, 7)

`(3,7)`은 각각 0번 축, 1번 축의 요소 수를 알려줍니다. 즉, 0번 축에는 3개의 요소로 구성되어 있고(= 행이 3개), 1번 축에는 7개의 요소로 구성되어 있음(= 열이 7개)을 알 수 있습니다. 

### 1) 0번 축 기준 집계 예시

이러한 행렬 A에서 **0번 축을 기준으로 합을 집계하고 싶다**면, `.sum(axis = 0)`으로 설정하면 됩니다. 이 함수는 0번 축을 구성하는 3개의 요소를 각각 합친 값을 반환합니다. 따라서 기존의 `(3,7)` 행렬에서 0번 축이 압축(혹은 집계, aggregate)되기 때문에 `(7,)` 형태의 결과를 반환하게 됩니다. 

In [47]:
print('0번째 축을 기준으로 합을 구하면?', A.sum(axis=0))
print('결과의 형태는?',  A.sum(axis=0).shape)

0번째 축을 기준으로 합을 구하면? [21 24 27 30 33 36 39]
결과의 형태는? (7,)


어떤 값이 합쳐진 결과인지 구체적으로 살펴봅시다.

In [48]:
print('결과의 0번째 값은?', A[0,0], A[1,0], A[2,0], '==>', A[0,0] + A[1,0] + A[2,0]) 
print('결과의 1번째 값은?', A[0,1], A[1,1], A[2,1], '==>', A[0,1] + A[1,1] + A[2,1])
print('결과의 2번째 값은?', A[0,2], A[1,2], A[2,2], '==>', A[0,2] + A[1,2] + A[2,2])
print('결과의 3번째 값은?', A[0,3], A[1,3], A[2,3], '==>', A[0,3] + A[1,3] + A[2,3])
print('결과의 4번째 값은?', A[0,4], A[1,4], A[2,4], '==>', A[0,4] + A[1,4] + A[2,4])
print('결과의 5번째 값은?', A[0,5], A[1,5], A[2,5], '==>', A[0,5] + A[1,5] + A[2,5])
print('결과의 6번째 값은?', A[0,6], A[1,6], A[2,6], '==>', A[0,6] + A[1,6] + A[2,6])

결과의 0번째 값은? 0 7 14 ==> 21
결과의 1번째 값은? 1 8 15 ==> 24
결과의 2번째 값은? 2 9 16 ==> 27
결과의 3번째 값은? 3 10 17 ==> 30
결과의 4번째 값은? 4 11 18 ==> 33
결과의 5번째 값은? 5 12 19 ==> 36
결과의 6번째 값은? 6 13 20 ==> 39


### 2) 1번 축 기준 집계 예시

그럼 1번 축을 기준으로 합을 집계한다는 의미에서 sum(axis = 1)로 설정하면 어떻게 될까요? 1번 축의 0번 요소부터 3번 요소까지 각각을 구성하는 7개의 값을 합친 결과를 반환합니다.

In [49]:
print('1번째 축을 기준으로 합을 구하면?', A.sum(axis=1))
print('결과의 형태는?',  A.sum(axis=1).shape)
print('결과의 0번째 값은?', A[0,0], A[0,1], A[0,2], A[0,3], A[0,4], A[0,5], A[0,6], '==>', A[0,0] + A[0,1] + A[0,2] + A[0,3] + A[0,4] + A[0,5] + A[0,6])
print('결과의 1번째 값은?', A[1,0], A[1,1], A[1,2], A[1,3], A[1,4], A[1,5], A[1,6], '==>', A[1,0] + A[1,1] + A[1,2] + A[1,3] + A[1,4] + A[1,5] + A[1,6])
print('결과의 1번째 값은?', A[2,0], A[2,1], A[2,2], A[2,3], A[2,4], A[2,5], A[2,6], '==>', A[2,0] + A[2,1] + A[2,2] + A[2,3] + A[2,4] + A[2,5] + A[2,6])

1번째 축을 기준으로 합을 구하면? [ 21  70 119]
결과의 형태는? (3,)
결과의 0번째 값은? 0 1 2 3 4 5 6 ==> 21
결과의 1번째 값은? 7 8 9 10 11 12 13 ==> 70
결과의 1번째 값은? 14 15 16 17 18 19 20 ==> 119


## 2. 3차원 행렬에서 축 기준 연산의 작동

이번에는 3차원 행렬을 살펴봅시다.

In [50]:
A = np.array([
    [[ 0,  1,  2,  3,  4,  5,  6],
     [ 7,  8,  9, 10, 11, 12, 13]], 
    
    [[10, 11, 12, 13, 14, 15, 16],
     [17, 18, 19, 20, 21, 22, 23]]])
A.shape

(2, 2, 7)

### 1) 1번 축 기준 예시

1번 축의 0번 요소는 다음과 같습니다. 

In [51]:
print('1번 축의 0번 요소는 ?')
print(A[:, 0, :])
print('====================')
print('1번 축의 1번 요소는 ?')
print(A[:, 1, :])

1번 축의 0번 요소는 ?
[[ 0  1  2  3  4  5  6]
 [10 11 12 13 14 15 16]]
1번 축의 1번 요소는 ?
[[ 7  8  9 10 11 12 13]
 [17 18 19 20 21 22 23]]


그렇다면 1번 축을 기준으로 합계를 구하면 어떻게 될까요? 아래와 같이 1번 축의 0번 요소와 1번 요소를 가지고 각각 같은 자리에 있는 값을 합치면 아래와 같을 것입니다. 

In [40]:
print(A[:, 0, :] + A[:, 1, :])

[[ 7  9 11 13 15 17 19]
 [27 29 31 33 35 37 39]]


`A.sum(axis=1)`를 이용하면 위의 결과를 한 번에 얻을 수 있습니다. 1번 축을 구성하는 값을 압축하여 합계인 하나의 값을 만드는 것이죠. 

In [52]:
A.sum(axis=1)

array([[ 7,  9, 11, 13, 15, 17, 19],
       [27, 29, 31, 33, 35, 37, 39]])

### 2) 2번 축 기준 예시

이번에는 2번축을 기준으로 합을 구해봅시다. 2번 축의 0번 요소는 아래와 같습니다. 

In [53]:
A[:, :, 0] 

array([[ 0,  7],
       [10, 17]])

2번 축을 기준으로 합계한다는 것은 2번 축을 구성하는 7개의 요소를 더해서 압축한다는 뜻입니다. 2번 축을 기준으로 합계를 해보면 아래와 같을 것입니다. 

In [64]:
A[:,:,0] + A[:,:,1] + A[:,:,2] + A[:,:,3] + A[:,:,4] + A[:,:,5] + A[:,:,6]

array([[ 21,  70],
       [ 91, 140]])

`A.sum(axis = 2)`을 해봅시다. shape `(2, 2, 7)`의 2번 축은 7개의 원소로 구성되어 있다는 뜻입니다. 2번 축을 기준으로 데이터의 합을 구하면 이 7개의 값이 합쳐져 다음과 같이 (2,2)의 행렬이 생성됩니다. 

In [65]:
A.sum(axis=2)

array([[ 21,  70],
       [ 91, 140]])

In [66]:
A.sum(axis=2).shape

(2, 2)

`A.sum(axis=2)`를 구성하는 각각은 어떤 값으로부터 생성되었을까요? 0번 축과 1번 축 각각 `[0, 0]`, `[0, 1]`, `[1, 0]`, `[1, 1]` 로 고정된 상태에서 2번 축을 이루는 7개의 값이 합쳐져서 위와 같은 결과가 반환된 것입니다. 각 합계는 아래와 같은 값이 더해진 것입니다.

In [67]:
print('sum(axis = 2)의 [0, 0] 값은?', A[0, 0, 0] + A[0, 0, 1] + A[0, 0, 2] + A[0, 0, 3] + A[0, 0, 4] + A[0, 0, 5] + A[0, 0, 6])
print('sum(axis = 2)의 [0, 1] 값은?', A[0, 1, 0] + A[0, 1, 1] + A[0, 1, 2] + A[0, 1, 3] + A[0, 1, 4] + A[0, 1, 5] + A[0, 1, 6])
print('sum(axis = 2)의 [1, 0] 값은?', A[1, 0, 0] + A[1, 0, 1] + A[1, 0, 2] + A[1, 0, 3] + A[1, 0, 4] + A[1, 0, 5] + A[1, 0, 6])
print('sum(axis = 2)의 [1, 1] 값은?', A[1, 1, 0] + A[1, 1, 1] + A[1, 1, 2] + A[1, 1, 3] + A[1, 1, 4] + A[1, 1, 5] + A[1, 1, 6])

sum(axis = 2)의 [0, 0] 값은? 21
sum(axis = 2)의 [0, 1] 값은? 70
sum(axis = 2)의 [1, 0] 값은? 91
sum(axis = 2)의 [1, 1] 값은? 140


이처럼 `sum(axis = 2)`은 2번 축, 즉 제일 안쪽 대괄호를 구성하는 7 개의 요소로 서로 합친 결과를 반환합니다. 

### 3) 0번 축 기준 예시
0번 축을 기준으로 합계하는 `A.sum(axis=0)`을 하면 어떻게 될까요? 0번 축을 기준으로 데이터의 합을 구하면 2개의 값씩 압축되어 다음과 같이 (2,7)의 행렬이 생성됩니다. 

In [72]:
A.sum(axis = 0)

array([[10, 12, 14, 16, 18, 20, 22],
       [24, 26, 28, 30, 32, 34, 36]])

In [73]:
A.sum(axis = 0).shape

(2, 7)

위 결과는 아래와 같이 0번 축을 구성하는 0번 요소와 1번 요소를 가지고 각각 같은 자리에 있는 값을 더한 결과입니다. 

In [76]:
A[0, :, :] + A[1, :, :]

array([[10, 12, 14, 16, 18, 20, 22],
       [24, 26, 28, 30, 32, 34, 36]])

즉 A 행렬에서 제일 바깥 대괄호를 구성하는 두 개의 요소(0번 축 구성 요소)를 서로 짝을 이루어 합친 결과를 반환합니다. 

In [78]:
print('sum(axis = 0)의 [0, 0] 값은?', A[0, 0, 0] + A[1, 0, 0])
print('sum(axis = 0)의 [0, 1] 값은?', A[0, 0, 1] + A[1, 0, 1])
print('sum(axis = 0)의 [0, 2] 값은?', A[0, 0, 2] + A[1, 0, 2])
print('sum(axis = 0)의 [0, 3] 값은?', A[0, 0, 3] + A[1, 0, 3])
print('sum(axis = 0)의 [0, 4] 값은?', A[0, 0, 4] + A[1, 0, 4])
print('sum(axis = 0)의 [0, 5] 값은?', A[0, 0, 5] + A[1, 0, 5])
print('sum(axis = 0)의 [0, 6] 값은?', A[0, 0, 6] + A[1, 0, 6])

sum(axis = 0)의 [0, 0] 값은? 10
sum(axis = 0)의 [0, 1] 값은? 12
sum(axis = 0)의 [0, 2] 값은? 14
sum(axis = 0)의 [0, 3] 값은? 16
sum(axis = 0)의 [0, 4] 값은? 18
sum(axis = 0)의 [0, 5] 값은? 20
sum(axis = 0)의 [0, 6] 값은? 22


# \[ 2. Numpy Array의 축 기준 집계 연산 \]

`np.array`는 축을 기준으로 집계 계산하는, sum, mean, std, max, min 등의 연산을 지원합니다. 집계함수는 한 축이 갖는 여러개의 값을  그룹당 하나의 값으로 반환합니다.

### 예제 데이터 )  학생들의 국영수사과 성적표
앞서 Section 4에서 사용했던 학생들의 과목별 중간/기말 고사 성적 데이터를 활용하겠습니다. 


#### 데이터 1) 중간고사, 학생들의 국영수사과 성적표
`middle_scores`

| 학생 번호 | 국어 | 영어 | 수학 | 사회 | 과학 |
|  ----   | --- |---| --- | --- | --- |
|0 |80 |92 |70 | 65 | 92 |
|1 |91 |75 |90 | 68 | 85 | 
|2 |86 |76 |42 | 72 | 88 |
|3 |77 |92 |52 | 60 | 80 |
|4 |75 |85 |85 | 92 | 95 |
|5 |96 |90 |95 | 81 | 72 |

#### 데이터 2) 기말고사, 학생들의 국영수사과 성적표
`final_scores`

| 학생 번호 | 국어 | 영어 | 수학 | 사회 | 과학 |
|  ----   | --- |---| --- | --- | --- |
|0 |85 |95 |90 | 66 | 93 |
|1 |93 |70 |80 | 60 | 81 | 
|2 |89 |78 |55 | 75 | 80 |
|3 |80 |94 |59 | 72 | 90 |
|4 |70 |82 |81 | 95 | 72 |
|5 |90 |76 |93 | 82 | 89 |

In [79]:
middle_scores = np.array([
    [80,92,70,65,92],
    [91,75,90,68,85],
    [86,76,42,72,88],
    [77,92,52,60,80],
    [75,85,85,92,95],
    [96,90,95,81,72]
])

final_scores = np.array([
    [85,95,90,66,93],
    [93,70,80,60,81],
    [89,78,55,75,80],
    [80,94,59,72,90],
    [70,82,81,95,72],
    [90,76,93,82,89]
])

scores = np.stack([middle_scores,final_scores])

scores

array([[[80, 92, 70, 65, 92],
        [91, 75, 90, 68, 85],
        [86, 76, 42, 72, 88],
        [77, 92, 52, 60, 80],
        [75, 85, 85, 92, 95],
        [96, 90, 95, 81, 72]],

       [[85, 95, 90, 66, 93],
        [93, 70, 80, 60, 81],
        [89, 78, 55, 75, 80],
        [80, 94, 59, 72, 90],
        [70, 82, 81, 95, 72],
        [90, 76, 93, 82, 89]]])

In [80]:
scores.shape

(2, 6, 5)

## 1. Numpy Array에서 축을 중심으로 평균 구하기

In [81]:
scores.shape

(2, 6, 5)

shape의 (2, 6, 5)의 의미는 아래와 같습니다. <br>


axis = 0 에서 2 : 각 기간(중간고사, 기말고사)를 의미<br>
axis = 1 에서 6 : 여섯명의 학생들을 의미<br>
axis = 2 에서 5 : 다섯개의 과목들을 의미<br>

### 예제 1) 전체 평균 점수 

중간, 기말을 통틀어, 학생들이 받는 평균 성적은 얼마인지 알아보려면 어떻게 해야 할까요? 모든 원소를 더해야 하기 때문에 연산의 기준이 되는 축을 지정하지 않습니다. 

In [82]:
scores.mean()

80.23333333333333

### 예제 2) (학생 X 과목) 별 평균 점수 

학생들의 과목 별 평균 성적(즉 중간과 기말의 평균)을 구하려면 어떻게 해야 할까요? 기존의 scores 데이터는 (시험 시기, 학생 번호, 과목)의 형태였습니다. 중간고사와 기말고사 성적을 평균내어 (학생 X 과목) 형태의 결과를 반환해야 합니다. 평균을 구하는 기준인 "시험 시기"는 0번 축이기 때문에 `.mean(axis = 0)`으로 설정합니다. 

In [83]:
scores.shape
# axis = 0 : 2 ( 중간고사, 기말고사 )의 값을 하나로
# 기간의 구분 없이 각 학생, 과목별 평균 -> axis = 0에 대해 평균

(2, 6, 5)

In [84]:
scores.mean(axis=0)

array([[82.5, 93.5, 80. , 65.5, 92.5],
       [92. , 72.5, 85. , 64. , 83. ],
       [87.5, 77. , 48.5, 73.5, 84. ],
       [78.5, 93. , 55.5, 66. , 85. ],
       [72.5, 83.5, 83. , 93.5, 83.5],
       [93. , 83. , 94. , 81.5, 80.5]])

In [85]:
# axis = 0을 압축함. (2, 6, 5) ==> (6, 5)
scores.mean(axis=0).shape

(6, 5)

### 예제 3) (시험 시기 X 과목) 별 평균 점수 

과목 별로 중간 기말의 성적 차이는 어떻게 확인해야 할까요? 학생들의 성적을 하나로 합쳐서 (시험 시기 X 과목) 형태의 결과를 구해야 할 것입니다. 즉, 각 기간별로 각 과목별 모든 학생들의 평균을 구해야 하는 것이죠. 

In [86]:
scores.shape
# axis = 1 : 6 ( 각 학생들 )의 값을 하나로
# 학생들의 구분 없이 각 기간, 각 과목별 평균 -> axis = 1에 대해 평균

(2, 6, 5)

In [87]:
scores.mean(axis=1)

array([[84.16666667, 85.        , 72.33333333, 73.        , 85.33333333],
       [84.5       , 82.5       , 76.33333333, 75.        , 84.16666667]])

In [88]:
# axis = 1을 압축함. (2, 6, 5) ==> (2, 5)
scores.mean(axis=1).shape

(2, 5)

### 예제 4) (학생 X 기간) 별 평균 점수

학생 별로 중간 고사 대비 기말 고사가 얼마나 올라갔는지 확인하려면 어떻게 해야 할까요? 각 학생, 기간별 모든 과목의 평균을 알기 위해서는 과목별 점수를 하나로 합쳐서 (학생 X 시험 시기) 형태의 결과를 만들어야 합니다. 

In [89]:
scores.shape
# axis = 2 : 5 ( 각 과목 )의 값을 하나로
# 과목에 구분없이, 각 학생별, 각 기간별 평균 -> axis=2 에 대해 평균

(2, 6, 5)

In [90]:
scores.mean(axis=2)

array([[79.8, 81.8, 72.8, 72.2, 86.4, 86.8],
       [85.8, 76.8, 75.4, 79. , 80. , 86. ]])

In [91]:
# axis = 2를 압축함. (2, 6, 5) ==> (2, 6)
scores.mean(axis=2).shape
# axis : 2 의 값 (5 => 1)

(2, 6)

### 예제 5) 학생 별 평균 점수 

이번에는 1학기 학업 등수를 내기 위해, 학생 별 전체 평균 성적을 구해봅시다. 각 학생이 본 중간고사와 기말고사의 모든 성적을 합쳐 `(6,)` 형태의 결과를 반환해야 합니다. 즉, axis = 0 인 각 기간과 axis = 2인 각 과목의 값을 하나로 합쳐야 하는 것이죠. `.mean(axis = (0,2))`로 설정합니다. 

In [92]:
scores.shape
# axis = 0 : 2 ( 각 기간 ), axis = 2 : 5 ( 각 과목 )의 값을 하나로 
# shape ( 2, 6, 5 ) -> (6, ) 
# 각 학생별로 받은 모든 성적의 평균을 구하고자함

(2, 6, 5)

In [93]:
average_per_student = scores.mean(axis=(0,2)) # '기간' 축에 해당하는  평균
average_per_student # 학생 별 평균 성적

array([82.8, 79.3, 74.1, 75.6, 83.2, 86.4])

In [94]:
average_per_student.shape
# 기간의 구분 없이 평균값이 적용됨
# 두개의 기간 각각의 값 -> 하나의 평균값 : shape ( 2, 6, 5 ) -> (6) 

(6,)

### 예제 6) 과목 별 평균 점수 

1학기 과목별 난이도를 평가하기 위해 과목별 전체 평균 성적을 구해봅시다. 각 과목별로 중간고사와 기말고사의 모든 성적을 합쳐 `(5,)` 형태의 결과를 반환해야 합니다. 즉, axis = 0 인 각 기간과 axis = 1인 각 학생의 값을 하나로 합쳐야 하는 것이죠. `.mean(axis = (0,1))`로 설정합니다. 

In [95]:
scores.shape
# axis = 0 : 2 ( 각 기간 ), axis = 1 : 6 ( 각 학생 )의 값을 하나로 
# shape ( 2, 6, 5 ) -> (5, ) 
# 각 과목별로 받은 모든 성적의 평균을 구하고자함

(2, 6, 5)

In [96]:
average_per_subject = scores.mean(axis=(0,1)) # 기간 축으로 평균

In [97]:
average_per_subject.shape
# 기간의 구분 없이 평균값이 적용됨
# 두개의 기간 각각의 값 -> 하나의 평균값 : shape ( 2, 6, 5 ) -> (5)

(5,)

## 2. 기초 통계량 집계함수
+ 평균 이외에도 `min`, `max`, `std`, `sum` 등의 함수가 동작합니다.

아래의 예시를 통해 다양하게 적용해 봅시다.

### 1) 전체를 기준으로 적용

In [123]:
np.sum(scores) # 전체 합

4814

In [124]:
np.max(scores) # 전체 중 최대값

96

In [125]:
np.min(scores) # 전체 중 최소값

42

In [126]:
np.std(scores) # 전체의 표준 편자

12.083551722164401

### 예제 2) (학생 X 과목) 별로 적용

In [127]:
np.sum(scores,axis=0) # 학생 & 과목 별 합

array([[165, 187, 160, 131, 185],
       [184, 145, 170, 128, 166],
       [175, 154,  97, 147, 168],
       [157, 186, 111, 132, 170],
       [145, 167, 166, 187, 167],
       [186, 166, 188, 163, 161]])

In [128]:
np.max(scores,axis=0) # 학생 & 과목 별 최대값

array([[85, 95, 90, 66, 93],
       [93, 75, 90, 68, 85],
       [89, 78, 55, 75, 88],
       [80, 94, 59, 72, 90],
       [75, 85, 85, 95, 95],
       [96, 90, 95, 82, 89]])

In [129]:
np.min(scores,axis=0) # 학생 & 과목 별 최소값

array([[80, 92, 70, 65, 92],
       [91, 70, 80, 60, 81],
       [86, 76, 42, 72, 80],
       [77, 92, 52, 60, 80],
       [70, 82, 81, 92, 72],
       [90, 76, 93, 81, 72]])

In [130]:
np.std(scores,axis=0) # 학생 & 과목 별 표준 편자

array([[ 2.5,  1.5, 10. ,  0.5,  0.5],
       [ 1. ,  2.5,  5. ,  4. ,  2. ],
       [ 1.5,  1. ,  6.5,  1.5,  4. ],
       [ 1.5,  1. ,  3.5,  6. ,  5. ],
       [ 2.5,  1.5,  2. ,  1.5, 11.5],
       [ 3. ,  7. ,  1. ,  0.5,  8.5]])

### 예제 3) (기간 X 과목) 별로 적용


In [131]:
np.sum(scores,axis=1) # 기간 & 과목 별 합

array([[505, 510, 434, 438, 512],
       [507, 495, 458, 450, 505]])

In [132]:
np.max(scores,axis=1) # 기간 & 과목 별 최대값

array([[96, 92, 95, 92, 95],
       [93, 95, 93, 95, 93]])

In [133]:
np.min(scores,axis=1) # 기간 & 과목 별 최소값

array([[75, 75, 42, 60, 72],
       [70, 70, 55, 60, 72]])

In [134]:
np.std(scores,axis=1) # 기간 & 과목 별 표준 편자

array([[ 7.55902698,  7.11805217, 19.68643075, 10.67707825,  7.65216019],
       [ 7.67571929,  9.19691977, 14.46451597, 11.28420725,  7.19760763]])

### 예제 4) (학생 X 기간) 별 적용


In [135]:
np.sum(scores,axis=2) # 기간 & 과목 별 합

array([[399, 409, 364, 361, 432, 434],
       [429, 384, 377, 395, 400, 430]])

In [136]:
np.max(scores,axis=2) # 기간 & 과목 별 최대값

array([[92, 91, 88, 92, 95, 96],
       [95, 93, 89, 94, 95, 93]])

In [137]:
np.min(scores,axis=2) # 기간 & 과목 별 최소값

array([[65, 68, 42, 52, 75, 72],
       [66, 60, 55, 59, 70, 76]])

In [138]:
np.std(scores,axis=2) # 기간 & 과목 별 표준 편자

array([[11.070682  ,  8.93084542, 16.52150114, 14.37219538,  6.91664659,
         9.10823803],
       [10.45753317, 11.12474719, 11.21784293, 12.61744824,  8.87693641,
         6.164414  ]])

## 3. 기타 집계함수
* Numpy에는 위와 같은 연산 함수들 뿐만 아니라 다양한 집계함수들이 있습니다.
* `np.all`, `np.any`, `np.unique`등의 함수에 대해 알아봅시다.

### (1) np.all()

`np.all`함수는 구성 원소 모두가 True 일때만 True를 반환하고 하나라도 False가 있으면 False를 반환합니다. 예를 들어 축을 기준으로 구성 원소들이 조건을 하나라도 충족하지 못하는 경우 False를 반환하며, 모든 원소들이 조건을 만족시켜야 True를 반환합니다. 또는 Array 간 비교 시 원소가 하나라도 같지 않으면 False를, 원소가 모두 같다면 True를 반환합니다. 

#### 예제 ) 장학금 수령 가능 학생 수 구하기
중간고사와 기말고사 영어성적이 모두 90점 이상인 학생에게 영어과목 장학금을 수여하고자 할 때, 영어과목 장학금을 받을 수 있는 학생수를 구해봅시다. 중간고사와 기말고사 모두 90점 이상이어야 하므로 `np.all()` 함수를 사용할 수 있을 것입니다. 그럼 기준 축은 무엇이 되어야 할까요? **중간고사와 기말고사 성적을 압축해서 True 혹은 False 값으로 나타내야 하므로 시험시기에 해당하는 0번 축을 기준으로 `np.all()` 연산을 수행해야 합니다.**

학생 6명의 중간고사와 기말고사 영어 성적은 다음과 같습니다. 

In [150]:
scores[:,:,1] # 학생들의 중간고사, 기말고사 영어성적

array([[92, 75, 76, 92, 85, 90],
       [95, 70, 78, 94, 82, 76]])

중간고사와 기말고사 각각이 90점을 넘었는지 확인해보면 아래와 같습니다. 

In [151]:
scores[:,:,1]>=90

array([[ True, False, False,  True, False,  True],
       [ True, False, False,  True, False, False]])

위 결과를 가지고 중간고사와 기말고사 성적 모두 True를 반환한 결과를 얻으려면 `axis =0`으로 설정합니다. 

In [152]:
np.all(scores[:,:,1]>=90, axis=0) # 중간고사 / 기말고사 모두 90점 이상일 때 True를 반환함

array([ True, False, False,  True, False, False])

마지막 학생의 경우 중간고사는 90점(True)이었지만 기말고사는 76점(False)이어서 False를 반환했습니다. 

중간고사와 기말고사 모두 90점을 넘은 학생의 수, 즉 장학금을 받아야 할 학생은 몇 명인가요? True와 False 같이 논리형 연산자로 구성된 Numpy Array로 sum을 하게 되면 True의 총 갯수를 반환합니다. 

In [153]:
np.all(scores[:,:,1]>=90, axis=0).sum() # True인 학생 수 세기

2

### (2) np.any()

`np.any`함수는 구성 원소 중 하나라도 True가 있으면 True를 반환합니다. 예를 들어 축을 기준으로 구성 원소들이 원소들이 조건을 하나라도 충족할 때는 True를 반환하고, 모두 조건을 충족하지 않아야 False를 반환합니다. 또는 Array 간 비교 시 원소가 모두 달라야 False를, 원소가 하나라도 같으면 True를 반환합니다. 



#### 예제 ) 수학과목 계절학기 필수 수강 학생 수 구하기
중간고사, 기말고사의 수학 점수가 하나라도 55점 이하라면 수학과목 계절학기를 필수적으로 수강해야한다고 할 때, 수강해야 하는 학생 수를 구해봅시다. 

학생들의 중간고사와 기말고사 수학 성적은 아래와 같습니다. 

In [154]:
scores[:,:,2] # 학생들의 중간고사, 기말고사 수학성적

array([[70, 90, 42, 52, 85, 95],
       [90, 80, 55, 59, 81, 93]])

중간고사와 기말고사 각각이 55 점을 넘지 못했는지 확인해보면 아래와 같습니다. 

In [157]:
scores[:,:,2]<=55

array([[False, False,  True,  True, False, False],
       [False, False,  True, False, False, False]])

위 결과를 가지고 중간고사와 기말고사 성적 둘 중 하나라도 True이면 True를 반환한 결과를 얻으려면 `axis =0`으로 설정합니다. 

In [160]:
np.any(scores[:,:,2]<=55, axis=0) # 중간고사 / 기말고사 중 하나라도 55점 이하라면 True를 반환함

array([False, False,  True,  True, False, False])

수학 과목 계절학기를 수강해야 하는 학생 수는 아래와 같습니다. 

In [162]:
np.any(scores[:,:,2]<55, axis=0).sum()

2

### (3) np.unique()

`np.unique()` 함수는 입력된 Array에서 중복된 원소를 제거한 후, 중복되지 않는 유일한 요소들의 numpy array를 정렬하여 반환합니다. 이는 python의 `set`자료형과 비슷해보이지만 더 많은 기능을 가지고 있습니다. `np.unique`함수는 여러 parameter값이 존재하는데, 우리는 이 parameter값들을 조정하여 numpy array의 원소의 갯수를 구할 수 있습니다.

#### 예제 데이터 ) 워터파크 손님들의 연령대


지난 여름 어느날 워터파크를 방문한 손님의 연령대와 관련해 아래와 같은 데이터를 얻었다고 합시다. 

In [164]:
A = np.array(["영유아","성인","성인","청소년", "성인", "성인", "청소년", "영유아",
              "청소년","영유아","청소년","성인","성인", "영유아", "성인", "청소년",
              "청소년","성인","영유아","청소년","영유아", "청소년", "성인", "성인"])

#### 예제 1) Numpy Array의 고유한 값 찾기

`np.unique`함수를 통해 `A`를 구성하는 고유한 값이 정렬된 결과를 확인할 수 있습니다.

In [167]:
np.unique(A)

array(['성인', '영유아', '청소년'], dtype='<U3')

#### 예제 2) `np.unique`의 파라미터 : `return_index`

`np.unique`함수의 parameter `return_index`에 True의 값을 주면, 유일한 값들이 처음으로 등장하는 index를 반환합니다.

In [170]:
np.unique(A, return_index=True)

(array(['성인', '영유아', '청소년'], dtype='<U3'), array([1, 0, 3], dtype=int64))

#### 예제 3) `np.unique`의 파라미터 : `return_inverse`

`np.unique`함수의 parameter `return_inverse`에 True의 값을 주면, `np.unique()`함수에 입력한 Array `A`를 고유값 Array(`np.unique(A)`)의 인덱스로 바꾼 Array를 반환합니다.

In [174]:
np.unique(A,return_inverse=True)

(array(['성인', '영유아', '청소년'], dtype='<U3'),
 array([1, 0, 0, 2, 0, 0, 2, 1, 2, 1, 2, 0, 0, 1, 0, 2, 2, 0, 1, 2, 1, 2,
        0, 0], dtype=int64))

이렇게 `return_inverse`에 True의 값을 주어 문자형 데이터를 unique array와 unique array의 인덱스 값이 저장된 Array로 분리하여 저장하면  문자열 데이터를 정수형 데이터로 재구성할 수 있게 되며, 메모리의 압축 효과를 얻을 수 있습니다.

#### 예제 4) `np.unique`의 파라미터 : `return_counts`

`np.unique`함수의 파라미터로 `return_counts`에 True의 값을 주면, Array안에 중복되는 값들이 몇 개나 존재하는지를 반환합니다. 우리는 이를 통해 각각의 고유한 값이 몇 개씩 들어있는지 알 수 있습니다. 

In [176]:
np.unique(A,return_counts=True)

(array(['성인', '영유아', '청소년'], dtype='<U3'), array([10,  6,  8], dtype=int64))

고유한 값 Array와 각 값의 갯수를 담은 Array를 각각 `arr`과 `count`에 저장한 후, `count.sum()`을 하면 전체 원소의 수를 구할 수도 있습니다. 

In [179]:
arr, count = np.unique(A,return_counts=True)
count.sum()

24

각각의 교유한 값이 몇 개씩 존재하는지를 직관적으로 확인하고 싶다면 dictionary 형태로 만들어 저장하면 됩니다. 

In [180]:
{key:values for key, values in zip(*np.unique(A,return_counts=True))}

{'성인': 10, '영유아': 6, '청소년': 8}

# \[ 2. Numpy Array의 축 기준 정렬 \]

`np.sort`함수의 파라미터로 축을 설정하면 해당 축을 기준으로 array 안의 원소를 크기에 따라 정렬할 수 있으며, `np.argsort`를 이용하면 정렬된 값의 인덱스를 확인할 수 있습니다.

### 예제 데이터 )  학생들의 국영수사과 성적표



#### 데이터 1) 중간고사, 학생들의 국영수사과 성적표
`middle_scores`

| 학생 번호 | 국어 | 영어 | 수학 | 사회 | 과학 |
|  ----   | --- |---| --- | --- | --- |
|0 |80 |92 |70 | 65 | 92 |
|1 |91 |75 |90 | 68 | 85 | 
|2 |86 |76 |42 | 72 | 88 |
|3 |77 |92 |52 | 60 | 80 |
|4 |75 |85 |85 | 92 | 95 |
|5 |96 |90 |95 | 81 | 72 |

#### 데이터 2) 기말고사, 학생들의 국영수사과 성적표
`final_scores`

| 학생 번호 | 국어 | 영어 | 수학 | 사회 | 과학 |
|  ----   | --- |---| --- | --- | --- |
|0 |85 |95 |90 | 66 | 93 |
|1 |93 |70 |80 | 60 | 81 | 
|2 |89 |78 |55 | 75 | 80 |
|3 |80 |94 |59 | 72 | 90 |
|4 |70 |82 |81 | 95 | 72 |
|5 |90 |76 |93 | 82 | 89 |

In [181]:
middle_scores = np.array([
    [80,92,70,65,92],
    [91,75,90,68,85],
    [86,76,42,72,88],
    [77,92,52,60,80],
    [75,85,85,92,95],
    [96,90,95,81,72]
])

final_scores = np.array([
    [85,95,90,66,93],
    [93,70,80,60,81],
    [89,78,55,75,80],
    [80,94,59,72,90],
    [70,82,81,95,72],
    [90,76,93,82,89]
])

scores = np.stack([middle_scores,final_scores])

scores # shape : (2, 6, 5) --> (중간/기말, 학생, 과목)

array([[[80, 92, 70, 65, 92],
        [91, 75, 90, 68, 85],
        [86, 76, 42, 72, 88],
        [77, 92, 52, 60, 80],
        [75, 85, 85, 92, 95],
        [96, 90, 95, 81, 72]],

       [[85, 95, 90, 66, 93],
        [93, 70, 80, 60, 81],
        [89, 78, 55, 75, 80],
        [80, 94, 59, 72, 90],
        [70, 82, 81, 95, 72],
        [90, 76, 93, 82, 89]]])

### 예제 1) 학생들의 국어성적 정렬하기 : 벡터의 `np.sort`

학생들의 중간고사 국어성적을 정렬하기 위해 `np.sort`를 사용해보겠습니다. `scores`는 `(2,6,5)`의 shape을 가지는 Array로, 각각 `(시험시기, 학생, 과목)`을 의미합니다. 중간고사는 0번 축의 0번 요소이고 국어 과목은 2번 축의 0번 요소이므로 `[0, :, 0]`으로 인덱싱하면 중간고사 국어 성적을 가져올 수 있습니다. 중간고사 국어 성적을 정렬해봅시다. 

In [184]:
# 중간고사 국어성적을 정렬!
np.sort(scores[0,:,0]) # (중간고사, 전체학생, 국어성적)

array([75, 77, 80, 86, 91, 96])

큰 숫자부터 작아지도록 정렬하고 싶다면 정렬된 결과 Array를 `[처음부터 끝까지 반대로 정렬]`의 의미에서 `[::-1]`를 인덱스로 설정합니다. 

In [205]:
np.sort(scores[0,:,0])[::-1]

array([96, 91, 86, 80, 77, 75])

### 예제 2) 학생들의 전체 성적 정렬 : 행렬의 `np.sort`

학생들의 중간고사 성적을 학생별로 오름차순으로 정렬해봅시다. 중간고사 성적은 다음과 같습니다. 

In [209]:
scores[0,:,:]

array([[80, 92, 70, 65, 92],
       [91, 75, 90, 68, 85],
       [86, 76, 42, 72, 88],
       [77, 92, 52, 60, 80],
       [75, 85, 85, 92, 95],
       [96, 90, 95, 81, 72]])

학생은 1번 축에 해당하므로 `axis = 1`로 설정합니다. 

In [210]:
np.sort(scores[0,:,:],axis=1)

array([[65, 70, 80, 92, 92],
       [68, 75, 85, 90, 91],
       [42, 72, 76, 86, 88],
       [52, 60, 77, 80, 92],
       [75, 85, 85, 92, 95],
       [72, 81, 90, 95, 96]])

### 예제 3) 학생들의 국어성적 정렬 결과의 원본 인덱스 가져오기 : 벡터의 `np.argsort`

정렬된 학생들이 원본 Array에서 어떤 값인지 알려면 인덱스를 알아야 합니다. 중간고사 국어성적의 인덱스를 `np.argsort`를 사용해 알아봅시다.

In [207]:
np.argsort(scores[0,:,0])

array([4, 3, 0, 2, 1, 5], dtype=int64)

### 예제 4) 학생들의 국어성적 정렬 : 행렬의 `np.argsort`

이번에는 중간 고사 국어 성적이 높은 순서대로 `scores` 전체 데이터를 정렬해봅시다. 즉, 중간고사 국어성적을 기준으로 전체 성적을 정렬하는 것이죠. 중간고사 국어성적은 아래와 같습니다. 

In [211]:
scores[0,:,0]

array([80, 91, 86, 77, 75, 96])

중간고사 국어 성적을 낮은 점수부터 높은 점수 순서대로 정렬하면 아래와 같습니다. 

In [215]:
np.sort(scores[0,:,0])

array([75, 77, 80, 86, 91, 96])

위 결과에 해당하는 중간고사 국어 성적 순으로 학생 번호(=index)를 알아보면 아래와 같습니다.

In [216]:
np.argsort(scores[0,:,0])

array([4, 3, 0, 2, 1, 5], dtype=int64)

이번에는 Section 3에서 배운 인덱싱 방법을 다시 떠올려봅시다. 인덱스는 단일 값으로 인덱싱 할수도 있고, Array로 만들어 인덱싱할 수도 있었습니다. `np.argsort(scores[0,:,0])`의 결과로 얻은 인덱스 Array로 1번 축(학생)의 인덱싱을 하게 되면 그 순서에 따라 정렬한 학생 성적을 얻을 수 있게 됩니다. 

In [220]:
# 중간고사 국어성적을 기준으로 정렬!
scores[:,np.argsort(scores[0,:,0]), :]

array([[[75, 85, 85, 92, 95],
        [77, 92, 52, 60, 80],
        [80, 92, 70, 65, 92],
        [86, 76, 42, 72, 88],
        [91, 75, 90, 68, 85],
        [96, 90, 95, 81, 72]],

       [[70, 82, 81, 95, 72],
        [80, 94, 59, 72, 90],
        [85, 95, 90, 66, 93],
        [89, 78, 55, 75, 80],
        [93, 70, 80, 60, 81],
        [90, 76, 93, 82, 89]]])

위 결과를 보면 중간고사 국어 성적 자리(=`[0, : ,0]`)가 아래와 같이 정렬되어 있음을 확인할 수 있습니다. 

In [221]:
scores[:,np.argsort(scores[0,:,0]), :][0, : ,0]

array([75, 77, 80, 86, 91, 96])

#  

---

    Copyright(c) 2019 by Public AI. All rights reserved.<br>
    Writen by PAI, SangJae Kang ( rocketgrowthsj@publicai.co.kr )  last updated on 2019/03/04

---