In [3]:
#우리가 data science를 다루면 가장 많이 사용하는 것이 바로 최댓값과 최솟값을 구하는 것이다. 이럴 때 NumPy에서는 ndarray에서 바로 연산이 가능하도록 method를 만들어놨다. 이는 각각
#1. ndarray.max()
#2. ndarray.min()
#3. ndarray.argmax()
#4. ndarray.argmin()

import numpy as np
test_np = np.random.randint(low = 0, high = 10, size = (10,))
print("test_np:", test_np)
print("test_np.max():", test_np.max())
print("test_np.min():", test_np.min(),'\n')

test_np = np.random.randint(low = 0, high = 10, size = (3,4))
print("test_np:\n", test_np)
print("test_np.max():", test_np.max())
print("test_np.min():", test_np.min())
# "ndarray 전체에 대하여" 최댓값과 최솟값을 뽑아주는 것을 볼 수 있다.

test_np: [1 1 5 1 2 0 6 6 9 7]
test_np.max(): 9
test_np.min(): 0 

test_np:
 [[4 1 1 5]
 [3 7 3 7]
 [7 4 2 8]]
test_np.max(): 8
test_np.min(): 1


In [4]:
#만약 2차원 ndarray에 대해 각 row-wise로 또는 column-wise로 뽑고 싶으면 어떡해야 할까? 이런 경우의 흔한 경우는 다음과 같다.

import pandas as pd

maths = np.random.randint(low = 30, high = 100, size = (20,))
english = np.random.randint(low = 30, high = 100, size = (20,))
physics = np.random.randint(low = 30, high = 100, size = (20,))

score_table = np.vstack((maths, english, physics)).T
d = {"Math scores": maths, "English scores": english, "Physics scores": physics}
df = pd.DataFrame(data=d)
print(df)

    Math scores  English scores  Physics scores
0            96              38              77
1            69              79              65
2            77              31              56
3            49              44              96
4            57              71              38
5            30              40              88
6            93              63              59
7            41              60              40
8            59              54              61
9            34              90              74
10           39              69              84
11           99              65              57
12           50              32              41
13           36              97              93
14           89              49              38
15           99              50              62
16           86              53              89
17           45              43              69
18           72              78              60
19           82              99         

In [9]:
#각 차원에 대한 max, min을 구하기 위해선 ndarray.max(), ndarray.min()안에 axis를 입력해주면 된다.
#먼저 우리가 가지고 있는 data와 shape을 살펴보자.

print("score_table:\n", score_table)
print("score_table.shape:", score_table.shape,'\n')

print("score_table.max(axis=0):", score_table.max(axis=0))
print("score_table.max(axis=1):", score_table.max(axis=1),'\n')

#axis가 0이면 ndarray.max()의 결과는 0차원을 없앤 결과가 나온다, 행이 0이니까 열이 3이니까 최대값은 3열로 출력됨 
#axis가 1이면 ndarray.max()의 결과는 1차원을 없앤 결과가 나온다, 행이 20이고 열이 0이니까 최대값은 20행으로 출력됨

print("score_table.shape:", score_table.shape)
print("score_table.max(axis=0).shape:", score_table.max(axis=0).shape)
print("score_table.max(axis=1).shape:", score_table.max(axis=1).shape)


score_table:
 [[96 38 77]
 [69 79 65]
 [77 31 56]
 [49 44 96]
 [57 71 38]
 [30 40 88]
 [93 63 59]
 [41 60 40]
 [59 54 61]
 [34 90 74]
 [39 69 84]
 [99 65 57]
 [50 32 41]
 [36 97 93]
 [89 49 38]
 [99 50 62]
 [86 53 89]
 [45 43 69]
 [72 78 60]
 [82 99 91]]
score_table.shape: (20, 3) 

score_table.max(axis=0): [99 99 96]
score_table.max(axis=1): [96 79 77 96 71 88 93 60 61 90 84 99 50 97 89 99 89 69 78 99] 

score_table.shape: (20, 3)
score_table.max(axis=0).shape: (3,)
score_table.max(axis=1).shape: (20,)


In [13]:
#다음과 같이 각 과목의 최댓값, 최솟값을 구할 수 있다.
print("Max scores for subjects:", score_table.max(axis=0))
print("min scores for subjects:", score_table.min(axis=0))
#각 학생들이 맞은 점수들의 최댓값, 최솟값을 구하면 다음과 같다.
print("Max scores for each students:", score_table.max(axis=1))
print("min scores for each students:", score_table.min(axis=1))

Max scores for subjects: [99 99 96]
min scores for subjects: [30 31 38]
Max scores for each students: [96 79 77 96 71 88 93 60 61 90 84 99 50 97 89 99 89 69 78 99]
min scores for each students: [38 65 31 44 38 30 59 40 54 34 39 57 32 36 38 50 53 43 60 82]


In [18]:
test_np = np.random.randint(low = 0, high = 10, size = (10,))
print(test_np)
print("test_np.argmax():", test_np.argmax())
print("test_np.argmin():", test_np.argmin(),'\n')

[max_loc, max_val] = test_np.argmax(), test_np.max()
[min_loc, min_val] = test_np.argmin(), test_np.min()

print(test_np)
print("Max location:", max_loc, "and Max value:", max_val)
print("min location:", min_loc, "and min value:", min_val)
#최댓값, 최솟값이 아닌 최댓값, 최솟값을 만드는 index를 return하는 것을 볼 수 있다.

[9 8 0 4 5 4 2 2 1 6]
test_np.argmax(): 0
test_np.argmin(): 2 

[9 8 0 4 5 4 2 2 1 6]
Max location: 0 and Max value: 9
min location: 2 and min value: 0


In [25]:
import pandas as pd
maths = np.random.randint(low = 30, high = 100, size = (20,))
english = np.random.randint(low = 30, high = 100, size = (20,))
physics = np.random.randint(low = 30, high = 100, size = (20,))

score_table = np.vstack((maths, english, physics)).T
d = {"Math scores": maths, "English scores": english, "Physics scores": physics}
df = pd.DataFrame(data=d)
print(df)

    Math scores  English scores  Physics scores
0            44              41              74
1            51              51              46
2            65              89              37
3            45              83              78
4            73              89              63
5            94              30              99
6            81              78              36
7            78              41              85
8            38              32              83
9            54              47              64
10           59              96              35
11           75              88              31
12           55              51              66
13           83              94              64
14           99              58              98
15           33              32              31
16           60              33              69
17           62              56              94
18           55              54              95
19           44              60         

In [26]:
#argmax()는 각각 다음과 같은 의미를 지닌다.
#1. 각 과목들의 최댓값, 최솟값의 위치는 몇 번재 학생이 최댓값, 최솟값을 가지는지
#2. 각 학생들의 최댓값, 최솟값의 위치는 각 학생들이 수학, 영어, 물리 중 어떤 과목을 가장 잘 보고, 잘 못봤는지
print(score_table.shape)

print("score_table.argmax(axis = 0):", score_table.argmax(axis = 0))
print("score_table.argmax(axis = 1):", score_table.argmax(axis = 1), '\n')

print("score_table.argmin(axis = 0):", score_table.argmin(axis = 0))
print("score_table.argmin(axis = 1):", score_table.argmin(axis = 1))

#axis가 0이면 학생들의 차원이 없어지면서 과목에 대한 정보만 남게 된다.
#그리고 argmax는 각 과목에서 최댓값을 가지는 index를 return하므로 어떤 학생이 각 과목에서 최대점수를 맞았는지 보여준다.
#반대로 axis가 1이면 과목의 차원이 없어지면서 학생들에 대한 정보만 남게 된다.
#그리고 argmax는 각 학생들이 어떤 과목에서 최댓값을 가지는지 index를 return하므로 0:수학, 1:영어, 2:물리
#가 되고, 학생들이 가장 높은 점수를 맞은 과목들을 알아낼 수 있는 것이다.

(20, 3)
score_table.argmax(axis = 0): [14 10  5]
score_table.argmax(axis = 1): [2 0 1 1 1 2 0 2 2 2 1 1 2 1 0 0 2 2 2 1] 

score_table.argmin(axis = 0): [15  5 11]
score_table.argmin(axis = 1): [1 2 2 0 2 1 2 1 1 1 2 2 1 2 1 2 1 1 1 0]


In [29]:
#각 과목에서의 최우등 학생들을 뽑으려고 한다면 학생의 차원을 없애야 하므로 axis=0로 설정해준다
best_studnets = score_table.argmax(axis = 0)
print(best_studnets,'\n')
#위의 결과로 수학, 영어, 물리 성적을 가장 잘 받은 학생은 index로 15, 7, 2번째의 학생들이다.

best_scores = score_table.max(axis = 0)
print(best_scores,'\n')
#점수를 확인


[14 10  5] 

[99 96 99] 



In [30]:

#각 학생들이 어떤 과목에서 최대점수를 받았는지, 그리고 그 점수가 얼마인지 알고 싶다면
best_subjects = score_table.argmax(axis = 1)
best_scores = score_table.max(axis = 1)
print(best_subjects)
print(best_scores)

[2 0 1 1 1 2 0 2 2 2 1 1 2 1 0 0 2 2 2 1]
[74 51 89 83 89 99 81 85 83 64 96 88 66 94 99 33 69 94 95 60]
