<a href="https://colab.research.google.com/github/bomnism/DA/blob/main/da02_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np

# Array Indexing 

In [None]:
arr = np.arange(10)
print(arr)

[0 1 2 3 4 5 6 7 8 9]


In [None]:
# indexing: 인덱스를 사용해서 배열의 원소 참조
print(arr[0])   # 시작 인덱스는 0
print(arr[9])   # 배열의 마지막 인덱스는 원소개수 -1
print(arr[-1])

0
9
9


In [None]:
# slicing: [start, end) 범위의 원소들로 이루어진 부분집합(배열)
print(arr[0:5])     # 시작 인덱스 0은 생략 가능
print(arr[5:])       # 끝 인덱스가 생략되면 배열의 끝까지 slicing
print(arr[-3:])
print(arr[5:])

[0 1 2 3 4]
[5 6 7 8 9]
[7 8 9]
[5 6 7 8 9]


## fancy indexing

* 배열과 비슷한 객체(ndarray, list, tuple, ...)를 사용해서 indexing하는 방법
* fancy indexing의 결과는 ndarray!

In [None]:
np.random.seed(1)
arr = np.random.randint(100, size=10)
print(arr)

[37 12 72  9 75  5 79 64 16  1]


In [None]:
print(arr[[1, 3, 5]])

[12  9  5]


In [None]:
print(arr[1])        # indexing: 원소 하나를 참조 
print(arr[[1]])     # fancy indexing: 원소 하나를 갖는 ndarray

12
[12]


## boolean indexing

* 논릿값(True, False)들의 배열(리스트, 튜플)을 사용한 fancy indexing
* 조건을 만족하는 원소들로 이루어진 부분집합 ndarray를 생성 


In [None]:
bools = np.array([True, False] * 5)
print(bools)
print(arr)
print(arr[bools])

[ True False  True False  True False  True False  True False]
[37 12 72  9 75  5 79 64 16  1]
[37 72 75 79 16]


In [None]:
# arr의 원소들 중 짝수들로만 이루어진 ndarray
print(arr)
print(arr % 2 == 0)   # element-wise 연산 
print(arr[arr % 2 == 0])

[37 12 72  9 75  5 79 64 16  1]
[False  True  True False False False False  True  True False]
[12 72 64 16]


In [None]:
# arr 원소들 중 홀수들로만 이루어진 ndarray
arr[arr % 2 == 1]


array([37,  9, 75,  5, 79,  1])

# 통계 함수 / 메서드

* 함수: `np.function_name(ndarry)`
* 매서드: `np.ndarray.method_name()`

In [None]:
print(arr)
print(np.sum(arr))    # 함수
print(arr.sum())        # 메서드

[37 12 72  9 75  5 79 64 16  1]
370
370


In [None]:
#numpy.org
print('평균:', np.mean(arr), arr.mean())
print('분산:', np.var(arr), arr.var())    # variance
print('표준편차:', np.std(arr), arr.std()) # standard deviation
print('최댓값:', np.max(arr), arr.max())
print('최솟값:', np.min(arr), arr.min())
print('중앙값:', np.median(arr))        # 메서드는 제공되지 않음!  

평균: 37.0 37.0
분산: 933.2 933.2
표준편차: 30.548322376196047 30.548322376196047
최댓값: 79 79
최솟값: 1 1
중앙값: 26.5


In [None]:
# np.max()와 np.maximum() 차이점 
# np.max(array) : array의 최댓값을 리턴
# np.maximum(a1, a2): 배열(과 비슷한 객체) a1, a2의 같은 인덱스에 있는 원소들끼리 비교, 최댓값들로 이루어진 배열

np.random.seed(42)
arr1 = np.random.randint(100, size=10)
arr2 = np.random.randint(100, size=10)
print(arr1)
print(arr2)

maxima = np.maximum(arr1, arr2)
print(maxima)

[51 92 14 71 60 20 82 86 74 74]
[87 99 23  2 21 52  1 87 29 37]
[87 99 23 71 60 52 82 87 74 74]


In [None]:
# np.argmax(array), np.ndarray.argmax() : 배열의 최댓값의 인덱스를 리턴
# np.armin(array), np.ndarray.argmin() : 배열의 최솟값의 인덱스를 리턴
print(arr)
print(np.argmax(arr))
print(np.argmin(arr))

[37 12 72  9 75  5 79 64 16  1]
6
9


0 이상 100 미만의 정수 난수 10개로 이루어진 1차원 배열을 생성. 

배열에서 평균보다 큰 값들로 이루어진 배열을 만들고 출력. 

In [None]:
np.random.seed(0)
arr3 = np.random.randint(100, size=10)
print(arr3)
print('평균:', np.mean(arr3))

bigger_than_mean = arr3[arr3 > np.mean(arr3)]
print(bigger_than_mean)

[44 47 64 67 67  9 83 21 36 87]
평균: 52.5
[64 67 67 83 87]


## 2차원 배열 에서의 통계 함수/메서드

In [None]:
np.random.seed(2)
arr = np.random.randint(100, size=(3, 4))
print(arr)

[[40 15 72 22]
 [43 82 75  7]
 [34 49 95 75]]


In [None]:
# 2차원 배열의 모든 원소들의 합
np.sum(arr)     #arr.sum()

609

In [None]:
np.sum(arr, axis=0)     # row index가 증가하는 방향으로 sum 계산 
#> (4, ) shape의 1차원 배열

array([117, 146, 242, 104])

In [None]:
np.sum(arr, axis=1)     # column index가 증가하는 방향으로 sum 계산
#> (3, )shape의 1차원 배열

array([149, 207, 253])

In [None]:
arr.sum(axis=0, keepdims=True)    #> (1, 4) shape 2차원 array(배열)

array([[117, 146, 242, 104]])

In [None]:
arr.sum(axis=1, keepdims=True)    #> (3, 1) shape 2차원 array(배열)

array([[149],
       [207],
       [253]])