In [1]:
# 배열의 연산과 변형
# NumPy는 배열에 있는 여러 개의 값을 반복문을 사용하지 않고 빠른 속도로 연산을 처리해 결과값을 반환하는 특징이 있음.

In [2]:
# 벡터화 연산(Vectorized Operation)
# 예제 01
import numpy as np

arr = np.arange(1, 5)
print(f"{np.array2string(arr, separator=', ')}")

print(f"{np.array2string(arr + 2, separator=', ')}")        # 반복문 사용 없이 arr 배열의 모든 원소에 2를 더함.
print(f"{np.array2string(arr * 2, separator=', ')}")        # 반복문 사용 없이 arr 배열의 모든 원소에 2를 곱함.

[1, 2, 3, 4]
[3, 4, 5, 6]
[2, 4, 6, 8]


In [3]:
# 리스트의 연산과 배열의 연산의 차이점
# 리스트는 '리스트' + '정수형 데이터' 연산이 불가능함.
# 리스트에 곱하기 연산을 하면, 리스트가 개수만큼 복사됨.
list_01 = [1, 2, 3, 4]
print(list_01 * 2)

[1, 2, 3, 4, 1, 2, 3, 4]


In [4]:
# 배열 간 연산
# 배열과 배열끼리 연산하기.
# 배열과 배열의 연산은 대입되는 배열의 원소들의 값에 직접 연산이 적용됨.
arr1 = np.arange(5, 9)
print(f"{np.array2string(arr1, separator=', ')}")

arr2 = np.arange(1, 5)
print(f"배열 arr1과 배열 arr2끼리 더하면 ==> {np.array2string(arr1 + arr2, separator=', ')}")

list01 = [5, 6, 7, 8]
list02 = [1, 2, 3, 4]
print(f"list01과 list02 두 리스트를 서로 더하면 ==> {list01 + list02}")

[5, 6, 7, 8]
배열 arr1과 배열 arr2끼리 더하면 ==> [ 6,  8, 10, 12]
list01과 list02 두 리스트를 서로 더하면 ==> [5, 6, 7, 8, 1, 2, 3, 4]


In [5]:
# NumPy에서 자주 사용하는 산술 연산 함수들
# square(): 제곱
# sqrt(): 제곱근
# exp(): 지수승
# log(): 로그
# add(): 덧셈
# sum(): 합계
# cumsum(): 누적합
# mean(): 평균
# var(): 편차
# std(): 표준편차
# min(): 최솟값
# max(): 최댓값
# argmin(): 최솟값의 인덱스
# argmax(): 최댓값의 인덱스

In [13]:
# 수학 함수들
# square, sqrt, exp, log
# square 함수: 배열의 원소를 제곱해주는 함수.
arr01 = np.arange(1, 6)
arr01 = np.square(arr01)
# method chain 기법으로 'arr01 = np.square(np.arange(1, 6))
print(f"arr01에 square 함수를 사용한 결과 ==> {np.array2string(arr01, separator=', ')}")

# sqrt 함수: 배열의 원소를 제곱근으로 변환해주는 함수.
arr02 = np.sqrt(np.arange(1, 6))
print(f"\narr02 배열의 모든 원소를 sqrt 함수를 사용해 제곱근으로 변환한 결과 ==> {np.array2string(arr02, separator=', ')}")

# exp(지수승)
# 밑이 e인 거듭제곱
# e: 오일러 수(2.71828)
# e의 x승: 자연지수함수
# 자연로그 ln과 자연지수함수는 서로 역함수 관계.
# Sigmoid(로지스틱 함수)에서 자주 사용됨.
# Softmax(다중분류 확률화)에서 로그잇(logit)을 확률로 바꿀 때 핵심 연산으로 사용됨.
# 포아송 회귀(카운트/발생률 모델)에서 로그 링크의 역변환으로 사용. 평균(기댓값)을 양수로 만들기 위해 사용됨.
arr03 = np.exp(np.arange(1, 6))
print(f"\nexp 함수를 사용한 결과 ==> {np.array2string(arr03, separator=', ')}")

# log 함수
# 주어진 배열에 대한 자연로그를 구하는 함수.
arr04 = np.log(np.arange(1, 6))
print(f"\nlog 함수를 사용한 결과 ==> {np.array2string(arr04, separator=', ')}")

arr01에 square 함수를 사용한 결과 ==> [ 1,  4,  9, 16, 25]

arr02 배열의 모든 원소를 sqrt 함수를 사용해 제곱근으로 변환한 결과 ==> [1.        , 1.41421356, 1.73205081, 2.        , 2.23606798]

exp 함수를 사용한 결과 ==> [  2.71828183,   7.3890561 ,  20.08553692,  54.59815003, 148.4131591 ]

log 함수를 사용한 결과 ==> [0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791]


In [18]:
# 배열 연산 함수들
# add() 함수
# 지정한 배열끼리 더하는 함수. (복제가 아닌, 배열의 각 요소들끼리 더함.)
arr01 = np.arange(1, 6)
arr02 = np.arange(6, 11)
arr03 = np.add(arr01, arr02)
print(f"arr01 배열과 arr02를 add 함수의 인자로 사용한 결과 ==> {np.array2string(arr03, separator=', ')}")

# sum() 함수
# 배열 내의 모든 원소를 더한 값을 반환하는 함수
print(f"\narr01 배열에 sum 함수를 사용한 결과 ==> {np.array2string(np.sum(arr01), separator=', ')}")
print(f"\narr02 배열에 sum 함수를 사용한 결과 ==> {np.array2string(np.sum(arr02), separator=', ')}")

# cumsum() 함수
# 누적합을 계산하는 함수.
print(f"\narr01 배열에 cumsum 함수를 사용해 누적합을 구한 배열의 결과 ==> {np.array2string(np.cumsum(arr01), separator=', ')}")
print(f"\narr02 배열에 cumsum 함수를 사용해 누적합을 구한 배열의 결과 ==> {np.array2string(np.cumsum(arr02), separator=', ')}")

arr01 배열과 arr02를 add 함수의 인자로 사용한 결과 ==> [ 7,  9, 11, 13, 15]

arr01 배열에 sum 함수를 사용한 결과 ==> 15

arr02 배열에 sum 함수를 사용한 결과 ==> 40

arr01 배열에 cumsum 함수를 사용해 누적합을 구한 배열의 결과 ==> [ 1,  3,  6, 10, 15]

arr02 배열에 cumsum 함수를 사용해 누적합을 구한 배열의 결과 ==> [ 6, 13, 21, 30, 40]


In [24]:
# cumsum() 함수 심화
# 배열의 원소를 앞에서부터 차례대로 더한 중간 결과들을 전부 새 배열로 반환.
# 'numpy.cumsum(a, axis=None, dtype=None, out=None)
# a: 인자 배열
# axis: 누적합을 계산할 축 / 기본값은 None ==> 배열을 1차로 평탄화한 뒤 누적합을 구함. / 정수를 입력하면 해당 축 방향으로 누적합을 구함. (결과 shape는 입력과 동일한 편)
# dtype: 출력 dtype + 누적을 수행하는 '누산기(accumulator)'의 dtype / 기본값 None은 입력 dtype을 따르고, 만약 정수인데 비트폭이 작은 경우 플랫폼 기본 정수로 승격될 수 있음.
# out: 결과를 미리 만들어 둔 배열에 저장함. / 메모리 및 할당 최적화에 유용.
# 'ndarray.cumsum()'메서드로도 동일하게 사용 가능. ex) arr.cumsum(axis=0)

# 2차원 배열일 때는
# 'axis = 0' ==> 행 방향으로 아래로 누적함. 각 열마다 위에서 아래로 누적됨.
# 'axis = 1' ==> 열 방향으로 오른쪽으로 누적함. 각 행마다 왼쪽에서 오른쪽으로 누적됨.

# 정수 dtype에서 작은 정수로 누적합을 하면 값이 커지는 순간 overflow가 발생해도 에러 없이 모듈러처럼 돌아갈 수 있음.
# NumPy의 정수 산술이 overflow에 대해 error를 발생하지 않고 모듈러 동작을 할 수 있음.

# np.add.accumulate()와의 관계
# cumsum은 덧샘 ufunc를 누적해 적용한 것과 동치. (동치: 두 개의 명제가 동일한 결과를 가져오는 일)

# nancumsum
# cumsum 사용 시 중간에 NaN이 나오면 그 뒤가 계속 NaN이 되기 쉬움. 부동소수 누적 특성 때문.
# NaN을 0으로 취급하려면 'np.nancumsum()'을 사용.

In [25]:
# cumsum 예제 01
# 1차원 기본 누적합
ex01 = np.array([3, 1, -2, 5])
result = np.cumsum(ex01)

print(f"1차원 배열 ex01에 cumsum 함수를 사용한 결과 ==> {np.array2string(result, separator=', ')}")

1차원 배열 ex01에 cumsum 함수를 사용한 결과 ==> [3, 4, 2, 7]


In [28]:
# cumsum 예제 02
# 'axis=None', 'axis=0 또는 1'의 차이
ex02 = np.array([[1, 2, 3],
                 [4, 5, 6]])

print(f"axis=None의 결과 ==> {np.array2string(np.cumsum(ex02), separator=', ')}")
print(f"\naxis=0으로 설정한 결과 ==> {np.array2string(np.cumsum(ex02, axis=0), separator=', ')}")   # 위에서 아래로 누적. (열 기준)
print(f"\naxis=1로 설정한 결과 ==> {np.array2string(np.cumsum(ex02, axis=1), separator=', ')}")     # 왼쪽에서 오른쪽으로 누적. (행 기준)

axis=None의 결과 ==> [ 1,  3,  6, 10, 15, 21]

axis=0으로 설정한 결과 ==> [[1, 2, 3],
 [5, 7, 9]]

axis=1로 설정한 결과 ==> [[ 1,  3,  6],
 [ 4,  9, 15]]


In [34]:
# cumsum 예제 03
# overflow 확인 및 dtype 사용
ex03 = np.array([200, 100, 100], dtype=np.uint8)        # uint8은 0~255까지만 표현해서, 255를 넘어가면 랩어라운드(=모듈러)가 위험함.

print(f"입력된 dtype: {ex03.dtype}")
print(f"\ncumsum(uint8): {np.array2string(np.cumsum(ex03), separator=', ')}")
print(f"\ncumsum(int64): {np.array2string(np.cumsum(ex03, dtype=np.int64), separator=', ')}")       # dtype을 큰 정수 범위로 잡으면 좋음.

입력된 dtype: uint8

cumsum(uint8): [200, 300, 400]

cumsum(int64): [200, 300, 400]


In [37]:
# cumsum 예제 04
# 'out='으로 미리 할당한 배열에 결과를 저장.
ex04 = np.arange(1, 6)
out = np.empty_like(ex04)           # 같은 shape 및 dtype의 빈 배열 생성.
ret = np.cumsum(ex04, out=out)

print(f"out: {out}")
print(f"\nret is out ==> {ret is out}")     # 일반적으로 같은 객체를 반환하기 때문에 True인 경우가 대부분.

out: [ 1  3  6 10 15]

ret is out ==> True


In [41]:
# cumsum 예제 05
# NaN 처리
# NaN이 섞인 의료 및 헬스 데이터의 결측치에서는 누적 지표를 만들 때 nancumsum을 실무적으로 더 많이 사용함.
ex05 = np.array([1.0, np.nan, 2.0, 3.0])

print(f"cumsum: {np.array2string(np.cumsum(ex05), separator=', ')}")            # 한 번 NaN이 나오면 계속 NaN으로 나옴.
print(f"\nnancumsum: {np.array2string(np.nancumsum(ex05), separator=', ')}")    # NaN을 0으로 취급해 누적합이 동작함.

cumsum: [ 1., nan, nan, nan]

nancumsum: [1., 1., 3., 6.]


In [51]:
# 통계 함수들
# mean() 함수
# 평균을 구하는 함수
print(f"arr01 배열에 mean 함수를 사용해 평균을 구한 결과 ==> {np.array2string(np.mean(arr01))}")
print(f"\narr02 배열에 mean 함수를 사용해 평균을 구한 결과 ==> {np.array2string(np.mean(arr02))}")

# var() 함수
# 분산을 구하는 함수
# 'ddof=1' 옵션을 사용하면 표본 분산을 구할 수 있음.
print(f"\narr01 배열에 var 함수를 사용하여 분산을 구한 결과 ==> {np.array2string(np.var(arr01))}")
print(f"\narr02 배열에 var 함수를 사용하여 분산을 구한 결과 ==> {np.array2string(np.var(arr02))}")

# std() 함수
# 표준편차를 구하는 함수
print(f"\narr01 배열에 std 함수를 사용하여 표준편차를 구한 결과 ==> {np.std(arr01)}")
print(f"\narr02 배열에 std 함수를 사용하여 표준편차를 구한 결과 ==> {np.std(arr02)}")

# min() 함수
# 최솟값을 구하는 함수
print(f"\narr01 배열에 min 함수를 사용하여 최솟값을 구한 결과 ==> {np.min(arr01)}")
print(f"\narr02 배열에 min 함수를 사용하여 최솟값을 구한 결과 ==> {np.min(arr02)}")

# max() 함수
# 최댓값을 구하는 함수
print(f"\narr01 배열에 max 함수를 사용하여 최댓값을 구한 결과 ==> {np.max(arr01)}")
print(f"\narr02 배열에 max 함수를 사용하여 최댓값을 구한 결과 ==> {np.max(arr02)}")

# argmin() 함수
# 최솟값의 인덱스 값을 구하는 함수
print(f"\narr01 배열에 argmin 함수를 사용하여 최솟값의 인덱스 값을 구한 구한 결과 ==> {np.argmin(arr01)}")
print(f"\narr02 배열에 argmin 함수를 사용하여 최솟값의 인덱스 값을 구한 구한 결과 ==> {np.argmin(arr02)}")

# argmax() 함수
# 최댓값의 인덱스 값을 구하는 함수
print(f"\narr01 배열에 argmax 함수를 사용하여 최댓값의 인덱스 값을 구한 결과 ==> {np.argmax(arr01)}")
print(f"\narr02 배열에 argmax 함수를 사용하여 최댓값의 인덱스 값을 구한 결과 ==> {np.argmax(arr02)}")

arr01 배열에 mean 함수를 사용해 평균을 구한 결과 ==> 3.

arr02 배열에 mean 함수를 사용해 평균을 구한 결과 ==> 8.

arr01 배열에 var 함수를 사용하여 분산을 구한 결과 ==> 2.

arr02 배열에 var 함수를 사용하여 분산을 구한 결과 ==> 2.

arr01 배열에 std 함수를 사용하여 표준편차를 구한 결과 ==> 1.4142135623730951

arr02 배열에 std 함수를 사용하여 표준편차를 구한 결과 ==> 1.4142135623730951

arr01 배열에 min 함수를 사용하여 최솟값을 구한 결과 ==> 1

arr02 배열에 min 함수를 사용하여 최솟값을 구한 결과 ==> 6

arr01 배열에 max 함수를 사용하여 최댓값을 구한 결과 ==> 5

arr02 배열에 max 함수를 사용하여 최댓값을 구한 결과 ==> 10

arr01 배열에 argmin 함수를 사용하여 최솟값의 인덱스 값을 구한 구한 결과 ==> 0

arr02 배열에 argmin 함수를 사용하여 최솟값의 인덱스 값을 구한 구한 결과 ==> 0

arr01 배열에 argmax 함수를 사용하여 최댓값의 인덱스 값을 구한 결과 ==> 4

arr02 배열에 argmax 함수를 사용하여 최댓값의 인덱스 값을 구한 결과 ==> 4


In [58]:
# 배열의 변형(Transformation)
# transpose: 축 변환
# reshape()를 사용하여 생성한 배열의 차원 및 모양을 바꿀 수 있음.
# 기존 배열의 축을 바꿀 때 transpose() 함수를 사용.
# 1차원 배열의 경우 배열의 축을 전환해도 동일한 배열을 반환함.

# 2차원 배열의 축 변환하기.
# 2차원 배열에서 축 변환을 사용하면 반환하는 배열이 달라짐.
arr01 = np.arange(10).reshape(2, 5)

print(f"원본 배열: {np.array2string(arr01, separator=', ')}")
print(f"\ntranspose()를 사용해 축을 변환한 배열: {np.array2string(arr01.transpose(), separator=', ')}")         # (2, 5)에서 (5, 2)로 변환된 배열이 반환됨.

# 만약 축을 지정하지 않고 기본값으로 사용할 때는, 'T'로 간단하게 입력해서 사용할 수 있음.
print(f"\n기본값으로 transpose를 사용하기 위해 arr01.T로 입력하여 축을 변환한 결과: {np.array2string(arr01.T, separator=', ')}")

원본 배열: [[0, 1, 2, 3, 4],
 [5, 6, 7, 8, 9]]

transpose()를 사용해 축을 변환한 배열: [[0, 5],
 [1, 6],
 [2, 7],
 [3, 8],
 [4, 9]]

기본값으로 transpose를 사용하기 위해 arr01.T로 입력하여 축을 변환한 결과: [[0, 5],
 [1, 6],
 [2, 7],
 [3, 8],
 [4, 9]]
