## <strong>4. NumPy: Universal Functions (UFunc)</strong>

In [1]:
import numpy as np

In [2]:
# 역수 계산 함수
def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

# 함수 테스트
values = np.random.randint(1, 10, size=5)
print(values)
print(compute_reciprocals(values))

[4 9 7 5 1]
[0.25       0.11111111 0.14285714 0.2        1.        ]


#### <strong>역수 계산: Python loop vs NumPy ufuncs</strong>
+ ```%timeit```: 셀 단위 코드 실행 시간을 측정하는 매직 함수

In [11]:
# [+] 백만 개 크기의 난수 배열 생성: 정수, 값 범위 [1, 100)
big_array = np.random.randint(1,101, size = 1000000) #100까지 범위를 지정하려면 101까지로 설정해야함
print(big_array) 

[74 24 50 ... 55 87 32]


In [None]:
%%timeit #주피터 노트북에서만 지원하는 매직함수 , 느림

# [+] Python loop를 통한 역수 계산 
compute_reciprocals(big_array)

6.39 s ± 1.03 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [13]:
%%timeit

# [+] NumPy ufunc을 통한 벡터화된 역수 계산
1 / big_array #넘파이를 활용한 역수 구하기, 위에보다 훨씬 빠른 계산

9.33 ms ± 293 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


#### <strong>유니버설 함수들</strong>

In [14]:
# 난수 배열 2개 생성
np.random.seed(1)
arr1 = np.random.randint(10, size=5)
arr2 = np.random.randint(10, size=5)

print(arr1, arr2)

[5 8 9 5 0] [0 1 7 6 9]


In [16]:
# 배열-스칼라 연산
arr1 = arr1 - 2 #배열 값에서 -2씩 연산
print(arr1)

[ 1  4  5  1 -4]


In [18]:
# 배열-배열 연산
arr3 = arr1 + arr2 #두 개의 배열 값을 원소 단위로 더함
print(arr3)

[ 1  5 12  7  5]


In [None]:
# 다차원 배열 연산: 2차원 배열 ** 스칼라
arr4 = np.random.randint(10, size=(3, 5))
print(arr4)

arr5 = arr4 ** 2 #배열에 제곱 #벡터화 되어있기 때문에 파이썬 루프(for문)으로 구성된 것보다 효율적이고 빠름
#파이썬 반복문을 작성할때 벡터로 쓸 수 있는지 확인하고 넘파이를 쓰면 더 효율적
print(arr5)

[[2 4 5 2 4]
 [2 4 7 7 9]
 [1 7 0 6 9]]
[[ 4 16 25  4 16]
 [ 4 16 49 49 81]
 [ 1 49  0 36 81]]


In [22]:
"""
    UFuncs: 산술 연산
"""

# 기본 산술 연산
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x ** 2 =", x ** 2)

# [+] 산술 연산에 대응하는 유니버설 함수
print("x + 5 =", np.add(x,5))
print("x - 5 =", np.subtract(x,5))
print("x * 2 =", np.multiply(x,2))
print("x / 2 =", np.divide(x,2))
print("x ** 2 =", np.power(x,2))


x     = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x ** 2 = [0 1 4 9]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x ** 2 = [0 1 4 9]


In [24]:
"""
    UFuncs: 절댓값 계산
"""

# [+] 절댓값 함수
x = np.array([-2, -1, 0, 1, 2])
np.abs(x) #abs 벡터화 된 절댓값 구하는 함수

array([2, 1, 0, 1, 2])

In [26]:
"""
    np.linspace(start, stop, num): 선형 간격 벡터 생성
        - start: 벡터의 시작 값
        - end: 벡터의 종료 값
        - num: 생성할 값의 개수
"""

# [+][0, 100]의 범위를 가지며, 균일한 간격의 5개의 값들로 구성되는 벡터를 생성
x = np.linspace(0, 100, 5)
x

array([  0.,  25.,  50.,  75., 100.])

In [32]:
# [+] [0, 100]의 범위를 가지며, [0, 10, 20, 30, ..., 100]와
# 같은 값들로 구성되는 벡터를 생성
x = np.linspace(0, 100, 11)
x

array([  0.,  10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100.])

In [33]:
# 삼각함수(trigonometric functions)
theta = np.linspace(0, np.pi, 3)

print(theta)
print(np.sin(theta))
print(np.cos(theta))
print(np.tan(theta))

[0.         1.57079633 3.14159265]
[0.0000000e+00 1.0000000e+00 1.2246468e-16]
[ 1.000000e+00  6.123234e-17 -1.000000e+00]
[ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [37]:
"""
    집계 함수: reduce() #reduce 함수 배열의 모든 값을 집계해서 값 출력(한번에 계산)
"""

# 배열 생성
x = np.arange(1, 5)
x

array([1, 2, 3, 4])

In [38]:
# [+] 덧셈 연산으로 집계
aggr = np.add.reduce(x)
aggr

10

In [36]:
# [+] 곱셈 연산으로 집계
aggr = np.multiply.reduce(x)
aggr

24

In [40]:
"""
    집계 함수: accumulate() #계산의 중간 결과들을 배열로 저장한다.(중간 과정을 확인하고자 할 때 사용)
"""

# [+] 덧셈 연산으로 집계
accum = np.add.accumulate(x)
accum

array([ 1,  3,  6, 10])

In [41]:
# [+] 곱셈 연산으로 집계
accum = np.multiply.accumulate(x)
accum

array([ 1,  2,  6, 24])

In [46]:
# 집계 함수: sum()
np.random.seed(3)
arr = np.random.rand(1000000) # [+] 0~1 사이의 실수 형태의 난수 배열 생성
#rand는 시작과 끝 값을 지정할 필요X,실수 형태로 지정되어 있음, rand는 인자 값 하나 넣어주면 0~1 사이 값 생성

print(arr)
print("sum =", np.sum(arr))

[0.5507979  0.70814782 0.29090474 ... 0.93033748 0.80429816 0.47400579]
sum = 500422.19897015305


In [47]:
# sum(): Python 내장함수
%timeit sum(arr)

259 ms ± 3.83 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [48]:
# np.sum()
%timeit np.sum(arr) # 1000µs = 1ms #파이썬 내장 함수 sum()보다 연산이 훨씬 빠름
#즉 큰 데이터를 처리할 땐 Numpy를 써라, 성능 자체가 훨씬 좋음 

2.7 ms ± 145 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [65]:
# [+] 그 외의 집계함수
print("max =", np.max(arr))
print("min =", np.min(arr))
print("mean =", np.mean(arr)) #평균화
print("median =", np.median(arr)) #중앙값
print("percentile =", np.percentile(arr, 90))
print("variance =", np.var(arr)) #분산
print("standard deviation =", np.std(arr)) #표준편차
print("index of maximum value =", np.argmax(arr)) #인덱스 최대값
print("index of minimum value =", np.argmin(arr)) #인덱스 최소값
print("Is there any number greater than 1? =", np.any(arr > 1)) #참을 만족하는 원소가 있는지 0~1 값만 존재하기에 False
print("Is every number greater than 0? =", np.all(arr > 0)) #배열 안에 모든 원소들이 이 조건을 만족하는지

max = 0.9999996367889004
min = 1.5496004267534502e-06
mean = 0.500422198970153
median = 0.5005659265960778
percentile = 0.9001765340710965
variance = 0.08331685347394581
standard deviation = 0.28864658922971154
index of maximum value = 339543
index of minimum value = 980213
Is there any number greater than 1? = False
Is every number greater than 0? = True


In [66]:
"""다차원 집계"""

# 2차원 난수 배열 생성
np.random.seed(0)
arr = np.random.randint(10, size=(3, 4))
arr

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [None]:
np.sum(arr) #모든 arr 값 더함

54

In [72]:
# [+] 행 방향으로 집계 (row sum)
np.sum(arr, axis=0) #행은 axis=0

array([14, 13, 13, 14])

In [73]:
# [+] 열 방향으로 집계 (column sum)
np.sum(arr, axis=1) #열은 axis=1

array([11, 24, 19])