## <strong>4. NumPy: Universal Functions (UFunc)</strong>

In [1]:
import numpy as np

In [2]:
# 역수 계산 함수
def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

# 함수 테스트
values = np.random.randint(1, 10, size=5)
print(values)
print(compute_reciprocals(values))

[2 3 8 8 2]
[0.5        0.33333333 0.125      0.125      0.5       ]


#### <strong>역수 계산: Python loop vs NumPy ufuncs</strong>
+ ```%timeit```: 셀 단위 코드 실행 시간을 측정하는 매직 함수

In [13]:
# [+] 백만 개 크기의 난수 배열 생성: 정수, 값 범위 [1, 100)
big_array = np.random.randint(1,100,size = 1000000)
big_array

array([44, 50, 49, ..., 26, 86,  7])

In [14]:
%%timeit

# [+] Python loop를 통한 역수 계산 
compute_reciprocals(big_array)

1.99 s ± 4.51 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [21]:
%%timeit

# [+] NumPy ufunc을 통한 벡터화된 역수 계산"
1 / big_array

1.3 ms ± 312 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


#### <strong>유니버설 함수들</strong>

In [15]:
# 난수 배열 2개 생성
np.random.seed(1)
arr1 = np.random.randint(10, size=5)
arr2 = np.random.randint(10, size=5)

print(arr1, arr2)

[5 8 9 5 0] [0 1 7 6 9]


In [19]:
# 배열-스칼라 연산
arr1 = arr1 - 2
print(arr1)

[ 3  6  7  3 -2]


In [18]:
# 배열-배열 연산
arr3 = arr1 + arr2
print(arr3)

[ 5  9 16 11  9]


In [17]:
# 다차원 배열 연산: 2차원 배열 ** 스칼라
arr4 = np.random.randint(10, size=(3, 5))
print(arr4)

arr5 = arr4 ** 2
print(arr5)

[[2 4 5 2 4]
 [2 4 7 7 9]
 [1 7 0 6 9]]
[[ 4 16 25  4 16]
 [ 4 16 49 49 81]
 [ 1 49  0 36 81]]


In [None]:
"""
    UFuncs: 산술 연산
"""

# 기본 산술 연산
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x ** 2 =", x ** 2)

# [+] 산술 연산에 대응하는 유니버설 함수
print("x + 5 =", np.add(x,5))
print("x - 5 =", np.subtract(x,5))
print("x * 2 =", np.multiply(x,2))
print("x / 2 =", np.divide(x,2))
print("x ** 2 =", np.power(x,2))


In [22]:
"""
    UFuncs: 절댓값 계산
"""

# [+] 절댓값 함수
x = np.array([-2, -1, 0, 1, 2])
np.abs(x)

array([2, 1, 0, 1, 2])

In [23]:
"""
    np.linspace(start, stop, num): 선형 간격 벡터 생성
        - start: 벡터의 시작 값
        - end: 벡터의 종료 값
        - num: 생성할 값의 개수
"""

# [+][0, 100]의 범위를 가지며, 균일한 간격의 5개의 값들로 구성되는 벡터를 생성
x = np.linspace(0,100,5)
x

array([  0.,  25.,  50.,  75., 100.])

In [29]:
# [+] [0, 100]의 범위를 가지며, [0, 10, 20, 30, ..., 100]와
# 같은 값들로 구성되는 벡터를 생성
x = np.linspace(0,100,11)
x

array([  0.,  10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100.])

In [30]:
# 삼각함수(trigonometric functions)
theta = np.linspace(0, np.pi, 3)

print(theta)
print(np.sin(theta))
print(np.cos(theta))
print(np.tan(theta))

[0.         1.57079633 3.14159265]
[0.0000000e+00 1.0000000e+00 1.2246468e-16]
[ 1.000000e+00  6.123234e-17 -1.000000e+00]
[ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [32]:
"""
    집계 함수: reduce()
"""

# 배열 생성
x = np.arange(1, 5)
x

array([1, 2, 3, 4])

In [34]:
# [+] 덧셈 연산으로 집계
aggr = np.sum(x)
aggr

10

In [35]:
# [+] 곱셈 연산으로 집계
aggr = np.prod(x)
aggr

24

In [37]:
"""
    집계 함수: accumulate()
"""

# [+] 덧셈 연산으로 집계
accum = np.add.accumulate(x)
accum

array([ 1,  3,  6, 10])

In [36]:
# [+] 곱셈 연산으로 집계
accum = np.multiply.accumulate(x)
accum

array([ 1,  2,  6, 24])

In [38]:
# 집계 함수: sum()
np.random.seed(3)
arr = np.random.rand(100000)# [+] 0~1 사이의 실수 형태의 난수 배열 생성

print(arr)
print("sum =", np.sum(arr))

[0.5507979  0.70814782 0.29090474 ... 0.12599742 0.94189543 0.89025983]
sum = 50103.284993937086


In [39]:
# sum(): Python 내장함수
%timeit sum(arr)

15 ms ± 21.5 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [40]:
# np.sum()
%timeit np.sum(arr) # 1000µs = 1ms

36.1 μs ± 2.26 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [52]:
# [+] 그 외의 집계함수
print("max =", np.max(arr))
print("min =", np.min(arr)) #0.00000000000134
print("mean =", np.mean(arr)) # 평균
print("median =", np.median(arr)) # 중간값
print("percentile =", np.percentile(arr,90)) #하위 90퍼센트에 해당되는 값(상위 10%)
print("variance =", np.var(arr)) # 분산
print("standard deviation =", np.std(arr)) #표준편차
print("index of maximum value =", np.argmax(arr)) #가장 큰 값의 인덱스
print("index of minimum value =", np.argmin(arr)) #가장 작은 값의 인덱스
print("Is there any number greater than 1? =", np.any(arr > 1)) # 1보다 큰 값이 존재하는가?
print("Is every number greater than 0? =", np.all(arr > 0))  # 모든 원소들이 0보다 큰가?

max = 0.9999992160832805
min = 1.4735641223229123e-05
mean = 0.5010328499393709
median = 0.5003519408181236
percentile = 0.9017140534612551
variance = 0.08350870181114514
standard deviation = 0.28897872207334774
index of maximum value = 27132
index of minimum value = 4040
Is there any number greater than 1? = False
Is every number greater than 0? = True


In [53]:
"""다차원 집계"""

# 2차원 난수 배열 생성
np.random.seed(0)
arr = np.random.randint(10, size=(3, 4))
arr

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [54]:
# [+] 행 방향으로 집계 (row sum)
np.sum(arr,axis=0)

array([14, 13, 13, 14])

In [55]:
# [+] 열 방향으로 집계 (column sum)
np.sum(arr,axis=1)

array([11, 24, 19])