# 기본 UFuncs (Universal Functions)

- Python은 수많은 작은 연산이 반복되는 상황에서 확실히 느림
- 배열 연산은 아주 빠르거나 아주 느릴수 있음
- 연산을 빠르게 하는 핵심은 **벡터화연산(Vectorized)** 사용
- 벡터화연산은 Numpy의 **Ufuncs(Universal Functions)**을 사용

###### 예) Python 연산의 실행 시간 체크 ( 역수 출력 )

In [95]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output
        
values = np.random.randint(1, 10, size=5)
compute_reciprocals(values)

array([0.33333333, 0.5       , 0.33333333, 0.2       , 0.11111111])

- size가 5인 연산은 빨리 이뤄지지만, 1,000,000인 연산은 오래 걸림

In [2]:
big_array = np.random.randint(1, 100, size=1000000)
%timeit compute_reciprocals(big_array)

1.75 s ± 20.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


- 오래 걸리는 이유 
  - 연산이 병목이 생기지는 않음
  - 그러나, 루프의 사이클마다 수행하는 타입확인과 함수 디스패치에서 발생함
  - 즉, 역수가 계산될 때마다 수행하는 일
    - 객체의 타입확인
    - 해당 타입에 맞게 사용할 적절한 함수를 동적으로 검색
 

## =>> UFuncs(Universal Functions)를 이용하여 실행시간 단축!! 벡터화연산!!!

* 벡터화 연산 : 정적 타입체계를 가진 컴파일된 루틴에 편리한 인터페이스를 제공 하여 계산함

In [6]:
#일반 Python 연산
print(compute_reciprocals(values))

# UFuncs를 이용한 연산
print(1.0 / values)

# 동일한 결과를 보임

[0.16666667 1.         0.25       0.25       0.125     ]
[0.16666667 1.         0.25       0.25       0.125     ]


In [4]:
%timeit (1.0 / big_array)

2.62 ms ± 67.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### 기본 산술 연산 UFuncs
The following table lists the arithmetic operators implemented in NumPy:

| Operator	    | Equivalent ufunc    | Description                           |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Addition (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |Subtraction (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |Unary negation (e.g., ``-2``)          |
|``*``          |``np.multiply``      |Multiplication (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |Division (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |Floor division (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Exponentiation (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |Modulus/remainder (e.g., ``9 % 4 = 1``)|

###### 예) 산술연산  UFuncs

In [8]:
x = np.arange(5)
print(x)

[0 1 2 3 4]


In [14]:
# 배열의 각 데이터에 10을 더하여 출력
print(x + 10)
print(np.add(x,10))

[10 11 12 13 14]
[10 11 12 13 14]


In [16]:
# 배열의 각 데이터를 음수로 변환
print(-x)

[ 0 -1 -2 -3 -4]


### 절대값 함수 UFuncs
* python 내장 산술연산자 : `abs()`
* **Numpy ufuncs : `np.absolute()` or `np.abs()`**

###### 예) 절대값  UFuncs

In [17]:
x = np.arange(-5,5)
print(x)

[-5 -4 -3 -2 -1  0  1  2  3  4]


In [19]:
# python 내장 산술연산자
print(abs(x))

[5 4 3 2 1 0 1 2 3 4]


In [23]:
# Numpy ufuncs 
print(np.absolute(x))
print(np.abs(x))

[5 4 3 2 1 0 1 2 3 4]
[5 4 3 2 1 0 1 2 3 4]


### 삼각 함수 UFuncs
- 삼각함수 
  * sin : `np.sin()`
  * cos : `np.cos()`
  * tan : `np.tan()`
- 역삼각함수 
  * arcsin : `np.arcsin()`
  * arccos : `np.arccos()`
  * arctan : `np.arctan()`

###### 예) 삼각함수

In [25]:
theta = np.linspace(0, np.pi, 3)

In [26]:
print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

theta      =  [0.         1.57079633 3.14159265]
sin(theta) =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta) =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta) =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


### 지수와 로그 UFuncs
- 지수
  * e^x : `np.exp(x)`
  * 2^x : `np.exp2(x)`
  * n^x : `np.power(n,x)`
- 로그
  * ln(x) : `np.log(x)`
  * log2(x) : `np.log2(x)`
  * log10(x) : `np.log10(x)`

###### 예) 지수 함수

In [30]:
x = [1, 2, 3]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.exp2(x))
print("3^x   =", np.power(3, x))
print("10^x   =", np.power(10, x))

x     = [1, 2, 3]
e^x   = [ 2.71828183  7.3890561  20.08553692]
2^x   = [2. 4. 8.]
3^x   = [ 3  9 27]
10^x   = [  10  100 1000]


###### 로그함수

In [33]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

x        = [1, 2, 4, 10]
ln(x)    = [0.         0.69314718 1.38629436 2.30258509]
log2(x)  = [0.         1.         2.         3.32192809]
log10(x) = [0.         0.30103    0.60205999 1.        ]


# 특화된 UFuncs (Universal Functions)

- 쌍곡선 삼각함수, 비트연산, 비교 연산자, 라디안을 각도로 변환, 반올림과 나머지 등등 UFunc가 많이 존재함
- 이러한 유용한 함수(잘 알려지지 않은 수학함수)들은 **scipy.special** 서브모듈에 있음
- scipy.special DOC 
  - https://docs.scipy.org/doc/scipy/reference/special.html

# 고급 UFuncs (Universal Functions)

### 출력 지정
- out 파리미터에 출력 할 변수 명 입력
- ex) `numpy.multiply(x1, x2, /, out=None, *, where=True, casting='same_kind', order='K', dtype=None, subok=True[, signature, extobj]) = <ufunc 'multiply'>`
  - out=None 이 기본값임, None 대신 변수명 입력


###### 예) 출력지정

In [35]:
# 계산을 위한 배열 선언
x = np.arange(5)
# 출력을 위한 빈 배열 생성
y = np.empty(5)
# out=y 로 선언하여 결과를 y변수에 저장
np.multiply(x, 10, out=y)

print(y)

[ 0. 10. 20. 30. 40.]


### 집계
- reduce 메서드 : 직접 연산할 수 있는 ufunc의 최종 결과를 반환
  - `ufunc.reduce(a, axis=0, dtype=None, out=None, keepdims=False, initial)`


###### 예) 집계 

In [59]:
a = np.multiply.reduce([2,3,5,6,8])
print(a)

# UFuncs 를 func 변수에 객체로 할당하여 함수로 사용
func = np.multiply
print(type(func))
print(func.reduce([2,3,5,6,8]))

1440
<class 'numpy.ufunc'>
1440


In [43]:
b = np.multiply(2,3)
print(b)
print(type(b))

6
<class 'numpy.int64'>


* accumulate 메서드 : 계산 중간 결과를 모두 기록하여 결과 반환
  * `ufunc.accumulate(array, axis=0, dtype=None, out=None)`

In [60]:
hist = np.multiply.accumulate([2,3,5,6,8])
print(hist)

[   2    6   30  180 1440]


### 내장 집계 함수 
- 대용량 데이터에 대한 요약 통계에 대한 결과를 확인하기 좋음
- 보편적인 통계수치인 평균, 표준편차, 합, 곱, 중앙값, 최솟값, 최댓값 분위 수 등등

###### 배열의 값의 합 구하기

* python buitlin function : `sum()`
* Numpy UFuncs : `np.sum()`

In [64]:
print(type(sum))

<class 'builtin_function_or_method'>


In [65]:
L = np.random.random(100)
print(sum(L))

50.461758453195614


In [66]:
print(np.sum(L))

50.46175845319564


* 내장 함수와 UFuncs 은 동일한 결과를 보이지만 대용량 데이터로 연산을 한다면 실행 시간의 차이를 보임

In [71]:
# 대용량 데이터 선언(1억개 데이터 랜덤 생성)
bigL = np.random.random(100000000)

In [72]:
# sum()
%timeit sum(bigL)

7.5 s ± 49.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [73]:
# np.sum()
%timeit np.sum(bigL)

54.4 ms ± 901 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


###### 최솟값, 최대값 구하기
* python buitlin function : `min()` , `max()`
* Numpy UFuncs : `np.min()` , `np.max()`

* **내장함수 사용**

In [75]:
print(type(min))
print(type(max))

<class 'builtin_function_or_method'>
<class 'builtin_function_or_method'>


In [81]:
import time
startTime = time.time()

print(min(bigL))

endTime = time.time() - startTime
print("min () time : ",endTime)

2.977194046849263e-10
min () time :  5.244752883911133


In [82]:
startTime = time.time()

print(max(bigL))

endTime = time.time() - startTime
print("max() time : ",endTime) 

0.9999999947174169
max() time :  5.258354902267456


* **UFuncs 사용**
  - np.min , np.max, np.sum으로 사용
  - 배열 메소드 를 이용하여 UFuncs를 사용 가능 => array.min() , array.max() ...

In [98]:
print(type(np.min))
print(type(np.max))

<class 'function'>
<class 'function'>


In [99]:
startTime = time.time()

print(np.min(bigL))

endTime = time.time() - startTime
print("np.min() time : ",endTime) 

2.977194046849263e-10
np.min() time :  0.05838894844055176


In [100]:
startTime = time.time()

print(np.max(bigL))

endTime = time.time() - startTime
print("np.max() time : ",endTime) 

0.9999999947174169
np.max() time :  0.0616459846496582


In [101]:
# np.min() 을 배열 메소드로 실행
startTime = time.time()

print(bigL.min())

endTime = time.time() - startTime
print("array.min() time : ",endTime) 

2.977194046849263e-10
array.min() time :  0.0614168643951416


In [102]:
# np.max() 을 배열 메소드로 실행
startTime = time.time()

print(bigL.max())

endTime = time.time() - startTime
print("array.max() time : ",endTime) 

0.9999999947174169
array.max() time :  0.06118917465209961


### 다차원 배열 집계

In [104]:
arr = np.random.random(size=[4,6])
print(arr)

[[0.52279556 0.94693092 0.18726122 0.79322586 0.22088711 0.54412077]
 [0.62516209 0.3775567  0.18980704 0.65602769 0.09533963 0.09371985]
 [0.30735446 0.93249309 0.6075084  0.87078705 0.53174359 0.25776996]
 [0.77412035 0.1831583  0.21730025 0.89195747 0.79372958 0.1801818 ]]


In [106]:
startTime = time.time()

print(arr.sum())

endTime = time.time() - startTime
print("time : ",endTime) 

11.800938763282717
time :  0.0001838207244873047


In [110]:
startTime = time.time()

print(arr.min(axis=0))

endTime = time.time() - startTime
print("time : ",endTime) 

print("--------------------")

startTime = time.time()

print(arr.min(axis=1))

endTime = time.time() - startTime
print("time : ",endTime) 

[0.30735446 0.1831583  0.18726122 0.65602769 0.09533963 0.09371985]
time :  0.0007207393646240234
--------------------
[0.18726122 0.09371985 0.25776996 0.1801818 ]
time :  0.0002639293670654297


In [108]:
startTime = time.time()

print(arr.max())

endTime = time.time() - startTime
print("time : ",endTime) 

0.946930920844582
time :  0.0004112720489501953


### Numpy 에서 사용가능한 집계 함수
The following table provides a list of useful aggregation functions available in NumPy:

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |

###### 예) 집계 

In [111]:
import pandas as pd
data = pd.read_csv('data/president_heights.csv')
heights = np.array(data['height(cm)'])
print(heights)

[189 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173
 174 183 183 168 170 178 182 180 183 178 182 188 175 179 183 193 182 183
 177 185 188 188 182 185]


In [None]:
print("Mean height:       ", heights.mean())
print("Standard deviation:", heights.std())
print("Minimum height:    ", heights.min())
print("Maximum height:    ", heights.max())