# **NumPy - Calculate**

NumPy를 이용해 배열의 연산을 하는 기본적인 방법에 대해 알아보자. 면면이 파고들어가면 공부할 내용이 많은 부분이지만 여기서는 우선 기초적인 내용만을 다뤄보자! 

#### 다룰 내용
1. Basic calculate
2. Broadcasting
3. Functions
4. Performance 비교

In [1]:
import numpy as np

## **1. Basic calculation**

### 1.1 사칙연산

먼저 간단하게 list와 numpy에서 계산이 어떻게 다른지 비교해보자. <br>
list 자료형에서는 더하기(`+`)는 2개의 리스트를 합치는 기능을 하고, 곱하기(`*`)를 사용하면 곱한 수만큼 element를 반복해서 연결한 list를 만들어낸다.

In [7]:
ls = [1, 2, 3]
print(ls + ls)
print(ls * 3)

[1, 2, 3, 1, 2, 3]
[1, 2, 3, 1, 2, 3, 1, 2, 3]


반면, NumPy에서 `*`, `+`, `-` 등 연산자는 ndarray에 있는 magic method로, list와는 달리 각 element에 해당 계산을 해준다.

In [9]:
na1 = np.array([1, 2, 3])
na1 * 3

array([3, 6, 9])

In [4]:
na1 - 1

array([0, 1, 2])

In [6]:
na2 = np.array([4, 5, 6])
na1 + na2 

array([5, 7, 9])

NumPy에서 vector나 matrix간에 사칙연산을 하면, 같은 위치의 원소끼리 계산이 이뤄진다. 이렇게 되려면 당연하게도 계산하려는 vector나 matrix가 형태가 같아야 한다. 

In [14]:
na3 = np.arange(6).reshape(2,3)
na4 = np.arange(6, 12).reshape(2, 3)
print("array3 : \n{}".format(na3))
print("array3 : \n{}".format(na4)) 
print("multiplied : \n{}".format(na3*na4))

array3 : 
[[0 1 2]
 [3 4 5]]
array3 : 
[[ 6  7  8]
 [ 9 10 11]]
multiplied : 
[[ 0  7 16]
 [27 40 55]]


### 1.2 비교연산

NumPy에서는 다음과 같이 비교연산이 가능하다.

#### (1) array 내의 원소 비교연산

In [19]:
print("na1:", na1)
print("na2:", na2)

print(na1 == 2)
print(na2 > 4)

na1: [1 2 3 4 5]
na2: [1 3 3 4 4]
[False  True False False False]
[False False False False False]


#### (2) `all`: 전체리스트 비교하기 (원소별이 아니라 array 전체의 비교 연산)

In [20]:
na1 = np.array([1, 2, 3, 4, 5])
na2 = np.array([1, 3, 3, 4, 4])
na3 = np.array([1, 2, 3, 4, 5])

print(np.all(na1 == na2))
print(np.all(na1 == na3))

False
True


### 1.3 필터링
비교연산 등을 통한 True / False 리스트를 offset으로 넣어주면 True인 데이터만 필터링할 수 있다.

In [22]:
print("na1:", na1)
print("na2:", na2)

print(na1[na1 == 2])
print(na2[na2 > 4])

na1: [1 2 3 4 5]
na2: [1 3 3 4 4]
[2]
[]


In [23]:
# 3의 배수만 출력하기
na3 = np.arange(10)
print(na3)
print(na3[na3 % 3 == 0])

[0 1 2 3 4 5 6 7 8 9]
[0 3 6 9]


In [24]:
# 두 array를 위치별로 비교하여 필터링
ls1 = np.array([1, 2, 3, 4, 5])
ls2 = np.array([0, 1, 3, 0, 5])
ls1[ls1 == ls2]

array([3, 5])

## **2. Broadcasting**

### 2.1 vector/matrix와 scalar의 사칙연산
vector/matrix의 각 element에 해당 연산을 수행한다.

In [26]:
na = np.array([1, 2, 3])
na * 2

array([2, 4, 6])

In [29]:
na = np.array(range(12)).reshape(3, 4)
print("na: \n{} \n".format(na))
print("na에 + 1을 하면: \n{}".format(na + 1))

na: 
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 

na에 + 1을 하면: 
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


### 2.2 matrix와 vector의 사칙연산
행/열 vector를 matrix의 각 행/열에 연산한다.

In [30]:
na1 = np.array(range(4))
print("na: \n{}\n".format(na))
print("na1: \n{}\n".format(na1))
print("na + na1: \n{}".format(na + na1))

na: 
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

na1: 
[0 1 2 3]

na + na1: 
[[ 0  2  4  6]
 [ 4  6  8 10]
 [ 8 10 12 14]]


In [31]:
na2 = np.array(range(3))[:, np.newaxis]  # `np.newaxis` 행/렬을 바꿔줌
print("na: \n{}\n".format(na))
print("na2: \n{}\n".format(na2))
print("na + na2: \n{}".format(na + na2))

na: 
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

na2: 
[[0]
 [1]
 [2]]

na + na2: 
[[ 0  1  2  3]
 [ 5  6  7  8]
 [10 11 12 13]]


## **3. Function**

### 3.1 min, max, argmin, argmax
- min, max: 최소값, 최대값
- argmin, argmax: 최소값, 최대값의 위치 index

In [2]:
na = np.random.randint(10, size=(2, 3))
na

array([[5, 4, 5],
       [9, 4, 6]])

In [5]:
print("최소값, 최대값: {}, {}".format(na.min(), na.max()))

최소값, 최대값: 4, 9


In [4]:
print("최소값 index, 최대값 index: {}, {}".format(na.argmin(), na.argmax()))

최소값 index, 최대값 index: 1, 3


### 3.2 sum, mean, median, std, var

#### (1) sum

In [6]:
na

array([[5, 4, 5],
       [9, 4, 6]])

In [7]:
print(np.sum(na))          # 모든 요소의 값을 더함
print(np.sum(na, axis=0))  # 컬럼끼리 더해짐 (0번째 축인 행 방향으로 더함)
print(np.sum(na, axis=1))  # 로우끼리 더해짐 (1번째 축인 열 방향으로 더함)

33
[14  8 11]
[14 19]


#### (2) mean, median

In [8]:
print(np.mean(na))
print(np.median(na))

5.5
5.0


#### (3) std, var

In [9]:
print(np.std(na))
print(np.var(na))

1.707825127659933
2.9166666666666665


### 3.3 all, any

- 단순 비교연산: array의 각 요소끼리(같은 위치) 비교함
- `all`: 하나라도 false이면 false (and 와 유사)  (값만 비교함, not 주소값)
- `any`: 하나라도 true이면 true (or 와 유사)

In [45]:
na1 = np.array([1, 2, 3])
na2 = na1
na3 = np.array([1, 0, 3])
print("na1: {}".format(na1))
print("na2: {}".format(na2))
print("na3: {}".format(na3))

na1: [1 2 3]
na2: [1 2 3]
na3: [1 0 3]


In [46]:
# 단순 비교연산
print(na1 == na2)
print(na2 == na3)

[ True  True  True]
[ True False  True]


In [42]:
# all
print(np.all(na1 == na2))
print(np.all(na1 == na3))

True
False


In [38]:
# any
print(np.any(na == na2))
print(np.any(na == na3))

False
False


  
  This is separate from the ipykernel package so we can avoid doing imports until


### 3.4 분위수

In [39]:
# 100등분을 해야하기 때문에 1이 아니라 0부터 시작되어야 함
na = np.arange(0, 101)     
na

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100])

In [40]:
np.percentile(na, 25)    # 4분위수

25.0

### 3.5 지수함수와 로그함수

In [41]:
na = np.arange(1, 6)
na

array([1, 2, 3, 4, 5])

#### (1) 지수함수(exponential function) - scale up

In [42]:
# 밑이 e(오일러 넘버)인 지수함수
np.exp(na)

array([  2.71828183,   7.3890561 ,  20.08553692,  54.59815003,
       148.4131591 ])

#### (2) 로그함수(log function) - scale down

In [43]:
# 밑이 e(오일러 넘버)인 로그함수
np.log(na)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

In [44]:
# 밑이 다른 로그함수는 다른 함수를 사용
np.log10(10), np.log2(2)

(1.0, 1.0)

## **4. Performance 비교**

list에 비해 numpy array의 연산 속도가 정말 더 빠른지, 10**7 까지의 리스트에서 3과 5의 배수의 개수를 찾는 연산에 걸리는 시간을 비교해보자

In [45]:
ls = []
size = int(1E7) # (10의 7제곱)
ls = [num for num in range(size)]
len(ls)

10000000

In [46]:
na = np.arange(size)
len(na)

10000000

In [69]:
%%time
count = 0
for idx in ls:
    if (ls[idx] % 3 ==0) or (ls[idx] % 5 == 0):
        count += 1
count        

Wall time: 3.3 s


In [70]:
%%time
count = len(na[(na % 3 ==0) | (na % 5 ==0)])   # array를 필터링해서 요소의 개수 구함
count

Wall time: 295 ms


테스트 결과 list에서 3과 5의 배수 개수를 찾는데는 3.3초, numpy array에서는 295 ms가 걸렸다. 단순 비교했을 때 numpy 연산이 10배 이상 빨랐던 것!

#### 참고자료
- NumPy v1.16 Manual [(https://docs.scipy.org/doc/numpy/index.html)](https://docs.scipy.org/doc/numpy/index.html)
- 패스트캠퍼스, ⟪데이터사이언스스쿨 8기⟫ 수업자료