## Numpy - Calculate
- basic calculate
- broadcasting
- functions
- performance

### 1. Basic calculation

In [1]:
import numpy as np

In [1]:
# list는 곱하기 하면 반복 연결
ls = [1, 2, 3]
ls * 3

[1, 2, 3, 1, 2, 3, 1, 2, 3]

In [2]:
# ndarray에서 '*'
na1 = np.array([1, 2, 3])
na1*3                        # numpy의 ndarray에 있는 magic method!

array([3, 6, 9])

In [4]:
na1-1

array([0, 1, 2])

In [5]:
na2 = np.array([4, 5, 6])

In [6]:
na1+na2 

array([5, 7, 9])

- vector/matrix간 곱하기(`*`) 연산: 같은 위치 원소끼리 곱함

In [13]:
na3 = np.arange(6).reshape(2,3)
na4 = np.arange(6, 12).reshape(2, 3)
print("array3 : \n{}".format(na3))
print("array3 : \n{}".format(na4)) 
print("multiplied : \n{}".format(na3*na4))

array3 : 
[[0 1 2]
 [3 4 5]]
array3 : 
[[ 6  7  8]
 [ 9 10 11]]
multiplied : 
[[ 0  7 16]
 [27 40 55]]


#### 비교연산

In [7]:
na1, na2

(array([1, 2, 3]), array([4, 5, 6]))

- array 내의 원소 비교연산

In [8]:
na1==2, na2>4

(array([False,  True, False]), array([False,  True,  True]))

- `all`: 전체리스트 비교하기 (원소별이 아니라 array 전체의 비교 연산)

In [4]:
na1 = np.array([1, 2, 3, 4, 5])
na2 = np.array([1, 3, 3, 4, 4])
na3 = np.array([1, 2, 3, 4, 5])
print(np.all(na1 == na2))
print(np.all(na1 == na3))

False
True


#### 필터링
- 방법: True / False 리스트를 offset으로 넣어주면 True인 데이터만 남음

In [5]:
na1[na1 == 2], na2[na2 > 4]

(array([2]), array([], dtype=int32))

In [6]:
# 3의 배수만 출력하기
na3 = np.arange(10)
print(na3)
na3[na3 % 3 == 0]

[0 1 2 3 4 5 6 7 8 9]


array([0, 3, 6, 9])

In [8]:
# 두 array를 위치별로 비교하여 필터링
ls1 = np.array([1, 2, 3, 4, 5])
ls2 = np.array([0, 1, 3, 0, 5])
ls1[ls1 == ls2]

array([3, 5])

### 2. Broadcasting

- matrix/vector에 scalar와 사칙연산을 하면 모든 요소에 해당 연산을 함

In [14]:
na = np.array([1, 2, 3])
na * 2

array([2, 4, 6])

In [20]:
na = np.array(range(12)).reshape(3, 4)
print("na: \n{}".format(na))
print("na+1: \n{}".format(na + 1))

na: 
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
na+1: 
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


- 행렬 + 행렬(행벡터): 행/열벡터를 행렬의 각 행/열에 더해줌

In [17]:
na1 = np.array(range(4))
print("na: \n{}".format(na))
print("na1: \n{}".format(na1))
print("sum: \n{}".format(na + na1))

na: 
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
na1: 
[0 1 2 3]
sum: 
[[ 0  2  4  6]
 [ 4  6  8 10]
 [ 8 10 12 14]]


In [19]:
na2 = np.array(range(3))[:, np.newaxis]  # 행/렬을 바꿔줌
print("na: \n{}".format(na))
print("na2: \n{}".format(na2))
print("sum: \n{}".format(na + na2))

na: 
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
na2: 
[[0]
 [1]
 [2]]
sum: 
[[ 0  1  2  3]
 [ 5  6  7  8]
 [10 11 12 13]]


### 3. Function

In [22]:
na = np.random.randint(10, size=(2, 3))
na

array([[1, 5, 2],
       [6, 4, 1]])

#### min, max, argmin, argmax

In [25]:
# argmin, argmax - 최소값, 최대값의 위치 index를 출력
print("최소값, 최대값: {}, {}".format(na.min(), na.max()))
print("최소값 index, 최대값 index: {}, {}".format(na.argmin(), na.argmax()))

최소값, 최대값: 1, 6
최소값 index, 최대값 index: 0, 3


#### sum, mean, median, std, var

- sum

In [26]:
na

array([[1, 5, 2],
       [6, 4, 1]])

In [30]:
np.sum(na)         # 모든 요소의 값을 더함

19

In [31]:
np.sum(na, axis=0) # 컬럼끼리 더해짐

array([7, 9, 3])

In [32]:
np.sum(na, axis=1) # 로우끼리 더해짐

array([ 8, 11])

- mean, median

In [33]:
np.mean(na), np.median(na)

(3.1666666666666665, 3.0)

#### all, any

In [45]:
na1 = np.array([1, 2, 3])
na2 = na1
na3 = np.array([1, 0, 3])
print("na1: {}".format(na1))
print("na2: {}".format(na2))
print("na3: {}".format(na3))

na1: [1 2 3]
na2: [1 2 3]
na3: [1 0 3]


- 단순 비교 연산: array의 각 요소끼리(같은 위치) 비교함

In [46]:
print(na1 == na2)
print(na2 == na3)

[ True  True  True]
[ True False  True]


- all: 하나라도 false이면 false (and 와 유사)  (값만 비교함, not 주소값)

In [42]:
print(np.all(na1 == na2))
print(np.all(na1 == na3))

True
False


- any: 하나라도 true이면 true (or 와 유사)

In [47]:
np.any(na == na2), np.any(na == na3) 

(True, True)

#### 4분위수

In [52]:
na = np.arange(0, 101)     # 1부터가 아니라 0부터로 넣어야 함을 주의
na

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100])

In [53]:
np.percentile(na, 25)

25.0

#### 지수함수와 로그함수

In [57]:
na = np.arange(1, 6)
na

array([1, 2, 3, 4, 5])

- 지수함수(exponential function) - scale up

In [59]:
# 밑이 e(오일러 넘버)인 지수함수
np.exp(na)

array([  2.71828183,   7.3890561 ,  20.08553692,  54.59815003,
       148.4131591 ])

- 로그함수 (log function) - scale down

In [63]:
# 밑이 e(오일러 넘버)인 로그함수
np.log(na)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

In [65]:
# 밑이 다른 로그함수는 다른 함수를 사용
np.log10(10), np.log2(2)

(1.0, 1.0)

### 4. Performance 비교

- list와 array에서 10**7 개의 리스트에서 3과 5의 배수의 개수를 찾는 시간 비교

In [73]:
ls = []
size = int(1E7) # (10의 7제곱)
ls = [num for num in range(size)]
len(ls)

10000000

In [68]:
na = np.arange(size)
len(na)

10000000

In [69]:
%%time
count = 0
for idx in ls:
    if (ls[idx] % 3 ==0) or (ls[idx] % 5 == 0):
        count += 1
count        

Wall time: 3.3 s


In [70]:
%%time
count = len(na[(na % 3 ==0) | (na % 5 ==0)])   # array를 필터링해서 요소의 개수 구함
count

Wall time: 295 ms


### 상관계수(correlation coefficient)
- Person correlation coefficient
- Spearman correlation coefficient

In [75]:
data1 = np.random.randint(10, size=20)
data1.sort()

data2 = np.random.randint(10, size=20)
data2.sort()

data3 = np.random.randint(10, size=20)
data3.sort()
data3 = data3[::-1]

print("data1: {}".format(data1))
print("data2: {}".format(data2))
print("data3: {}".format(data3))

data1: [2 2 3 4 4 4 5 5 6 6 6 6 7 7 7 7 8 8 8 9]
data2: [0 0 0 2 2 2 4 4 5 5 6 6 7 7 7 7 8 8 9 9]
data3: [9 8 8 8 7 6 6 6 6 4 4 4 2 2 2 1 0 0 0 0]


In [79]:
print("corr. matrix: \n{}".format(np.corrcoef(data1, data2)))
print("corr. value: {}".format(np.corrcoef(data1, data2)[0][1]))

corr. matrix: 
[[1.         0.98698617]
 [0.98698617 1.        ]]
corr. value: 0.9869861721712401


In [83]:
np.corrcoef(data1, data3)[0][1]

-0.9549735636194607

In [85]:
# random하게 만든 두 array는 관련성이 낮게 나옴
data4 = np.random.randint(10, size=20)
data5 = np.random.randint(10, size=20)
np.corrcoef(data4, data5)[0][1]

0.0815548793550683