# 26. Numpy and Array

- 수치 data 를 다루는데 효율적이고 높은 성능 제공

- 각종 수학적 함수 제공

- Python scientific library 들이 Numpy 기반으로 구축

### ndarray

- n-dimensional array (다차원 배열 객체) 로 구성 

In [1]:
import numpy as np

### 스칼라

In [2]:
x = 6
x

6

## 벡터 (vector)

In [3]:
x = np.array([1,2,3])
x

array([1, 2, 3])

In [4]:
print("vector dimension {}".format(x.shape))
print("vector size = number of elements {}".format(x.size))
print("data type {}".format(type(x)))

vector dimension (3,)
vector size = number of elements 3
data type <class 'numpy.ndarray'>


### vector 간의 연산

<img src="vectorAdd.png" width=400>

In [5]:
u = np.array([1, 0])
v = np.array([0, 1])

z = u + v
z

array([1, 1])

### vector 의 스칼라 곱

<img src="vectorMultiple.png" width=200>

In [6]:
y = np.array([1, 2])
z = 2 * y
z

array([2, 4])

### vector 간의 곱셈

<img src="vectorProduct.png" width=450>

In [7]:
u = np.array([1, 2])
v = np.array([3, 2])
z = u * v
z

array([3, 4])

## vector 간의 내적 (inner product, dot product)

- 내적이 되려면 두 벡터의 dimension 이 같아야 한다. 내적은 각 element 의 곱을 모두 더한 것이다.

- vector 의 내적은 scalar 가 된다.

<img src="dotProduct.png" width=450>

In [8]:
u = np.array([1, 2])
v = np.array([3, 1])
z = np.dot(u, v)
z

5

In [9]:
a = np.array([2,5,1]).reshape(-1,1)
a

array([[2],
       [5],
       [1]])

In [10]:
b = np.array([4,3,5]).reshape(-1,1)
b

array([[4],
       [3],
       [5]])

$\mathbf{a}^T\mathbf{b} = \begin{bmatrix} 2 & 5 & 1\end{bmatrix}\begin{bmatrix}4\\3\\5\end{bmatrix} = \begin{bmatrix}2*4 + 5*3 + 1*5\end{bmatrix} = 28$

In [11]:
# a, b 의 내적 ==> scalar 
np.dot(a.T, b)

array([[28]])

### norm (노름, 벡터의 길이)
inner product 은 vector 의 길이를 구할 때에도 사용된다. 벡터 a 의 길이는 $\|a\|$ 로 나타내며,

$$\|\mathbf{a}\| = \sqrt{\mathbf{a}^T\mathbf{a}}$$

In [12]:
np.sqrt(np.dot(a.T, a))

array([[5.47722558]])

In [13]:
np.linalg.norm(a)

5.477225575051661

## matrix

In [14]:
y = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(y)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [15]:
print("array dimension {}".format(y.shape))
print("array size {}".format(y.size))

array dimension (3, 3)
array size 9


In [16]:
# 주어진 dimension 의 matrix 정의
x = np.ones((2,3))
print(x)

[[1. 1. 1.]
 [1. 1. 1.]]


In [17]:
print("array dimension {}".format(x.shape))
print("array size {}".format(x.size))

array dimension (2, 3)
array size 6


In [18]:
x = np.ones((3,3,3))
print(x)

[[[1. 1. 1.]
  [1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]
  [1. 1. 1.]]]


In [19]:
print("array dimension {}".format(x.shape))
print("array size {}".format(x.size))
print("array length {}".format(len(x)))

array dimension (3, 3, 3)
array size 27
array length 3


## matrix 의 Indexing / Slicing

<img src="axes.png" width="500">

<img src="numpy.png" width="300">



<img src="tensor.jpg" width="400">

<img src="numpy1.png" width="300">

In [20]:
arr = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [21]:
arr[:2, 1:]

array([[2, 3],
       [5, 6]])

In [22]:
arr[2]

array([7, 8, 9])

In [23]:
arr[2, :]

array([7, 8, 9])

In [24]:
arr[2:, :]

array([[7, 8, 9]])

In [25]:
arr[:, :2]

array([[1, 2],
       [4, 5],
       [7, 8]])

In [26]:
arr[1, :2]

array([4, 5])

In [27]:
arr[1:2, :2]

array([[4, 5]])

## Boolean Indexing

In [28]:
x = np.array([-2, 0, 4, 6, -8, 5, 9, 2])

x < 0

array([ True, False, False, False,  True, False, False, False])

In [29]:
x[x < 0]

array([-2, -8])

## Fancy Indexing

- 정수나 불린(Boolean) 값을 가지는 다른 Numpy 배열로 배열을 인덱싱할 수 있는 기능


<img src="fancyindex.png" width="500">

In [30]:
arr = np.empty((12, 5))

for i in range(arr.shape[0]):
    for j in range(arr.shape[1]):
        arr[i, j] = i + j
        
print(arr)

[[ 0.  1.  2.  3.  4.]
 [ 1.  2.  3.  4.  5.]
 [ 2.  3.  4.  5.  6.]
 [ 3.  4.  5.  6.  7.]
 [ 4.  5.  6.  7.  8.]
 [ 5.  6.  7.  8.  9.]
 [ 6.  7.  8.  9. 10.]
 [ 7.  8.  9. 10. 11.]
 [ 8.  9. 10. 11. 12.]
 [ 9. 10. 11. 12. 13.]
 [10. 11. 12. 13. 14.]
 [11. 12. 13. 14. 15.]]


In [31]:
print(arr[[2, 4, 6, 8]])    # arr 의  2, 4, 6, 8 row 선택

[[ 2.  3.  4.  5.  6.]
 [ 4.  5.  6.  7.  8.]
 [ 6.  7.  8.  9. 10.]
 [ 8.  9. 10. 11. 12.]]


## matrix 간의 연산 (Element-wise)

<img src="matrixAdd.png" width=450>

In [32]:
x = np.array([[1, 0], [0, 1]])
y = np.array([[2, 1], [1, 2]])

print(x + y)

[[3 1]
 [1 3]]


<img src="matrixMult.png" width=450>

In [33]:
y = np.array([[2, 1], [1, 2]])
2 * y

array([[4, 2],
       [2, 4]])

### broadcasting

- 서로 dimension 이 다른 두개의 array 를 연산할 때 더 큰 쪽의 axes 에 작은 쪽 array 를 반복시켜 match 시키는 것

<img src="broadcasting.png" width="350">

In [34]:
a = np.array([1, 2, 3, 4])
b = 1
print(a + b)

[2 3 4 5]


In [35]:
a = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]])
b = np.array([0, 1, 2])
print(a + b)

[[ 0  2  4]
 [ 3  5  7]
 [ 6  8 10]
 [ 9 11 13]]


In [36]:
a = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11]])
b = np.array([[0], [1], [2], [3]])

print(np.add(a, b))

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [37]:
print(a * b)

[[ 0  0  0]
 [ 3  4  5]
 [12 14 16]
 [27 30 33]]


In [38]:
np.multiply(a, b)

array([[ 0,  0,  0],
       [ 3,  4,  5],
       [12, 14, 16],
       [27, 30, 33]])

In [39]:
print(a - b)
print()
print(np.subtract(a, b))

[[0 1 2]
 [2 3 4]
 [4 5 6]
 [6 7 8]]

[[0 1 2]
 [2 3 4]
 [4 5 6]
 [6 7 8]]


In [40]:
c = np.array([[1, 2], [1, 2]])
print(c)

[[1 2]
 [1 2]]


In [41]:
print(a - c)

ValueError: operands could not be broadcast together with shapes (4,3) (2,2) 

## matrix 곱셈 (행렬 곱셈, dot product)

### 두 행렬 A 와 B 는 A 의 열(column) 갯수가 B 의 행(row) 갯수와 같을 때 곱할 수 있다. 결과 행렬 C 의 shape 은 A 의 row x B 의 column 이 된다.

<img src="matmul2.png" width="250">
<img src="matmul.png" width="250">

$$\mathbf{A} = \begin{bmatrix}2&5&1\\4&5&3\end{bmatrix} \text{ and } \mathbf{B}=\begin{bmatrix}4&3&5&7\\9&5&3&4\\5&3&6&7\end{bmatrix}$$
$$\mathbf{AB} = \begin{bmatrix}2*4+5*9+1*5&2*3+5*5+1*3&2*5+5*3+1*6&2*7+5*4+1*7\\4*4+5*9+3*5&4*3+5*5+3*3&4*5+5*3+3*6&4*7+5*4+3*7\end{bmatrix}$$

In [42]:
a = np.array([[2, 1], [1, 4]])
b = np.array([[1, 2, 0], [0, 1, 2]])
print(a.shape)
print(b.shape)
print(np.matmul(a, b))

(2, 2)
(2, 3)
[[2 5 2]
 [1 6 8]]


In [43]:
print(a@b)

[[2 5 2]
 [1 6 8]]


In [44]:
print(a.dot(b))

[[2 5 2]
 [1 6 8]]


### 전치행렬 (Transposed Matrix)

In [45]:
# matrix transpose
A = np.arange(9).reshape((3,3))
print(A)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [46]:
print(A.T)

[[0 3 6]
 [1 4 7]
 [2 5 8]]


In [47]:
A = np.array(range(10)).reshape((2,5))
print(A)

[[0 1 2 3 4]
 [5 6 7 8 9]]


In [48]:
B = A.T
print(B)

[[0 5]
 [1 6]
 [2 7]
 [3 8]
 [4 9]]


In [49]:
print(A.shape)
print(B.shape)

(2, 5)
(5, 2)


### 특수 행렬

In [50]:
# 대각행렬 (diagonal matrix) : row, column 수가 같을 필요는 없고 대각선 element 만 non-zero 인 행렬
D = np.array([[4,0,0,0],[0,3,0,0],[0,0,7,0]])
print(D)

[[4 0 0 0]
 [0 3 0 0]
 [0 0 7 0]]


In [51]:
# 단위행렬 (identity matrix) : row, column 수가 같고 대각선이 1 인 행렬. I 로 표시한다.
I = np.eye(4)
print(I)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [52]:
# 어떤 행렬에 단위행렬을 곱하면 본래의 행렬이 된다. (단, dimension 은 맞아야 함)
print(np.dot(D, I))

[[4. 0. 0. 0.]
 [0. 3. 0. 0.]
 [0. 0. 7. 0.]]


In [53]:
# 대칭행렬 (symetric matrix) : 정방형이고 자신의 전치행렬과 동일한 행렬
A = np.array([[1,2,3],[2,3,5],[4,5,6]])
print(A)
print()
print(A.T)

[[1 2 3]
 [2 3 5]
 [4 5 6]]

[[1 2 4]
 [2 3 5]
 [3 5 6]]


### 다차원 배열(array)을 1차원 배열로 변환

In [54]:
print(A.ravel())

[1 2 3 2 3 5 4 5 6]


In [55]:
# tensors
A = np.ones((3,3,3,3,3,3,3,3,3,3))
print(A.shape)
print(len(A))
print(len(A.shape))
print(A.size)

(3, 3, 3, 3, 3, 3, 3, 3, 3, 3)
3
10
59049


### L1 norm 과 L2 norm

$$\mathbf{x} = \begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}$$

L1 norm - vector 의 각각 요소의 절대치의 합 --> 각 요소의 크기의 합

$$\|x\|_1 = \sum_{r=1}^{n}|x_r|$$

L2 norm - vector 의 각각 요소의 제곱의 합의 루트 값 --> 원점과 해당 vector 의 거리

$$\|x\|_2 = \sqrt{\sum_{k=1}^{n}|x_k|^2}$$

In [56]:
# L1 norm
x1 = np.array([1,2,3,4]).reshape(-1,1)
x1

array([[1],
       [2],
       [3],
       [4]])

In [57]:
l1 = np.sum(np.abs(x1))
l1

10

In [58]:
# L2 norm
sum = np.sum(x1**2)
l2 = np.sqrt(sum)
l2

5.477225575051661

## random value

``np.random.random_sample((n, m))``  -  [0.0, 1.0)  사이의 random 숫자   
- alias :   
``np.random.random((n, m))``  
``np.random.rand (n, m)`` : parameter 받는 형식만 차이. 결과 동일(Matlab 사용자들을 위한 편의 제공)


``np.random.randn`` - 표준정규분포의 random 숫자

In [63]:
np.random.seed(10)

In [64]:
print(np.random.random_sample((3, 2)))
print()
print(np.random.random((3, 2)))                # alias of random_sample

[[0.77132064 0.02075195]
 [0.63364823 0.74880388]
 [0.49850701 0.22479665]]

[[0.19806286 0.76053071]
 [0.16911084 0.08833981]
 [0.68535982 0.95339335]]


In [65]:
np.random.rand(3, 2)                             # same as random.random_sample

array([[0.00394827, 0.51219226],
       [0.81262096, 0.61252607],
       [0.72175532, 0.29187607]])

In [66]:
np.random.randn(3, 2)

array([[ 0.22863013,  0.44513761],
       [-1.13660221,  0.13513688],
       [ 1.484537  , -1.07980489]])

## np.linspace()

np.linspace(start, end, num)  - [start, end] 를 균일한 간격으로 num 개 element 생성

In [67]:
arr = np.linspace(0, 20, 30)
arr

array([ 0.        ,  0.68965517,  1.37931034,  2.06896552,  2.75862069,
        3.44827586,  4.13793103,  4.82758621,  5.51724138,  6.20689655,
        6.89655172,  7.5862069 ,  8.27586207,  8.96551724,  9.65517241,
       10.34482759, 11.03448276, 11.72413793, 12.4137931 , 13.10344828,
       13.79310345, 14.48275862, 15.17241379, 15.86206897, 16.55172414,
       17.24137931, 17.93103448, 18.62068966, 19.31034483, 20.        ])

##  View and Copy

- slicing 의 결과는 View 이다. 따라서 view 를 수정하면 원래의 data 가 수정된다.
- slicing 의 결과를 다른 object 만드려면 ``copy( )`` 사용

In [74]:
arr = np.array([[10, 20, 30], [40, 50, 60]])
arr

array([[10, 20, 30],
       [40, 50, 60]])

In [75]:
arr2 = arr[1]
arr2

array([40, 50, 60])

In [76]:
arr2[:] = 80
arr2

array([80, 80, 80])

In [77]:
arr

array([[10, 20, 30],
       [80, 80, 80]])

In [78]:
arr2 = arr[0].copy()
arr2

array([10, 20, 30])

In [79]:
arr2[:] = 90
arr2

array([90, 90, 90])

In [80]:
arr

array([[10, 20, 30],
       [80, 80, 80]])

## Sort

In [81]:
arr = np.random.randint(0, 10, 5)
arr

array([9, 1, 9, 4, 2])

In [82]:
arr.sort()
arr

array([1, 2, 4, 9, 9])

In [83]:
a = np.random.randn(100) * 100
a.sort()
a[int(0.75 * len(a))]

57.421807441474826

### Universal Functions

- mean, std, var, sum, cumsum, min, max, argmin, argmax

In [84]:
arr = np.arange(1, 40, 2).reshape(4, 5)
print(arr)

[[ 1  3  5  7  9]
 [11 13 15 17 19]
 [21 23 25 27 29]
 [31 33 35 37 39]]


In [85]:
arr.sum()

400

In [86]:
arr.mean()

20.0

In [87]:
arr.std()

11.532562594670797

In [88]:
arr.mean(axis=0)

array([16., 18., 20., 22., 24.])

In [89]:
arr.mean(axis=1)

array([ 5., 15., 25., 35.])

In [90]:
print(arr)
print()
print(arr.cumsum(axis=0))

[[ 1  3  5  7  9]
 [11 13 15 17 19]
 [21 23 25 27 29]
 [31 33 35 37 39]]

[[ 1  3  5  7  9]
 [12 16 20 24 28]
 [33 39 45 51 57]
 [64 72 80 88 96]]


In [91]:
arr.max()

39