# NumPy NDArray 사용법
- `numpy`의 `ndarray`는 **"N-dimensional array"**를 의미한다.
- Python을 기반으로 데이터를 다루는 각종 프로그램을 제작할 때 가장 기본이 되는 자료구조이다.

<img src="img/numpy-ndarray-internal.png" width=60% height=60% />

### 1. `ndarray` 객체 생성
- `ndarray`를 생성하기 위해 `numpy`에서 제공하는 다양한 함수를 활용할 수 있다.

#### 1.1. `ndarray` 객체 생성 및 주요 멤버 변수

In [1]:
import numpy as np  # 관행적으로 np라는 별칭(alias)를 지어준다

In [2]:
np.__version__

'1.19.2'

In [3]:
l = [1, 2, 3]
arr0 = np.array(l)
print(arr0)
print(type(arr0))

[1 2 3]
<class 'numpy.ndarray'>


In [4]:
arr1 = np.zeros(3)
arr1

array([0., 0., 0.])

In [5]:
arr2 = np.ones(3)
arr2

array([1., 1., 1.])

In [6]:
arr3 = np.full(5, 3.14, dtype=np.float32)
arr3

array([3.14, 3.14, 3.14, 3.14, 3.14], dtype=float32)

In [7]:
arr4 = np.arange(10)
arr4

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [8]:
np.arange(2, 13, 2)  # 2 ~ 12

array([ 2,  4,  6,  8, 10, 12])

In [9]:
arr5 = np.linspace(0, 10, 20)
arr5

array([ 0.        ,  0.52631579,  1.05263158,  1.57894737,  2.10526316,
        2.63157895,  3.15789474,  3.68421053,  4.21052632,  4.73684211,
        5.26315789,  5.78947368,  6.31578947,  6.84210526,  7.36842105,
        7.89473684,  8.42105263,  8.94736842,  9.47368421, 10.        ])

In [10]:
len(arr5)

20

In [11]:
arr6 = np.random.randn(10)
arr6

array([ 0.74949043,  2.06530272,  2.0119692 , -0.61311022, -2.40887668,
       -0.05986162, -1.3154776 , -0.12856035,  0.40053368, -0.91865306])

In [12]:
arr7 = np.random.uniform(-100, 100, 10)
arr7

array([ 55.61497316, -56.13699015, -57.30659388,  -7.01748875,
        26.88057467, -86.5624293 ,  17.78291174,  82.02961468,
       -97.52257645, -16.2556808 ])

In [13]:
def print_info(ndarr, name=None):
    if name:
        print("Variable:", name)
    
    print("Shape:", ndarr.shape)
    print("Num. Dimension:", ndarr.ndim)
    print("Num. Elements:", ndarr.size)
    print("Data Type:", ndarr.dtype)
    print("Size of Data Type: %d bytes"%(ndarr.itemsize))
    print("Size of Data: %d bytes"%(ndarr.nbytes))
    print()

In [14]:
v1 = np.zeros(10, dtype=np.uint8)
print_info(v1, "v1")

Variable: v1
Shape: (10,)
Num. Dimension: 1
Num. Elements: 10
Data Type: uint8
Size of Data Type: 1 bytes
Size of Data: 10 bytes



In [15]:
v2 = np.zeros(10, dtype=np.int32)
print_info(v2, "v2")

Variable: v2
Shape: (10,)
Num. Dimension: 1
Num. Elements: 10
Data Type: int32
Size of Data Type: 4 bytes
Size of Data: 40 bytes



In [16]:
M1 = np.zeros((3, 3), dtype=np.float32)
print_info(M1, "M1")

Variable: M1
Shape: (3, 3)
Num. Dimension: 2
Num. Elements: 9
Data Type: float32
Size of Data Type: 4 bytes
Size of Data: 36 bytes



In [17]:
I1 = np.zeros((3, 256, 256), dtype=np.int8)
print_info(I1, "I1")

Variable: I1
Shape: (3, 256, 256)
Num. Dimension: 3
Num. Elements: 196608
Data Type: int8
Size of Data Type: 1 bytes
Size of Data: 196608 bytes



In [18]:
B1 = np.zeros((8, 3, 256, 256), dtype=np.int8)
print_info(B1, "B1")

Variable: B1
Shape: (8, 3, 256, 256)
Num. Dimension: 4
Num. Elements: 1572864
Data Type: int8
Size of Data Type: 1 bytes
Size of Data: 1572864 bytes



#### 1.2. 인덱싱 및 슬라이싱
- 인덱싱(indexing)을 통해 개별 원소에 접근할 수 있다.
- 슬라이싱(slicing)을 통해 배열 내 여러 원소에 접근할 수 있다.

In [19]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
print(arr[0])
print(arr[1])
print(arr[2])

0
1
2


In [21]:
print(arr[-1])
print(arr[-2])
print(arr[-3])

9
8
7


In [22]:
print(arr[:3])
print(arr[:5])

[0 1 2]
[0 1 2 3 4]


In [23]:
print(arr[-3:])
print(arr[-5:])

[7 8 9]
[5 6 7 8 9]


In [24]:
arr2d = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [25]:
arr2d[0, 0] = 100
arr2d

array([[100,   2,   3],
       [  4,   5,   6],
       [  7,   8,   9]])

In [26]:
list2d = [[1, 2, 3],
          [4, 5, 6],
          [7, 8, 9]]

In [27]:
list2d[0][0] = 100
list2d

[[100, 2, 3], [4, 5, 6], [7, 8, 9]]

In [28]:
arr2d[2, 2] = 900
arr2d

array([[100,   2,   3],
       [  4,   5,   6],
       [  7,   8, 900]])

In [29]:
arr2d[:2, :2] = -1
arr2d

array([[ -1,  -1,   3],
       [ -1,  -1,   6],
       [  7,   8, 900]])

In [30]:
l = [0]*10
l

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [31]:
l[2:5] = [100]*3
l

[0, 0, 100, 100, 100, 0, 0, 0, 0, 0]

In [32]:
arr2d = np.array([[ 1,  2,  3,  4],
                  [ 5,  6,  7,  8],
                  [ 9, 10, 11, 12],
                  [13, 14, 15, 16]])
arr2d

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [33]:
arr2d[::2, ::2] = 100
arr2d

array([[100,   2, 100,   4],
       [  5,   6,   7,   8],
       [100,  10, 100,  12],
       [ 13,  14,  15,  16]])

In [34]:
arr2d == 100

array([[ True, False,  True, False],
       [False, False, False, False],
       [ True, False,  True, False],
       [False, False, False, False]])

In [35]:
arr2d[arr2d == -100] = -7
arr2d

array([[100,   2, 100,   4],
       [  5,   6,   7,   8],
       [100,  10, 100,  12],
       [ 13,  14,  15,  16]])

<img src="img/numpy-ndarray-slicing.png" width=50% height=50% />

### 2. 벡터화 연산
- 벡터화 연산(vectorized operation)은 개별 원소 단위가 아닌 배열 단위로 적용하는 연산을 의미한다.
- 벡터화 연산은 개별 원소가 아닌 배열에 최적화 된 연산이기 때문에 성능을 향상시키기 위해서는 가능하면 `ndarray`에는 벡터화 연산을 적용해야 한다.
- ['배열 프로그래밍(array programming)'](https://en.wikipedia.org/wiki/Array_programming)의 중요한 개념이다.

#### 2.1. 벡터화 연산의 예

In [36]:
v1 = np.array([1, 2, 3])
v2 = np.array([2, 4, 6])

In [37]:
v3 = v1 + v2
v3

array([3, 6, 9])

In [38]:
l1 = [1, 2, 3]
l2 = [2, 4, 6, 8]
l3 = l1 + l2
l3

[1, 2, 3, 2, 4, 6, 8]

In [39]:
v4 = np.array([1, 2, 3, 4])

In [40]:
v1 + v4

ValueError: operands could not be broadcast together with shapes (3,) (4,) 

In [41]:
v1 - v2  # Subtraction

array([-1, -2, -3])

In [42]:
v1 * v2  # Multiplication

array([ 2,  8, 18])

In [43]:
v1 / v2  # Division

array([0.5, 0.5, 0.5])

In [44]:
v1 % v2  # Modulo

array([1, 2, 3], dtype=int32)

In [45]:
v1 ** v2  # Power

array([  1,  16, 729], dtype=int32)

#### 2.2. 벡터화 연산 기반 성능 향상

In [46]:
num_elements = 1000000
num_repeats = 10
arr1 = np.arange(num_elements)
arr2 = np.arange(num_elements)

In [47]:
import time

In [48]:
t_beg = time.time()
arr3 = np.zeros(num_elements)
for i in range(num_repeats):
    for j in range(num_elements):
        arr3[j] = arr1[j] + arr2[j]
t_end = time.time()
dur_iter = t_end - t_beg
print("[Iteration] Duration of adding two ndarrays: %f sec."%(dur_iter))

[Iteration] Duration of adding two ndarrays: 4.849059 sec.


In [49]:
t_beg = time.time()
for i in range(num_repeats):
    arr3 = arr1 + arr2
t_end = time.time()
dur_vect = t_end - t_beg
print("[Vectorization] Duration of adding two ndarrays: %f sec."%(dur_vect))

[Vectorization] Duration of adding two ndarrays: 0.020944 sec.


In [50]:
print("Performance improvement by using vectorization: x%.2f"%(dur_iter / dur_vect))

Performance improvement by using vectorization: x231.53


#### 2.3. 벡터화 연산 기반 함수
- `numpy`에서 제공하는 `ndarray`에 대한 대부분의 함수들은 벡터화 된 함수이다.

In [51]:
print(np.pi)
print(type(np.pi))

3.141592653589793
<class 'float'>


In [52]:
arr = np.array([0, 0.5*np.pi, np.pi, 3*np.pi/2, 2*np.pi])  # 0, π/2, π, 3π/2, 2π
np.sin(arr)

array([ 0.0000000e+00,  1.0000000e+00,  1.2246468e-16, -1.0000000e+00,
       -2.4492936e-16])

In [53]:
arr = np.array([1, 10, 100, 1000, 10000])
np.log10(arr)

array([0., 1., 2., 3., 4.])

In [54]:
arr = np.arange(10)
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

In [55]:
np.sin(arr) + np.exp(arr)

array([1.00000000e+00, 3.55975281e+00, 8.29835353e+00, 2.02266569e+01,
       5.38413475e+01, 1.47454235e+02, 4.03149378e+02, 1.09729015e+03,
       2.98194735e+03, 8.10349605e+03])

#### 2.4. 집계 함수
- 집계 함수도 벡터화 연산 기반으로 작동한다.

<img src="img/numpy-ndarray-internal-sum.png" width=80% height=80% />

In [56]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [57]:
np.sum(arr)  # arr.sum()

45

In [58]:
arr.sum()

45

In [59]:
np.mean(arr)  # arr.mean()

4.5

In [60]:
np.median(arr)

4.5

In [61]:
np.std(arr)  # arr.std()  

2.8722813232690143

In [62]:
print("max:", np.max(arr))
print("min:", np.min(arr))

max: 9
min: 0


#### 2.4. 브로드캐스팅
- `ndarray`는 기본적으로 브로드캐스팅(broadcasting)이 적용된다.

<br/>
<img src="http://www.astroml.org/_images/fig_broadcast_visual_1.png" width=80% height=80% />
<br/>

In [63]:
np.arange(3) + 5

array([5, 6, 7])

In [64]:
np.ones((3, 3)) + np.arange(3)

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

In [65]:
np.array([[0], [1], [2]]) + np.array([[0, 1, 2]])

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

두 `ndarray`에 브로드캐스팅 적용 시 차원이 호환되는 방식

<br/>
<br/>
<img src="img/broadcasting.png" width=80% height=80% />
<br/>
<br/>

In [66]:
arr1 = np.random.randn(10, 1, 1, 1)
arr2 = np.random.randn(8, 32, 1)
print(arr1.shape)
print(arr2.shape)

(10, 1, 1, 1)
(8, 32, 1)


In [67]:
arr3 = arr1 + arr2
print(arr3.shape)

(10, 8, 32, 1)


### 3. 차원과 축을 고려한 연산
- `ndarray`에 벡터화 연산을 적용하여 원하는 결과를 얻기 위해서는 **차원(dimension)**과 **축(axis)**을 신중하게 고려해야 한다.

In [68]:
arr = np.array([[ 1,  2,  3,  4],
                [ 5,  6,  7,  8],
                [ 9, 10, 11, 12],
                [13, 14, 15, 16]])
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

`max` 함수

In [69]:
arr.max()

16

행을 기준으로 `max`를 적용하려면?

In [70]:
arr.max(axis=0)

array([13, 14, 15, 16])

In [71]:
arr.max(axis=1)

array([ 4,  8, 12, 16])

`sum` 함수

In [72]:
arr.sum()

136

행을 기준으로 `sum`을 적용하려면?

In [73]:
arr.sum(axis=0)

array([28, 32, 36, 40])

열을 기준으로 `sum`을 적용하려면?

In [74]:
arr.sum(axis=1)

array([10, 26, 42, 58])

### 참고문헌
- https://numpy.org/doc/stable/reference/c-api/types-and-structures.html#c.PyArrayObject
- http://scipy.github.io/old-wiki/pages/EricsBroadcastingDoc
- http://www.astroml.org/_images/fig_broadcast_visual_1.png