# NumPy

## 기초

Numpy에 잇어서 배열의 차원은 축(axis)라고 불린다. 예를들어 이하의 배열

```
[1.0, 2.0, 1.0]
```

은 한개의 축을 갖고 있다. 이 축에는 3개의 요소가 잇으므로, 축의 길이는 3이라고 한다.
이하의 배열의 경우

```
[[1.0, 0.0, 0.0],
 [0.0, 1.0, 2.0]]
```

는 두개의 축을 갖고있다. 첫번째의 축의 길이는 2이고, 두번째의 길이는 3이다.

Numpy의 배열의 형태는, N차원의 배열을 표현한다 [`ndarray`](https://docs.scipy.org/doc/numpy-1.14.0/reference/arrays.ndarray.html#the-n-dimensional-array-ndarray) 이다. 이하의  [`ndarray`](https://docs.scipy.org/doc/numpy-1.14.0/reference/arrays.ndarray.html#the-n-dimensional-array-ndarray) 의 중요한 속성을 소개한다


- `ndarray.ndim`: 배열의 축(차원)의 수
- `ndarray.shape`: 배열의 차원. 각 축의 요소의 수를 튜플 타입으로 표현됨. 예를들어 $n$행 $m$열의 행렬의 `shape` 는、`(n, m)` 이다.
- `ndarray.size`: 배열의 모든 요소의 개수
- `ndarray.dtype`: 각 요소의 데이터 타입 (e.g., `np.int16`, `np.int32`, `np.float64` and etc.)
- `ndarray.itemsize`: 각 요소의 bytesize. 예를들어 `np.float64` 의 배열의 각 요소의 `itemsize` 는 8 (= 64/8) 이다.
- `ndarray.data`: 배열이 데이터가 보유하고있는 버퍼. 보통 이 속성을 이용하는 경우는 드물다.

In [72]:
import numpy as np

In [73]:
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [74]:
a.shape

(3, 5)

In [75]:
a.ndim

2

In [76]:
a.dtype

dtype('int32')

In [77]:
a.itemsize

4

In [78]:
a.size

15

In [79]:
type(a)

numpy.ndarray

## 배열을 작성해보자

Python의 리스트나 튜플에서  [`np.array()`](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.array.html#numpy.array) 을 이요하여 배열을 작성할 수 있다. 배열의 타입은 입력 데이터의 요소의 타입으로부터 추측된다.

In [80]:
a = np.array([2, 3, 4])
a

array([2, 3, 4])

In [81]:
a.dtype

dtype('int32')

In [82]:
b = np.array([1.2, 3.5, 5.1])
b

array([1.2, 3.5, 5.1])

[`np.array()`](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.array.html#numpy.array) 을 이용할 경우 생기는 문제는, 복수의 수치를 인수로 전달할 경우이다.

In [83]:
a = np.array(1, 2, 3, 4)

TypeError: array() takes from 1 to 2 positional arguments but 4 were given

In [84]:
a = np.array([1, 2, 3, 4])

[`np.array()`](https://docs.scipy.org/doc/numpy-1.14.0/reference/generated/numpy.array.html#numpy.array) 은 시퀀스의 시퀀스를 2차원 배열에, 시퀀스의 시퀀스의 시퀀스를 3차원 배열에 넣는다.

In [85]:
b = np.array([(1.5, 2, 3), (4, 5, 6)])
b

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

배열 생성시에 데이터 타입을 명시하는것도 가능하다.

In [86]:
c = np.array([[1, 2], [3, 4]], dtype=complex)
c

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

[`np.zeros()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html#numpy-zeros) 는 0으로 초기화된 배열을 작성한다.[`np.ones()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html#numpy.ones) 은 1로 초기화된 배열을 생성한다.[`np.empty()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.empty.html#numpy.empty) 은 랜덤으로 초기화된 배열을 생성한다. 이것의 함수로 작성된 배열의 기본 타입은 `np.float64` 이다.

In [87]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [88]:
np.ones((2, 3, 4), dtype=np.int16)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [89]:
np.empty((2, 3))

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

수열의 형태로 배열을 만들 경우는  Python에서 사용한 [`range()`](https://docs.python.org/ja/3/library/functions.html#func-range) 와 유사한 [`np.arange()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html#numpy.arange) 을 이용한다.

In [90]:
np.arange(10, 30, 5)

array([10, 15, 20, 25])

In [91]:
np.arange(0, 2, 0.3)

array([0. , 0.3, 0.6, 0.9, 1.2, 1.5, 1.8])

필요한 요소수를 사전에 알고있는 경우에는 [`np.linspace()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linspace.html#numpy.linspace) 을 사용하는 것을 추천한다.

In [92]:
np.linspace(0, 2, 9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [93]:
np.linspace(0, 2 * np.pi, 50)

array([0.        , 0.12822827, 0.25645654, 0.38468481, 0.51291309,
       0.64114136, 0.76936963, 0.8975979 , 1.02582617, 1.15405444,
       1.28228272, 1.41051099, 1.53873926, 1.66696753, 1.7951958 ,
       1.92342407, 2.05165235, 2.17988062, 2.30810889, 2.43633716,
       2.56456543, 2.6927937 , 2.82102197, 2.94925025, 3.07747852,
       3.20570679, 3.33393506, 3.46216333, 3.5903916 , 3.71861988,
       3.84684815, 3.97507642, 4.10330469, 4.23153296, 4.35976123,
       4.48798951, 4.61621778, 4.74444605, 4.87267432, 5.00090259,
       5.12913086, 5.25735913, 5.38558741, 5.51381568, 5.64204395,
       5.77027222, 5.89850049, 6.02672876, 6.15495704, 6.28318531])

## 배열을 표시해보자

배열을 이하의 형식으로 화면에 표시된다.

- 마지막 축은 왼쪽부터 오른쪽으로 표시된다.
- 마지막으로부터 두번째의 축은 위에서부터 아래로 표시된다.
- 나머지는 위에서부터 아래로 공백으로 구분되어 표시된다.

In [94]:
print(np.arange(6))

[0 1 2 3 4 5]


In [95]:
print(np.arange(12).reshape(4, 3))

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [96]:
print(np.arange(24).reshape(2, 3, 4))

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


과도하게 큰 배열을 표시할 경우에는 배열의 중앙부분을 생략하여 표시된다.

In [97]:
print(np.arange(10000))

[   0    1    2 ... 9997 9998 9999]


In [98]:
print(np.arange(10000).reshape(100, 100))

[[   0    1    2 ...   97   98   99]
 [ 100  101  102 ...  197  198  199]
 [ 200  201  202 ...  297  298  299]
 ...
 [9700 9701 9702 ... 9797 9798 9799]
 [9800 9801 9802 ... 9897 9898 9899]
 [9900 9901 9902 ... 9997 9998 9999]]


배열의 요소수를 제한하지 않고 전부를 표시할 경우는 [`np.set_printoptions()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.set_printoptions.html#numpy.set_printoptions) 을 이용하여 표시 옵션을 변경한다.

In [99]:
np.set_printoptions(threshold=np.nan)

ValueError: threshold must be non-NAN, try sys.maxsize for untruncated representation

In [100]:
print(np.arange(2000))

[   0    1    2 ... 1997 1998 1999]


In [101]:
np.set_printoptions(threshold=1000)

## 기본적인 연산

배열에 산술연산을 하는 경우는 요소별로 적용된다. 연산결과가 적용된 새로운 배열이 생성된다.

In [102]:
a = np.array([20, 30, 40, 50])
a

array([20, 30, 40, 50])

In [103]:
b = np.arange(4)
b

array([0, 1, 2, 3])

In [104]:
c = a - b
c

array([20, 29, 38, 47])

In [105]:
10 * np.sin(a)

array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])

제곱연산자 `*` 도 요소별로 적용된다. 행렬의 내곱을 계산할 경우는 [`dot()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.dot.html#numpy.ndarray.dot) 메소드 또는 [`dot()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html#numpy.dot) 함수를 이용한다.

In [106]:
A = np.array([[1, 1], [0, 1]])
B = np.array([[2, 0], [3, 4]])

In [107]:
A * B

array([[2, 0],
       [0, 4]])

In [108]:
A.dot(B)

array([[5, 4],
       [3, 4]])

In [109]:
np.dot(A, B)

array([[5, 4],
       [3, 4]])

`+=` 나 `*=` 등의 대체 연산자는 연산결과를 기존의 배열에 덮어씌운다.

In [110]:
a = np.ones((2, 3), dtype=np.int64)
a

array([[1, 1, 1],
       [1, 1, 1]], dtype=int64)

In [111]:
b = np.random.random((2, 3))
b

array([[0.38147351, 0.66271421, 0.33658844],
       [0.80976332, 0.71525995, 0.22348658]])

In [112]:
a *= 3
a

array([[3, 3, 3],
       [3, 3, 3]], dtype=int64)

In [113]:
b += a
b

array([[3.38147351, 3.66271421, 3.33658844],
       [3.80976332, 3.71525995, 3.22348658]])

데이터 타입이 다른 두 배열끼리 연산할 경우, 연산결과의 데이터 타입에 의해 일반적 또는 더 정확도가 높은 타입이 된다. (up cast)

In [114]:
a = np.ones(3, dtype=np.int32)

In [115]:
b = np.linspace(0, np.pi, 3)

In [116]:
b.dtype

dtype('float64')

In [117]:
c = a + b
c

array([1.        , 2.57079633, 4.14159265])

In [118]:
c.dtype

dtype('float64')

In [119]:
d = np.exp(c * 1j)
d

array([ 0.54030231+0.84147098j, -0.84147098+0.54030231j,
       -0.54030231-0.84147098j])

In [120]:
d.dtype

dtype('complex128')

단, 대체연산자의 경우는 주의가 필요하다.

In [121]:
a = np.ones((2, 3), dtype=np.int64)
b = np.ones((2, 3), dtype=np.float64)
b += a

In [122]:
a = np.ones((2, 3), dtype=np.int64)
b = np.ones((2, 3), dtype=np.float64)
a += b

UFuncTypeError: Cannot cast ufunc 'add' output from dtype('float64') to dtype('int64') with casting rule 'same_kind'

배열이 포함된 요소의 총 합의 계산 등 많은 단항연산자는 [`np.ndarray`](https://docs.scipy.org/doc/numpy-1.14.0/reference/arrays.ndarray.html#the-n-dimensional-array-ndarray) 의 메소드로서 구현되어 있다.

In [123]:
a = np.random.random((2, 3))
a

array([[0.5812843 , 0.20495025, 0.01371434],
       [0.43804645, 0.45809037, 0.36618445]])

In [124]:
a.sum()

2.0622701620435366

In [125]:
a.min()

0.013714344371959952

In [126]:
a.max()

0.5812842954599192

기본적으로는 이것들의 연산은 배열의 전 요소에 적용된다. `axis` 파라미터를 지정하는 것으로 배열의 특정 축에 따라 연산을 적용하는 것이 가능하다.

In [127]:
b = np.arange(12).reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [128]:
b.sum(axis=0)

array([12, 15, 18, 21])

In [129]:
b.min(axis=1)

array([0, 4, 8])

In [130]:
b.cumsum(axis=1)

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]], dtype=int32)

## 유니버셜 함수

NumPy 는 `sin`、`cos`、`exp` 등의 수학함수를 제공한다. 이것 함수들은 유니버셜 함수라고 불려, 배열의 각 요소에 적용해 새로운 배열이 생성된다.

In [131]:
b = np.arange(3)
b

array([0, 1, 2])

In [132]:
np.exp(b)

array([1.        , 2.71828183, 7.3890561 ])

In [133]:
np.sqrt(b)

array([0.        , 1.        , 1.41421356])

In [134]:
c = np.array([2., -1., 4.])
c

array([ 2., -1.,  4.])

In [135]:
np.add(b, c)

array([2., 0., 6.])

## index에 의한 접근, 슬라이스, 반복 처리

1차원 배열은 Python의 시퀀스와 동일하게 index로 접근하거나 슬라이스 하거나 반복 처리를 할 수 있다.

In [136]:
a = np.arange(10) ** 3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [137]:
a[2]

8

In [138]:
a[2:5]

array([ 8, 27, 64], dtype=int32)

In [139]:
a[:6:2] = -1000
a

array([-1000,     1, -1000,    27, -1000,   125,   216,   343,   512,
         729], dtype=int32)

In [140]:
a[::-1]

array([  729,   512,   343,   216,   125, -1000,    27, -1000,     1,
       -1000], dtype=int32)

In [141]:
for i in a:
    print(i ** (1 / 3))

nan
1.0
nan
3.0
nan
5.0
5.999999999999999
6.999999999999999
7.999999999999999
8.999999999999998


  print(i ** (1 / 3))


다차원배열은 축(軸)별로 index를 보유할 수 있다. 이 index는 콤마로 구분되어 튜플 형식으로 지정된다.

In [142]:
def f(x, y):
    return 10 * x + y

In [143]:
b = np.fromfunction(f, (5, 4), dtype=np.int64)
b

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]], dtype=int64)

In [144]:
b[2, 3]

23

In [145]:
b[0:5, 1]

array([ 1, 11, 21, 31, 41], dtype=int64)

In [146]:
b[:, 1]

array([ 1, 11, 21, 31, 41], dtype=int64)

In [147]:
b[1:3, :]

array([[10, 11, 12, 13],
       [20, 21, 22, 23]], dtype=int64)

In [148]:
b[-1]

array([40, 41, 42, 43], dtype=int64)

In [149]:
b[:]

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]], dtype=int64)

(`...`) 는 완전한 index 튜플을 생성하기 위해서 필요한 부분 만큼 콜론(`:`)을 표시하는것과 같다. 예를들어 x가 5개의 축을 갖는 배열이라고 한다면

- `x[1, 2, ...]` 는 `x[1, 2, :, :, :]` 와 같음
- `x[..., 3]` 는 `x[:, :, :, :, 3]` 와 같음
- `x[4, ..., 5, :]` 는 `x[4, :, :, 5,  :]` 와 같음

In [150]:
c = np.array([[[  0,  1,  2],
               [ 10, 12, 13]],
              [[100,101,102],
               [110,112,113]]])

In [151]:
c.shape

(2, 2, 3)

In [152]:
c[1, ...]

array([[100, 101, 102],
       [110, 112, 113]])

In [153]:
c[..., 2]

array([[  2,  13],
       [102, 113]])

In [154]:
c[0, 0, :]

array([0, 1, 2])

다차원 배열의 반복처리는 첫번째 축에 대해 실행된다.

In [155]:
for row in b:
    print(row)

[0 1 2 3]
[10 11 12 13]
[20 21 22 23]
[30 31 32 33]
[40 41 42 43]


In [156]:
for subarr in c:
    print(subarr)

[[ 0  1  2]
 [10 12 13]]
[[100 101 102]
 [110 112 113]]


만약 모든 요소에 대해 반복 처리를 할 때는 모든 요소를 하나씩 접근하는 이터레이터인 `flat` 속성을 사용한다.

In [157]:
b

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]], dtype=int64)

In [158]:
b.flat

<numpy.flatiter at 0x262e9206590>

In [159]:
for elem in b.flat:
    print(elem, end=', ')

0, 1, 2, 3, 10, 11, 12, 13, 20, 21, 22, 23, 30, 31, 32, 33, 40, 41, 42, 43, 

## 배열의 차원 변경

배열은 각 축의 개수만큼 차원(shape)를 갖는다

In [160]:
a = np.floor(10 * np.random.random((3, 4)))
a

array([[3., 1., 8., 8.],
       [3., 6., 3., 4.],
       [8., 9., 7., 4.]])

In [16]:
a.shape

(3, 4)

배열의 차원은 여러가지 방법으로 변경할 수 있다. 아래에서 소개하는 방법은 차원을 변경하고 있지만, 원래의 배열 데이터 자체를 변경하는것은 아니므로 주의가 필요하다

In [162]:
a.ravel()

array([3., 1., 8., 8., 3., 6., 3., 4., 8., 9., 7., 4.])

In [163]:
a.reshape(6, 2)

array([[3., 1.],
       [8., 8.],
       [3., 6.],
       [3., 4.],
       [8., 9.],
       [7., 4.]])

In [164]:
a.T

array([[3., 3., 8.],
       [1., 6., 9.],
       [8., 3., 7.],
       [8., 4., 4.]])

In [165]:
a.T.shape

(4, 3)

In [166]:
a.shape

(3, 4)

[`ndarray.reshape()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.reshape.html#numpy-ndarray-reshape) 는 한쪽 차원 수에 -1을 넣으면 배열의 요소수와 다른 한쪽의 차원을 기준으로 자동적으로 배열된다.

In [169]:
a

array([[3., 1., 8., 8.],
       [3., 6., 3., 4.],
       [8., 9., 7., 4.]])

In [193]:
a.reshape(4, 3)

array([[3., 1., 8.],
       [8., 3., 6.],
       [3., 4., 8.],
       [9., 7., 4.]])

In [198]:
a.reshape(-1, 3)

array([[3., 1., 8.],
       [8., 3., 6.],
       [3., 4., 8.],
       [9., 7., 4.]])

In [192]:
a.reshape(3, -1)

array([[3., 1., 8., 8.],
       [3., 6., 3., 4.],
       [8., 9., 7., 4.]])

In [191]:
a.reshape(2, -1)

array([[3., 1., 8., 8., 3., 6.],
       [3., 4., 8., 9., 7., 4.]])

## 배열의 결합과 분할

복수의 배열을 결합

In [207]:
a = np.floor(10 * np.random.random((2, 2)))
a

array([[5., 0.],
       [9., 2.]])

In [208]:
b = np.floor(10 * np.random.random((2, 2)))
b

array([[7., 9.],
       [8., 7.]])

[`np.vstack()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.vstack.html#numpy.vstack) 은 첫번째 축에 맞춰 쌓아 새로운 배열을 만든다

In [209]:
np.vstack((a, b))

array([[5., 0.],
       [9., 2.],
       [7., 9.],
       [8., 7.]])

[`np.hstack()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.hstack.html#numpy.hstack) 은 두번째 축에 맞춰 쌓아 새로운 배열을 만든다

In [210]:
np.hstack((a, b))

array([[5., 0., 7., 9.],
       [9., 2., 8., 7.]])

[`np.vstack()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.vstack.html#numpy.vstack) 과 같은 함수로 [`np.row_stack()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ma.row_stack.html#numpy.ma.row_stack) 가 있다. 단, 비슷한 이름의 [`np.column_stack()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.column_stack.html#numpy.column_stack) 은 [`np.hstack()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.hstack.html#numpy.hstack) 과 다른 함수이기에 주의가 필요하다.[`np.column_stack()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.column_stack.html#numpy.column_stack) 은 1차원 배열을 열로서 쌓아 새로운 2차원 배열을 만든다. 2차원 배열을 쌓아올리는 경우는 [`np.hstack()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.hstack.html#numpy.hstack) 와 같다.

In [211]:
a = np.array([4.0, 2.0])
b = np.array([3.0, 8.0])

In [212]:
np.column_stack((a, b))

array([[4., 3.],
       [2., 8.]])

In [213]:
np.hstack((a, b))

array([4., 2., 3., 8.])

In [214]:
a[:, np.newaxis]

array([[4.],
       [2.]])

In [215]:
np.column_stack((a[:, np.newaxis], b[:, np.newaxis]))

array([[4., 3.],
       [2., 8.]])

In [216]:
np.hstack((a[:, np.newaxis], b[:, np.newaxis]))

array([[4., 3.],
       [2., 8.]])

임의의 축에 따라 배열을 결합할때는 [`np.concatenate()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.concatenate.html#numpy.concatenate) 을 이용한다.

In [217]:
np.concatenate((a, b), axis=0)

array([4., 2., 3., 8.])

In [220]:
np.concatenate((a[:, np.newaxis], b[:, np.newaxis]), axis=1)

array([[4., 3.],
       [2., 8.]])

[`np.hsplit()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.hsplit.html#numpy.hsplit) 을 이용하여 배열을 수평방향으로 분할할 수도 있다.

In [221]:
a = np.floor(10 * np.random.random((2, 12)))
a

array([[9., 0., 0., 4., 0., 5., 2., 3., 5., 7., 8., 1.],
       [2., 7., 2., 5., 8., 5., 1., 9., 6., 8., 4., 5.]])

In [224]:
np.hsplit(a, 3)

[array([[9., 0., 0., 4.],
        [2., 7., 2., 5.]]),
 array([[0., 5., 2., 3.],
        [8., 5., 1., 9.]]),
 array([[5., 7., 8., 1.],
        [6., 8., 4., 5.]])]

In [225]:
np.hsplit(a, (3, 4))

[array([[9., 0., 0.],
        [2., 7., 2.]]),
 array([[4.],
        [5.]]),
 array([[0., 5., 2., 3., 5., 7., 8., 1.],
        [8., 5., 1., 9., 6., 8., 4., 5.]])]

[`np.vsplit()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.vsplit.html#numpy.vsplit) 을 이용하여 배열을 수직방향으로 분할할 수도 있다. 축을 정하여 배열을 분할 경우는 [`np.split()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.split.html#numpy.split) 을 이용한다.

## copy와 view

배열의 연산이나 조작의 결과가 새로운 배열에 복사되는 경우도 있고 그렇지 않은 경우도 있다.

### 복사 되지 않는 경우

단순한 대입으로는 배열 객체도 그 데이터도 복사되지 않는다.

In [248]:
a = np.arange(12)

In [249]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [250]:
b = a

In [251]:
b is a

True

In [252]:
b.shape = (3, 4)

In [253]:
a.shape

(3, 4)

Python은 덮어쓰기가 가능한 객체를 참조하여 건네기 위해 함수 호출은 복사되지 않는다.

In [254]:
def print_id(x):
    print(id(x))

In [255]:
id(a)

2623870260528

In [256]:
print_id(a)

2623870260528


### View 또는 얕은 복사
서로 다른 배열 객체가 같은 데이터를 공유하고있을 수도 잇다. [`view()`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.view.html#numpy.ndarray.view) 메서드는 같은 데이터를 참조하는 새로운 배열 객체를 작성한다.

In [257]:
c = a.view()

In [258]:
c

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [259]:
c is a

False

In [260]:
c.base is a

True

In [261]:
c.flags

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

In [263]:
c.shape = (2, 6)

In [264]:
c

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [265]:
a.shape

(3, 4)

In [266]:
c[0, 4] = 1234

In [267]:
a

array([[   0,    1,    2,    3],
       [1234,    5,    6,    7],
       [   8,    9,   10,   11]])

In [268]:
c

array([[   0,    1,    2,    3, 1234,    5],
       [   6,    7,    8,    9,   10,   11]])

배열을 슬라이스하면 뷰를 작성한다.

In [269]:
s = a[:, 1:3]

In [271]:
s

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10]])

In [270]:
s.flags

  C_CONTIGUOUS : False
  F_CONTIGUOUS : False
  OWNDATA : False
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False

In [272]:
s[:] = 10

In [273]:
a

array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

### 깊은 복사
[`copy()`]() 는 배열을 완전하게 복사한다.

In [274]:
d = a.copy()

In [275]:
d is a

False

In [276]:
d.base is a

False

In [277]:
d[0, 0] = 9999

In [278]:
a

array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

## 브로드캐스팅

NumPy에서는 어떤 규칙에 따르면 다른 차원의 배열끼리의 연산을 수행할 수 있다. 그 연산을 행하는 인접한 배열의 차원을 늘리는 것을 브로드캐스팅이라고 한다. 가장 단순한 브로드캐스팅의 예는 배열과 스칼라값의 연산이다.

NumPy では、あるルールに従っていれば異なる次元の配列同士の演算を行うことができる。この演算を行う際に配列の次元を引き伸ばすことをブロードキャストと呼ぶ。最も単純なブロードキャストの例は、配列とスカラ値の演算である。

In [279]:
b = 2.0

In [281]:
a

array([[   0,   10,   10,    3],
       [1234,   10,   10,    7],
       [   8,   10,   10,   11]])

In [280]:
a * b

array([[   0.,   20.,   20.,    6.],
       [2468.,   20.,   20.,   14.],
       [  16.,   20.,   20.,   22.]])

이 연산 결과는 `b` 가 배열인 경우의 연산결과와 같다. 이는 이하의 그림과 같이 연산에 인접한  `b` 가 `a` 와 같은 차원의 배열이 되것같이 브로드캐스팅 되어 계산되기 때문이다.

![](images/numpy-broadcast-1.png)



브로드캐스팅의 규칙

1. 두개의 배열의 차원수가 다른 경우, 차원수가 작은 배열의 차원을 처음부터 1로 채운다.
2. 차원의 요소수가 다르고, 한 쪽의 요소수가 1인 경우는 배열을 늘려 다른 쪽의 배열의 요소와 결합한다. 
3. 차원의 요소수가 다르고, 양쪽의 요소수가 1이 아닌 경우는 에러가 발생한다.

In [283]:
a = np.ones((3, 3), dtype=np.float64)
b = np.array([0.0, 1.0, 2.0])

In [284]:
a

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [285]:
b

array([0., 1., 2.])

배열의 차원은

- `a.shape = (3, 3)`
- `b.shape = (3,)`

이다. `b` 의 차원수가 적으므로 규칙 1에 의해  `b` 의 차원의 처음을 1로 채운다.

- `a.shape = (3, 3)`
- `b.shape = (1, 3)`

첫번째 차원의 요소수가 다르다. 규칙 2에 의해  `b` 를 첫번째 축에 맞춰 브로드캐스팅 한다.

- `a.shape = (3, 3)`
- `b.shape = (3, 3)`

두개의 배열의 차원이 일치한다.

In [286]:
a + b

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

`a + b` 를 그림으로 나타내면 아래와 같다

![](images/numpy-broadcast-2.png)

In [287]:
a = np.array([0.0, 1.0, 2.0]).reshape(3, -1)
b = np.array([0.0, 1.0, 2.0])

두개의 배열의 차원은

- `a.shape = (3, 1)`
- `b.shape = (3,)`

이다. `b` 의 차원 수가 적으므로 규칙 1에 의해  `b` 의 차원의 처음을 1로 채운다.

- `a.shape -> (3, 1)`
- `b.shape -> (1, 3)`

첫번째와 두번째 차원의 요소수가 다르다. 규칙 2에 의해 `a` 를 두번째 축에 `b` 를 첫번째 축에 맞춰 브로드캐스팅 한다.

- `a.shape -> (3, 3)`
- `b.shape -> (3, 3)`

두개의 배열의 차원이 일치한다.

In [288]:
a + b

array([[0., 1., 2.],
       [1., 2., 3.],
       [2., 3., 4.]])

`a + b` 을 그림으로 나타내면 아래와 같다.

![](images/numpy-broadcast-3.png)

In [289]:
a = np.ones((3, 2), dtype=np.float64)
a

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [290]:
b = np.array([0.0, 1.0, 2.0])
b

array([0., 1., 2.])

두개의 배열의 차원은

- `a.shape = (3, 2)`
- `b.shape = (3,)`

이다. `b` 의 차원수가 적으므로 규칙 1에 의해 `b` 의 차원의 처음에 1을 채운다.

- `a.shape -> (3, 2)`
- `b.shape -> (1, 3)`

첫번째와 두번째 차원의 요소수가 다르다. 규칙 2에 의해 `b` 를 첫번째 축에 맞춰 브로드캐스팅 한다.

- `a.shape -> (3, 2)`
- `b.shape -> (3, 3)`

두번째 차원의 요소수는 어느쪽도 1이 아니므로 규칙 3에 의해 에러가 발생한다.

In [291]:
a + b

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

## index를 사용하는 기술

### index 배열에 의한 참조

In [296]:
a = np.arange(12) ** 2
a

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121],
      dtype=int32)

In [297]:
i = np.array([1, 1, 3, 8, 5])

In [298]:
a[i]

array([ 1,  1,  9, 64, 25], dtype=int32)

In [304]:
j = np.array([[3, 4], [9, 7]])
a[j]

array([[ 9, 16],
       [81, 49]], dtype=int32)

index를 사용한 배열 `a`가 다차원배열인 경우 index의 단일배열은 `a`의 최초의 배열을 참조한다. 아래의 예시는 라벨 사진을 컬러 팔레트를 이용한 컬러사진으로 변환하는 것으로 동작을 나타낸다.

添字付けされた配列 `a` が多次元配列のとき、添字の単一配列は `a` の最初の次元を参照する。以下の例では、ラベル画像をカラーパレットを用いてカラー画像に変換することでこのふるまいを示す。

In [299]:
palette = np.array([[0, 0, 0],         # black
                    [255, 0, 0],       # red
                    [0, 255, 0],       # green
                    [0, 0, 255],       # blue
                    [255, 255, 255]])  # white

In [300]:
palette

array([[  0,   0,   0],
       [255,   0,   0],
       [  0, 255,   0],
       [  0,   0, 255],
       [255, 255, 255]])

In [301]:
image = np.array([[0, 1, 2, 0], [0, 3, 4, 0]])

In [302]:
image

array([[0, 1, 2, 0],
       [0, 3, 4, 0]])

In [303]:
palette[image]

array([[[  0,   0,   0],
        [255,   0,   0],
        [  0, 255,   0],
        [  0,   0,   0]],

       [[  0,   0,   0],
        [  0,   0, 255],
        [255, 255, 255],
        [  0,   0,   0]]])

In [305]:
palette[image].shape

(2, 4, 3)

2차원 이상의 index를 부여하는것도 가능하다. 각 차원의 index 배열은 같은 형태여야 한다.

In [306]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [307]:
i = np.array([[0, 1], [1, 2]])
j = np.array([[2, 1], [3, 3]])

In [308]:
a[i, j]

array([[ 2,  5],
       [ 7, 11]])

In [309]:
a[i, 2]

array([[ 2,  6],
       [ 6, 10]])

In [310]:
k = [i, j]

In [311]:
a[k]

  a[k]


array([[ 2,  5],
       [ 7, 11]])

배열의 index를 부여함으로 빈번하게 눈에 들어오는 예는 배열 데이터의 최대치에 대응하는 index를 검색하는 것이다.

In [312]:
time = np.linspace(20, 145, 5)
time

array([ 20.  ,  51.25,  82.5 , 113.75, 145.  ])

In [313]:
data = np.sin(np.arange(20)).reshape(5, 4)
data

array([[ 0.        ,  0.84147098,  0.90929743,  0.14112001],
       [-0.7568025 , -0.95892427, -0.2794155 ,  0.6569866 ],
       [ 0.98935825,  0.41211849, -0.54402111, -0.99999021],
       [-0.53657292,  0.42016704,  0.99060736,  0.65028784],
       [-0.28790332, -0.96139749, -0.75098725,  0.14987721]])

In [314]:
index = data.argmax(axis=0)
index

array([2, 0, 3, 1], dtype=int64)

In [315]:
time_max = time[index]
time_max

array([ 82.5 ,  20.  , 113.75,  51.25])

In [316]:
data_max = data[index, range(data.shape[1])]
data_max

array([0.98935825, 0.84147098, 0.99060736, 0.6569866 ])

In [317]:
np.all(data_max == data.max(axis=0))

True

대입 대상을 배열로 index 참조하는것도 가능하다.

In [318]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [319]:
a[[1, 3, 4]] = 0
a

array([0, 0, 2, 0, 0])

index배열의 값이 반복되어 포함되는 경우는 대입을 여러번 하고 마지막의 값이 남는다.

In [320]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [321]:
a[[0, 0, 2]] = [1, 2, 3]
a

array([2, 1, 3, 3, 4])

### 진위값배열에 의한 index 참조

정수로 되어있는 index배열을 마련하는 경우, 선택하고싶은 요소의 index로 구성된 배열을 만든다. 진위값의 요소중 어떤것이 필요하고 필요없는지를 명시적으로 선택한다.

In [322]:
a = np.arange(12).reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [323]:
b = a > 4
b

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [324]:
a[b]

array([ 5,  6,  7,  8,  9, 10, 11])

In [325]:
a[b] = 0
a

array([[0, 1, 2, 3],
       [4, 0, 0, 0],
       [0, 0, 0, 0]])

In [326]:
a = np.arange(12).reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [327]:
b1 = np.array([False, True, True])
b2 = np.array([True, False, True, False])

In [328]:
a[b1, :]

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [329]:
a[b1]

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [330]:
a[:, b2]

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

In [331]:
a[b1, b2]

array([ 4, 10])

## 더 이해하기 위해!

- [NumPy: creating and manipulating numerical data](http://www.scipy-lectures.org/intro/numpy/index.html)
- [Numpy Tutorial Part 1 – Introduction to Arrays](https://www.machinelearningplus.com/python/numpy-tutorial-part1-array-python-examples/)
- [Numpy Tutorial Part 2 – Vital Functions for Data Analysis](https://www.machinelearningplus.com/python/numpy-tutorial-python-part2/)
- [Advanced NumPy](http://www.scipy-lectures.org/advanced/advanced_numpy/index.html)
- [101 NumPy Exercises for Data Analysis](https://www.machinelearningplus.com/python/101-numpy-exercises-python/)
- [From Python to NumPy](http://www.labri.fr/perso/nrougier/from-python-to-numpy/)