# 4장 넘파이 4편: 고급 넘파이

## 주요 내용

부록 A(p. 587)의 내용 중 가장 많이 사용되는 고급 기능을 다룬다.

* 어레이 조작: 모양 변형, 어레이 쪼개기/쌓기
* 브로드캐스팅

## 기본 설정

`numpy` 모듈과 시각화 도구 모듈인 `matplotlib.pyplot`에 대한 기본 설정을 지정한다.

In [1]:
# 넘파이
import numpy as np
# 램덤 시드
np.random.seed(12345)
# 어레이 사용되는 부동소수점들의 정확도 지정
np.set_printoptions(precision=4, suppress=True)

# 파이플롯
import matplotlib.pyplot as plt
# 도표 크기 지정
plt.rc('figure', figsize=(10, 6))

## A.2 어레이 조작 고급 기법 (p. 590)

어레이를 조작하는 몇 가지 중요한 고급 기법을 살펴본다. 

### A.2.1 어레이 모양 변형 (p. 590)

#### `reshape()` 메서드

`reshape()` 메서드를 활용하여 지정된 튜플의 모양으로 주어진 어레이의 모양을 변형한다.
단, 항목의 수가 변하지 않도록 모양을 지정해야 한다.

예를 들어, 길이가 8인 1차원 어레이가 다음과 같다.

In [2]:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

이제 (4, 2) 모양의 2차원 어레이로 모양을 변형할 수 있다.

In [3]:
arr.reshape((4, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

항목의 수만 같으면 임의의 차원의 어레이를 임의의 차원의 어레이로 변형시킬 수 있다.

In [4]:
arr.reshape((4, 2)).reshape((2, 2, 2))

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

#### `-1`의 역할

어레의 모양을 지정할 때 튜플의 특정 위치에 -1을 사용할 수 있다.
그러면 그 위치의 값은 튜플의 다른 항목의 정보를 이용하여 자동으로 지정된다.
예를 들어, 아래 코드에서 -1은 3을 의미한다. 
이유는 20개의 항목을 5개의 행으로 이루어진 2차원 어레이로 지정하려면 열은 4개 있어야 하기 때문이다.

In [5]:
arr = np.arange(20)
arr.reshape((5, -1))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [6]:
arr.reshape((5, 4))

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

동일한 이유로 아래에서 -1은 5를 의미한다.

In [7]:
arr.reshape((2, -1, 2))

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [8]:
arr.reshape((2, 5, 2))

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

#### `ravel()` 메서드와 `flatten()` 메서드

두 메서드 모두 1차원 어레이를 반환한다. 
즉, 차원을 모두 없앤다.

In [9]:
arr = np.arange(15).reshape((5, 3))
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [10]:
arr1 = arr.ravel()
arr1

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [11]:
arr2 = arr.flatten()
arr2

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

차이점은 `ravel()` 메서드는 뷰(view)를 사용하는 반면에 `flatten()` 메서드는 어레이를 새로 생성한다.
예를 들어, 아래처럼 `arr1`의 항목을 변경하면 `arr`의 항목도 함께 변경된다.

In [12]:
arr1[0] = -1
arr

array([[-1,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

`arr2`은 `arr`과 전혀 상관이 없다.

In [13]:
arr2[0] = -7
arr

array([[-1,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

### A.2.3 어레이 쪼개기/쌓기 (p. 594)

#### `np.split()` 함수

어레이를 지정된 기준에 따라 여러 개의 어레이로 쪼갠다.
반환값은 쪼개진 어레이들의 리스트다.

아래 예제를 살펴보자.

In [37]:
arr = np.random.randn(7, 5)
arr

array([[ 0.2863,  0.378 , -0.7539,  0.3313,  1.3497],
       [ 0.0699,  0.2467, -0.0119,  1.0048,  1.3272],
       [-0.9193, -1.5491,  0.0222,  0.7584, -0.6605],
       [ 0.8626, -0.01  ,  0.05  ,  0.6702,  0.853 ],
       [-0.9559, -0.0235, -2.3042, -0.6525, -1.2183],
       [-1.3326,  1.0746,  0.7236,  0.69  ,  1.0015],
       [-0.5031, -0.6223, -0.9212, -0.7262,  0.2229]])

`np.split()` 함수의 인자는 정수이거나 정수들의 리스트가 사용된다.
먼저, 정수 리스트가 들어오면 축이 정한 방향으로 리스트에 포함된 정수를 이용하여 여러 개의 구간으로 쪼갠다.

아래 코드는 행을 기준으로 행의 인덱스를 0-1, 2, 3-4, 5-7 네 개의 구간으로 쪼갠다.
따라서 결과는 네 개의 어레이로 이루어진 리스트가 되며,
각 어레의 모양은 다음과 같다.

```python
(2, 5), (1, 5), (2, 5), (3, 5)
```

In [40]:
np.split(arr, [2, 3, 5],axis=0)

[array([[ 0.2863,  0.378 , -0.7539,  0.3313,  1.3497],
        [ 0.0699,  0.2467, -0.0119,  1.0048,  1.3272]]),
 array([[-0.9193, -1.5491,  0.0222,  0.7584, -0.6605]]),
 array([[ 0.8626, -0.01  ,  0.05  ,  0.6702,  0.853 ],
        [-0.9559, -0.0235, -2.3042, -0.6525, -1.2183]]),
 array([[-1.3326,  1.0746,  0.7236,  0.69  ,  1.0015],
        [-0.5031, -0.6223, -0.9212, -0.7262,  0.2229]])]

반면에 열을 기준으로 0, 1-2, 3-4 3개의 구간으로 쪼개면 다음과 같으며,
각 어레이의 모양은 다음과 같다.

```python
(7, 1) (7, 2), (7, 2)
```

In [45]:
np.split(arr, [1, 3],axis=1)

[array([[ 0.2863],
        [ 0.0699],
        [-0.9193],
        [ 0.8626],
        [-0.9559],
        [-1.3326],
        [-0.5031]]),
 array([[ 0.378 , -0.7539],
        [ 0.2467, -0.0119],
        [-1.5491,  0.0222],
        [-0.01  ,  0.05  ],
        [-0.0235, -2.3042],
        [ 1.0746,  0.7236],
        [-0.6223, -0.9212]]),
 array([[ 0.3313,  1.3497],
        [ 1.0048,  1.3272],
        [ 0.7584, -0.6605],
        [ 0.6702,  0.853 ],
        [-0.6525, -1.2183],
        [ 0.69  ,  1.0015],
        [-0.7262,  0.2229]])]

#### `np.vsplit()`/`np.hsplit()` 함수

* `np.vsplit(arr, z)` = `np.split(arr, z, axis=0)`

In [46]:
np.vsplit(arr, [2, 3, 5])

[array([[ 0.2863,  0.378 , -0.7539,  0.3313,  1.3497],
        [ 0.0699,  0.2467, -0.0119,  1.0048,  1.3272]]),
 array([[-0.9193, -1.5491,  0.0222,  0.7584, -0.6605]]),
 array([[ 0.8626, -0.01  ,  0.05  ,  0.6702,  0.853 ],
        [-0.9559, -0.0235, -2.3042, -0.6525, -1.2183]]),
 array([[-1.3326,  1.0746,  0.7236,  0.69  ,  1.0015],
        [-0.5031, -0.6223, -0.9212, -0.7262,  0.2229]])]

* `np.hsplit(arr, z)` = `np.split(arr, z, axis=1)`

In [48]:
np.hsplit(arr, [1, 3])

[array([[ 0.2863],
        [ 0.0699],
        [-0.9193],
        [ 0.8626],
        [-0.9559],
        [-1.3326],
        [-0.5031]]),
 array([[ 0.378 , -0.7539],
        [ 0.2467, -0.0119],
        [-1.5491,  0.0222],
        [-0.01  ,  0.05  ],
        [-0.0235, -2.3042],
        [ 1.0746,  0.7236],
        [-0.6223, -0.9212]]),
 array([[ 0.3313,  1.3497],
        [ 1.0048,  1.3272],
        [ 0.7584, -0.6605],
        [ 0.6702,  0.853 ],
        [-0.6525, -1.2183],
        [ 0.69  ,  1.0015],
        [-0.7262,  0.2229]])]

#### `np.concatenate()` 함수

두 개의 어레이를 이어 붙이다.
지정되는 축에 따라 좌우로 또는 상하로 이어붙인다.

아래 두 어레이가 주어졌다고 가정하다.

In [14]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr1

array([[1, 2, 3],
       [4, 5, 6]])

In [15]:
arr2 = np.array([[7, 8, 9], [10, 11, 12]])
arr2

array([[ 7,  8,  9],
       [10, 11, 12]])

위아래로 이어붙이면 축을 0으로 정한다.

In [17]:
np.concatenate([arr1, arr2], axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

좌우로 이어붙이면 축을 1로 정한다.

In [18]:
np.concatenate([arr1, arr2], axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

#### `np.vstack()`/`np.hstack()` 함수

* `np.vstack((x, y))` = `np.concatenate([x, y], axis=0)`

In [19]:
np.vstack((arr1, arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

* `np.hstack((x, y))` = `np.concatenate([x, y], axis=1)`

In [73]:
np.hstack((arr1, arr2))

array([[ 0.    ,  1.    , -0.4826, -0.0363],
       [ 2.    ,  3.    ,  1.0954,  0.9809],
       [ 4.    ,  5.    , -0.5895,  1.5817]])

#### `np.r_()`/`np.c_()` 객체

`vstack()`/`hstack()` 과 동일한 기능을 수행하는 특수한 객체들이다.

아래 세 개의 어레이를 이용하여 사용법을 살펴본다.

In [70]:
arr = np.arange(6)
arr

array([0, 1, 2, 3, 4, 5])

In [71]:
arr1 = np.arange(6).reshape((3, 2))
arr1

array([[0, 1],
       [2, 3],
       [4, 5]])

In [72]:
arr2 = np.random.randn(3, 2)
arr2

array([[-0.4826, -0.0363],
       [ 1.0954,  0.9809],
       [-0.5895,  1.5817]])

아래 코드는 `np.vstack((arr1, arr2))`와 동일하다.

In [74]:
np.r_[arr1, arr2]

array([[ 0.    ,  1.    ],
       [ 2.    ,  3.    ],
       [ 4.    ,  5.    ],
       [-0.4826, -0.0363],
       [ 1.0954,  0.9809],
       [-0.5895,  1.5817]])

In [76]:
np.vstack([arr1, arr2])

array([[ 0.    ,  1.    ],
       [ 2.    ,  3.    ],
       [ 4.    ,  5.    ],
       [-0.4826, -0.0363],
       [ 1.0954,  0.9809],
       [-0.5895,  1.5817]])

아래 코드는 `np.hstack((arr1, arr2))`와 동일하다.

In [79]:
np.c_[arr1, arr2]

array([[ 0.    ,  1.    , -0.4826, -0.0363],
       [ 2.    ,  3.    ,  1.0954,  0.9809],
       [ 4.    ,  5.    , -0.5895,  1.5817]])

In [82]:
np.hstack((arr1, arr2))

array([[ 0.    ,  1.    , -0.4826, -0.0363],
       [ 2.    ,  3.    ,  1.0954,  0.9809],
       [ 4.    ,  5.    , -0.5895,  1.5817]])

행 또는 열의 크기를 적절하게 맞출 수 있는 어떤 조합도 가능하다.

In [83]:
np.c_[np.r_[arr1, arr2], arr]

array([[ 0.    ,  1.    ,  0.    ],
       [ 2.    ,  3.    ,  1.    ],
       [ 4.    ,  5.    ,  2.    ],
       [-0.4826, -0.0363,  3.    ],
       [ 1.0954,  0.9809,  4.    ],
       [-0.5895,  1.5817,  5.    ]])

## A.3 브로드캐스팅 (p. 601)

In [84]:
arr = np.arange(5)
arr

array([0, 1, 2, 3, 4])

In [85]:
arr * 4

array([ 0,  4,  8, 12, 16])

In [None]:
arr = np.random.randn(4, 3)
arr.mean(0)
demeaned = arr - arr.mean(0)
demeaned
demeaned.mean(0)

In [None]:
arr
row_means = arr.mean(1)
row_means.shape
row_means.reshape((4, 1))
demeaned = arr - row_means.reshape((4, 1))
demeaned.mean(1)

### Broadcasting Over Other Axes

In [None]:
arr - arr.mean(1)

In [None]:
arr - arr.mean(1).reshape((4, 1))

In [None]:
arr = np.zeros((4, 4))
arr_3d = arr[:, np.newaxis, :]
arr_3d.shape
arr_1d = np.random.normal(size=3)
arr_1d[:, np.newaxis]
arr_1d[np.newaxis, :]

In [None]:
arr = np.random.randn(3, 4, 5)
depth_means = arr.mean(2)
depth_means
depth_means.shape
demeaned = arr - depth_means[:, :, np.newaxis]
demeaned.mean(2)

```python
def demean_axis(arr, axis=0):
    means = arr.mean(axis)

    # This generalizes things like [:, :, np.newaxis] to N dimensions
    indexer = [slice(None)] * arr.ndim
    indexer[axis] = np.newaxis
    return arr - means[indexer]
```

### Setting Array Values by Broadcasting

In [None]:
arr = np.zeros((4, 3))
arr[:] = 5
arr

In [None]:
col = np.array([1.28, -0.42, 0.44, 1.6])
arr[:] = col[:, np.newaxis]
arr
arr[:2] = [[-1.37], [0.509]]
arr