# Advanced NumPy

In [1]:
import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
np.set_printoptions(precision=4, suppress=True)

# ndarray Object Internals

ndarray는 연속적이든 아니든 단일 형태의 데이터 블록을 다차원 배열 객체 형태로 해석할 수 있는 수단을 제공한다. dtype이라고 하는 자료형은 데이터가 실수, 정수, 불리언 혹은 다른 형인지 알려주는 역할을 한다. 
- 데이터 포인터 : RAM이나 메모리 맵 파일에서 데이터 블록
- dtype은 배열 내에서 값을 담는 고정된 크기를 나타낸다. 
- 배열의 모양을 알려주는 튜플(shape)
- 하나의 차원을 따라 다음 원소로 몇 바이트 이동해야 하는지를 나타내는 stride를 담고 있는 튜플

In [4]:
np.ones((10, 5)).shape

(10, 5)

In [6]:
# 일반적으로 stride 값이 클 수록 해당 축을 따라 연산을 수행하는 비용이 많이든다.
# stride는 복사가 이루어지지 않는 배열의 뷰를 생성하는 데 중요한 역할을 한다.
# https://numpy.org/doc/stable/reference/generated/numpy.ndarray.strides.html
np.ones((3, 4, 5), dtype=np.float64).strides

(160, 40, 8)

# Advanced Array Manipulation

In [7]:
arr = np.arange(15)
arr.reshape((5, -1))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [9]:
arr = np.arange(15).reshape((5, 3))
arr

# ravel : Return the flattened underlying data as an ndarray.
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [10]:
arr.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### Fancy Indexing Equivalents: take and put, 단일 축에 대한 값을 선택할 때만 사용할 수 있는 유용한 메서드

In [21]:
arr = np.arange(10) * 100
inds = [7, 1, 2, 6]
arr[inds]

array([700, 100, 200, 600])

In [22]:
# take 
arr.take(inds)

array([700, 100, 200, 600])

In [24]:
# 해당 위치에 42 대입
arr.put(inds, 42)
arr

array([  0,  42,  42, 300, 400, 500,  42,  42, 800, 900])

In [25]:
arr.put(inds, [40, 41, 42, 43])
arr

array([  0,  41,  42, 300, 400, 500,  43,  40, 800, 900])

In [26]:
inds = [2, 0, 2, 1]
arr = np.random.randn(2, 4)
arr
arr.take(inds, axis=1)

array([[1.0072, 0.769 , 1.0072, 1.2464],
       [1.3529, 0.275 , 1.3529, 0.2289]])

# Broadcasting

브로드캐스팅은 다른 모양의 배열 간의 산술 연산을 어떻게 수행해야 하는지 설명한다. 만일 이어지는 각 차원에 대해 축의 길이가 일치하거나 둘 중 하나의 길이가 1이라면 두 배열은 브로드캐스팅 호환이다. 브로드캐스팅은 누락된 혹은 길이가 1인 차원에 대해 수행된다. 

In [33]:
arr = np.random.randn(4, 3)
# axis=0을 기준으로 평균
arr.mean(0)

array([-0.5235,  0.117 , -0.2553])

In [34]:
demeaned = arr - arr.mean(0)
demeaned

array([[ 1.3764, -1.0728,  0.2318],
       [-1.7808, -0.7694, -0.963 ],
       [-0.8091,  0.9577,  0.979 ],
       [ 1.2135,  0.8846, -0.2478]])

In [35]:
demeaned.mean(0)

array([-0., -0.,  0.])

In [38]:
arr

array([[ 0.853 , -0.9559, -0.0235],
       [-2.3042, -0.6525, -1.2183],
       [-1.3326,  1.0746,  0.7236],
       [ 0.69  ,  1.0015, -0.5031]])

In [39]:
row_means = arr.mean(1)
row_means.shape

(4,)

In [41]:
row_means.reshape((4, 1))
demeaned = arr - row_means.reshape((4, 1))
demeaned

array([[ 0.8951, -0.9137,  0.0186],
       [-0.9126,  0.7392,  0.1734],
       [-1.4878,  0.9194,  0.5684],
       [ 0.2938,  0.6054, -0.8992]])

### Broadcasting Over Other Axes

In [45]:
arr-arr.mean(1).reshape(4,1)

array([[ 0.8951, -0.9137,  0.0186],
       [-0.9126,  0.7392,  0.1734],
       [-1.4878,  0.9194,  0.5684],
       [ 0.2938,  0.6054, -0.8992]])

In [50]:
# np.newaxis  : 브로드캐스팅을 위한 간단한 방법은 길이가 1인 축을 만드는 것, newaxis가 해당 기능을 제공한다. 

arr = np.zeros((4, 4))
arr_3d = arr[:, np.newaxis, :]
arr_3d.shape

(4, 1, 4)

In [49]:
arr_1d = np.random.normal(size=3)
arr_1d[:, np.newaxis]
arr_1d[np.newaxis, :]

(4, 1)

In [52]:
arr_1d = np.random.normal(size=3)
arr_1d 

array([ 0.2229,  0.0513, -1.1577])

In [53]:
arr_1d[:, np.newaxis]

array([[ 0.2229],
       [ 0.0513],
       [-1.1577]])

In [54]:
arr_1d[np.newaxis, :]

array([[ 0.2229,  0.0513, -1.1577]])

In [55]:
arr = np.random.randn(3, 4, 5)
depth_means = arr.mean(2)
depth_means

array([[ 0.6177,  0.7978,  0.5663, -0.4278],
       [-0.077 ,  0.3803, -0.3688, -0.9186],
       [ 0.1499, -0.8131,  0.9887,  0.0507]])

In [56]:
depth_means.shape

(3, 4)

In [57]:
demeaned = arr - depth_means[:, :, np.newaxis]
demeaned

array([[[ 0.199 , -0.1841,  0.3931,  1.2072, -1.6152],
        [ 0.0528, -0.9294,  0.1146, -0.6096,  1.3716],
        [-0.6813,  1.4373, -0.5367,  0.2289, -0.4482],
        [-0.3207,  1.0128,  0.5805, -1.1378, -0.1347]],

       [[ 0.0444, -0.852 , -0.4055,  0.0408,  1.1724],
        [ 0.6006, -0.9698,  1.2014, -0.909 ,  0.0767],
        [ 1.2988, -1.2004, -0.6537, -0.034 ,  0.5893],
        [ 0.7252,  1.5877, -0.7304, -1.3342, -0.2483]],

       [[ 0.2037,  0.5522, -0.4245, -0.2891, -0.0423],
        [ 0.2066,  0.3961,  0.7961, -0.411 , -0.9877],
        [ 0.646 ,  0.0003, -0.5308, -0.4336,  0.318 ],
        [-0.4912, -0.352 ,  0.4481, -0.8747,  1.2699]]])

### Setting Array Values by Broadcasting

In [77]:
arr = np.zeros((4, 3))
arr[:] = 5
arr

array([[5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.]])

In [79]:
col = np.array([1.28, -0.42, 0.44, 1.6])
arr[:] = col[:, np.newaxis]
arr

array([[ 1.28,  1.28,  1.28],
       [-0.42, -0.42, -0.42],
       [ 0.44,  0.44,  0.44],
       [ 1.6 ,  1.6 ,  1.6 ]])

In [80]:
arr[:2] = [[-1.37], [0.509]]
arr

array([[-1.37 , -1.37 , -1.37 ],
       [ 0.509,  0.509,  0.509],
       [ 0.44 ,  0.44 ,  0.44 ],
       [ 1.6  ,  1.6  ,  1.6  ]])

이외에 Advanced ufunc Usage, Structured and Record Arrays, More About Sorting, Writing Fast NumPy Functions with Numba, Advanced Array Input and Output 등은 업무에서 요구될 때 실습을 진행하겠다.