# Chapter 4 NumPy를 사용한 수치 계산
> 컴퓨터는 쓸모 없다. 그것들은 답만 줄 뿐이다.  
-파블로 피카소

이 장의 구성은 다음과 같습니다.
* 데이터 배열: 순수 파이썬 코드로 데이터 배열을 다루는 법
* 정규 NumPy 배열: 수치 데이터와 관계된 모든 데이터 처리에서 가장 중요한 넘파이 `ndarray` 클래스에 대한 핵심적인 절
* 구조화 NumPy 배열: 여러 열이 있는 테이블 데이터를 다루기 위한 구조화 (레코드) `ndarray` 객체
* 코드 벡터화: 코드 벡터화와 그 장점 + 특정 시나리오에서 메모리 레이아웃(memory layout)의 중요성

## 4.1 데이터 배열
유연한 자료구조는 많은 메모리 사용이나 낮은 성능 등의 비용을 수반합니다. 하지만 과학기술이나 금융 분야에서는 더 빠른 연산이 가능한 특별한 자료구조가 필요합니다. 그 중 하나가 바로 배열(array)입니다. 배열은 행과 열을 가진 기본 자료구조를 말합니다.  
이런 자료구조는 숫자가 아닌 다른 자료형에도 적용할 수 있지만, 당분간은 숫자만 다룬다고 가정하죠. 가장 단순한 경우는 수학적으로 실수 벡터(vector of real numbers)라고 부르는 1차원 배열입니다.
### 4.1.1 파이썬 리스트를 사용한 배열
우선 앞 절에서 배운 기본 자료형으로 배열을 구성해보겠습니다. 이 작업에 가장 적합한 것이 리스트 객체입니다. 리스트 객체는 그 자체로 1차원 배열로 쓸 수 있습니다.

In [1]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]

리스트 객체는 또다른 리스트 객체를 포함한 임의의 객체를 원소로 가질 수 있습니다. 따라서 중첩된 리스트 구조를 사용하면 2차원이나 다차원 배열도 쉽게 만들 수 있습니다.

In [2]:
m = [v, v, v]
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

인덱싱으로 특정한 행을 선택하거나 이중 인덱싱으로 특정한 원소를 선택할 수도 있습니다. 그러나 자료형과 자료구조 열을 선택하는 것은 쉽지 않습니다.

In [3]:
m[1]

[0.5, 0.75, 1.0, 1.5, 2.0]

In [4]:
m[1][0]

0.5

In [5]:
v1 = [0.5, 1.5]
v2 = [1, 2]
m = [v1, v2]
c = [m, m]
c

[[[0.5, 1.5], [1, 2]], [[0.5, 1.5], [1, 2]]]

In [6]:
c[1][1][0]

1

방금 보여준 객체 조합 방식은 사실 참조 포인터를 사용한 방식입니다. 무슨 의미인지 이해하려면 다음 코드를 살펴봐야 합니다.

In [7]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = [v, v, v]
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

이렇게 객체 `v`를 이용하여 객체 `m`을 구성하고 객체 `v`의 첫 번째 원소 값을 바꾸었을 때 객체 `m`이 어떻게 되는지 살펴봅시다.

In [8]:
v[0] = 'Python'
m

[['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0]]

이 문제를 해결하려면 `copy` 모듈의 `deepcopy()` 함수를 이용해야 합니다.

In [9]:
from copy import deepcopy
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = 3 * [deepcopy(v), ]
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

In [10]:
v[0] = 'Python'
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

### 4.1.2 파이썬 array 클래스
파이썬에는 전용 배열 모듈이 있습니다. 리스트 객체를 배열 객체로 만드는 다음 코드를 살펴봅시다.

In [11]:
v = [0.5, 0.75, 1.0, 1.5, 2.0]

In [12]:
import array

In [13]:
a = array.array('f', v)
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0])

In [14]:
a.append(0.5)
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5])

In [15]:
a.extend([5.0, 6.75])
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75])

In [16]:
2 * a # 스칼라곱은 가능하지만, 원하는 결과와 달리 반복된 값이 나옵니다

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75, 0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75])

참고로 배열 객체에 다른 자료형 객체를 추가하려고 하면 `TypeError`가 발생합니다.  
`array` 클래스의 장점은 저장 및 읽기 기능이 내장되어 있다는 점입니다.

In [17]:
f = open('array.apy', 'wb')
a.tofile(f)
f.close()

In [18]:
with open('array.apy', 'wb') as f: # with 문을 이용해 위 코드를 축약할 수 있습니다
    a.tofile(f)

In [19]:
!ls -n arr* # 디스크에 파일이 있음을 보여줍니다

'ls'��(��) ���� �Ǵ� �ܺ� ����, ������ �� �ִ� ���α׷�, �Ǵ�
��ġ ������ �ƴմϴ�.


데이터를 디스크에서 읽을 때도 자료형이 중요합니다.

In [20]:
b = array.array('f')

In [21]:
with open('array.apy', 'rb') as f:
    b.fromfile(f, 5) # b 객체의 원소 다섯 개를 읽습니다

In [22]:
b

array('f', [0.5, 0.75, 1.0, 1.5, 2.0])

In [23]:
b = array.array('d') # 더블(double) 자료형으로 새 배열 객체를 생성

In [24]:
with open('array.apy', 'rb') as f:
    b.fromfile(f, 2) # 2개의 원소를 파일에서 읽습니다

In [25]:
b # 자료형의 차이로 인해 다른 숫자가 들어가고 말았습니다

array('d', [0.0004882813645963324, 0.12500002956949174])

## 4.2 정규 NumPy 배열
앞서 보여준 바와 같이 리스트 객체를 사용해서 배열 구졸르 만들 수 있습니다. 그러나 이 방식은 여러 가지 단점이 있는데다, 애초에 리스트 객체가 그런 목적으로 만든 것이 아닙니다. 리스트 자료형은 좀 더 일반적이고 광범위한 목적으로 사용되는 것입니다. 배열을 잘 다루기 위해서는 이 목적에 특화된 새로운 클래스가 필요합니다.
### 4.2.1 기초
이렇게 특화된 클래스가 바로 `numpy.ndarray`입니다. 이 클래스는 n차원 배열을 쉽고 효율적으로 다루기 위한 목적으로 만들어졌습니다.

In [26]:
import numpy as np

In [27]:
a = np.array([0, 0.5, 1.0, 1.5, 2.0])
a

array([0. , 0.5, 1. , 1.5, 2. ])

In [28]:
type(a)

numpy.ndarray

In [29]:
a = np.array(['a', 'b', 'c'])
a

array(['a', 'b', 'c'], dtype='<U1')

In [30]:
a = np.arange(2, 20, 2) # np.arange()는 range()와 비슷하게 동작합니다
a

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [31]:
a = np.arange(8, dtype=np.float32)
a

array([0., 1., 2., 3., 4., 5., 6., 7.], dtype=float32)

In [32]:
a[5:]

array([5., 6., 7.], dtype=float32)

In [33]:
a[:2]

array([0., 1.], dtype=float32)

`numpy.ndarray` 클래스의 가장 큰 특징은 다양한 내장 메서드가 있다는 점입니다.

In [34]:
a.sum()

28.0

In [35]:
a.std() # 표준편차

2.291288

In [36]:
a.cumsum() # 모든 원소의 누적합(인덱스 0부터 시작)

array([ 0.,  1.,  3.,  6., 10., 15., 21., 28.], dtype=float32)

또다른 특징은 `ndarray` 객체에 대해 벡터화된 수학 연산이 가능하다는 점입니다.

In [37]:
l = [0, 0.5, 1.5, 3., 5.] # 리스트와 스칼라를 곱하면 원소를 반복합니다
2 * l

[0, 0.5, 1.5, 3.0, 5.0, 0, 0.5, 1.5, 3.0, 5.0]

In [38]:
a

array([0., 1., 2., 3., 4., 5., 6., 7.], dtype=float32)

In [39]:
2 * a # 하지만 ndarray는 올바른 스칼라곱을 구현합니다

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.], dtype=float32)

In [40]:
a ** 2 # 각 원소의 제곱

array([ 0.,  1.,  4.,  9., 16., 25., 36., 49.], dtype=float32)

In [41]:
2 ** a # 각 원소를 승수로 2의 제곱을 계산

array([  1.,   2.,   4.,   8.,  16.,  32.,  64., 128.], dtype=float32)

In [42]:
a ** a # 각 원소를 승수로 원소 값의 제곱 계산

array([1.00000e+00, 1.00000e+00, 4.00000e+00, 2.70000e+01, 2.56000e+02,
       3.12500e+03, 4.66560e+04, 8.23543e+05], dtype=float32)

유니버설 함수는 넘파이 패키지의 또다른 특징입니다. 이 함수는 파이썬 자료형뿐 아니라 `ndarray` 객체에도 똑같이 적용할 수 있습니다. 하지만 유니버설 함수를 파이썬 자료형에 적용하면 `math` 모듈을 사용할 때보다 성능이 감소한다는 것을 알아둬야 합니다.

In [43]:
np.exp(a)

array([1.0000000e+00, 2.7182820e+00, 7.3890557e+00, 2.0085537e+01,
       5.4598148e+01, 1.4841316e+02, 4.0342877e+02, 1.0966332e+03],
      dtype=float32)

In [44]:
np.sqrt(a)

array([0.       , 1.       , 1.4142135, 1.7320508, 2.       , 2.236068 ,
       2.4494898, 2.6457512], dtype=float32)

In [45]:
np.sqrt(2.5)

1.5811388300841898

In [46]:
import math

In [47]:
math.sqrt(2.5)

1.5811388300841898

In [48]:
math.sqrt(a) # math 모듈은 ndarray 객체에 바로 적용할 수 없습니다!

TypeError: only size-1 arrays can be converted to Python scalars

In [49]:
%timeit np.sqrt(2.5) # 유니버설 함수 np.sqrt()를 파이썬 부동소수점 객체에 적용합니다

630 ns ± 6 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [50]:
%timeit math.sqrt(2.5) # 확인해보니 math.sqrt() 함수보다 더 느립니다

88.2 ns ± 2.24 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


## 4.2 다차원
1차원에서 다차원으로 확장하는 것은 간단합니다. 앞에서 보여준 모든 기능은 다차원에서도 일반적으로 쓸 수 있습니다. 특히 인덱싱 방법은 모든 차원의 배열에 일괄적으로 사용할 수 있습니다.

In [51]:
b = np.array([a, a * 2])
b

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
       [ 0.,  2.,  4.,  6.,  8., 10., 12., 14.]], dtype=float32)

In [52]:
b[0]

array([0., 1., 2., 3., 4., 5., 6., 7.], dtype=float32)

In [53]:
b[0, 2]

2.0

In [54]:
b[:, 1]

array([1., 2.], dtype=float32)

In [55]:
b.sum()

84.0

In [56]:
b.sum(axis=0) # 첫 번째 축(열)의 합

array([ 0.,  3.,  6.,  9., 12., 15., 18., 21.], dtype=float32)

In [57]:
b.sum(axis=1) # 두 번째 축(행)의 합

array([28., 56.], dtype=float32)

`numpy.ndarray` 객체를 만드는 방법은 여러 가지가 있는데 한 가지는 앞서 보인 바와 같이 `np.array`를 사용하는 방법입니다. 다만 이 방법은 배열의 모든 원소 값을 이미 알고 있어야 한다는 단점이 있습니다. 처음에 특정한 원소 값이 없는 `numpy.ndarray` 객체를 만들고 나중에 코드를 실행하면서 각 원소의 값을 지정하는 방법을 원할 때는 다음과 같은 함수들을 사용합니다.

In [58]:
c = np.zeros((2, 3), dtype='i', order='C') # 0을 원소로 갖는 객체
c

array([[0, 0, 0],
       [0, 0, 0]], dtype=int32)

In [59]:
c = np.ones((2, 3, 4), dtype='i', order='C') # 1을 원소로 갖는 객체
c

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int32)

In [65]:
d = np.zeros_like(c, dtype='float16', order='C') # 0을 원소로 갖되, 다른 배열의 크기를 참고해서 행렬 생성
d

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]], dtype=float16)

In [66]:
d = np.ones_like(c, dtype='float16', order='C') # 1을 원소로 갖되, 다른 배열의 크기를 참고해서 행렬 생성
d

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]], dtype=float16)

In [67]:
e = np.empty((2, 3, 2)) # 아무 값이나 들어 있는 배열 생성(원소의 값은 메모리 상태에 의존합니다)
e

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [69]:
f = np.empty_like(c)
f

array([[[ 759690696,        654,         64,          0],
        [         0,          0,          0,          0],
        [         0,         55,  909719857,  878797361]],

       [[1681221170,  929325923, 1701000547,  892744803],
        [1633904177,  946168677, 1698128948,  879125350],
        [ 892940857,  959472696, 1667315508,  912341089]]], dtype=int32)

In [70]:
np.eye(5) # 단위행렬

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [71]:
g = np.linspace(5, 15, 12) # 시작점, 끝점, 원소의 개수를 지정하여 1차원 ndarray 객체 생성
g

array([ 5.        ,  5.90909091,  6.81818182,  7.72727273,  8.63636364,
        9.54545455, 10.45454545, 11.36363636, 12.27272727, 13.18181818,
       14.09090909, 15.        ])

이 함수들을 사용할 때는 다음과 같은 정보를 포함해야 합니다.
1. `shape`: 정수 혹은 정수의 시퀀스, 또는 원하는 형상을 가진 다른 `numpy.ndarray` 객체
2. `dtype`(옵션): `numpy.dtype` 객체. 이 객체는 `numpy.ndarray` 객체의 자료형을 표현하기 위한 넘파이만의 특별한 자료형입니다.
3. `order`(옵션): 메모리에 원소를 저장하는 순서. C면 C언어와 같이 행 기반으로 저장하고, F면 포트란(FORTRAN)처럼 열 기반으로 저장합니다.ㅣ   

리스트와 비교하면 넘파이의 `ndarray` 클래스 쪽이 배열에 더 특화된 것을 알 수 있습니다.
* 축이라는 내장 차원을 가진다.
* 객체가 불변이며, 크기가 고정되어 있다.
* 전체 배열에 한 가지 자료형만 넣을 수 있다.

`order` 인수의 역할은 이 장 후반부에서 다시 살펴보도록 합시다. `numpy.dtype` 객체 목록, 즉 넘파이에서 쓸 수 있는 기본 자료형을 정리하면 아래 표와 같습니다.  

|dtype|설명|사용 예|
|---|---|---|
|`b`|불리언|b (참 혹은 거짓)|
|`i`|정수|i8 (64비트)|
|`u`|부호 없는 정수|u8 (64비트)|
|`f`|부동소수점|f8 (64비트)|
|`c`|복소수 부동소수점|c16 (128비트)|
|`O`|객체|O (객체에 대한 포인터)|
|`S, a`|문자열|S24 (24글자)|
|`U`|유니코드 문자열|U24 (24 유니코드 글자)|
|`V`|기타|V12 (12바이트의 데이터 블록)|  


### 4.2.3 메타 정보
모든 `ndarray` 객체는 몇 가지 유용한 속성이 있습니다.

In [72]:
g.size # 원소의 개수

12

In [73]:
g.itemsize # 원소 하나에 사용된 바이트 수

8

In [74]:
g.ndim # 차원의 수

1

In [75]:
g.shape # ndarray 객체의 형상

(12,)

In [76]:
g.dtype # 원소의 dtype(자료형)

dtype('float64')

In [77]:
g.nbytes # 사용된 메모리 총량

96

### 4.2.4 형태 변환과 크기 변환
`ndarray` 객체는 불변 객체지만 형태와 크기를 바꿀 수 있는 몇 가지 옵션이 있습니다. 형태를 바꾸는 것은 같은 데이터에 대한 뷰(view)만 바꾸는 것이지만, 크기를 바꾸는 것은 새로운 객체를 생성하는 것입니다.  
우선 형태 변환 예제입니다.

In [78]:
g = np.arange(15)
g

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [79]:
g.shape

(15,)

In [80]:
np.shape(g)

(15,)

In [81]:
g.reshape((3, 5))

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [84]:
h = g.reshape((5, 3))
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [85]:
h.T

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

In [86]:
h.transpose()

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

형태 변환을 할 때는 `ndarray` 객체 전체 원소의 개수가 변하지 않습니다. 크기 변환을 할 때는 개수가 변합니다. 작아지거나(다운사이징, down-sizing) 커지죠(업사이징, up-sizing).

In [87]:
g

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [88]:
np.resize(g, (3, 1))

array([[0],
       [1],
       [2]])

In [89]:
np.resize(g, (1, 5))

array([[0, 1, 2, 3, 4]])

In [90]:
np.resize(g, (2, 5))

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [92]:
n = np.resize(g, (5, 4)) # 2차원 업사이징
n

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14,  0],
       [ 1,  2,  3,  4]])

스택(stack)은 두 `ndarray` 객체를 가로 혹은 세로로 붙이는 특수한 연산입니다. 단, 연결되는 차원의 크기는 같아야 합니다.

In [93]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [94]:
np.hstack((h, 2*h))

array([[ 0,  1,  2,  0,  2,  4],
       [ 3,  4,  5,  6,  8, 10],
       [ 6,  7,  8, 12, 14, 16],
       [ 9, 10, 11, 18, 20, 22],
       [12, 13, 14, 24, 26, 28]])

In [97]:
np.vstack((h, 0.5*h))

array([[ 0. ,  1. ,  2. ],
       [ 3. ,  4. ,  5. ],
       [ 6. ,  7. ,  8. ],
       [ 9. , 10. , 11. ],
       [12. , 13. , 14. ],
       [ 0. ,  0.5,  1. ],
       [ 1.5,  2. ,  2.5],
       [ 3. ,  3.5,  4. ],
       [ 4.5,  5. ,  5.5],
       [ 6. ,  6.5,  7. ]])

또다른 특수 연산은 다차원 `ndarray` 객체를 1차원 객체로 펼치는 것입니다. 펼치는 작업을 행 단위로 할지 열 단위로 할지 선택할 수 있습니다.

In [98]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [99]:
h.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [100]:
h.flatten(order='C')

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [101]:
h.flatten(order='F')

array([ 0,  3,  6,  9, 12,  1,  4,  7, 10, 13,  2,  5,  8, 11, 14])

In [103]:
for i in h.flat:
    print(i, end=',')

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,

In [104]:
for i in h.ravel(order='C'): # ravel() 메서드는 flatten() 메서드와 같습니다
    print(i, end=',')

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,

In [105]:
for i in h.ravel(order='F'):
    print(i, end=',')

0,3,6,9,12,1,4,7,10,13,2,5,8,11,14,

### 4.2.5 불리언 배열
일반적인 비교나 논리 연산은 다른 파이썬 자료형과 같이 `ndarray` 객체에 원소별로 작동할 수 있습니다. 결과는 불리언 배열로 나옵니다.

In [106]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [107]:
h > 8

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]])

In [108]:
h <= 7

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True, False],
       [False, False, False],
       [False, False, False]])

In [109]:
h == 5

array([[False, False, False],
       [False, False,  True],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [110]:
(h==5).astype(int)

array([[0, 0, 0],
       [0, 0, 1],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [111]:
(h > 4) & (h <= 12)

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True, False, False]])

이렇게 나온 불리언 배열은 인덱싱이나 데이터 선택에 사용할 수 있습니다. 다만 연산을 하면 데이터가 펼쳐진다는 것에 주의하세요.

In [112]:
h[h > 8]

array([ 9, 10, 11, 12, 13, 14])

In [113]:
h[(h > 4) & (h <= 12)]

array([ 5,  6,  7,  8,  9, 10, 11, 12])

In [114]:
h[(h < 4) | (h >= 12)]

array([ 0,  1,  2,  3, 12, 13, 14])

이러한 도구 중 가장 강력한 것이 `np.where()` 함수입니다. 이 함수는 조건이 참인지 거짓인지에 따라 연산이나 동작을 어떻게 할 지 정의할 수 있습니다. `np.where()`를 적용한 결과는 원래의 배열과 같은 크기의 새로운 `ndarray` 객체가 됩니다.

In [115]:
np.where(h > 7, 1, 0)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [116]:
np.where(h % 2 == 0, 'even', 'odd')

array([['even', 'odd', 'even'],
       ['odd', 'even', 'odd'],
       ['even', 'odd', 'even'],
       ['odd', 'even', 'odd'],
       ['even', 'odd', 'even']], dtype='<U4')

In [117]:
np.where(h <= 7, h * 2, h / 2)

array([[ 0. ,  2. ,  4. ],
       [ 6. ,  8. , 10. ],
       [12. , 14. ,  4. ],
       [ 4.5,  5. ,  5.5],
       [ 6. ,  6.5,  7. ]])

### 4.2.6 속도 비교
단일 자료형을 가지지 않는 구조화 배열을 설명하기 전에 마지막으로 단일 자료형을 가진 보통의 넘파이 배열을 사용할 때 얻을 수 있는 성능 향상을 살펴보죠.  
간단한 예로 $5000\times 5000$ 원소를 가진 행렬/배열을 표준정규분포 난수를 사용하여 생성한다고 해봅시다. 우리는 이 배열의 모든 원소의 합을 구하고자 합니다. 우선 넘파이를 쓰지 않고 순수 파이썬만으로 구현해봅니다. 이때 리스트 조건제시법과 람다 함수 등의 함수형 프로그래밍 메서드를 사용합니다.

In [118]:
import random
I = 5000

In [119]:
%time mat = [[random.gauss(0, 1) for j in range(I)] for i in range(I)]

CPU times: total: 14.2 s
Wall time: 14.2 s


In [120]:
mat[0][:5] # 일반 난수 선택

[0.9904353313658986,
 1.927993295611123,
 -0.9800219656007467,
 0.04558607689716917,
 -0.4616420586269363]

In [121]:
%time sum([sum(l) for l in mat]) # 리스트 조건제시법 내에서 합을 계산하고 다시 그 합을 계산

CPU times: total: 172 ms
Wall time: 163 ms


2573.844379206262

In [122]:
import sys
sum(sys.getsizeof(l) for l in mat) # 모든 리스트 원소가 사용한 메모리의 합 계산

209400000

이번에는 같은 문제를 넘파이를 사용하여 풀어보겠습니다. 난수를 생성할 때도 넘파이 부속 라이브러리인 `numpy.random`을 사용하여 바로 `numpy.ndarray` 형식의 난수를 생성합니다.

In [123]:
%time mat = np.random.standard_normal((I, I))

CPU times: total: 812 ms
Wall time: 787 ms


In [124]:
%time mat.sum()

CPU times: total: 31.2 ms
Wall time: 38 ms


-8046.275318695136

In [125]:
mat.nbytes # 넘파이 방법은 데이터 이외의 메모리 오버헤드를 줄여주므로 메모리 사용도 적습니다

200000000

In [126]:
sys.getsizeof(mat)

200000120

> **TIP** NumPy 배열 사용하기
넘파이의 배열 연산과 알고리즘을 사용하면 순수 파이썬 코드보다 간결하고 읽기 쉬운 코드를 만들 수 있으며 성능도 획기적으로 개선할 수 있습니다.

## 4.3 구조화 NumPy 배열
`numpy.ndarray`를 사용하면 여러 가지 장점이 있지만 단일 자료형 숫자 배열 연산에 특화되어 있어서 다양한 배열 기반 알고리즘이나 응용 분야에서 사용하기 힘들 수 있습니다. 이 경우를 위해 넘파이에서는 각 열마다 다른 자료형을 사용할 수 있는 구조화 배열(structured array)과 `recarray` 레코드 객체(http://bit.ly/2DHsXgn)를 지원합니다. 그런데 '각 열마다'라는 말은 무슨 의미일까요? 다음과 같은 구조화 배열 객체를 생성해봅시다.

In [127]:
# 복합 dtype 생성
dt = np.dtype([('Name', 'S10'), ('Age', 'i4'),
               ('Height', 'f'), ('Children/Pets', 'i4', 2)])

In [128]:
dt

dtype([('Name', 'S10'), ('Age', '<i4'), ('Height', '<f4'), ('Children/Pets', '<i4', (2,))])

In [132]:
# 위 구문과 동일한 구문입니다.
dt = np.dtype({'names':['Name', 'Age', 'Height', 'Children/Pets'],
               'formats':'O int float int,int'.split()})
dt

dtype([('Name', 'O'), ('Age', '<i4'), ('Height', '<f8'), ('Children/Pets', [('f0', '<i4'), ('f1', '<i4')])])

In [133]:
s = np.array([('Smith', 45, 1.83, (0, 1)),
              ('Jones', 53, 1.72, (2, 2))], dtype=dt)
s

array([('Smith', 45, 1.83, (0, 1)), ('Jones', 53, 1.72, (2, 2))],
      dtype=[('Name', 'O'), ('Age', '<i4'), ('Height', '<f8'), ('Children/Pets', [('f0', '<i4'), ('f1', '<i4')])])

In [134]:
type(s) # 객체 자료형은 여전히 ndarray입니다.

numpy.ndarray

구조화 배열 객체를 생성하는 일은 SQL 데이터베이스 테이블을 생성하는 것과 아주 유사합니다. 데이터베이스 테이블 생성 때와 마찬가지로 각 열의 이름과 자료형, 문자열의 최대 글자 수 값은 추가 정보를 지정해야 합니다. 각 열은 이름으로 참조할 수 있습니다. 특정한 행, 즉 레코드를 선택하면 선택된 객체는 마치 사전 객체와 같이 쓸 수 있습니다. 다시 말해 키를 이용하여 값을 참조할 수 있습니다.

In [135]:
s['Name']

array(['Smith', 'Jones'], dtype=object)

In [136]:
s['Height'].mean()

1.775

In [137]:
s[0]

('Smith', 45, 1.83, (0, 1))

In [138]:
s[1]['Age']

53

요약하면 구조화 배열은 모든 원소가 같은 자료형인 일반 배열과 달리 각 열마다 다른 자료형을 사용할 수 있습니다. 이 경우 배열의 열은 SQL 데이터베이스 테이블의 열과 의미가 비슷합니다.  
구조화 배열의 장점은 열의 요소를 또다른 다차원 배열 객체로 만들 수 있으며 기본 넘파이 자료형을 따르지 않아도 된다는 점입니다.  
> **TIP** 구조화 배열  
넘파이 라이브러리는 일반적인 배열 이외에 구조화 배열을 제공합니다. 구조화 배열은 열마다 다른 자료형을 가진 복잡한 배열 기반 자료를 기술하고 처리할 수 있습니다. 파이썬에서 구조화 배열을 쓰면 `numpy.ndarray` 객체의 문법, 메서드, 연산 성능을 SQL 테이블과 같은 자료구조에 적용할 수 있습니다.

## 4.4 코드 벡터화
코드 벡터화는 코드를 더 간결하게 하고 실행 속도를 높이기 위한 전략입니다. 기본 아이디어는 복잡한 객체에 연산이나 함수를 적용할 때 객체가 포함하는 원소 하나하나에 반복 적용하는 것이 아니라 객체 전체에 한번만 적용하는 것입니다. 파이썬에서는 `map()`, `filter()`와 같은 도구로 벡터화를 할 수 있고 넘파이를 사용하면 좀 더 깊은 부분까지 벡터화가 가능합니다.
### 4.4.1 기본적인 벡터화
앞에서 배운 대로 간단한 수학 연산은 바로 `numpy.ndarray` 객체에 적용할 수 있습니다. 예를 들어 다음과 같이 두 개의 넘파이 배열을 원소끼리 더할 수 있습니다.

In [139]:
np.random.seed(100)
r = np.arange(12).reshape((4, 3))
s = np.arange(12).reshape((4, 3)) * 0.5

In [140]:
r

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [141]:
s

array([[0. , 0.5, 1. ],
       [1.5, 2. , 2.5],
       [3. , 3.5, 4. ],
       [4.5, 5. , 5.5]])

In [142]:
r + s # 원소별 덧셈 (루프 없음!)

array([[ 0. ,  1.5,  3. ],
       [ 4.5,  6. ,  7.5],
       [ 9. , 10.5, 12. ],
       [13.5, 15. , 16.5]])

넘파이는 브로드캐스팅을 지원하는데 이것을 사용하면 두 개의 서로 다른 형상을 가진 객체를 조합할 수 있습니다. 우리는 이미 이 기능을 사용한 적이 있습니다. 다음 예제를 보죠.

In [143]:
r + 3

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [144]:
2 * r

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16],
       [18, 20, 22]])

In [145]:
2 * r + 3

array([[ 3,  5,  7],
       [ 9, 11, 13],
       [15, 17, 19],
       [21, 23, 25]])

두 객체의 형상이 다른 경우에도 어느 정도까지는 ~~지랄맞더라도~~ 브로드캐스팅이 작동합니다.

In [146]:
r.shape

(4, 3)

In [147]:
s = np.arange(0, 12, 4)

In [148]:
r + s

array([[ 0,  5, 10],
       [ 3,  8, 13],
       [ 6, 11, 16],
       [ 9, 14, 19]])

In [149]:
s = np.arange(0, 12, 3)
s

array([0, 3, 6, 9])