# 배열의 연산

In [1]:
import numpy as np

### 백터화 연산

* %%time은 셀 코드의 실행시간을 측정하는 IPython 매직 명령이다.

In [2]:
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [7]:
%%time
z = np.zeros_like(x)
for i in range(10000):
    z[i] = x[i] + y[i]

CPU times: user 12.9 ms, sys: 3.07 ms, total: 16 ms
Wall time: 13.5 ms


In [9]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [10]:
%%time
z = x + y

CPU times: user 622 µs, sys: 830 µs, total: 1.45 ms
Wall time: 1.17 ms


In [11]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

* 사칙 연산뿐 아니라 비교 연산과 같은 논리 연산도 벡터화 연산이 가능하다.

In [12]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [14]:
a == b

array([False,  True, False,  True])

In [15]:
a >= b

array([False,  True,  True,  True])

* 만약 배열의 각 원소들을 일일히 비교하는 것이 아니라 배열의 모든 원소가 다 같은지 알고 싶다면 all 명령을 사용하면 된다.

In [19]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [20]:
np.all(a == b)

False

In [21]:
np.all(a == c)

True

In [22]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [23]:
np.exp(a)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [25]:
10 ** a

array([    1,    10,   100,  1000, 10000])

In [66]:
np.log(a + 1)

array([0.69314718, 1.09861229, 1.38629436, 1.09861229])

### 스칼라와 벡터/행렬의 곱셈

* 스칼라와 벡터/행렬의 곱도 선형 대수에서 사용하는 식과 NumPy 코드가 일치한다.

In [28]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [30]:
x = np.arange(12).reshape(3, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [31]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

### 브로드캐스팅

* 벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 한다. NumPy에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방벙이다.

In [32]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [33]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [35]:
x + y

array([1, 2, 3, 4, 5])

In [36]:
x + 1

array([1, 2, 3, 4, 5])

In [37]:
x = np.vstack([range(7)[i:i + 3] for i in range(5)])
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [38]:
y = np.arange(5)[:, np.newaxis]
y

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [39]:
x + y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [40]:
y = np.arange(3)
y

array([0, 1, 2])

In [42]:
x + y

array([[0, 2, 4],
       [1, 3, 5],
       [2, 4, 6],
       [3, 5, 7],
       [4, 6, 8]])

### 차원 축소 연산

* 행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 예를 들어 10x5 크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원 벡터가 나오게 된다. 이러한 연산을 차원 축소(dimension reduction) 연산이라고 한다.

In [43]:
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [44]:
np.sum(x)

10

In [45]:
x.sum()

10

In [46]:
x = np.array([1, 3, 2])

In [47]:
x.min()

1

In [48]:
x.max()

3

In [49]:
x.argmin()

0

In [50]:
x.argmax()

1

In [51]:
x = np.array([1, 2, 3, 1])

In [52]:
x.mean()

1.75

In [53]:
np.median(x)

1.5

In [54]:
np.all([True, True, False])

False

In [55]:
np.any([True, True, False])

True

In [56]:
a = np.zeros((100, 100), dtype=np.int)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [57]:
np.any(a != 0)

False

In [58]:
np.all(a == a)

True

In [59]:
a = np.array([1, 2, 3, 2])
b = np.array([2, 2, 3, 2])
c = np.array([6, 4, 4, 5])

In [60]:
((a <= b) & (b <= c)).all()

True

* 연산의 대상이 2차원 이상인 경우에는 어느 차원으로 계산을 할 지를 axis 인수를 사용하여 지시한다. axis=0인 경우는 열 연산, axis=1인 경우는 행 연산이다. 디폴트 값은 axis=0이다. axis 인수는 대부분의 차원 축소 명령에 적용할 수 있다.

In [61]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [62]:
x.sum()

6

In [63]:
x.sum(axis=0)

array([3, 3])

In [64]:
x.sum(axis=1) 

array([2, 4])

### 정렬

* sort 명령이나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들 수도 있다. 2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬하는데 axis 인수를 사용하여 행을 정렬할 것인지 열을 정렬한 것인지 결정한다. axis=0이면 각각의 행을 따로따로 정렬하고 axis=1이면 각각의 열을 따로따로 정렬한다. 디폴트 값은 -1 즉 가장 안쪽(나중)의 차원이다.

In [69]:
a = np.array([[4,  3,  5,  7], 
              [1, 12, 11,  9],
              [2, 15,  1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [70]:
np.sort(a)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [71]:
np.sort(a, axis=0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

* sort 메서드는 해당 객체의 자료 자체가 변화하는 in-place 메서드이므로 사용할 때 주의를 기울여야 한다.

In [72]:
a.sort(axis=1)
a

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

* 만약 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort 명령을 사용한다.

In [73]:
a = np.array([42, 38, 12, 25])
j = np.argsort(a)
j

array([2, 3, 1, 0])

In [74]:
a[j]

array([12, 25, 38, 42])

In [75]:
np.sort(a)

array([12, 25, 38, 42])