# NumPy 배열의 연산

## 벡터화 연산

In [2]:
#정의: 반복문을 사용하지 않고 선형 대수의 벡터 혹은 행렬 연산과 유사한 코드를 사용하는것.

In [56]:

#벡터화 연산을 사용하지 않을 경우

x = np.arange(1, 1001)
y = np.arange(1001, 2001)

In [20]:
%time                   # 셀 코드의 실행시간을 측정하는 IPython 매직 명령
z = np.zeros_like(x)
for i in range(1000):
    z[i] = x[i] + y[i]

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 4.77 µs


In [21]:
z[:10]

array([1002, 1004, 1006, 1008, 1010, 1012, 1014, 1016, 1018, 1020])

In [22]:
#벡터화 연산을 사용한 경우

%time
z = x + y

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 4.77 µs


In [25]:
#???읭??? 실행시간이 같은걸??? 뭐지

In [26]:
z[:10]

array([1002, 1004, 1006, 1008, 1010, 1012, 1014, 1016, 1018, 1020])

In [31]:
#비교 연산도 벡터화 연산이 가능함

a = np.array([1,2,3,4])
b = np.array([4,2,2,4])

a == b


array([False,  True, False,  True], dtype=bool)

In [32]:
a >= b

array([False,  True,  True,  True], dtype=bool)

In [34]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

np.all(a == b)
np.all(a == c)

True

In [36]:
# 지수, 로그함수 등의 수학 함수도 벡터화 연산을 지원

a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [37]:
np.exp(a)

array([  1.        ,   2.71828183,   7.3890561 ,  20.08553692,  54.59815003])

In [38]:
10 ** a

array([    1,    10,   100,  1000, 10000])

In [39]:
np.log(a)

array([       -inf,  0.        ,  0.69314718,  1.09861229,  1.38629436])

np.log10(a)

####  연습문제1

In [42]:
#벡터 x가 다음과 같을 때, 여러가지 수식을 사용하여 같은 크기의 벡터 y를 만든다.

x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
y = np.exp(x)
y = np.log(x)
y = 10**x
y

array([         1,         10,        100,       1000,      10000,
           100000,    1000000,   10000000,  100000000, 1000000000])

## 스칼라와 벡터/행렬의 곱셈

In [50]:
# 스칼라와 벡터/행렬의 곱도 선형 대수에서 사용하는 식과 NumPy 코드가 일치함

In [53]:
x = np.arange(10)
100*x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [57]:
x = np.arange(12).reshape(3,4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [58]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 브로드캐스팅

In [59]:
#선형 대수에서는 벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 한다. 그러나 NumPy에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법이다.

In [63]:
x = np.arange(5)
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [64]:
x + y

array([1, 2, 3, 4, 5])

In [65]:
x + 1

array([1, 2, 3, 4, 5])

In [84]:
a = np.tile(np.arange(0,40,10), (3,1)).T
a

array([[ 0,  0,  0],
       [10, 10, 10],
       [20, 20, 20],
       [30, 30, 30]])

In [82]:
b = np.array([0,1,2])

In [85]:
a + b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

In [94]:
a = np.arange(0, 40, 10)[:, np.newaxis]
a

array([[ 0],
       [10],
       [20],
       [30]])

In [95]:
a + b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

## 차원 축소 연산

In [96]:
#행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 예를 들어 10x5 크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원 벡터가 나오게 된다. 이러한 연산을 차원 축소(dimension reduction) 연산이라고 한다.

#NumPy는 다음과 같은 차원 축소 연산 명령 혹은 메서드를 지원한다.

#최대/최소: min, max, argmin, argmax
#통계: sum, mean, median, std, var
#불리언: all, any

In [98]:
x = np.array([1,2,3,4])
x
np.sum(x)
x.sum()
x = np.array([1,3,2])
x.min()
x.max()
x.argmin()    # 최소값의 위치
x.argmax()    # 최대값의 위치

x = np.array([1,2,3,1])
x.mean()
np.median(x)
np.all([True, True, False])
np.any([True, True, False])

a = np.zeros((100,100), dtype=np.int)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ..., 
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [99]:
np.any(a != 0)

False

In [100]:
np.all(a == a)

True

In [101]:
a = np.array([1,2,3,2])
b = np.array([2,2,3,2])
c = np.array([6,4,4,5])

((a <= b) & (b <= c)).all()

True

In [153]:
# 연산의 대상이 2차원 이상인 경우에는 어느 차원으로 계산을 할 지를 axis 인수를 사용하여 지시한다. 
# axis=0  열 연산
# axis=1  행 연산 (default) 

In [156]:
x = np.array([[1,1], [2,2]])
x

array([[1, 1],
       [2, 2]])

In [159]:
x.sum()
x.sum(axis=0)   #열 합계
x.sum(axis=1)   #행 합계

array([2, 4])

#### 연습문제2

In [123]:
#5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값을 구한다.

x = np.arange(30).reshape(5,6)
x

#전체의 최댓값
x.argmax()

#각 행의 합
x.sum(axis=1)

#각 열의 평균
x.mean(axis=0)

array([ 12.,  13.,  14.,  15.,  16.,  17.])

## 정렬

In [125]:
# sort 명령이나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들 수도 있다. 
# 2차원 이상인 경우에는 마찬가지로 axis 인수를 사용하여 방향을 결정한다. 
# 즉 axis로 지정한 축 방향을 무시하여 정렬하라는 뜻이다. 
# 디폴트: -1 (가장 안쪽차원)

In [128]:
a = np.array([[4,3,5], [1,2,1]])
a


array([[4, 3, 5],
       [1, 2, 1]])

In [126]:
np.sort(a, axis=0)

array([[1, 2, 1],
       [4, 3, 5]])

In [137]:
np.sort(a)
np.sort(a, axis=1)

array([[3, 4, 5],
       [1, 1, 2]])

In [138]:
#만약 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort 명령을 사용한다
a = np.array([4, 3, 1, 2])
j = np.argsort(a)
j

array([2, 3, 1, 0])

In [139]:
a[j]

array([1, 2, 3, 4])

#### 연습문제3

In [143]:
#다음 배열은 첫번째 행(row)에 학번, 두번째 행에 영어 성적, 세번째 행에 수학 성적을 적은 배열이다. 
#영어 성적을 기준으로 각 열(column)을 재정렬하라.

In [161]:
x = np.array([[1,2,3,4],[46,99,100,71],[81,59,90,100]])
x

array([[  1,   2,   3,   4],
       [ 46,  99, 100,  71],
       [ 81,  59,  90, 100]])

In [162]:
np.sort(x)

array([[  1,   2,   3,   4],
       [ 46,  71,  99, 100],
       [ 59,  81,  90, 100]])

In [163]:
np.sort(x, axis=1)

array([[  1,   2,   3,   4],
       [ 46,  71,  99, 100],
       [ 59,  81,  90, 100]])