# 벡터화 연산

In [1]:
#앞서 넘파이가 벡터화 연산(vectorized operation)을 지원한다고 이야기하였습니다. 
#벡터화 연산을 쓰면 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복 연산을 할 수 있습니다. 
#벡터화 연산의 또다른 장점은 선형 대수 공식과 동일하게 아주 간단한 파이썬 코드를 작성할 수 있다는 점입니다.

In [2]:
#넘파이 배열의 벡터화 연산을 사용하지 않는다면 반복문을 사용

In [3]:
import numpy as np
x = np.arange(1,10001)
y = np.arange(10001,20001)

In [4]:
%%time
z = np.zeros_like(x)
for i in range(10000):
    z[i] = x[i] + y[i]

Wall time: 2.99 ms


In [5]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [6]:
%%time
#그러나 넘파이 배열의 벡터화 연산을 사용하면 덧셈 연산 하나로 끝납니다. 
#위에서 보인 선형 대수의 벡터 기호를 사용한 연산과 결과가 완전히 동일합니다. 
#연산 속도도 벡터화 연산이 훨씬 빠릅니다
x = np.arange(1,10001)
y = np.arange(10001,20001)
z = x+y

Wall time: 281 µs


In [7]:
#사칙 연산뿐 아니라 비교 연산과 같은 논리 연산도 벡터화 연산이 가능합니다
a = np.array([1,2,3,4])
b = np.array([4,2,2,4])

In [8]:
a == b

array([False,  True, False,  True])

In [9]:
a >= b

array([False,  True,  True,  True])

### all 명령( 배열의 모든 원소가 다 같은지 비교)

In [10]:
#만약 배열의 각 원소들을 일일히 비교하는 것이 아니라 배열의 모든 원소가 다 같은지 알고 싶다면 
#all 명령을 사용하면 됩니다
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [11]:
np.all(a == b)

False

In [12]:
np.all(a == c)

True

### 스칼라와 벡터/행렬의 곱셈

In [13]:
#스칼라와 벡터/행렬의 곱셈
#넘파이 배열에서 스칼라와 벡터/행렬의 곱도 선형대수에서 사용하는 식과 같이 표현 가능합니다
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
100*x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [15]:
x = np.arange(12).reshape(3,4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [16]:
100*x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

# 브로드캐스팅(broadcasting,배열 크기 변환)

In [17]:
#넘파이 배열은 모양이 다른 배열 간의 연산이 가능하도록 배열의 크기를 변환시켜주는 
#브로드캐스팅(broadcasting)을 지원합니다. 

In [18]:
#넘파이가 처리하는 브로드캐스팅의 방법은 
#더 작은 배열이 더 큰 배열에 호환되는 모양으로 확장하는 식으로 진행됩니다

### 스칼라곱

In [19]:
#넘파이의 브로드캐스팅 규칙 중 가장 간단한 예는 배열과 스칼라 값이 연산에서 결합될 때입니다.
a = np.array([1.0,2.0,3.0])
b = 2.0 #3개로 확장, 개수를 똑같이 만들어 줌
a*b

array([2., 4., 6.])

In [20]:
#스칼라 곱을 활용한 코드가 더 적은 메모리를 이동하기 때문에 배열 간의 곱보다 더 효율적입니다.

In [21]:
x = np.arange(5)

In [22]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [23]:
x+y

array([1, 2, 3, 4, 5])

In [24]:
x+1

array([1, 2, 3, 4, 5])

### 브로드캐스팅 가능 조건

In [25]:
#넘파이 배열은 모양이 다른 배열 간의 연산이 가능하도록 배열의 크기를 변환시켜주는 
#브로드캐스팅(broadcasting)을 지원한다고 하는데, 과연 모든 경우에 가능한 걸까요?아닙니다. 
#확장이 가능한 경우가 있고 반대로 불가능한 경우도 존재합니다.
#확장 가능한 경우를 확인하는 규칙은 다음과 같습니다.
#1. 넘파이 배열의 shape을 우측 정렬하고 각 차원별로 숫자를 비교합니다.

#비교하는 모든 차원이 두 조건 중 하나에 충족되어야 브로드캐스팅 가능합니다.
#a. 해당 차원 간의 숫자가 동일한 경우
#b. 해당 차원 중 하나가 1인 경우

In [26]:
#차원이 다른 경우 우측 정렬하여 비교하고 있습니다. 
#이는 같은 차원 간의 비교를 가능하게 합니다.
#3차원:깊이*행*열
#2차원:     행*열
#1차원:       열

In [27]:
#각 차원의 숫자가 일치하지 않는 것을 확인할 수 있습니다.
#브로드캐스팅 가능하지 않을 때 파이썬은 ValueError를 발생시킵니다.
#3   #12
#4   #24 #1이나 자기자신과 같지 않으면 배수도 안됌

# 차원 축소 연산

In [28]:
#행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 
#그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 됩니다. 
#예를 들어 10 x 5 크기의 2차원 배열에 대해 행-평균을 구하면 
#10개의 숫자를 가진 1차원 벡터가 나오게 됩니다.
#이러한 연산을 차원 축소(dimension reduction) 연산이라고 합니다.

In [29]:
#● 최대/최소: min, max, argmin, argmax
#● 통계: sum, mean, median, std, var
#● 불리언: all, any
#숫자 뭉치에서 값이 하나만 뽑아져 나오기 때문에 차원이 축소됨

### 차원 축소 연산 - sum() -> 합산

In [30]:
#차원 축소 연산 - sum()
#sum() 메서드는 해당 배열의 합산 결과를 반환합니다. 
#연산 대상이 2차원 이상일 때에는 axis 키워드 인수를 사용할 수 있습니다.

x = np.array([1,2,3,4])
x

array([1, 2, 3, 4])

In [31]:
np.sum(x) #np.sum()과 ndarray.sum은 같은 것

10

In [32]:
x.sum()

10

In [33]:
x = np.arange(12).reshape(3,-1)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [34]:
x.sum(axis = 0) #행간 더함

array([12, 15, 18, 21])

In [35]:
x.sum(axis = 1) #열간 더함

array([ 6, 22, 38])

### 차원 축소 연산 - min() -> 작은 값

In [36]:
#차원 축소 연산 - min()
#해당 배열의 제일 작은 값의 결과를 반환합니다. 
#연산 대상이 2차원 이상일 때에는 axis 키워드 인수를 사용할 수 있습니다.
x = np.arange(20).reshape(2,5,-1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [37]:
x.min()

0

In [38]:
np.min(x)

0

In [39]:
x.min(axis = 0)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [40]:
np.min(x, axis = 1)

array([[ 0,  1],
       [10, 11]])

In [41]:
x.min(axis = 2)

array([[ 0,  2,  4,  6,  8],
       [10, 12, 14, 16, 18]])

### 차원 축소 연산 - argmin() -> 제일 작은 값의 인덱스

In [42]:
#차원 축소 연산 - argmin() #arg인덱스
#해당 배열의 제일 작은 값의 인덱스를 반환합니다. 
#연산 대상이 2차원 이상일 때에는 axis 키워드 인수를 사용할 수 있습니다.
x = np.arange(20).reshape(2,5,-1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [43]:
x.argmin()

0

In [44]:
np.argmin(x)

0

In [45]:
x.argmin(axis = 0)

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int64)

In [46]:
np.argmin(x,axis = 1)

array([[0, 0],
       [0, 0]], dtype=int64)

In [47]:
x.argmin(axis = 2)

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0]], dtype=int64)

### 차원 축소 연산 - max() -> 제일 큰 값

In [48]:
#차원 축소 연산 - max()
#해당 배열의 제일 큰 값의 결과를 반환합니다. 
#연산 대상이 2차원 이상일 때에는 axis 키워드 인수를 사용할 수 있습니다.
x = np.arange(20).reshape(2,5,-1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [49]:
x.max()

19

In [50]:
np.max(x)

19

In [51]:
x.max(axis = 0)

array([[10, 11],
       [12, 13],
       [14, 15],
       [16, 17],
       [18, 19]])

In [52]:
np.max(x,axis = 1)

array([[ 8,  9],
       [18, 19]])

In [53]:
x.max(axis = 2)

array([[ 1,  3,  5,  7,  9],
       [11, 13, 15, 17, 19]])

### 차원 축소 연산 - argmax() -> 제일 큰 값의 인덱스

In [54]:
#차원 축소 연산 - argmax()
#해당 배열의 제일 큰 값의 인덱스를 반환합니다. 
#연산 대상이 2차원 이상일 때에는 axis 키워드 인수를 사용할 수 있습니다.
x = np.arange(20).reshape(2,5,-1)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9]],

       [[10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]]])

In [55]:
x.argmax() #인덱스 번호

19

In [56]:
np.argmax(x)

19

In [57]:
x.argmax(axis = 0)

array([[1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1]], dtype=int64)

In [58]:
np.argmax(x,axis = 1)

array([[4, 4],
       [4, 4]], dtype=int64)

In [59]:
x.argmax(axis = 2)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]], dtype=int64)

### 자원축소연산 mean(), median(), np.all(), np.any()

In [60]:
#자원축소연산 mean(), median(), np.all(), np.any()
#mean()은 평균을 구합니다. 
#median()은 중앙값을 구합니다. 
#np.all()은 배열 요소가 모두 True일 때 True를 반환합니다.(하나라도 False면 False입니다.)
#np.any()는 배열 요소가 하나라도 True면 True를 반환합니다.(전부 False면 False입니다.
x = np.array([1,2,3,1])
x.mean()

1.75

In [61]:
np.median(x)

1.5

In [62]:
np.all([True,True,False])

False

In [63]:
np.any([True,True,False])

True

In [64]:
a = np.array([1, 2, 3, 2])
b = np.array([2, 2, 3, 2])
c = np.array([6, 4, 4, 5])

In [65]:
((a <= b) & (b <= c)).all()

True

In [66]:
a = np.zeros((100, 100), dtype = np.int64)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [67]:
np.any(a != 0)

False

In [68]:
np.all(a == a)

True

In [69]:
#실수로 이루어진 5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값을 구한다.
#1. 전체의 최대값
#2. 행 간의 합
#3. 행 간의 최대값
#4. 열 간의 평균
#5. 열 간의 최소값
practice = np.array([[1.1, 7.1, 8.0, 2.1, 6.5, 7.2], 
                    [2.7, 5.2, 3.3, 9.0, 7.7, 2.8],
                    [0.7, 8.8, 4.2, 8.9, 4.3, 7.4],
                    [8.2, 1.1, 5.4, 2.9, 6.9, 0.2],
                    [7.4, 4.8, 2.7, 3.1, 2.8, 8.9]])

In [70]:
practice.max()

9.0

In [71]:
practice.sum(axis = 0)

array([20.1, 27. , 23.6, 26. , 28.2, 26.5])

In [72]:
practice.max(axis = 0)

array([8.2, 8.8, 8. , 9. , 7.7, 8.9])

In [73]:
practice.mean(axis = 1)

array([5.33333333, 5.11666667, 5.71666667, 4.11666667, 4.95      ])

In [74]:
practice.min(axis = 1)

array([1.1, 2.7, 0.7, 0.2, 2.7])