# NumPy

## 브로드캐스팅

- 벡터화 연산의 다른 방법은 NumPy의 브로드캐스팅 기능을 사용하는 것이다.
- 브로드캐스팅은 다른 크기의 배열에 이항 ufunc 함수( 덧셈, 뺄셈, 곱셈 등 )을 적용하기 위한 규칙을 의미한다.
- ufunc 함수 중 이항 연산은 같은 크기의 배열에 대하여 배열 요소 단위로 수행된다는 점을 기억

- a(배열) + 2(값) 등 / 서로 다른 모양의 대상이 연산을 하기 위해 모양을 맞춰주는 것을 브로드캐스팅이라 한다.

In [1]:
import numpy as np

In [3]:
a = np.array( [ 0, 1, 2 ] )
a

array([0, 1, 2])

In [4]:
b = np.array( [ 5, 5, 5 ] )
b

array([5, 5, 5])

In [5]:
a + b 

array([5, 6, 7])

- 브로드캐스팅을 사용하면 이항 연산을 수행시 서로 다른 크기( 형상, 모양 )의 배열에서 수행된다.
- 배열에 스칼라(값)를 더 쉽게 더할 수 있다.

In [6]:
a + 5    # 5(scalar)를 a(배열)에 맞춰 값을 적용한다.(브로드캐스팅)

array([5, 6, 7])

- 값 5를 배열 [5, 5, 5]로 확장하거나 복제하고 그 결과를 더하는 연산을 수행한 것으로 생각할 수 있다.
- NumPy 브로드캐스팅 이점은 값 복제가 실제로 발생하지 않고 연산시에만 일시적으로 일어난다는 점으로 브로드캐스팅이 이러한 방식으로 동작하고 있다고 생각하면 이해하기 쉽다.

In [7]:
M = np.ones( ( 3, 3 ) )
M

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [8]:
M + a            # 1차원 배열 a는 M의 형상에 맞추기 위해 두 번째 차원까지 확장 후 브로드캐스팅 된다.

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

### 브로드캐스팅 규칙

- 규칙 1 : 두 배열의 차원 수가 다르면 더 작은 수의 차원을 가진 배열 형상의 앞쪽( 왼쪽 )을 1로 채운다.
- 규칙 2 : 두 배열의 형상이 어떤 차원에서도 일치하지 않는다면 해당 차원의 형상이 1인 배열이 다른 형상과 일치하도록 늘어난다.
- 규칙 3 : 임의의 차원에서 크기가 일치하지 않고 1도 아니라면 오류가 발생한다.

In [9]:
a = np.arange( 3 )
b = np.arange( 3 )[ :, np.newaxis ]
print( a )
print( b )

[0 1 2]
[[0]
 [1]
 [2]]


#### 브로드캐스팅 예제 1

In [10]:
M = np.ones( ( 2, 3 ) )

- 두 배열간의 형상   
  M.shape = ( 2, 3 )   
  a.shape = ( 3, )

- 규칙 1에 따라 배열 a가 더 작은 차원으 가지므로 왼쪽을 1로 채운다.   
   M.shape -> ( 2, 3 )   
   a.shape -> ( 1, 3 )     -> (3)에서 (1,3)으로 

- 규칙 2에 따라 첫 번째 차원이 일치하지 않으므로 첫 번째 차원이 일치하도록 늘린다.   
   M.shape -> ( 2, 3 )   
   a.shape -> ( 2, 3 )

- 모양이 일치하면 최종 형상이 ( 2, 3 )이 된다.

In [11]:
M + a

array([[1., 2., 3.],
       [1., 2., 3.]])

#### 브로드캐스팅 예제2

In [18]:
a = np.arange( 3 ).reshape( ( 3, 1 ) )
b = np.arange( 3 )

- 두 배열간의 형상   
  a.shape = ( 3, 1 )   
  b.shape = ( 3, )

- 규칙 1에 따라 배열 b의 형상에 1을 덧붙여야 한다.   
   a.shape -> ( 3, 1 )   
   b.shape -> ( 1, 3 )     

- 규칙 2에 따라 각 차원을 그에 대응하는 다른 배열의 크기에 일치하도록 늘린다.
   a.shape -> ( 3, 3 )   
   b.shape -> ( 3, 3 )

- 모양이 일치하면 최종 형상이 ( 3, 3 )이 된다.

In [19]:
a + b

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

#### 브로드캐스팅 예제3( 브로드캐스팅 실패 사례 )

In [22]:
M = np.ones( ( 3, 2 ) )              ****
print( M )
a = np.arange( 3 )
print( a )

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[0 1 2]


- 두 배열간의 형상   
  M.shape = ( 3, 2 )   
  a.shape = ( 3, )

- 규칙 1에 따라 배열 a의 첫 번째 차원을 M의 첫 번째 차원과 일치하도록 늘린다.   
   M.shape -> ( 3, 2 )   
   a.shape -> ( 1, 3 )     # -> 2와 3은 맞춰지지 않는다.!        

- 규칙 2에 따라 a의 첫 번째 차원을 M의 첫 번째 차원과 일치하도록 늘린다.   
   M.shape -> ( 3, 2 )   
   a.shape -> ( 3, 3 )

- 규칙 3에서 최종 형상이 서로 일치하지 않으므로 이 두 배열은 연산되지 않는다.

In [21]:
M + a                # 에러

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

In [23]:
a[ :, np.newaxis].shape

(3, 1)

In [24]:
M + a[ :, np.newaxis]

array([[1., 1.],
       [2., 2.],
       [3., 3.]])

## ufunc 비교 연산

- 요소 단위의 ufunc 함수에 대한 비교 연산자도 지원한다.

|연산자|대응 ufunc|
|---|---|
|==|np.equal|
|!=|np.not_equal|
|<|np.less|
|<=|np.less_equal|
|>|np.greater|
|>=|np.greater_equal||

In [25]:
x = np.array( [ 1, 2 ,3, 4, 5 ] )

In [26]:
x < 3      # 대괄호 []로만 나오지 않고 array([])로 나와서 numpy배열 형태로 답이 나온 것

array([ True,  True, False, False, False])

In [27]:
x > 3 

array([False, False, False,  True,  True])

In [28]:
x <= 3

array([ True,  True,  True, False, False])

In [29]:
x >= 3

array([False, False,  True,  True,  True])

#### 두 배열을 항목별로 비교할 수 있으며 복합 표현식을 적용할 수 있다.

In [30]:
( 2 * x ) == ( x ** 2 )

array([False,  True, False, False, False])

#### 2차원 배열에 대한 비교 연산

In [31]:
rng = np.random.RandomState( 0 ) # 개별적으로 seed를 적용하는 함수
                                 # localization 함수
                                 # seed()는 globalization 함수

In [36]:
x = rng.randint( 10, size = ( 3, 4 ) )
x

array([[3, 5, 0, 2],
       [3, 8, 1, 3],
       [3, 3, 7, 0]])

In [37]:
x < 6

array([[ True,  True,  True,  True],
       [ True, False,  True,  True],
       [ True,  True, False,  True]])

#### 요소 개수 세기(count)

In [38]:
# 부울(vool) 배열에서 True인 요소의 개수를 센은 경우 np.count_nonzero()가 유용
np.count_nonzero( x < 6 )

10

In [40]:
# np.sum()을 사용하여 확인 가능, False는 0, true는 1로 해석
np.sum( x < 6 )

10

In [41]:
# np.sum()의 장점은 행 또는 열에 따라 요소 개수 세기를 수행할 수 있다.
np.sum( x < 6, axis = 0 )

array([3, 2, 2, 3])

In [42]:
np.sum( x < 6, axis = 1 )

array([4, 3, 3])

In [50]:
# 값 중 하나라도 참이 있는지, 모든 값이 참인지를 빠르게 확인하고 싶다면
# np.any()나 np.all()을 사용
np.any( x > 8 )    # 하나라도 있냐

False

In [45]:
np.any( x < 0 )

False

In [46]:
np.all( x < 10 )    # 전부다 그거냐?

True

In [47]:
np.all( x == 6 )

False

In [48]:
np.all( x < 8, axis = 0 )

array([ True, False,  True,  True])

In [49]:
np.all( x < 8, axis = 1 )

array([ True, False,  True])

#### 부울(vool) 배열

In [51]:
x

array([[3, 5, 0, 2],
       [3, 8, 1, 3],
       [3, 3, 7, 0]])

In [52]:
x < 5

array([[ True, False,  True,  True],
       [ True, False,  True,  True],
       [ True,  True, False,  True]])

In [53]:
# 배열에서 조건에 맞는 값들을 선택하려면 부울 배열을 인덱스로 사용한면 된다.
# 이를 마스킹 연산이라 한다.
x[ x < 5 ]

array([3, 0, 2, 3, 1, 3, 3, 3, 0])

#### 부울 배열 적용 파이썬 코드    -> 파이썬 코드와 numpy를 서로 비교하고 numpy코드를 파이썬 코드로 바꿔가며 논리를 이해하자

In [88]:
l = [ [ 5, 0, 3, 3 ], [ 7, 9 ,3, 5 ], [ 2, 4, 7, 6 ] ]
result = []

In [89]:
for row in l:
    for colum in row:
        if colum < 5:
            result.append( colum )

In [90]:
result

[0, 3, 3, 3, 2, 4]

### 펜시 인덱싱( fancy indexing )

- 익덱스 배열을 전달하여 복잡한 배열 값의 하위 집합에 매우 빠르게 접근해 값을 수정할 수 있다.
- 한 번에 여러 배열 요소에 접근하기 위해 인덱스의 배열을 전달한다.

In [91]:
rand = np.random.RandomState( 42 )
x = rand.randint( 100, size = 10 )
x

array([51, 92, 14, 71, 60, 20, 82, 86, 74, 74])

In [92]:
# 세개의 다른 요소 접근
[ x[ 3 ], x[ 7 ], x[ 2 ] ]

[71, 86, 14]

In [93]:
# 인덱스에 단일 리스트나 배열을 전달해 같은 결과
ind = [ 3, 7, 4 ]
x[ ind ] 

array([71, 86, 60])

In [94]:
# 펜시 인덱스를 이용하면 결과의 형상이 인덱스 대상 배열의 형상이 아니라 인덱스 배열의 형상을 반영한다.
ind = np.array( [ [ 3, 7 ], [4, 5 ] ] )
x[ ind ]

array([[71, 86],
       [60, 20]])

In [95]:
# 펜시 인덱싱은 여러 차원에서도 동작
x = np.arange( 12 ).reshape( ( 3, 4 ) )
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [96]:
row = np.array( [ 0, 1, 2 ] )   # 위에꺼에 적용되는 것 
col = np.array( [ 2, 1, 3 ] )
x[ row, col ]                   # x[ 0행, 2열 ] -> 2 / x[ 1행, 1열 ]-> 5 / x[ 2행, 3열 ]-> 11

array([ 2,  5, 11])

In [97]:
row[ :, np.newaxis ]

array([[0],
       [1],
       [2]])

In [98]:
row[ np.newaxis : ]

array([0, 1, 2])

In [99]:
# 펜시 인덱스에서 인덱스 쌍을 만드는 것은 브로드캐스팅 규칙을 따른다.
# 인덱스 내의 열 벡터와 행 벡터를 결합하면 2차원 결과를 얻는다.
x[ row[ :, np.newaxis ], col ] # 행의 값은 산술 연산의 브로드캐스팅에서와 같은 각 열 벡터와 일치

array([[ 2,  1,  3],
       [ 6,  5,  7],
       [10,  9, 11]])

In [100]:
row[ :, np.newaxis ] * col

array([[0, 0, 0],
       [2, 1, 3],
       [4, 2, 6]])

### 펜시 인덱싱을 사용하면 반환값은 인덱싱 대상 배열의 형상이 아니라 브로드캐스팅된 인덱스의 형상을 반영한다는 사실을 반드시 기억

### 결합 인덱싱

- 펜시 인덱싱을 다른 인덱싱 방식과 결합할 수 있다.

In [101]:
print( x )

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [102]:
# 팬시 인덱스와 단순 인덱스 결합
x[ 2, [ 2, 0, 1 ] ]     # 2행, 2열 0열 1열

array([10,  8,  9])

In [103]:
# 팬시 인덱싱과 슬라이싱을 결합
x[ 1:, [ 2, 0, 1 ] ]    # 1행부터 끝까지 행, 2열 0열 1열

array([[ 6,  4,  5],
       [10,  8,  9]])

In [109]:
# 팬시 인덱싱과 마스킹 결합     ****                   
mask = np.array( [ 1, 0, 1, 0 ], dtype = bool )
x[ row[ :, np.newaxis ], mask ]

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

### 팬시 인덱싱으로 값 변경

- 팬시 인덱싱은 배열의 일부를 수정하는 데도 사용

In [76]:
x = np.arange( 10 )
i = np.array( [ 2, 1, 8, 4 ] )
print( x )

[0 1 2 3 4 5 6 7 8 9]


In [77]:
x[ i ] = 99
print( x )

[ 0 99 99  3 99  5  6  7 99  9]


In [78]:
# 할당 유형의 연산자는 모두 사용할 수 있다.
x[ i ] -= 10
print( x )

[ 0 89 89  3 89  5  6  7 89  9]
