# Chapter 3. Numpy Tutorial

행렬(다차원)이 왜 필요할까? -> 데이터 분석과 머신러닝을 위해 필요

1. 대규모의 데이터 처리
2. 빠르고 효율적인 연산

행렬을 잘 다루기 위해서는 어떤 기능이 필요할까?

1. 행렬 만들기
2. 행렬에서 원하는 값을 가져오기
3. 행렬에 대해 다양한 연산을 수행하기
4. 행렬의 구조를 원하는 형태로 변경하기
5. 행렬을 합치거나 분리하기

https://numpy.org/doc/stable/index.html 

*Numpy는 Numerical Python의 줄임말로 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지이다. 제공되는 기능은 다음과 같다.*
- 빠르고 메모리를 효율적으로 사용하며 벡터 산술연산과 관련된 브로드캐스팅 기능을 제공하는 다차원 배열인 ndarray
- 반복문을 작성할 필요 없이 전체 데이터 배열에 대해 빠른 연산을 제공하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용하는 도구
- 선형대수, 난수 발생기, 푸리에 변환 기능

In [1]:
# numpy 설치
# !pip install numpy

Numpy를 사용하기 위해서는 먼저 `numpy` 패키지를 import한다.

In [2]:
import numpy as np

### 3.1 넘파이 배열 (ndarray)
- Numpy가 제공하는 ndarray(n-dimensional array)은 같은 종류의 데이터를 담을 수 있는 다차원 배열이며, 
- 모든 원소는 같은 자료형이어야 한다. (trick이 있음: object 데이터 타입)
- 모든 배열은 배열의 구조, 즉 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 type이라는 값을 가진다. 
- ndarray의 차원(dimension)은 rank라고 부른다.
### 텐서(tensor)
- 선형대수에서 데이터 배열을 지칭하는 용어
- rank에 따라 이름이 달라짐
- rank 0: 스칼라, 예: 0
- rank 1: 벡터, 예: [2, 3]
- rank 2: 행렬(2차원 배열), 예: [[2, 3], [4, 5]]
- rank 3 이상(n): n-order tensor, 예: [[[2, 3], [4, 5]], [[6, 7], [8, 9]]]

In [3]:
# ndarray를 사용해보기 전에 비교를 위해 먼저 리스트를 실펴본다.
a = [1, 2, 3, 4, 5, 6]
print(a)
b = [[1, 2, 3], [4, 5, 6]] # 리스트로 2차원 행렬을 표현했을때의 모양
print(b)
c = [1, 'a', 3.5] # 리스트는 서로 다른 type의 데이터 저장이 가능
print(c)

[1, 2, 3, 4, 5, 6]
[[1, 2, 3], [4, 5, 6]]
[1, 'a', 3.5]


ndarray는 array 함수와 중첩된 리스트(list)를 이용하여 생성할 수 있으며, []를 이용하여 인덱싱(indexing)을 한다.

In [4]:
a = np.array([1, 2, 3])  # 1차원 배열 생성
print(type(a), a.shape)
print(a[0], a[1], a[2])
a[0] = 5                 # 배열의 한 원소를 변경
print(a)

<class 'numpy.ndarray'> (3,)
1 2 3
[5 2 3]


In [5]:
b = np.array([[1,2,3],
              [4,5,6]])   # 2차원 배열 생성
print(b) #2차원 배열의 모양을 확인

[[1 2 3]
 [4 5 6]]


In [6]:
print(b.shape) #배열의 각 차원의 크기
print(b[0, 0], b[0, 1], b[1, 0]) #인덱싱 예제 -> [행, 열]

(2, 3)
1 2 4


### 다양한 배열 생성 방법
- Numpy는 array 함수 외에도 배열을 생성하기 위한 다양한 방법을 제공한다.
#### arange([start], stop, [step]): 
- range()와 유사하게 start부터 stop 전까지 step씩 건너뛰며 값을 생성 
- range()와 다르게 step이 소수점을 가질 수 있음
- range()가 제너레이터의 특성을 가진 반면, numpy.arange()는 배열을 바로 생성

In [7]:
a = np.arange(-1, 1, 0.1)
print(a)

[-1.00000000e+00 -9.00000000e-01 -8.00000000e-01 -7.00000000e-01
 -6.00000000e-01 -5.00000000e-01 -4.00000000e-01 -3.00000000e-01
 -2.00000000e-01 -1.00000000e-01 -2.22044605e-16  1.00000000e-01
  2.00000000e-01  3.00000000e-01  4.00000000e-01  5.00000000e-01
  6.00000000e-01  7.00000000e-01  8.00000000e-01  9.00000000e-01]


In [8]:
a = np.zeros((2, 3))  # 값이 모두 0인 배열 생성, 매개변수는 원하는 shape
print(a)

[[0. 0. 0.]
 [0. 0. 0.]]


In [9]:
b = np.ones((3, 4))   # 값이 모두 1인 배열 생성
print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [10]:
c = np.full((2, 4), 7) # 모든 원소가 원하는 값으로 초기화된 배열 생성
print(c)

[[7 7 7 7]
 [7 7 7 7]]


In [11]:
d = np.eye(4)        # 2x2의 단위행렬(identity matrix)을 생성
print(d)
d = np.eye(3, 4)
print(d)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]


In [12]:
e = np.empty((2, 4), dtype=np.int8) # 값을 초기화하지 않고 공간만 확보한 후 이전에 있던 값을 그대로 출력
print(e)

[[0 0 0 0]
 [0 0 0 0]]


#### random 배열 생성 (랜덤 샘플링)

https://numpy.org/doc/stable/reference/random/index.html

- numpy.random.rand(d0, d1, ...): 가장 기본적인 함수. [0, 1) 사이의 실수를 주어진 구조만큼 생성
- numpy.random.randint(low, high, size): low에서 high 사이의 정수를 size 만큼 생성
- numpy.random.randn(d0, d1, ...): 표준정규분포로부터 주어진 구조만큼의 배열을 샘플링. 0 근처의 값이 더 많이 나옴

In [13]:
print(np.random.rand(2, 4)) # [0, 1) 사이 무작위값으로 이루어진 배열 생성
print('-'*50)
print(np.random.randint(1, 10, (2, 3))) # 정수 랜덤 배열 생성
print('-'*50)
print(np.random.randn(2, 5)) # 정규분포로부터 샘플링

[[0.20051708 0.8211899  0.19208229 0.75326787]
 [0.34215296 0.43602042 0.47270102 0.6588274 ]]
--------------------------------------------------
[[5 1 4]
 [6 7 1]]
--------------------------------------------------
[[ 0.08134915 -0.51258943  0.77650876  0.01877984  1.87084503]
 [-0.48782026 -1.18720131  0.31196159  1.77187782  1.21565375]]


### 3.2 배열 인덱싱(Array indexing)
- 인덱싱: [행, 열]과 같은 형태로 여러 차원에 대한 인덱싱을 한 괄호안에 표현 가능. 예: a[3, 4]
- 슬라이싱(Slicing): 파이썬 리스트와 유사하게 배열도 슬라이싱이 가능하다. ndarray는 다차원 배열이므로 각 차원에 대해 슬라이싱을 할 수 있다.

In [14]:
# shape가 (3, 4)이고 아래와 같은 값을 갖는 2차원 배열을 생성
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], 
              [5,6,7,8], 
              [9,10,11,12]])

In [15]:
# 행 전체를 가져오고 싶을 때
print(a[0], a[1]) 
# 셀을 가져오고 싶을 때 -> 행 안에서 다시 열을 지정
print(a[0][0], a[0][1], a[1][0]) 
#인덱싱 예제 -> [행, 열] 형태로 가능
print(a[0, 0], a[0, 1], a[1, 0]) 

[1 2 3 4] [5 6 7 8]
1 2 5
1 2 5


In [16]:
# 슬라이싱
# 아래와 같은 일부를 뽑아내고 싶다면?
# [[2 3]
#  [6 7]]
#        0열 1열 2열 3열
# 0행 [[ 1   2   3   4]
# 1행  [ 5   6   7   8]
# 2행  [ 9  10  11  12]]

b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


<b>주의할 점 :</b> 배열의 슬라이스를 잘라서 만든 배열은 원래의 배열과 값을 공유하므로 수정할 경우 원래의 배열도 값이 변경된다.

In [17]:
print(a[0, 1])
b[0, 0] = 77    # b[0, 0] is the same piece of data as a[0, 1]
print(b)
print(a)

2
[[77  3]
 [ 6  7]]
[[ 1 77  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


만일 값을 복사해서 새로운 배열을 만들고 싶으면 copy() 함수를 사용

In [18]:
c = b.copy()
c[0, 0] = 55
print(c)
print(b)

[[55  3]
 [ 6  7]]
[[77  3]
 [ 6  7]]


인덱싱과 슬라이싱을 섞어서 쓸 수 있다 (정확히는 정수 인덱싱과 슬라이스 인덱싱).:

In [19]:
# Create the following rank 2 array with shape (3, 4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a, a.shape)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] (3, 4)


정수 인덱싱과 슬라이싱을 섞어서 쓰는 경우 차원이 감소할 수 있다. 슬라이싱만 쓰는 경우는 차원 유지:

In [20]:
row_r1 = a[1, :]    # 차원이 감소되는 것에 주의  
print(row_r1, row_r1.shape)

[5 6 7 8] (4,)


In [21]:
row_r2 = a[1:2, :]  # 차원 유지됨
print(row_r2, row_r2.shape)

[[5 6 7 8]] (1, 4)


In [22]:
row_r3 = a[2, :]  # 차원 감소됨
print(row_r3, row_r3.shape)

[ 9 10 11 12] (4,)


In [23]:
# 컬럼만 잘라낼 때에도 마찬가지:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print(col_r2, col_r2.shape)

[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


정수 배열을 이용한 인덱싱: 슬라이싱을 사용하는 경우 결과는 항상 원래 배열의 서브 배열이 된다. 반면, 정수 배열을 이용하면 임의로 변경하는 것이 가능하다.

In [24]:
a = np.array([[1,2], [3, 4], [5, 6]])
print(a, a.shape)

# 정수 배열 인덱싱의 예.
# 반환된 배열의 shape는 (3,) 
print(a[[0, 1, 2], [0, 1, 0]])

# 위 방식은 아래 방식과 동일한 결과를 만들어 냄:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

[[1 2]
 [3 4]
 [5 6]] (3, 2)
[1 4 5]
[1 4 5]


In [25]:
# 정수 배열 인덱싱을 할 때, 같은 요소를 가져오게 될 수도 있음
print(a[[0, 0], [1, 1]])

# 아래 예제와 동일
print(np.array([a[0, 1], a[0, 1]]))

[2 2]
[2 2]


정수 배열 인덱싱은 각각의 행/열에서 원하는 요소만 가져오고 싶을 때 유용하게 사용이 가능:

In [26]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [27]:
# np.arange는 range와는 달리 ndarray 형태로 모든 값을 생성
print(np.arange(4))
print(range(4))

[0 1 2 3]
range(0, 4)


In [28]:
# 정수 배열 선언
b = np.array([0, 2, 0, 1])

# b의 각 행에서 위 배열에 해당하는 열의 값을 가져오고 싶다면?
print(a[np.arange(4), b])

[ 1  6  7 11]


In [29]:
# b의 각 행에서 위 배열에 해당하는 열의 값에만 10을 더하고 싶다면?
a[np.arange(4), b] += 10
print(a)

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


### 불리안 배열 인덱싱 
- 불리안 배열을 이용하면 배열에서 원하는 요소들만 추출이 가능하다. 
- 일반적으로 특정 조건을 만족하는 요소들만 골라내고자 하는 경우에 자주 사용된다.

In [30]:
bb = np.array([1, 2, 3, 4, 5, 6])

# ndarray 중 벡터에 대한 비교연산자 적용 결과
bb > 3

array([False, False, False,  True,  True,  True])

In [31]:
# 벡터에 대한 불리안 인덱싱 결과

bb[bb > 3] # bb 값 중에서 3보다 큰 값만 반환 

array([4, 5, 6])

In [32]:
# 행렬에 대한 불리안 인덱싱 결과 확인
a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # 배열의 개별적인 요소에 대해서 2보다 큰지를 True/False 배열로 반환

print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [33]:
# 불리안 배열의 값이 true인 요소들만 반환
print(a[bool_idx])

# 아래와 같이 줄여서 사용 가능:
print(a[a > 2])

[3 4 5 6]
[3 4 5 6]


### 3.3 데이터 타입 지정

https://numpy.org/doc/stable/user/basics.types.html

- Numpy의 ndarray는 모두 같은 타입의 요소들로 이루어진다. 
- 다양한 데이터 타입이 제공되며, 지정하지 않는 경우 Numpy는 타입을 자동으로 선택한다. 
- 아래와 같은 데이터 타입을 명시적으로 선언하는 것도 가능하다:
    - bool: numpy.bool
    - int(정수): numpy.int8, numpy.int16, numpy.int32, numpy.int64
    - float(실수): numpy.float16, numpy.float32, numpy.float64
- 데이터 타입은 dtype 매개변수를 이용해 지정한다.

In [34]:
x = np.array([1, 2])  # 자동으로 타입 선택
y = np.array([1.0, 2.0])  # 자동으로 타입 선택

print(x.dtype, y.dtype)

int64 float64


In [35]:
a = np.array([1, 2, 3], dtype=int)  # 디폴트 정수, 명시적으로 타입을 지정
print(type(a), a.dtype) # type과 dtype의 구분
b = np.array([1, 2, 3], np.int8)  # 8bit 정수, dtype 생략 가능
print(type(b), b.dtype)
a = np.array([1, 2, 3], float)  # 디폴트 실수
print(type(a), a.dtype)
b = np.array([1, 2, 3], np.float16)  # 16bit 실수
print(type(b), b.dtype)

<class 'numpy.ndarray'> int64
<class 'numpy.ndarray'> int8
<class 'numpy.ndarray'> float64
<class 'numpy.ndarray'> float16


In [36]:
z = np.array([1, 2], dtype=np.float32) #값은 정수인데 타입은 실수로 한 경우
z

array([1., 2.], dtype=float32)

데이터 타입에 대한 상세한 내용은 다음을 참조 [documentation](http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

### 3.4 배열 연산
- 배열에 대한 수학 연산은 기본적으로 요소단위(elementwise)로 이루어지며, 연산자와 함수 둘 다 사용이 가능하다:

In [37]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print(x)
print(y)

[[1. 2.]
 [3. 4.]]
[[5. 6.]
 [7. 8.]]


In [38]:
# 요소합(elementwise sum), 결과로 ndarray를 생성한다
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [39]:
# 요소차(Elementwise difference)
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [40]:
# 요소곱(Elementwise product)
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [41]:
# 요소 나눗셈(Elementwise division)
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [42]:
# Elementwise square root
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x)) #sqrt가 각 요소에 적용됨

[[1.         1.41421356]
 [1.73205081 2.        ]]


벡터의 내적(inner product)은 dot 함수를 사용한다. dot 는 numpy 함수와 ndarray의 메소드 두 방식으로 사용이 가능하다:

In [43]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11,12])

print(x, x.shape)
print(y, y.shape)
print(v, v.shape)
print(w, w.shape)

[[1 2]
 [3 4]] (2, 2)
[[5 6]
 [7 8]] (2, 2)
[ 9 10] (2,)
[11 12] (2,)


In [44]:
# 벡터 내적(Inner product)
print(v.dot(w))
print(np.dot(v, w))

219
219


In [45]:
# 행렬과 벡터 간 곱셈(matrix / vector product)
print(x.dot(v))
print(np.dot(x, v))

[29 67]
[29 67]


In [46]:
# 행렬 곱셈(Matrix multiplication / product)
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


### 3.5 넘파이 함수
- 축(axis)의 이해
    - 2차원 그래프에서 x축, y축과 유사한 개념
    - 그림에서와 같이 axis=0 이면 열방향으로, axis=1이면 행방향으로 연산을 수행
![image.png](attachment:image.png)


- Numpy는 유용한 함수들을 제공한다. 그 중 하나가 `sum`으로 사용법은 아래와 같다. 
- axis에 유의

In [47]:
x = np.array([[1, 2, 3],[4, 5, 6]])
print(x)

print(x.shape, np.sum(x))  # 모든 요소의 합 "10"
sum_0_axis = np.sum(x, axis=0)
# shape이 어떻게 바뀌는지에 주목
print(sum_0_axis.shape, sum_0_axis)  # 열(column)의 합을 계산 "[4 6]"
sum_1_axis = np.sum(x, axis=1)
print(sum_1_axis.shape, sum_1_axis)  # 행(row)의 합을 계산; prints "[3 7]"

[[1 2 3]
 [4 5 6]]
(2, 3) 21
(3,) [5 7 9]
(2,) [ 6 15]


In [48]:
# 3차원 배열 생성
c = np.array([[[1, 2, 3], [4, 5, 6]],       # 2x3
              [[7, 8, 9], [10, 11, 12]]])   # 2x3
print(c)
print(c.shape)  # 배열의 각 차원의 크기

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]
(2, 2, 3)


In [49]:
# 3차원에서의 축은?
print(c.sum(axis=0))
print(c.sum(axis=1))
print(c.sum(axis=2))

[[ 8 10 12]
 [14 16 18]]
[[ 5  7  9]
 [17 19 21]]
[[ 6 15]
 [24 33]]


### sum() 외의 유용한 함수들
- mean(): 평균
- var(): 분산
- std(): 표준편차
- 그 외 다른 수학 함수들은 다음을 참조 [documentation](https://numpy.org/doc/stable/reference/routines.math.html).

In [50]:
# mean(), var(), std()
print(c.mean(axis=0))
print(c.var(axis=1))
print(c.std(axis=2))

[[4. 5. 6.]
 [7. 8. 9.]]
[[2.25 2.25 2.25]
 [2.25 2.25 2.25]]
[[0.81649658 0.81649658]
 [0.81649658 0.81649658]]


### reshape 메서드
- 배열의 구조를 변경하기 위해 사용
- rank 조절 가능
- 이전 구조와 변경할 구조의 element 수가 일치해야 함. 
- 예: (2, 6) -> (4, 3)으로 구조변경 가능
- 예: (3, 5) -> (4, 4)로는 불가능

In [51]:
a = np.arange(8)
print(type(a), a.shape, a)
b = a.reshape(2, 4)
print(b.shape, b)
# -1의 의미는? 전체 요소의 개수를 고려하여 자동으로 결정
c = a.reshape(-1, 2)
print(c.shape, c)

<class 'numpy.ndarray'> (8,) [0 1 2 3 4 5 6 7]
(2, 4) [[0 1 2 3]
 [4 5 6 7]]
(4, 2) [[0 1]
 [2 3]
 [4 5]
 [6 7]]


In [52]:
# flatten(): 1차원 배열 즉 벡터로 변환 -> 복잡한 ndarray를 한 줄로 펼친다
print(c.flatten())

[0 1 2 3 4 5 6 7]



행렬연산에서 중요한 연산 중 하나는 전치행렬(transposed matrix)를 구하는 것이다. 아래와 같이 Numpy의 T 메소드를 이용해서 구한다:

In [53]:
x = np.array([[1,2,3],
              [4,5,6]])
print(x)
print(x.T)

[[1 2 3]
 [4 5 6]]
[[1 4]
 [2 5]
 [3 6]]


In [54]:
v = np.array([[1,2,3]])
print(v)
print(v.T)

[[1 2 3]]
[[1]
 [2]
 [3]]


### 3.6 연결 혹은 병합 함수
- vstack()
    - 행렬을 위 아래 즉 수직(vertical)으로 병합
    - 두 행렬의 열 개수가 같아야 함
- hstack()
    - 행렬을 옆 즉 수평(horizontal)으로 병합
    - 두 행렬의 행 개수가 같아야 함
![image.png](attachment:image.png)

- concatenate()
    - 하나의 함수로 vstack, hstack과 동일한 작업이 가능
    - axis=0: vstack과 동일
    - axis=1: hstack과 동일

In [55]:
# vstack()
x = np.array([[1,2,3],
              [4,5,6]])
y = np.array([[7,8,9]])
print(x.shape, y.shape) #열의 수가 같은지 확인
print(np.vstack((x, y)))

(2, 3) (1, 3)
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [56]:
# hstack()
z = np.array([[11],
              [12]])
print(x.shape, z.shape) #행의 수가 같은지 확인
print(np.hstack((x, z)))

(2, 3) (2, 1)
[[ 1  2  3 11]
 [ 4  5  6 12]]


In [57]:
# concatenate()
print(np.concatenate((x, y), axis=0)) #vstack과 동일
print(np.concatenate((x, z), axis=1)) #hstack과 동일

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 1  2  3 11]
 [ 4  5  6 12]]


### 3.7 브로드캐스팅(Broadcasting)
- 브로드캐스팅은 크기가 서로 다른 배열에 대해 연산을 하고자 하는 경우에 사용되는 강력한 메커니즘이다. 아래 예는 브로드캐스팅의 개념과 예제를 잘 보여준다:

In [58]:
# 벡터 v 를 행렬 x의 모든 행에 더하고자 함,
# 그 결과는 행렬 y에 저장
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print('x =\n', x)
v = np.array([1, 0, 1])
y = np.empty_like(x)   # x와 동일한 shape를 가진 빈 행렬을 생성

# 반복문을 이용해 x의 각 행에 v를 더함
for i in range(4):
    y[i, :] = x[i, :] + v

print('y =\n', y)

x =
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
y =
 [[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


작동은 하지만 행렬 `x`가 커지면 느려지고, 코딩도 귀찮다. 다음으로 생각할 수 있는 방법은 벡터 `v`를 반복해서 `x`와 같은 크기로 만들고 `vv`에 저장한 다음에 `x`아 `vv`의 요소합 (elementwise sum)을 하는 것이다:

In [59]:
vv = np.tile(v, (4, 1))  # x 행의 수만큼 v를 반복해서 vv를 생성
print(vv)                 # Prints "[[1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]]"

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]


In [60]:
y = x + vv  # x와 vv를 요소합
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Numpy가 제공하는 브로드캐스팅(broadcasting)을 이용하면 쉽게 구현이 가능:

In [61]:
import numpy as np

x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # x와 v의 shape이 다르기 때문에 자동으로 브로드캐스팅이 작동
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


`y = x + v`에서 `x`의 shape은 `(4, 3)` 이고 `v`의 shape은 `(3,)` 이므로 브로드캐스팅이 작동, `v`의 shape가 `(4, 3)`이 되도록 `v`를 복사한 후에, 요소합을 구하게 된다.

브로드캐스팅의 동작원칙은 다음과 같다:

1. 만일 두 배열의 차수가 다르면 차수가 적은 배열을 늘려서 shape를 맞춰서 연산을 한다.
2. 이 때 두 배열이 한 차원에서 크기가 동일하거나 다른 쪽의 크기가 1이면 호환가능(compatible)하다.
3. 두 배열이 모든 차원에서 호환가능하면 브로드캐스팅이 된다.
4. 한 배열의 어떤 차원의 크기가 1이고 다른 배열의 같은 차원의 크기가 1보다 크면 큰 쪽에 맞춰서 복사된다.

상세한 내용은 다음을 참조 [documentation](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html) or this [explanation](http://wiki.scipy.org/EricsBroadcastingDoc).

브로드캐스팅을 지원하는 함수를 universal function이라고 한다. universal function의 모든 리스트는 다음을 참조 [documentation](http://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs).

브로드캐스팅의 다른 예제:

In [62]:
v = np.array([1,2,3])  # v has shape (3,)
w = np.array([4,5])    # w has shape (2,)
# 위의 경우, v와 w의 shape이 다르므로 요소곱을 하는 경우 에러가 발생함
# 먼저 v를 열로 바꿔서 shape을 (3, 1)로 만든 후에 브로드캐스팅을 적용하면 v와 w가 (3, 2)로 확장되고
# 그 다음 요소곱을 실행
print(np.reshape(v, (3, 1)) * w)

[[ 4  5]
 [ 8 10]
 [12 15]]


In [63]:
# 벡터를 행렬의 각 행에 더하고자 하는 경우
x = np.array([[1,2,3], [4,5,6]])
print('x =\n', x)
# x는 (2, 3)이고 v는 (3,)이므로 v를 (2, 3)으로 브로드캐스트

print('result =\n', x + v)

x =
 [[1 2 3]
 [4 5 6]]
result =
 [[2 4 6]
 [5 7 9]]


In [64]:
# x의 각 행에 w를 더하고 싶다면?
# x는 (2, 3), w는 크기가 2인 벡터이므로 차원이 맞지 않음
# w를 reshape해서 (2, 1)로 바꾸면 브로드캐스팅이 가능
print(x + np.reshape(w, (2, 1)))

[[ 5  6  7]
 [ 9 10 11]]


In [65]:
# x 행렬에 상수 곱을 하고 싶을 때
# Numpy는 스칼라를 shape ()로 취급;
# 따라서 x에 맞춰 스칼라를 shape (2, 3)으로 브로드캐스팅이 가능
print(x * 2)

[[ 2  4  6]
 [ 8 10 12]]


브로드캐스팅은 코드를 간략하게 할 뿐 아니라 속도도 향상되므로 가능하면 항상 사용하는 것이 바람직하다.

Numpy에 대한 상세한 내용은 다음을 참조 [numpy reference](http://docs.scipy.org/doc/numpy/reference/)