<h1>신경망 복습</h1>

<h3> 밑바닥부터 시작하는 딥러닝의 속편입니다. 이번 장에서 신경망을 복습합니다.</h3>

<h2> 1. 수학과 파이썬 복습</h2>

먼저 수학을 복습합니다. 신경망 계산을 위한 '벡터'와 '행렬'에 대해 복습합니다. <hr />

<h3>1-1 벡터와 행렬 </h3>
<p> 신경망은 벡터와 행렬이 도처에 등장한다. </p>
<p>
    '벡터'는 <mark> 크기와 방향을 가진 양</mark> 이다. 숫자가 일렬로 늘어선 집합으로 표현하고 또 그렇게 쓴다. 파이썬은 벡터를 1차원 배열로 취급한다. 즉, 파이썬에서는 '벡터'는 숫자로 집합된 1차원 배열이라고 생각하면 된다. 
</p>
<p>
    '행렬'은 숫자가 <mark> 2차원 형태로 늘어선 것 </mark> 으로 벡터 두개를 붙여 놓은 것 같이 보인다. $ N \times M $ 으로 표현한다. 또 행렬에서는 가로줄을 <mark>행</mark>, 세로줄을 <mark>열</mark>라고 한다.
</p>
<p>
    $$ \begin{pmatrix}1&2\\3&4\\5&6\end{pmatrix} $$
</p>
<p>
    벡터는 표현하는 방법이 두 가지입니다. 하나는 숫자를 <mark>세로로 나열하는 방법(열백터)</mark> 과 <mark> 다른 하나는 가로로 나열하는 방법(행백터)</mark> 입니다. 수학과 딥러닝 등 많은 분야에서 '열백터' 방식을 선호한다. 또한 수식에서 벡터나 행렬은 $\textbf{x}$와 $\textbf{W}$ 처럼 굵게 표기하여 단일 원소로 이뤄진 스칼라 값과 구별했습니다.
</p>
    

In [3]:
import numpy as np

x = np.array([1, 2, 3])
print(x.__class__) # x 의 클래스

print(x.shape) # x의 벡터 차원 형상, x는 3차원 벡터
# 결과 : (3, )

print(x.ndim) # x의 숫자 집합 N 차원 수, x는 1차원 
# 결과 : 1

W = np.array([[1, 2, 3], [4, 5, 6]])
print(W.shape) # W의 행렬 차원 형상, W는 2 X 3 차원
# 결과 : (2, 3)

print(W.ndim) # W의 수자 집합 N 차원 수, W는 2차원
# 결과 : 2

<class 'numpy.ndarray'>
(3,)
1
(2, 3)
2


<p>
    벡터와 행렬은 np.array() 메서드로 생성 가능하다. 이 메서드는 넘파이의 다차원 배열 클래스인 np.ndarray 클래스를 생성한다. np.ndarray 클래스에는 다양한 편의 메서드와 인스턴스 변수가 준비되어 있다. 그 중 shape와 ndim을 이용했다. shape는 <mark>다차원 배열의 형상</mark>을, ndim은 <mark>차원 수</mark>를 담고 있다.
</p>

<h3> 1-2 행렬의 원소별 연산</h3>
<p> 이번에는 벡터와 행렬을 사용해 간단한 계산을 한다</p>

In [5]:
W = np.array([[1, 2, 3], [4, 5, 6]])
X = np.array([[0, 1, 2], [3, 4, 5]]) # 두 개의 같은 형상(shape) 행렬을 생성했다.

print(W + X) # 행렬 덧셈 계산

print(W * X)

[[ 1  3  5]
 [ 7  9 11]]
[[ 0  2  6]
 [12 20 30]]


<p>
    다차원 넘파이 배열의 사칙연산 중 더하기($+$)와 곱하기($\times$)를 했다. 피연산자인 다차원 배열들 서로 같은 행과 열에 있는 원소끼리 연산이 이루어 진다. 
</p>

<h3> 1-3 브로드 캐스트</h3>
<p> 넘파이에서 다차원 배열과 형상(shape)이 다른 배열끼리도 연산이 가능하다. 예를 들면, $ 2 \times 2 $ 행렬과 스칼라랑 연산할 수 있다.</p>

In [6]:
A = np.array([[1, 2], [3, 4]]) # 2 * 2 행렬 
print(A * 10) # 2 * 2 행렬과 스칼라(10)이랑 곱셈 연산

[[10 20]
 [30 40]]


<p>
    $ 2 \times 2 $ 행렬 A에 10인 스칼라를 곱했다. 이러면 스칼라 값 10이 $ 2 \times 2 $ 행렬로 확장, 늘려진 행렬로 만들어진 후 원소별 연산을 수행한다. 이 기능을 <mark>브로드캐스트(broadcast)</mark>라고 한다.
</p>

In [8]:
A = np.array([[1, 2], [3, 4]]) 
b = np.array([[10, 20]]) 
# 2 * 2 행렬과 벡터를 선언했다.

print(A * b) # 행렬과 백터를 원소별 연산을 시켰다.

[[10 40]
 [30 80]]


<p>
    여기서는 b가 행렬 A에 맞쳐서 $ 2 \times 2 $ 크기로 확장되어
    $$
        b =  \begin{pmatrix}10&20\\10&20\end{pmatrix}
    $$
    로 되었다. 물론 브로드캐스트가 효과적으로 작동하려면 몇가지 규칙을 충족해야 된다.

</p>

<h3>1-4 벡터의 내적과 행렬의 곱 </h3>
<p> 
    벡터의 내적과 행렬의 곱셈을 한다. 우선 백터의 내적부터 시작한다. 백터의 내적의 수식은 
    $$
        \textbf{x} \cdot \textbf{y} = x_1 y_1 + x_2 y_2 + \cdots + x_n y_n
    $$
    이다. 벡터의 내적은 두 벡터에서 대응하는 원소들의 곱을 모두 더한 것이다. 이러면 결과는 스칼라가 된다. 백터의 내적은 직관적으로 <mark>두 벡터가 얼마나 같은 방향을 향하고 있는지</mark>  보여준다. 완전히 같은 방향이면 내적의 결과는 1이고, 반대 방향을 향하면 두 벡터의 내적은 -1이다.
</p>
<p>
    행렬의 곱도 한다. 행렬의 곱은 '왼쪽 행렬의 행벡터(가로방향)'와 '오른쪽 행렬의 열벡터(세로방향)'의 내적으로 계산한다. 그리고 계산 결과는 새로운 행렬의 대응하는 원소에 저장한다. $\textbf{A}$의 1행과 $\textbf{B}$의 1열의 계산 결과는 1행1열 위치의 원소로 된다. $ 2 \times 3 $ 행렬과 $ 3 \times 2 $ 행렬을 곱하면 결과는 $ 2 \times 2 $ 행렬이 된다. 그리고 왼쪽 행렬의 행벡터 차원과 오른쪽 행렬의 열벡터 차원의 수가 같아야 한다.
</p>


In [10]:
# 벡터의 내적
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(np.dot(a, b)) # 벡터의 내적은 np.dot() 메서드를 이용한다. 두 벡터의 형상(shape)은 같다.

# 행렬의 곱
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
print(np.matmul(A, B)) # 행렬의 곱은 np.matmul() 메서드를 이용한다.

32
[[19 22]
 [43 50]]


<p>
    사실 벡터의 내적과 행렬의 곱 모두 np.dot() 메서드를 사용할 수 있다. np.dot(x, y)의 인수가 모두 1차원이면 벡터의 내적을 계산하고, 2차원 배열이면 행렬의 곱을 계산한다. 다만, 의도를 확실하게 해주어야 한다. 넘파이 경험을 쌓고 싶으면 '100 numpy exercise' 사이트를 추천한다.
</p>

<h3> 1-5 행렬 형상 확인 </h3>
<p> 
    행렬이나 벡터를 사용할 때는 각각의 형상(shape)에 주의해야 한다. '행렬의 곱'을 형상에 주목해서 다시 확인한다. 행렬의 곱의 계산은 앞서 설명했지만, <mark>형상 확인</mark>이 굉장히 중요하다. $3 \times 2$ 행렬 $\textbf{A}$와 $2 \times 4$ 행렬 $\textbf{B}$을 곱하여 $3\times4$ 행렬  $\textbf{C}$을 만드는 예이다. 이때, 행렬 $\textbf{A}$와 $\textbf{b}$가 대응하는 차원의 원소 수가 같아야 한다. 행렬의 '형상 확인'이다.
</p>