## 벡터와 행렬 연산
- https://wikidocs.net/37001

### 벡터와 행렬과 텐서
- 벡터: 크기와 방향을 가진 양
    - 숫자가 나열된 형상
    - 파이썬에서는 1차원 배열 또는 리스트로 표현
- 행렬: 행과 열을 가지는 2차원 형상
    - 파이썬에서는 2차원 배열로 표현
    - 가로줄을 행(row), 세로줄을 열(column)
- 텐서: 3차원
    - 파이썬에서는 3차원 이상의 배열로 표현

### 텐서(Tensor)
- 인공 신경망은 복잡한 모델 내의 연산을 주로 행렬 연산을 통해 해결
    - 행렬 연산이란 단순히 2차원 배열을 통한 행렬 연산만을 의미하는 것이 X
    - 머신 러닝의 입, 출력이 복잡해지면 3차원 텐서에 대한 이해가 필수로 요구
    - ex. 인공 신경망 모델 중 하나인 RNN에서는 3차원 텐서 개념 중요

In [1]:
# numpy를 사용한 텐서 설명
import numpy as np

#### 0차원 텐서(스칼라)
- 스칼라: 하나의 실수값으로 이루어진 데이터
- 차원을 영어로 Dimension이라고 하므로 0D 텐서

In [2]:
d = np.array(5)
print('텐서의 차원 :',d.ndim)
print('텐서의 크기(shape) :',d.shape)

텐서의 차원 : 0
텐서의 크기(shape) : ()


- ndim을 출력했을 때 나오는 값: 축(axis)의 개수, 텐서의 차원

#### 1차원 텐서(벡터)
- 벡터: 숫자를 배열한 것
    - 벡터는 1차원 텐서
    - 벡터에서도 차원이라는 용어를 쓰는데, 벡터의 차원과 텐서의 차원은 다른 개념
    - 1D 텐서
- 벡터에서의 차원: 하나의 축에 놓인 원소의 개수를 의미
- 텐서에서의 차원: 축의 개수를 의미
- ex. 아래의 경우, 4차원 벡터(=원소의 개수), 1차원 텐서 (=축의 개수)

In [3]:
d = np.array([1, 2, 3, 4])
print('텐서의 차원 :',d.ndim)
print('텐서의 크기(shape) :',d.shape)

텐서의 차원 : 1
텐서의 크기(shape) : (4,)


#### 2차원 텐서(행렬)
- 행과 열이 존재하는 벡터의 배열. 즉, 행렬(matrix)
- 2D 텐서

In [4]:
# 3행 4열의 행렬
d = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print('텐서의 차원 :',d.ndim)
print('텐서의 크기(shape) :',d.shape)

텐서의 차원 : 2
텐서의 크기(shape) : (3, 4)


- 텐서의 크기(shape): 각 축을 따라서 얼마나 많은 차원이 있는지를 나타낸 값

#### 3차원 텐서(다차원 배열)
- 3차원 텐서: 행렬 또는 2차원 텐서를 단위로 한 번 더 배열
- 3D 텐서
-  3차원 이상의 텐서부터 본격적으로 텐서라고 부름

In [5]:
d = np.array([
            [[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [10, 11, 12, 13, 14]],
            [[15, 16, 17, 18, 19], [19, 20, 21, 22, 23], [23, 24, 25, 26, 27]]
            ])
print('텐서의 차원 :',d.ndim)
print('텐서의 크기(shape) :',d.shape)

텐서의 차원 : 3
텐서의 크기(shape) : (2, 3, 5)


- 자연어 처리에서 자주 보게되는 것이 3D 텐서
- 3D 텐서는 시퀀스 데이터(sequence data)를 표현할 때 자주 사용
- 시퀀스 데이터는 주로 단어의 시퀀스를 의미, 시퀀스는 주로 문장이나 문서, 뉴스 기사 등의 텍스트가 될 수 있음
    - 이 경우 3D 텐서는 (samples, timesteps, word_dim)
- 배치: 일괄로 처리하기 위해 데이터를 묶는 단위
    -  (batch_size, timesteps, word_dim)

- 자연어 처리에서 왜 3D 텐서의 개념이 사용되는지
- 예)
    - 문서1 : I like NLP
    - 문서2 : I like DL
    - 문서3 : DL is AI
    - 인공 신경망의 모델의 입력으로 사용하기 위해서는 -> 각 단어 벡터화 필요
    - 단어 벡터화 방법: 원-핫 인코딩, 워드 임베딩 등
    - 원-핫 인코딩
    ![image.png](attachment:image.png)
    [[[1, 0, 0, 0, 0, 0], [0, 1, 0, 0, 0, 0], [0, 0, 1, 0, 0, 0]],  
    [[1, 0, 0, 0, 0, 0], [0, 1, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0]],  
    [[0, 0, 0, 1, 0, 0], [0, 0, 0, 0, 1, 0], [0, 0, 0, 0, 0, 1]]]  
    - 배치(Batch): 훈련 데이터를 다수 묶어 입력으로 사용하는 것을 딥 러닝

#### 그 이상의 텐서
- 3차원 텐서를 배열로 합치면 4차원 텐서
- 4차원 텐서를 배열로 합치면 5차원 텐서
- 계속 확장 가능....

#### 케라스에서의 텐서
- 케라스에서는 신경망의 층에 입력의 크기(shape)를 인자로 줄 때 input_shape라는 인자를 사용
- 실제 예시의 경우, input_shape는 배치 크기를 제외하고 차원을 지정
    - input_shape(6, 5)라는 인자값을 사용, 텐서의 크기는 (?, 6, 5)을 의미
    - 배치 크기는 지정해주기 전까지는 알 수 없기 때문에
    - 만약 배치 크기까지 지정해주고 싶다면 batch_input_shape=(8, 2, 10)와 같이 인자를 주면 이 텐서의 크기는 (8, 2, 10)을 의미
- 입력의 속성 수를 의미하는 input_dim, 시퀀스 데이터의 길이를 의미하는 input_length 등의 인자도 사용
    - input_shape의 두 개의 인자는 (input_length, input_dim)

### 벡터와 행렬의 연산
- 기본적인 연산

In [6]:
import numpy as np

#### 벡터와 행렬의 덧셈과 뺄셈
- 같은 크기의 두 개의 벡터나 행렬은 덧셈과 뺄셈 가능
- 같은 위치의 원소끼리 연산 -> 요소별(element-wise) 연산
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

In [7]:
A = np.array([8, 4, 5])
B = np.array([1, 2, 3])
print('두 벡터의 합 :',A+B)
print('두 벡터의 차 :',A-B)

두 벡터의 합 : [9 6 8]
두 벡터의 차 : [7 2 2]


In [8]:
# 행렬도 마찬가지
A = np.array([[10, 20, 30, 40], [50, 60, 70, 80]])
B = np.array([[5, 6, 7, 8],[1, 2, 3, 4]])
print('두 행렬의 합 :')
print(A + B)
print('두 행렬의 차 :')
print(A - B)

두 행렬의 합 :
[[15 26 37 48]
 [51 62 73 84]]
두 행렬의 차 :
[[ 5 14 23 32]
 [49 58 67 76]]


#### 벡터의 내적과 행렬의 곱셈
- 벡터의 내적
    - 연산을 점(dot)으로 표현, a·b와 같이 표현
    - 내적이 성립하기 위해서는, 두 벡터의 차원이 같아야 함
    - 두 벡터 중 앞의 벡터가 행벡터(가로 방향 벡터)이고 뒤의 벡터가 열벡터(세로 방향 벡터)여야 함
    ![image.png](attachment:image.png)

In [9]:
A = np.array([1, 2, 3])
B = np.array([4, 5, 6])
print('두 벡터의 내적 :',np.dot(A, B))

두 벡터의 내적 : 32


- 행렬의 곱셈
    - 왼쪽 행렬의 행벡터(가로 방향 벡터)와 오른쪽 행렬의 열벡터(세로 방향 벡터)의 내적(대응하는 원소들의 곱의 합)이 결과 행렬의 원소가 되는 것
    - 두 행렬의 곱 A × B이 성립되기 위해서는 행렬 A의 열의 개수와 행렬 B의 행의 개수는 같아야 한다.
    - 두 행렬의 곱 A × B의 결과로 나온 행렬 AB의 크기는 A의 행의 개수와 B의 열의 개수를 가진다.
    ![image.png](attachment:image.png)

In [10]:
A = np.array([[1, 3],[2, 4]])
B = np.array([[5, 7],[6, 8]])
print('두 행렬의 행렬곱 :')
print(np.matmul(A, B))

두 행렬의 행렬곱 :
[[23 31]
 [34 46]]


### 다중 선형 회귀 행렬 연산으로 이해하기
- 다중 선형 회귀나 다중 로지스틱 회귀
- 다중 선형 회귀
    ![image.png](attachment:image.png)
    ![image-3.png](attachment:image-3.png)
    ![image-4.png](attachment:image-4.png)
    ![image-5.png](attachment:image-5.png)
    ![image-6.png](attachment:image-6.png)

### 샘플(Sample)과 특성(Feature)
- 전에 내용과 중복이라 스킵

### 가중치와 편향 행렬의 크기 결정
- 행렬 곱셈의 두 가지 중요 조건
    - 두 행렬의 곱 J × K이 성립되기 위해서는 행렬 J의 열의 개수와 행렬 K의 행의 개수는 같아야 한다.
    - 두 행렬의 곱 J × K의 결과로 나온 행렬 JK의 크기는 J의 행의 개수와 K의 열의 개수를 가진다.
- 이로부터 입력과 출력의 행렬의 크기로부터 가중치 행렬 W와 편향 행렬 B의 크기를 찾아낼 수 있음
- 독립 변수 행렬을 X, 종속 변수 행렬을 Y라고 하였을 때, 이때 행렬 X를 입력 행렬(Input Matrix), Y를 출력 행렬(Output Matrix)이라고 함
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

- 입력 행렬과 출력 행렬의 크기로부터 가중치 행렬과 편향 행렬의 크기를 추정할 수 있다면,
- 딥 러닝 모델을 구현하였을 때 해당 모델에 존재하는 총 매개변수의 개수를 계산하기 용이
- 어떤 딥 러닝 모델의 총 매개변수의 개수는 해당 모델에 존재하는 가중치 행렬과 편향 행렬의 모든 원소의 수이기 대문