<a href="https://colab.research.google.com/github/JusFinAI/JS-test-web-site/blob/main/%EC%84%A0%ED%98%95%EB%8C%80%EC%88%98%EC%99%80_pytorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 선형대수와 PyTorch: 수학적 직관으로 이해하는 딥러닝의 기초

## 학습 목표
1. 행렬 곱셈의 수학적 의미를 이해하고 이를 PyTorch로 구현할 수 있다
2. 차원 변환의 관점에서 행렬 곱셈을 이해할 수 있다
3. PyTorch의 행렬 연산 방식과 그 이유를 이해할 수 있다
4. 실제 딥러닝에서 사용되는 행렬 연산의 기초를 이해할 수 있다

### 1. 시작하기: 필요한 도구 준비하기
PyTorch를 사용하기 위해 필요한 기본적인 설정을 진행합니다.

In [1]:
import torch
import torch.nn as nn

# 재현성을 위한 시드 설정
torch.manual_seed(42)

<torch._C.Generator at 0x79b972bd7d70>

### 2. 수학에서의 행렬 곱셈 복습
행렬 곱셈의 가장 기본적인 원리를 복습해봅시다.  

(m × n) 행렬과 (n × 1) 벡터를 곱하면 (m × 1) 벡터가 나옵니다. 이는 우리가 알고 있는 가장 기본적인 행렬 곱셈의 형태입니다.

In [None]:
# 2x3 행렬과 3x1 벡터의 곱
W = torch.tensor([[1, 2, 3],
                [4, 5, 6]])  # 2x3 행렬
x = torch.tensor([[1],
                [2],
                [3]])        # 3x1 벡터

print("W의 shape:", W.shape)  # [2, 3]
print("x의 shape:", x.shape)  # [3, 1]

# 행렬 곱셈
y = torch.matmul(W, x)
print("\n행렬 곱의 결과:")
print(f"y의 shape: {y.shape}")  # [2, 1]
print(y)

W의 shape: torch.Size([2, 3])
x의 shape: torch.Size([3, 1])

행렬 곱의 결과:
y의 shape: torch.Size([2, 1])
tensor([[14],
        [32]])


### 3. 차원 변환으로 이해하는 행렬 곱셈
행렬 곱셈을 '한 차원에서 다른 차원으로의 변환'으로 이해해봅시다. W의 shape가 [출력차원, 입력차원]이라는 점에 주목해주세요.

In [None]:
# 입력 차원과 출력 차원 정의
input_dim = 4   # 입력 공간의 차원
output_dim = 2  # 출력 공간의 차원

# 변환을 위한 가중치 행렬
W = torch.randn(output_dim, input_dim)  # [2, 4]

# 입력 벡터 (4차원 공간의 한 점)
x = torch.randn(input_dim, 1)  # [4, 1]

# 차원 변환
y = torch.matmul(W, x)  # [2, 1]

print("변환 전 차원:", x.shape)
print("변환 후 차원:", y.shape)
print("\n가중치 행렬 W의 shape:", W.shape)
print("이는 [출력차원, 입력차원]의 형태입니다!")

변환 전 차원: torch.Size([4, 1])
변환 후 차원: torch.Size([2, 1])

가중치 행렬 W의 shape: torch.Size([2, 4])
이는 [출력차원, 입력차원]의 형태입니다!


### 4. PyTorch의 행렬 연산 방식 이해하기
PyTorch는 행렬 곱셈을 조금 다르게 표현합니다. 수학에서는 y = Wx + b 형태였지만, PyTorch에서는 y = xW^T + b 형태를 사용합니다. 이러한 차이가 생긴 이유를 알아봅시다.

In [None]:
# 전통적인 수학 방식
x_math = torch.tensor([[1],
                    [2],
                    [3]])        # 3x1 벡터

# PyTorch 방식
x_torch = torch.tensor([[1, 2, 3]])  # 1x3 벡터 (행벡터)

# 동일한 가중치 행렬
W = torch.tensor([[1, 2, 3],
                [4, 5, 6]])

# 두 가지 방식의 결과 비교
y_math = torch.matmul(W, x_math)
y_torch = torch.matmul(x_torch, W.T)  # W.T는 W의 전치(transpose)

print("수학 방식 결과:")
print(y_math)
print("\nPyTorch 방식 결과:")
print(y_torch.T)  # 비교를 위해 전치

수학 방식 결과:
tensor([[14],
        [32]])

PyTorch 방식 결과:
tensor([[14],
        [32]])


### 5. 배치 처리: PyTorch 방식의 장점
PyTorch가 행벡터를 사용하는 이유는 여러 데이터를 한번에 처리하기 위해서입니다. 이것을 '배치 처리'라고 합니다. 여러 데이터를 동시에 처리하면 컴퓨터의 자원을 효율적으로 사용할 수 있습니다.

In [None]:
# 여러 데이터를 한번에 처리하기
batch_size = 3
x_batch = torch.tensor([[1, 2, 3],   # 첫 번째 데이터
                    [4, 5, 6],    # 두 번째 데이터
                    [7, 8, 9]])   # 세 번째 데이터

W = torch.tensor([[1, 2, 3],
                [4, 5, 6]])

# 한 번의 연산으로 세 개의 데이터를 처리
y_batch = torch.matmul(x_batch, W.T)

print("입력 데이터 shape:", x_batch.shape)  # [3, 3]
print("가중치 행렬 shape:", W.shape)        # [2, 3]
print("출력 결과 shape:", y_batch.shape)    # [3, 2]

print("\n각 데이터의 결과:")
for i in range(batch_size):
    print(f"\n데이터 {i+1}의 결과:", y_batch[i])

입력 데이터 shape: torch.Size([3, 3])
가중치 행렬 shape: torch.Size([2, 3])
출력 결과 shape: torch.Size([3, 2])

각 데이터의 결과:

데이터 1의 결과: tensor([14, 32])

데이터 2의 결과: tensor([32, 77])

데이터 3의 결과: tensor([ 50, 122])


### 6. PyTorch의 Linear 층 사용하기
실제 딥러닝에서는 이러한 행렬 곱셈을 Linear 층을 통해 쉽게 사용할 수 있습니다. Linear 층은 우리가 배운 행렬 곱셈을 편리하게 사용할 수 있도록 만든 도구입니다.

In [None]:
# Linear 층 생성
input_features = 3
output_features = 2
linear = nn.Linear(input_features, output_features)

# 앞서 사용한 가중치로 설정
with torch.no_grad():
    linear.weight = nn.Parameter(torch.tensor([[1., 2., 3.],
                                            [4., 5., 6.]]))
    linear.bias = nn.Parameter(torch.zeros(2))

# 배치 데이터로 테스트
x_batch = torch.tensor([[1, 2, 3],
                    [4, 5, 6],
                    [7, 8, 9.]], dtype=torch.float32)

output = linear(x_batch)
print("Linear 층의 결과:")
print(output)

print("\nLinear 층의 가중치 확인:")
print(linear.weight)

Linear 층의 결과:
tensor([[ 14.,  32.],
        [ 32.,  77.],
        [ 50., 122.]], grad_fn=<AddmmBackward0>)

Linear 층의 가중치 확인:
Parameter containing:
tensor([[1., 2., 3.],
        [4., 5., 6.]], requires_grad=True)


### 7. 실제 적용: RNN에서의 행렬 곱셈
이제 우리가 배운 행렬 곱셈이 실제 딥러닝 모델에서 어떻게 사용되는지 RNN을 예로 들어 살펴봅시다. RNN은 시퀀스 데이터를 처리하는 신경망으로, 각 시점에서 입력을 처리할 때 우리가 배운 행렬 곱셈이 사용됩니다.

In [None]:
# RNN의 입력 처리 예시
input_dim = 4    # 입력 특성의 차원
hidden_dim = 3   # 은닉 상태의 차원
batch_size = 2   # 배치 크기
sequence_len = 5 # 시퀀스 길이

# 입력 데이터 생성
x = torch.randn(batch_size, sequence_len, input_dim)

# 가중치 행렬 (입력을 은닉 차원으로 변환)
W = torch.randn(hidden_dim, input_dim)

# 첫 번째 시점의 입력만 처리해보기
x_t = x[:, 0, :]  # 첫 번째 시점의 입력
y_t = torch.matmul(x_t, W.T)

print("한 시점 입력의 shape:", x_t.shape)      # [batch_size, input_dim]
print("가중치 행렬의 shape:", W.shape)         # [hidden_dim, input_dim]
print("변환 결과의 shape:", y_t.shape)         # [batch_size, hidden_dim]

한 시점 입력의 shape: torch.Size([2, 4])
가중치 행렬의 shape: torch.Size([3, 4])
변환 결과의 shape: torch.Size([2, 3])


### 정리
지금까지 우리는:
1. 행렬 곱셈의 수학적 의미
2. 차원 변환으로서의 행렬 곱셈
3. PyTorch의 행렬 연산 방식과 그 이점
4. 실제 딥러닝에서의 적용

을 살펴보았습니다. 특히 중요한 점은 행렬 곱셈이 "한 차원에서 다른 차원으로의 변환"이라는 것과, PyTorch가 배치 처리의 효율성을 위해 행벡터 방식을 선택했다는 것입니다.