In [52]:
import torch

In [53]:
# 1D Tensor
x = torch.tensor([1, 2, 3])
# 모든 값이 0인 2x3 텐서
y = torch.ones(2, 3)
z = torch.zeros(4, 5)

print("X: ", x)
print("Y: ", y)
print("Z: ", z)

X:  tensor([1, 2, 3])
Y:  tensor([[1., 1., 1.],
        [1., 1., 1.]])
Z:  tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])


In [54]:
# 텐서의 속성

# 텐서의 형태와 크기
print(x.shape)
print(y.size())
print(z.dtype)
'''
shape과 size는 PyTorch에서 텐서의 크기를 나타내는 두 가지 속성이다
두 속성 모두 텐서의 차원을 튜플 형태로 반환한다는 점에서 기능적으로 동일하지만,
size()는 함수 형태로 호출이 되고, 사용자의 선호에 따라 선택할 수 있다
'''

torch.Size([3])
torch.Size([2, 3])
torch.float32


'\nshape과 size는 PyTorch에서 텐서의 크기를 나타내는 두 가지 속성이다\n두 속성 모두 텐서의 차원을 튜플 형태로 반환한다는 점에서 기능적으로 동일하지만,\nsize()는 함수 형태로 호출이 되고, 사용자의 선호에 따라 선택할 수 있다\n'

In [55]:
# 기본 연산
a = torch.tensor([1, 2, 3])
b = torch.tensor([4, 5, 6])
c = a + b
d = a * b
print("덧셈 결과:", c)
print("곱셈 결과:", d)

덧셈 결과: tensor([5, 7, 9])
곱셈 결과: tensor([ 4, 10, 18])


In [56]:
# 행렬 연산
A = torch.tensor([[1, 2], [3, 4]])
B = torch.tensor([[5, 6], [7, 8]])
C = torch.matmul(A, B)
print("행렬 곱셈 결과:\n", C)

행렬 곱셈 결과:
 tensor([[19, 22],
        [43, 50]])


In [57]:
# 크기가 3x3인 램덤 텐서 생성하기
x = torch.rand(3, 3)
y = torch.rand(3, 3)

# 텐서의 합계
z = torch.sum(x)
print("합계:\n", z)
'''
3x3 텐서 x의 모든 요소를 더한 결과를 출력한다
'''

# 텐서의 최대값과 인덱스
z, idx = torch.max(x ,dim=0)
print("최댓값:\n", z)
print("최댓값 인덱스:\n", idx)
'''
dim = 0은 각 열에서 최댓값을 찾고
dim = 1은 각 행에서 최댓값을 찾는다
'''

합계:
 tensor(5.9090)
최댓값:
 tensor([0.9988, 0.9979, 0.7042])
최댓값 인덱스:
 tensor([1, 2, 0])


'\ndim = 0은 각 열에서 최댓값을 찾고\ndim = 1은 각 행에서 최댓값을 찾는다\n'

In [58]:
# 연산의 브로드캐스팅
x = torch.tensor([1, 2, 3])
y = torch.tensor([[1], [2], [3]])
z = x + y

print(z)
print(x.shape)
print(y.shape)
print(z.shape)

'''
브로드캐스팅 연산이란,
배열의 크기가 다를 때도 연산을 수행할 수 있도록 도와주는 기능
'''

tensor([[2, 3, 4],
        [3, 4, 5],
        [4, 5, 6]])
torch.Size([3])
torch.Size([3, 1])
torch.Size([3, 3])


'\n브로드캐스팅 연산이란,\n배열의 크기가 다를 때도 연산을 수행할 수 있도록 도와주는 기능\n'

In [59]:
# 자동 미분(Autograd), autograd는 역전파를 통해 자동으로 기울기 계산
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
'''
requires_grad=True
=> 역전파를 통해 기울기를 계산할 때, requires_grad=True로 설정된 텐서는 그 기울기를 grad 속성에 저장

**자동 미분 활성화**
'''

y = x + 2
z = y * y * 3
out = z.mean()

out.backward()  # 역전파 수행
print(x.grad)   # x에 대한 기울기 출력
'''
역전파 수행 과정이 수학적으로 잘 이해 안감...
그냥 위의 주석만큼만 이해하면 될까?
'''

tensor([ 6.,  8., 10.])


'\n역전파 수행 과정이 수학적으로 잘 이해 안감...\n그냥 위의 주석만큼만 이해하면 될까?\n'

In [60]:
# requires_grad=True로 설정하여 텐서의 기울기를 계산하도록 지정
x = torch.tensor(2.0, requires_grad=True)
y = torch.tensor(3.0, requires_grad=True)

z = x * y + y**2
z.backward()

# 기울기 출력
print(x.grad)
print(y.grad)
'''
<위에서 이해 못한 수학적 의미>
x.grad는 dz/dx를 나타내며, 이는 z를 x에 대해 미분한 값
y.grad는 dz/dy를 나타내며, 이는 z를 y에 대해 미분한 값

z를 x에 대해 미분하면 y가 된다
따라서, dz/dx = y = 3.0

z를 y에 대해 미분하면 x + 2*y가 된다
따라서, dz/dy = x + 2*y = 2.0 + 2*3.0 = 8.0
'''

tensor(3.)
tensor(8.)


'\n<위에서 이해 못한 수학적 의미>\nx.grad는 dz/dx를 나타내며, 이는 z를 x에 대해 미분한 값\ny.grad는 dz/dy를 나타내며, 이는 z를 y에 대해 미분한 값\n\nz를 x에 대해 미분하면 y가 된다\n따라서, dz/dx = y = 3.0\n\nz를 y에 대해 미분하면 x + 2*y가 된다\n따라서, dz/dy = x + 2*y = 2.0 + 2*3.0 = 8.0\n'

In [61]:
# 신경망 모듈
import torch.nn as nn    # (nn : neural network)
import torch.nn.functional as F

# nn.Module은 신경망의 기본 모듈 
class SimpleNN(nn.Module):    # nn.Module을 상속받은 SimpleNN 클래스
    # 신경망의 계층을 정의하는 부분
    def __init__(self):
        super(SimpleNN, self).__init__()    # 부모 클래스의 초기화 코드 실행 : SimpleNN 클래스에서 필요한 초기와 작업 수행
        # fc : fully connected layer
        self.fc1 = nn.Linear(784,128)   # Linear 선형 변환, 784개의 입력을 받아 128개의 출력을 내보냄
        self.fc2 = nn.Linear(128, 10)  # 보통 분류 문제에서의 출력 계층 개수는 분류 클래스 개수를 의미함
    
    # 순전파 정의 : 입력 데이터가 신경망을 통과하는 방식을 지정
    def forward(self, x):
        x = x.view(-1, 784)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x
    
model = SimpleNN()
print(model)

SimpleNN(
  (fc1): Linear(in_features=784, out_features=128, bias=True)
  (fc2): Linear(in_features=128, out_features=10, bias=True)
)


In [62]:
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        
        # 첫 번째 합성곱 층
        # 신경망 계층을 정의하는 객체들 -> 순전파 단계에서 함수처럼 호출되어 입력 데이터를 처리
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=32, kernel_size=3, stride=1, padding=1)
        self.bn1 = nn.BatchNorm2d(32)   # 배치 정규화
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)
        self.dropout1 = nn.Dropout(p=0.25)   # 드롭아웃
        '''
        in_channels : 입력 채널의 수 -> 흑백 이미지이므로 1, 컬러 이미지는 3
        out_channels : 출력 채널의 수
        
        3x3 크기의 필터가 32개 사용된다
        28x28 크기의 이미지를 입력으로 받아 32개의 28x28 크기의 출력(특성 맵)을 내보낸다
        '''
        
        # 두 번째 합성곱 층
        self.conv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.bn2 = nn.BatchNorm2d(64)
        self.dropout2 = nn.Dropout(p=0.25)
        
        # 완전 연결 층
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        self.bn3 = nn.BatchNorm1d(128)  # 배치 정규화
        self.dropout3 = nn.Dropout(p=0.5)  # 드롭아웃
        self.fc2 = nn.Linear(128, 10)
        
    def forward(self, x):
        x = self.pool(F.relu(self.bn1(self.conv1(x))))
        x = self.dropout1(x)
        x = self.pool(F.relu(self.bn2(self.conv2(x))))
        x = self.dropout2(x)
        x = x.view(-1, 64 * 7 * 7)  # 평탄화
        x = F.relu(self.bn3(self.fc1(x)))
        x = self.dropout3(x)
        x = self.fc2(x)
        return F.log_softmax(x, dim=1)
    
model_cnn = CNN()
print(model_cnn)        

CNN(
  (conv1): Conv2d(1, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (pool): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (dropout1): Dropout(p=0.25, inplace=False)
  (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
  (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (dropout2): Dropout(p=0.25, inplace=False)
  (fc1): Linear(in_features=3136, out_features=128, bias=True)
  (bn3): BatchNorm1d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (dropout3): Dropout(p=0.5, inplace=False)
  (fc2): Linear(in_features=128, out_features=10, bias=True)
)


In [63]:
# 데이터 로딩
from torch.utils.data import Dataset, DataLoader

class CustomDataset(Dataset):
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        return self.data[idx], self.labels[idx]
    
# 예시 데이터 정의
data = torch.randn(100, 1, 28, 28)  # 100개의 1x28x28 크기의 이미지 데이터
labels = torch.randint(0, 10, (100,))  # 0에서 9 사이의 정수 레이블 100개

# CustomDataset 인스턴스 생성
dataset = CustomDataset(data, labels)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)

In [64]:
# 손실 함수 및 옵티마이저 설정
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

In [65]:
# 학습 루프
num_epochs = 10
for epoch in range(num_epochs):
    for inputs, labels in dataloader:
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

In [66]:
# 평가 모드 전환
model.eval()
with torch.no_grad():
    for inputs, labels in dataloader:
        outputs = model(inputs)

In [67]:
# GPU 사용 (Using GPU), 객체를 GPU로 이동
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
inputs, labels = inputs.to(device), labels.to(device)