<a href="https://colab.research.google.com/github/hyeong8465/KTB/blob/main/ktb_ai/ktb_day0718.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
'''
딥러닝 1
- 딥러닝
안간의 두뇌를 모방한 구조로, 다층 신경망을 사용하여 데이터로부터 특징을 학습하고 패턴을 인식하는 기술
복잡한 데이터 분석과 패턴 인식에서 뛰어난 성능

피처 엔지니어링을 최소화하고, 엔드 투 엔드 학습을 진행
모델의 복잡성, 대량의 데이터, 자동으로 특징 추출, 긴 학습 시간, 대량의 데이터와 복잡한 문제에서 뛰어난 성능

AlexNet의 ImageNet 대회 우승, AlphaGo의 바둑 대결

- 딥러닝 기초
뉴런: 입력 신호를 받아 가중치와 함께 처리한 후, 활성화 함수를 통해 출력 신호 생성, 주어진 입력 데이터에서 특정 패턴이나 특징 학습
입력, 가중치, 바이어스, 활성화 함수
작동 원리: 입력 신호 수집, 가중치와 입력 값 곱셈, 가중합 계산, 바이어스 추가, 활성화 함수 적용

활성화 함수: 신경망이 복합한 패턴을 학습하고, 비선형 문제를 해결할 수 있게 한다.
sigmoid, relu, tanh

신경망의 구조: 입력층, 은닉층, 출력층

- 딥러닝 원리
딥러닝 학습과정: feepforward, lossfunction, backpropagation
학습방법: 배치 학습, 미니 배치 학습
최적화 알고리즘: 경사 하강법, 확률적 경사 하강법, Adam

손실함수: 모델의 예측 값과 실제 값 간의 차이를 측정하는 함수
손실함수 역할: 손실함수를 최소화하는 방향으로 학습 과정에서 가중치를 업데이트
교차 엔트로피: 분류 문제에서 주로 사용
장점: 확률 분포를 다루기 때문에 출력을 확률로 해석 가능
단점: 잘못된 예측을 할 때 큰 손실 값을 가지기 때문에, 초기 학습 단계에서 손실 값이 크게 나타날 수 있음

역전파
최적화 알고리즘
경사 하강법

배치 경사 하강법: 전체 데이터 셋을 사용, 수렴 과정이 안정적, 계산 비용이 높고 메모리 사용량 많음
확률적 경사 하강법: 하나의 데이터 포인트를 사용, 계산이 빠르고 메모리 사용량 적음, 수렴 과정에서 진동 가능성 있음
미니 배치 경사 하강법: 전체 데이터 셋을 작은 배치로 나누어 사용, 계산 효율과 메모리 사용량의 균형을 잡을 수 있다, 수렴 과정이 비교적 안정적, 배치 크기 선택이 어려울 수 있으며 하이터파라미터 튜닝 필요

배치 크기가 크면 안정적이지만 계산이 느림, 배치 크기가 작으면 계산이 빠르지만 안정적이지 않음
학습률이 너무 크면 최적점 주변에서 진동, 너무 작으면 최적점에 도달하기까지 시간이 오래 걸림

역전파의 한계: 계산 비용, 기울기 소실, 기울기 폭발

- 딥러닝의 과적합과 해결방법
모델이 복잡하고 데이터 셋이 크기 때문에 과적합 가능성이 높다. -> 데이터 증강, 정규화, 드롭아웃



'''

#실습

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt

In [None]:
# 데이터셋 불러오기 및 전처리
transform = transforms.Compose([transforms.ToTensor(),  # 데이터를 텐서로 변환
                                transforms.Normalize((0,), (1,))])  # 데이터를 0의 평균과 1의 표준편차로 정규화

In [None]:
# 훈련 데이터셋과 테스트 데이터셋 다운로드 및 로드
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)


In [None]:
# 데이터로더를 사용하여 데이터셋을 배치 단위로 로드
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=1000, shuffle=False)

In [None]:
train_dataset[0]

(tensor([[[0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000],
          [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000],
          [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000],
          [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000,
           0.0000, 0.0000, 0.0000, 0.0000, 

In [None]:
# 신경망 모델 정의
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(28 * 28, 128)  # 입력층: 28x28 이미지를 1차원 배열로 변환, 128개의 뉴런
        self.fc2 = nn.Linear(128, 10)  # 출력층: 10개의 뉴런 (0~9 클래스)

    def forward(self, x):
        x = x.view(-1, 28 * 28)  # 이미지를 1차원 배열로 변환
        x = F.relu(self.fc1(x))  # 은닉층: ReLU 활성화 함수 적용
        x = self.fc2(x)  # 출력층
        return F.log_softmax(x, dim=1)  # 소프트맥스 함수로 클래스 확률 반환

In [None]:
# 모델 초기화
model = SimpleNN()

# 손실 함수와 옵티마이저 정의
criterion = nn.CrossEntropyLoss()  # 교차 엔트로피 손실 함수
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)  # SGD 옵티마이저

In [None]:
# 모델 학습 함수 정의
def train(model, device, train_loader, optimizer, epoch):
    model.train()  # 모델을 학습 모드로 설정
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)  # 데이터를 장치로 이동
        optimizer.zero_grad()  # 이전 기울기 초기화
        output = model(data)  # 모델 예측
        loss = criterion(output, target)  # 손실 계산
        loss.backward()  # 역전파를 통해 기울기 계산
        optimizer.step()  # 가중치 업데이트
        if batch_idx % 100 == 0:  # 100번째 배치마다 로그 출력
            print(f'Train Epoch: {epoch} [{batch_idx * len(data)}/{len(train_loader.dataset)} '
                  f'({100. * batch_idx / len(train_loader):.0f}%)]\tLoss: {loss.item():.6f}')



In [None]:
# 모델 평가 함수 정의
def test(model, device, test_loader):
    model.eval()  # 모델을 평가 모드로 설정
    test_loss = 0
    correct = 0
    with torch.no_grad():  # 평가 시에는 기울기를 계산하지 않음
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            test_loss += criterion(output, target).item()  # 손실 합산
            pred = output.argmax(dim=1, keepdim=True)  # 가장 높은 확률을 가진 클래스 예측
            correct += pred.eq(target.view_as(pred)).sum().item()  # 맞춘 개수 합산

    test_loss /= len(test_loader.dataset)
    test_accuracy = 100. * correct / len(test_loader.dataset)
    print(f'\nTest set: Average loss: {test_loss:.4f}, Accuracy: {correct}/{len(test_loader.dataset)} '
          f'({test_accuracy:.0f}%)\n')
    return test_loss, test_accuracy

In [9]:
# 학습 및 평가
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

epochs = 3
train_losses, test_losses, test_accuracies = [], [], []

NameError: name 'model' is not defined

In [None]:
# 모델 학습
for epoch in range(1, epochs + 1):
    train(model, device, train_loader, optimizer, epoch)
    test_loss, test_accuracy = test(model, device, test_loader)
    test_losses.append(test_loss)
    test_accuracies.append(test_accuracy)


Test set: Average loss: 0.0002, Accuracy: 9337/10000 (93%)


Test set: Average loss: 0.0002, Accuracy: 9548/10000 (95%)


Test set: Average loss: 0.0001, Accuracy: 9604/10000 (96%)



In [None]:
from torchsummary import summary
summary(model, input_size=(1, 28, 28))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Linear-1                  [-1, 128]         100,480
            Linear-2                   [-1, 10]           1,290
Total params: 101,770
Trainable params: 101,770
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.00
Params size (MB): 0.39
Estimated Total Size (MB): 0.39
----------------------------------------------------------------


In [38]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import numpy as np
import random

# 시드 고정
def set_seed(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(seed)
    random.seed(seed)

set_seed(42)



# ReLU-y 활성화 함수 정의
class ReLU_Y(nn.Module):
    def forward(self, x):
        return torch.min(torch.zeros_like(x), x)

# MNIST 데이터셋 로드 및 전처리
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)
testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=1000, shuffle=False)

# ReLU를 사용하는 간단한 신경망 정의
class NetReLU(nn.Module):
    def __init__(self):
        super(NetReLU, self).__init__()
        self.fc1 = nn.Linear(28*28, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, 10)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = x.view(-1, 28*28)  # Flatten the input
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x

# ReLU-y를 사용하는 간단한 신경망 정의
class NetReLU_Y(nn.Module):
    def __init__(self):
        super(NetReLU_Y, self).__init__()
        self.fc1 = nn.Linear(28*28, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, 10)
        self.relu_y = ReLU_Y()

    def forward(self, x):
        x = x.view(-1, 28*28)  # Flatten the input
        x = self.relu_y(self.fc1(x))
        x = self.relu_y(self.fc2(x))
        x = self.fc3(x)
        return x

# 모델 학습 함수
def train_model(model, trainloader, criterion, optimizer, epochs=5):
    for epoch in range(epochs):
        running_loss = 0.0
        for inputs, labels in trainloader:
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        print(f"Epoch {epoch+1}, Loss: {running_loss/len(trainloader)}")

# 모델 평가 함수
def test_model(model, testloader):
    correct = 0
    total = 0
    with torch.no_grad():
        for inputs, labels in testloader:
            outputs = model(inputs)
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    print(f'Accuracy: {100 * correct / total}%')

# 모델 초기화
net_relu = NetReLU()
net_relu_y = NetReLU_Y()

with torch.no_grad():
    for param_relu, param_relu_y in zip(net_relu.parameters(), net_relu_y.parameters()):
        param_relu_y.data = -torch.abs(param_relu.data) * torch.sign(param_relu.data)


# 손실 함수와 옵티마이저 정의
criterion = nn.CrossEntropyLoss()
optimizer_relu = optim.SGD(net_relu.parameters(), lr=0.01, momentum=0.9)
optimizer_relu_y = optim.SGD(net_relu_y.parameters(), lr=0.01, momentum=0.9)


# ReLU 네트워크 학습
print("Training ReLU network...")
train_model(net_relu, trainloader, criterion, optimizer_relu, epochs=5)

# ReLU-y 네트워크 학습
print("Training ReLU-y network...")
train_model(net_relu_y, trainloader, criterion, optimizer_relu_y, epochs=5)

# ReLU 네트워크 평가
print("Testing ReLU network...")
test_model(net_relu, testloader)

# ReLU-y 네트워크 평가
print("Testing ReLU-y network...")
test_model(net_relu_y, testloader)

Training ReLU network...
Epoch 1, Loss: 0.38039735969958277
Epoch 2, Loss: 0.1529672586881339
Epoch 3, Loss: 0.10826150237469435
Epoch 4, Loss: 0.08443819391412108
Epoch 5, Loss: 0.06907687925506256
Training ReLU-y network...
Epoch 1, Loss: 0.388705630435237
Epoch 2, Loss: 0.15379621476026328
Epoch 3, Loss: 0.10626411362231444
Epoch 4, Loss: 0.08456459207468227
Epoch 5, Loss: 0.06752357331699313
Testing ReLU network...
Accuracy: 97.57%
Testing ReLU-y network...
Accuracy: 97.11%


In [39]:
# 모델 파라미터의 부호 비교 함수
def compare_parameter_signs(model1, model2):
    params1 = model1.named_parameters()
    params2 = model2.named_parameters()

    dict_params2 = dict(params2)
    total_param_count = 0
    different_sign_count = 0

    for name1, param1 in params1:
        if name1 in dict_params2:
            param2 = dict_params2[name1]
            sign1 = torch.sign(param1)
            sign2 = torch.sign(param2)
            total_param_count += param1.numel()  # 전체 파라미터 개수 추가
            if not torch.equal(sign1, sign2):
                different_sign_count += torch.sum(sign1 != sign2).item()  # 부호가 다른 파라미터 개수 추가
                print(f"Parameter {name1} has different signs.")
                print(f"Model 1 - {name1}: {sign1}")
                print(f"Model 2 - {name1}: {sign2}")

    print(f"Total number of parameters: {total_param_count}")
    print(f"Total number of parameters with different signs: {different_sign_count}")

print("\nComparing parameter signs between ReLU and ReLU-y networks...")
compare_parameter_signs(net_relu, net_relu_y)


Comparing parameter signs between ReLU and ReLU-y networks...
Parameter fc1.weight has different signs.
Model 1 - fc1.weight: tensor([[ 1.,  1., -1.,  ..., -1.,  1.,  1.],
        [-1., -1.,  1.,  ..., -1., -1.,  1.],
        [ 1.,  1.,  1.,  ..., -1., -1.,  1.],
        ...,
        [-1., -1.,  1.,  ...,  1.,  1., -1.],
        [ 1.,  1.,  1.,  ..., -1., -1.,  1.],
        [-1.,  1., -1.,  ...,  1., -1., -1.]], grad_fn=<SignBackward0>)
Model 2 - fc1.weight: tensor([[-1., -1.,  1.,  ...,  1., -1., -1.],
        [ 1.,  1., -1.,  ...,  1., -1., -1.],
        [-1., -1., -1.,  ...,  1.,  1., -1.],
        ...,
        [ 1.,  1., -1.,  ..., -1., -1.,  1.],
        [-1., -1., -1.,  ...,  1.,  1., -1.],
        [ 1., -1.,  1.,  ..., -1.,  1.,  1.]], grad_fn=<SignBackward0>)
Parameter fc1.bias has different signs.
Model 1 - fc1.bias: tensor([-1., -1., -1.,  1.,  1.,  1.,  1.,  1.,  1., -1.,  1.,  1.,  1.,  1.,
         1.,  1., -1.,  1., -1.,  1., -1., -1.,  1., -1., -1.,  1.,  1., -1.,
     

In [40]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import numpy as np
import random

# 시드 고정
def set_seed(seed):
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(seed)
    random.seed(seed)

set_seed(42)

# ReLU-y 활성화 함수 정의
class ReLU_Y(nn.Module):
    def forward(self, x):
        return torch.min(torch.zeros_like(x), x)

# MNIST 데이터셋 로드 및 전처리
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
trainset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)
testset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=1000, shuffle=False)

# ReLU를 사용하는 간단한 신경망 정의
class NetReLU(nn.Module):
    def __init__(self):
        super(NetReLU, self).__init__()
        self.fc1 = nn.Linear(28*28, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, 10)
        self.relu = nn.ReLU()

    def forward(self, x):
        x = x.view(-1, 28*28)  # Flatten the input
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)
        return x

# ReLU-y를 사용하는 간단한 신경망 정의
class NetReLU_Y(nn.Module):
    def __init__(self):
        super(NetReLU_Y, self).__init__()
        self.fc1 = nn.Linear(28*28, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, 10)
        self.relu_y = ReLU_Y()

    def forward(self, x):
        x = x.view(-1, 28*28)  # Flatten the input
        x = self.relu_y(self.fc1(x))
        x = self.relu_y(self.fc2(x))
        x = self.fc3(x)
        return x

# 모델 초기화
net_relu = NetReLU()
net_relu_y = NetReLU_Y()

# ReLU 모델의 초기 파라미터 부호 반전하여 ReLU-y 모델에 설정
with torch.no_grad():
    for param_relu, param_relu_y in zip(net_relu.parameters(), net_relu_y.parameters()):
        param_relu_y.data = -torch.abs(param_relu.data) * torch.sign(param_relu.data)

# 손실 함수와 옵티마이저 정의
criterion = nn.CrossEntropyLoss()
optimizer_relu = optim.SGD(net_relu.parameters(), lr=0.01, momentum=0.9)
optimizer_relu_y = optim.SGD(net_relu_y.parameters(), lr=0.01, momentum=0.9)

# 모델 학습 함수
def train_model(model, trainloader, criterion, optimizer, epochs=5):
    for epoch in range(epochs):
        running_loss = 0.0
        for inputs, labels in trainloader:
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        print(f"Epoch {epoch+1}, Loss: {running_loss/len(trainloader)}")

# 모델 평가 함수
def test_model(model, testloader):
    correct = 0
    total = 0
    with torch.no_grad():
        for inputs, labels in testloader:
            outputs = model(inputs)
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    print(f'Accuracy: {100 * correct / total}%')

# ReLU 네트워크 학습
print("Training ReLU network...")
train_model(net_relu, trainloader, criterion, optimizer_relu, epochs=5)

# ReLU-y 네트워크 학습
print("Training ReLU-y network...")
train_model(net_relu_y, trainloader, criterion, optimizer_relu_y, epochs=5)

# ReLU 네트워크 평가
print("Testing ReLU network...")
test_model(net_relu, testloader)

# ReLU-y 네트워크 평가
print("Testing ReLU-y network...")
test_model(net_relu_y, testloader)

# 모델 파라미터의 부호 비교 함수
def compare_parameter_signs(model1, model2):
    params1 = model1.named_parameters()
    params2 = model2.named_parameters()

    dict_params2 = dict(params2)
    total_param_count = 0
    different_sign_count = 0

    for name1, param1 in params1:
        if name1 in dict_params2:
            param2 = dict_params2[name1]
            sign1 = torch.sign(param1)
            sign2 = torch.sign(param2)
            total_param_count += param1.numel()  # 전체 파라미터 개수 추가
            if not torch.equal(sign1, sign2):
                different_sign_count += torch.sum(sign1 != sign2).item()  # 부호가 다른 파라미터 개수 추가
                print(f"Parameter {name1} has different signs.")
                print(f"Model 1 - {name1}: {sign1}")
                print(f"Model 2 - {name1}: {sign2}")

    print(f"Total number of parameters: {total_param_count}")
    print(f"Total number of parameters with different signs: {different_sign_count}")

print("\nComparing parameter signs between ReLU and ReLU-y networks...")
compare_parameter_signs(net_relu, net_relu_y)

Training ReLU network...
Epoch 1, Loss: 0.38039735969958277
Epoch 2, Loss: 0.1529672586881339
Epoch 3, Loss: 0.10826150237469435
Epoch 4, Loss: 0.08443819391412108
Epoch 5, Loss: 0.06907687925506256
Training ReLU-y network...
Epoch 1, Loss: 0.388705630435237
Epoch 2, Loss: 0.15379621476026328
Epoch 3, Loss: 0.10626411362231444
Epoch 4, Loss: 0.08456459207468227
Epoch 5, Loss: 0.06752357331699313
Testing ReLU network...
Accuracy: 97.57%
Testing ReLU-y network...
Accuracy: 97.11%

Comparing parameter signs between ReLU and ReLU-y networks...
Parameter fc1.weight has different signs.
Model 1 - fc1.weight: tensor([[ 1.,  1., -1.,  ..., -1.,  1.,  1.],
        [-1., -1.,  1.,  ..., -1., -1.,  1.],
        [ 1.,  1.,  1.,  ..., -1., -1.,  1.],
        ...,
        [-1., -1.,  1.,  ...,  1.,  1., -1.],
        [ 1.,  1.,  1.,  ..., -1., -1.,  1.],
        [-1.,  1., -1.,  ...,  1., -1., -1.]], grad_fn=<SignBackward0>)
Model 2 - fc1.weight: tensor([[-1., -1.,  1.,  ...,  1., -1., -1.],
       