#### python 경로 
(torch-book) C:\deeplearning_h>python -c "import sys;print(sys.executable);" <br />

#### torch version
(torch-book) C:\deeplearning_h>python -c "import torch;print(torch.__version__);"
2.4.0

In [29]:
import torch
print(torch.tensor([[1,2],[3,4]]))



tensor([[1, 2],
        [3, 4]])


In [30]:
temp=torch.tensor([[1,2],[3,4]])
print(temp.shape)
print('--------------------')
print(temp.view(4,1))
print('--------------------')
print(temp.view(-1))
print('--------------------')
print(temp.view(1,-1))
print('--------------------')
print(temp.view(-1,1))
print('--------------------')

torch.Size([2, 2])
--------------------
tensor([[1],
        [2],
        [3],
        [4]])
--------------------
tensor([1, 2, 3, 4])
--------------------
tensor([[1, 2, 3, 4]])
--------------------
tensor([[1],
        [2],
        [3],
        [4]])
--------------------


### 딥러닝 구조

class Model(nn.Module):
    def __init__(self, embedding_size, output_size, layers, p=0.4):
        super().__init__()
        self.all_embeddings=nn.ModuleList([nn.Embedding(ni,nf) for ni, nf in embedding_size])
        self.embedding_dropout = nn.Dropout(p)
        all_layers=[]
        num_categorical_cols=sum((nf for ni, nf in embedding_size))
        input_size= num_categorical_cols

        for i in layers:
           all_layers.append(nn.Linear(input_size, i))
           all_layers.append(nn.ReLU(inplace=True))
           all_layers.append(nn.BatchNorm1d( i))
           all_layers.append(nn.Dropout(p))
           input_size=i
        all_layers.append(nn.Linear(layers[-1], output_size))
        self.layers= nn.Sequential(*all_layers)
    
    
    def forward(self, x_categorical):
        embeddings=[]
        for i , e in enumerate(self.all_embeddings):
            embeddings.append(e(x_categorical[:,i]))
            x=torch.cat(embeddings, 1)
            x=self.embedding_dropout(x)
            x=self.layers(x)
            return x

Model(                        <br/>
  (all_embeddings): ModuleList(<br/>
    (0-2): 3 x Embedding(4, 2)<br/>
    (3-5): 3 x Embedding(3, 2)<br/>
  )<br/>
  (embedding_dropout): Dropout(p=0.4, inplace=False)<br/>
  (layers): Sequential(<br/>
    (0): Linear(in_features=12, out_features=200, bias=True)  <br/>
    (1): ReLU(inplace=True)  #활성함수 ReLU는 기울기가 0이 되는 것을 막는다.<br/>
    (2): BatchNorm1d(200, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)  #성능이 나빠져서 미분이 0인 지점을 못 찾는 것을 막기 위해 확률적 경사하강 또는 미니배치 경사 하강법을 사용한다.<br/>
    (3): Dropout(p=0.4, inplace=False)  #과적합을 막기 위해 dropout적용한다. 40%는 0.4이다.<br/>
    (4): Linear(in_features=200, out_features=100, bias=True)<br/>
    (5): ReLU(inplace=True)<br/>
    (6): BatchNorm1d(100, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)<br/>
    (7): Dropout(p=0.4, inplace=False)<br/>
    (8): Linear(in_features=100, out_features=50, bias=True)<br/>
    (9): ReLU(inplace=True)<br/>
    (10): BatchNorm1d(50, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)<br/>
    (11): Dropout(p=0.4, inplace=False)<br/>
    (12): Linear(in_features=50, out_features=4, bias=True)<br/>
  )
)

epochs = 500  <br/>
aggregated_losses = []  <br/>
train_outputs = train_outputs.to(device=device, dtype=torch.int64)  <br/>
for i in range(epochs):  <br/>
    i += 1  <br/>
    for X_train, y_train in categorical_train_data:  #미니배치  <br/>
        y_pred = model(categorical_train_data)  <br/>
        single_loss = loss_function(y_pred, train_outputs)  <br/>
        aggregated_losses.append(single_loss)  <br/>

    if i % 25 == 1:  <br/>
        print(f"epoch: {i:3} loss: {single_loss.item():10.8f}")  <br/>

    optimizer.zero_grad()  <br/>
    single_loss.backward()  <br/>
    optimizer.step()  <br/>

print(f"epoch: {i:3} loss: {single_loss.item():10.10f}")  <br/>

###  옵티마이저
확률적 경사 하강법의 파라미터 변경 폭이 불안정한 문제를 해결하기 위해 학습속도와 운동량을 조정하는 옵티마이저를 적용해볼 수 있다. <br />
전역 최솟값을 찾아야하는데 지역 최솟값을 찾을 경우 , 문제가 생긴다 <br />

![image.png](attachment:08af0d10-8887-462d-a405-acbf083ab1ff.png)


loss_function = nn.CrossEntropyLoss()    <br />
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)    #옵티마이저 아담-모멘텀과 알엠에스프롭의 잠점을 결합한 경사하강법/lr은 Learning rate(학습률)


### 딥러닝 사용할 때 이점
딥러닝에서는 특성추출과정을 알고리즘에 통합시켰다. 데이터 특성을 잘 잡아내고자 은닉층을 깊게 쌓는 방식으로 파라미터를 늘린 모델 구조 덕분이다. <br />
딥러닝 학습을 이용한 특성추출은 데이터 사례가 많을수록 성능이 향상되기 때문에 빅데이터의 효율적 활용이 이점이다.

## 실습: and gate를 딥러닝구조로 작성해보자

In [31]:
import torch
import torch.nn as nn
import numpy as np

In [69]:
and_data = torch.tensor([[0,0],[0,1],[1,0],[1,1]], dtype=torch.float32)
and_labels = torch.tensor([[0],[0],[0],[1]], dtype=torch.float32)

In [33]:

l1=nn.Linear(2,1)


# 선형 계층에 입력 데이터 적용
x = l1(and_data)

# ReLU와 Sigmoid 활성화 함수 정의
relu = nn.ReLU()
sigmoid = nn.Sigmoid()

# ReLU 활성화 함수에 x를 입력하여 출력값 계산
relu_output = relu(x)

# Sigmoid 활성화 함수에 x를 입력하여 출력값 계산
sigmoid_output = sigmoid(x)

print("입력 데이터:")
print(and_data)
print('--------------------')
print("선형 계층의 출력값: 이 경우 가중치와 편향은 모델의 학습 과정에서 자동으로 초기화된 값들입니다.")
print(x)
print('--------------------')
print("ReLU 활성화 함수의 출력값:ReLU 함수는 음수 값을 0으로 변환하고 양수 값은 그대로 유지합니다.")
print(relu_output)
print('--------------------')
print("Sigmoid 활성화 함수의 출력값:Sigmoid 함수는 입력값을 0과 1 사이로 변환합니다.")
print(sigmoid_output)

입력 데이터:
tensor([[0., 0.],
        [0., 1.],
        [1., 0.],
        [1., 1.]])
--------------------
선형 계층의 출력값: 이 경우 가중치와 편향은 모델의 학습 과정에서 자동으로 초기화된 값들입니다.
tensor([[-0.1402],
        [-0.6648],
        [-0.7314],
        [-1.2560]], grad_fn=<AddmmBackward0>)
--------------------
ReLU 활성화 함수의 출력값:ReLU 함수는 음수 값을 0으로 변환하고 양수 값은 그대로 유지합니다.
tensor([[0.],
        [0.],
        [0.],
        [0.]], grad_fn=<ReluBackward0>)
--------------------
Sigmoid 활성화 함수의 출력값:Sigmoid 함수는 입력값을 0과 1 사이로 변환합니다.
tensor([[0.4650],
        [0.3397],
        [0.3249],
        [0.2217]], grad_fn=<SigmoidBackward0>)


In [34]:
dir(l1)

['T_destination',
 '__annotations__',
 '__call__',
 '__class__',
 '__constants__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_apply',
 '_backward_hooks',
 '_backward_pre_hooks',
 '_buffers',
 '_call_impl',
 '_compiled_call_impl',
 '_forward_hooks',
 '_forward_hooks_always_called',
 '_forward_hooks_with_kwargs',
 '_forward_pre_hooks',
 '_forward_pre_hooks_with_kwargs',
 '_get_backward_hooks',
 '_get_backward_pre_hooks',
 '_get_name',
 '_is_full_backward_hook',
 '_load_from_state_dict',
 '_load_state_dict_post_hooks',
 '_load_state_dict_pre_hooks',
 '_maybe_warn_non_full_backward_hook',
 '_modules',
 '_named_members',
 '_non_per

In [35]:
l1.weight, l1.bias, l1.parameters

(Parameter containing:
 tensor([[-0.5911, -0.5246]], requires_grad=True),
 Parameter containing:
 tensor([-0.1402], requires_grad=True),
 <bound method Module.parameters of Linear(in_features=2, out_features=1, bias=True)>)

## andgate 딥러닝 구조(sigmoid, BCELoss, optim.Adam)

In [93]:
and_data = torch.tensor([[0,0],[0,1],[1,0],[1,1]], dtype=torch.float32)
and_labels = torch.tensor([[0],[0],[0],[1]], dtype=torch.float32)

In [94]:
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        # Input size 2, output size 1
        self.fc1 = nn.Linear(2, 1)
        # Use sigmoid activation for binary classification
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x = self.fc1(x)
        x = self.sigmoid(x)
        return x

In [95]:
model=SimpleNN()
#loss_fn=nn.CrossEntropyLoss()
loss_fn = nn.BCELoss()  # Binary Cross Entropy Loss
optimizer= optim.Adam(model.parameters(), lr=0.01)

In [96]:
model(and_data)

tensor([[0.6191],
        [0.7367],
        [0.6639],
        [0.7728]], grad_fn=<SigmoidBackward0>)

In [98]:
for epoch in range(50):
    optimizer.zero_grad()
    outputs=model(and_data)
    loss=loss_fn(outputs,and_labels)
    print(loss)
    loss.backward()
    optimizer.step()

tensor(0.8483, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.8425, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.8368, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.8312, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.8258, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.8204, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.8152, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.8101, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.8051, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.8002, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.7955, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.7908, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.7863, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.7819, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.7776, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.7734, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.7694, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.7654, grad_fn=<BinaryCrossEntropyBackward0>)
tensor(0.7616, grad_fn=<Bina

### andgate 딥러닝 구조(softmax, CrossEntropyLoss , optim.SGD)

In [99]:
and_data = torch.tensor([[0,0],[0,1],[1,0],[1,1]], dtype=torch.float32)
and_labels = torch.tensor([0, 0, 0, 1], dtype=torch.long)  # Use class indices

In [100]:
#If you prefer to use Softmax, you would need to adjust the model to output 2 units and use nn.CrossEntropyLoss instead:
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(2, 2)  # Output size 2 for Softmax
        self.softmax = nn.Softmax(dim=1)  # Softmax over the last dimension

    def forward(self, x):
        x = self.fc1(x)
        x = self.softmax(x)
        return x

# Change labels to be of integer type for CrossEntropyLoss





In [101]:
model=SimpleNN()
loss_fn = nn.CrossEntropyLoss()  # CrossEntropyLoss for multi-class classification
optimizer = optim.SGD(model.parameters(), lr=0.01)

In [102]:
model(and_data)

tensor([[0.3660, 0.6340],
        [0.2437, 0.7563],
        [0.5951, 0.4049],
        [0.4507, 0.5493]], grad_fn=<SoftmaxBackward0>)

In [104]:
for epoch in range(50):
    optimizer.zero_grad()
    outputs=model(and_data)
    loss=loss_fn(outputs,and_labels)
    print(loss)
    loss.backward()
    optimizer.step()

tensor(0.7636, grad_fn=<NllLossBackward0>)
tensor(0.7633, grad_fn=<NllLossBackward0>)
tensor(0.7630, grad_fn=<NllLossBackward0>)
tensor(0.7628, grad_fn=<NllLossBackward0>)
tensor(0.7625, grad_fn=<NllLossBackward0>)
tensor(0.7622, grad_fn=<NllLossBackward0>)
tensor(0.7619, grad_fn=<NllLossBackward0>)
tensor(0.7616, grad_fn=<NllLossBackward0>)
tensor(0.7614, grad_fn=<NllLossBackward0>)
tensor(0.7611, grad_fn=<NllLossBackward0>)
tensor(0.7608, grad_fn=<NllLossBackward0>)
tensor(0.7605, grad_fn=<NllLossBackward0>)
tensor(0.7602, grad_fn=<NllLossBackward0>)
tensor(0.7600, grad_fn=<NllLossBackward0>)
tensor(0.7597, grad_fn=<NllLossBackward0>)
tensor(0.7594, grad_fn=<NllLossBackward0>)
tensor(0.7591, grad_fn=<NllLossBackward0>)
tensor(0.7588, grad_fn=<NllLossBackward0>)
tensor(0.7586, grad_fn=<NllLossBackward0>)
tensor(0.7583, grad_fn=<NllLossBackward0>)
tensor(0.7580, grad_fn=<NllLossBackward0>)
tensor(0.7577, grad_fn=<NllLossBackward0>)
tensor(0.7574, grad_fn=<NllLossBackward0>)
tensor(0.75

## 이미지넷 LeNet (교재 257쪽)
컬러이미지 224X224 ,3channels <br />
흑백이미지 224X224 ,1channel

4 커널이면 각각의 커널을 계산하고 합치면 4features이다.


In [81]:
import numpy as np
np.random.randn(3, 224, 224).shape

(3, 224, 224)