# 인공신경망 Artificial Neural Network


![](https://d.pr/i/P9blGn+)


1. **매컬리-피츠 뉴런(McCulloch-Pitts Neuron)**


    1943년, 신경과학자 워런 매컬리(Warren McCulloch)와 논리학자 월터 피츠(Walter Pitts)는 뉴런을 수학적으로 모델링하여 단순 논리 연산을 수행할 수 있게 했다.


    이 모델은 뉴런이 "발화"하거나 "비발화"하는 이진 결정 방식으로 동작했고, 학습 능력에는 한계가 있었다. 현재 인공신경망의 노드 개념의 기초가 되었다.


2. **단층 퍼셉트론(Single-layer Perceptron)**


    로젠블랫의 퍼셉트론은 매컬리-피츠 뉴런을 확장하여 가중치를 통해 데이터를 학습할 수 있게 했고, 선형 분류 문제(예: OR 또는 AND 문제)에서는 성공적인 성능을 보였다.


    그러나 XOR 문제와 같은 비선형 문제를 해결하지 못한다는 한계가 있었다.


    이러한 단점으로 인해 인공신경망 연구는 1970년대에 한동안 침체기에 들어갔는데, 이를 **첫번째 AI 겨울(AI Winter)** 이라 부른다.


3. **다층 퍼셉트론(Multilayer Perceptron, MLP)**


    1980년대, 입력층과 출력층 사이에 **은닉층(hidden layer)**을 추가하여 비선형 문제도 해결할 수 있는 구조의 MLP가 등장해 다시 주목받기 시작한다.


    은닉층을 여러 개 쌓은 MLP는 오차 역전파(Backpropagation) 알고리즘을 통해 각 층의 가중치를 조정하며 학습할 수 있다.


    이 방법은 제프리 힌튼(Geoffrey Hinton)과 데이비드 럼멜하트(David Rumelhart)에 의해 개발되었으며, MLP의 성능을 비약적으로 향상시켰다.


4. **심층 신경망(Deep Neural Network)**


    다층 퍼셉트론의 등장 이후 인공신경망 연구는 빠르게 발전하여 오늘날의 심층 신경망(Deep Neural Network) 개념으로 이어졌다.


    이처럼 매컬리-피츠 뉴런에서 시작된 인공신경망 연구는 퍼셉트론을 거쳐 다층 퍼셉트론으로 발전했으며, 현대의 다양한 인공지능 응용 분야에 널리 활용되고 있다.


# Perceptron

퍼셉트론(Perceptron)은 인공지능과 머신러닝의 기본 모델 중 하나로, 인공 신경망의 가장 기본 단위이다.

1958년 프랭크 로젠블랫(Frank Rosenblatt)에 의해 개발되었으며, 주로 이진 분류 문제를 해결하는 데 사용한다.

**퍼셉트론의 구성 요소**
1. **입력 노드(Input Nodes)**: 퍼셉트론은 여러 개의 입력을 받으며, 각 입력은 특징 벡터의 한 요소에 해당한다.
2. **가중치(Weights)**: 각 입력에는 가중치가 부여된다. 가중치는 학습 과정에서 조정되며, 입력이 결과에 미치는 영향을 조절하는 역할을 한다.
3. **편향(Bias)**: 퍼셉트론의 활성화 함수를 조절하는 상수 값이다. 입력 데이터의 선형 조합이 특정 값 이상이 되도록 하는 역할을 한다.
4. **활성화 함수(Activation Function)**: 입력 값과 가중치의 선형 결합 결과를 이진 출력으로 변환한다. 퍼셉트론에서는 보통 단위 계단 함수를 사용한다.

**퍼셉트론의 작동 원리**

1. **입력 신호와 가중치의 합산:**

   $
   z = \sum_{i=1}^{n} w_i x_i + b
   $

   여기서:
   - $ x_i $는 $ i $번째 입력 값,
   - $ w_i $는 $ i $번째 가중치,
   - $ b $는 편향(bias) 값,
   - $ z $는 가중치가 적용된 입력 신호의 총합이다.

2. **활성화 함수 적용:**

   $
   y = \begin{cases}
      1, & \text{if } z \geq 0 \\
      0, & \text{if } z < 0
   \end{cases}
   $

   여기서:
   - $ y $는 퍼셉트론의 출력 값으로, 활성화 함수에 의해 결정된다.
   - 활성화 함수는 대표적으로 **계단 함수**(step function)로, 총합 $ z $가 0 이상일 때 1을, 그렇지 않으면 0을 출력한다.

    ![](https://d.pr/i/lt1GXE+)

이 수식을 통해 퍼셉트론은 입력을 받아 단순한 이진 분류를 수행한다.

**퍼셉트론의 한계**

퍼셉트론은 단층 구조로 구성되어 있기 때문에 선형 분리가 가능한 문제만 해결할 수 있다.

XOR 문제와 같이 선형 분리가 불가능한 문제는 단일 퍼셉트론으로 해결할 수 없다.

이러한 한계를 이유로 AI의 첫번째 겨울을 맞이하였으며, 이후 1980년대에 오차역전파와 다층 퍼셉트론(MLP: Multi-Layer Perceptron)에 의해 이 한계가 극복되었다.

**선형 분리**
![](https://d.pr/i/uLz908+)

**논리 게이트(Logical Gates)**
1. AND (논리곱)
    - **정의**: 두 입력이 모두 1일 때만 1을 출력하고, 나머지 경우에는 0을 출력.
    - **진리표**:

      | 입력 A | 입력 B | AND |
      |--------|--------|-----|
      | 0      | 0      | 0   |
      | 0      | 1      | 0   |
      | 1      | 0      | 0   |
      | 1      | 1      | 1   |

2. OR (논리합)
    - **정의**: 두 입력 중 하나라도 1이면 1을 출력하고, 둘 다 0일 때만 0을 출력.
    - **진리표**:

      | 입력 A | 입력 B | OR  |
      |--------|--------|-----|
      | 0      | 0      | 0   |
      | 0      | 1      | 1   |
      | 1      | 0      | 1   |
      | 1      | 1      | 1   |

3. XOR (배타적 논리합)
    - **정의**: 두 입력이 다를 때만 1을 출력하고, 같을 때는 0을 출력.
    - **진리표**:

      | 입력 A | 입력 B | XOR |
      |--------|--------|-----|
      | 0      | 0      | 0   |
      | 0      | 1      | 1   |
      | 1      | 0      | 1   |
      | 1      | 1      | 0   |

4. NAND (부정 논리곱)
    - **정의**: AND의 결과를 뒤집어, 두 입력이 모두 1일 때만 0을 출력하고, 나머지 경우에는 1을 출력.
    - **진리표**:

      | 입력 A | 입력 B | NAND |
      |--------|--------|------|
      | 0      | 0      | 1    |
      | 0      | 1      | 1    |
      | 1      | 0      | 1    |
      | 1      | 1      | 0    |


## 단층 퍼셉트론

In [None]:
import numpy as np

In [None]:
class Perceptron:
    def __init__(self, W, b):
        self.W = W
        self.b = b


    def activation_function(self, z):
        """ 계단 함수 """
        # print('z = ', z)
        return 1 if z > 0 else 0

    def __call__(self, X):
        """ 현재 객체를 함수처럼 호출하는 함수 """
        # print(X)
        return self.activation_function(np.dot(self.W, X) + self.b)

# and_gate : 0 0 0 1
# or_gate  : 0 1 1 1
test_input = [(0, 0), (0, 1), (1, 0), (1, 1)]

In [None]:
# and_gate

and_gate = Perceptron(W=[0.5, 0.5], b=-0.7)
# and_gate((0,0))

for input in test_input:
    print(input, ' -> ', and_gate(input))


In [None]:
# or_gate
or_gate = Perceptron(W=[0.5, 0.5], b=-0.1)
for input in test_input:
    print(input, ' -> ', or_gate(input))

In [None]:
# nand_gate 1 1 1 0
nand_gate = Perceptron(W=[-0.5, -0.5], b= 1)
for input in test_input:
    print(input, ' -> ', nand_gate(input))

In [None]:
# xor_gate 0 1 1 0
# 첫번째 AI의 겨울 - 단층퍼셉트론으로는 XOR 문제를 해결할 수 없다
xor_gate = Perceptron(W=[-0.5, -0.5], b= 1)
for input in test_input:
    print(input, ' -> ', xor_gate(input))

In [None]:
# 시각화
import matplotlib.pyplot as plt

inputs = [(0, 0), (0, 1), (1, 0), (1, 1)]
gates = {
    'AND': and_gate,
    'OR': or_gate,
    'NAND': nand_gate,
    'XOR': xor_gate
}

fig, axes = plt.subplots(1, 4, figsize=(20, 5))

for i, (gate_name, perceptron) in enumerate(gates.items()):
    ax = axes[i]

    # x축 y축 제한
    ax.set_xlim(-0.1, 1.1)
    ax.set_ylim(-0.1, 1.1)

    # tick 단순화
    ax.set_xticks([0, 1])
    ax.set_yticks([0, 1])

    ax.set_xlabel('x1')
    ax.set_ylabel('x2')

    ax.set_title(f'{gate_name} Gate')

    # XOR는 결정경계선을 작성할 수 없다
    if gate_name == 'XOR':
        ax.scatter(
            [0, 0, 1, 1], [0, 1, 0, 1],
            c=['blue', 'red', 'red', 'blue'],
            s=100,
            edgecolors='k'
        )
        continue


    outputs = [perceptron(X) for X in inputs]

    # print(outputs)
    ''' =>
    [0, 0, 0, 1]
    [0, 1, 1, 1]
    [1, 1, 1, 0]
    [1, 1, 1, 0]
    '''

    for (x1, x2), y in zip(inputs, outputs):
        ax.scatter(
            x1, x2,
            c='red' if y==1 else 'blue', # ==> y가 1일때는 빨강, 아니면 파랑
            s=100, # ==> 사이즈를 100으로
            edgecolors='k', # ==> 테두리 색 검정
        )

    # 결정경계 - 최종출력이 0인지 1인지 결정하는 경계선
    # z = W * X + b = (w1 * x1) + (w2 * x2) + b
    # z = 0 -> (w1 * x1) + (w2 * x2) + b = 0
    # x2 = -(w1 * x1 - b) / w2
    x_vals = np.linspace(-0.1, 1.1, 100)
    y_vals = (-perceptron.W[0] * x_vals - perceptron.b) / perceptron.W[1]
    ax.plot(x_vals, y_vals, 'k--')



## 다층 퍼셉트론(Multi-Layer Perceptron, MLP)
단층 퍼셉트론의 한계를 극복하기 위해 여러 개의 퍼셉트론을 쌓아올린 형태


![](https://d.pr/i/Cea59r+)

In [None]:
class MLP:
    """ Multi-layer Perceptron """

    def __init__(self, W, b):
        self.W = W
        self.b = b

    def activation_function(self, z):
        return np.where(z > 0, 1, 0) # where(조건식, true, false)
        # ==> 삼항연산자랑 비슷함

    def __call__(self, X):
        for W, b in zip(self.W, self.b):
            print(f'\nW{W.shape}={W}')
            print(f'X{X.shape}={X}')
            print(f'b{b.shape}={b}')
            X = np.dot(W, X) + b
            X = self.activation_function(X)
            print(f'z{X.shape}={X}')
        return X

In [None]:
# XOR 해결을 위한 가중치/절편 준비
# 입력층(2개) -> 은닉층(2개) -> 출력층(1개)

# 은닉층 : 2개 노드(또는 2개 뉴런 이라고도 함)
hidden_W = np.array([[1.0, 1.0],
                     [-1.0, -1.0]])
hidden_b = np.array([-0.5, 1.5])

# 출력층 : 1개 노드(뉴런)
output_W = np.array([[1.0, 1.0]])
output_b = np.array([-1.0])

# 가중치/절편 처리
for i, (W, b) in enumerate(zip([hidden_W,output_W], [hidden_b,output_b])):
    print(f'{i} : \nW={W}, b={b}')

In [None]:
xor_gate = MLP(W=[hidden_W, output_W], b=[hidden_b, output_b])

inputs = [(0, 0), (0, 1), (1, 0), (1, 1)]

for X in inputs :
    X = np.array(X)
    y = xor_gate(X)
    print('='*5, X.tolist(), '->', y, '='*5)

## pytorch 환경설정
https://pytorch.org/get-started/locally/

In [None]:
#%pip install torch torchvision torchaudio
%pip install torch torchvision
# ==> CPU 버전
# ==> 이거 먼저 하고 다시 아래 시도?

# ==> GPU 버전인데 너무 오래 걸림
#%pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

In [None]:
import torch
print('torch : ', torch.__version__)
# print('cuda available : ', torch.cuda.is_available())

In [None]:
x = torch.rand(5, 3)
print(x)

## torch 모델 학습 생명주기

### Tensor


- 차원의 개수와 상관없이 숫자를 담을 수 있는 일반화된 자료 구조
(스칼라, 벡터, 행렬을 모두 포함)


**특징**


- 값을 가지고 있음


- 연산을 통해 만들어진 경우, 해당 연산 정보를 연산 그래프 형태로 참조함


- requires_grad=True인 경우, 미분 결과를 저장할 수 있음


In [None]:
import torch.nn as nn # Neural Network(신경망)
import torch.optim as optim

# 데이터 준비
X = torch.tensor([[0, 0], [0, 1], [1, 0], [1, 1]])
y = torch.tensor([[0], [1], [1], [0]])

print(X, type(X))
print(y, type(y))

In [None]:
# 모델 생성
# - nn.Module 상속
# ==> 매우 중요

class XORNet(nn.Module):

    def __init__(self):
        super().__init__()
        self.hidden = nn.Linear(2, 4) # 입력속성개수 2 , 출력속성개수 4
        # ==> 아까는 2개 들어가서 2개가 나왔지만 이번에는 4개
        # ==> 모든 경우의 수를 계산하는건 이전이나 지금이나 똑같다

        self.output = nn.Linear(4, 1) # 입력속성개수 4 , 출력속성개수 1
        self.relu = nn.ReLU() # 은닉층 활성화함수
        self.sigmoid = nn.Sigmoid()  # 출력층 활성화함수

    def forward(self, x):
        x = self.hidden(x) # ==> 은닉층 먼저 통과
        x = self.relu(x) # ==> 은닉층에서 나온걸 활성화함수에 넣기
        x = self.output(x)  # ==> 출력층
        x = self.sigmoid(x) # ==> 출력층 활성화함수
        return x


# 모델/손실함수/최적화함수 선언
model = XORNet()
# ==> Net이 붙은 이유 : 모델 자체를 하나의 Net으로 취급?
criterion = nn.BCELoss() # 이진분류용 손실함수
optimizer = optim.Adam(model.parameters(), lr=0.01) # 최적화 함수
# ==> optimizer는 가중치 업데이트를 담당

model
''' =>
XORNet(
  (hidden): Linear(in_features=2, out_features=4, bias=True)
  (output): Linear(in_features=4, out_features=1, bias=True)
  (relu): ReLU()
  (sigmoid): Sigmoid()
)
'''


In [None]:
# %pip install torchinfo -q

In [None]:
from torchinfo import summary
# summary(model)
summary(model, input_size=(1, 2))