이 장에서는 분류를 위한 초창기 머신 러닝 알고리즘인 퍼셉트론과 적응형 선형 뉴런 두 개를 사용한다. 파이썬으로 단계적으로 퍼셉트론을 구현하고 붓꽃 데이터셋에서 훈련하여 꽃 품종을 분류한다. 분류를 위한 머신 러닝 알고리즘 개념을 이해하고, 파이썬을 사용한 효율적인 구현 방법을 익히는 데 도움이 될 것이다.

적응형 선형 뉴런으로는 기본적인 최적화를 설명한다. 이는 후에 사이킷런의 강력한 분류 모델을 사용하는 기초를 다질 수 있을 것이다.

이 장에서는 다음 주제를 다룬다.
<ul>
    <li>머신 러닝 알고리즘을 직관적으로 이해하기</li>
    <li>판다스, 넘파이, 맷플롯립으로 데이터를 읽고 처리하고 시각화하기</li>
    <li>파이썬으로 선형 분류 알고리즘 구현하기</li>
</ul>

# 인공 뉴런: 초기 머신 러닝의 간단한 역사

<b>퍼셉트론</b><sup>perceptron</sup>과 이와 관련된 알고리즘을 자세히 설명하기 전에 초창기 머신 러닝을 간단히 둘러보자. AI를 설계하기 위해 생물학적 뇌가 동작하는 방식을 이해하려는 시도로, 1,943년 워런 맥컬록<sup>Warren McCulloch</sup>과 월터 피츠<sup>Walter Pitts</sup>는 처음으로 간소화된 뇌의 뉴런 개념을 발표했다.<sup id="a01">[1](#p01)</sup> 이를 <b>맥컬록-피츠</b><sup>MCP</sup> 뉴런이라고 하며 '최초의 인공 신공망'모델이다. 뉴런들은 뇌의 신경 세포와 서로 연결되어 있다. 이들은 다음 그림과 같이 화학적 · 전기적 신호를 처리하고 전달하는 데 관여한다.

![image.png](attachment:image.png)

뉴런은 <b>수상 돌기</b><sup>Dendrite</sup>를 통해 신호를 전달받으며 받은 신호는 <b>세포체</b><sup>Cell body</sup>로 보낸다. 이때 여러 수상 돌기를 통해 들어온 신호가 세포체에 모이고, 신호가 특정 임계 값을 넘으면 세포체는 펄스 또는 스파이크 단위로 신호를 발생시킨다. 세포체가 신호를 발생시키는 과정을 <b>발화</b><sup>frigger</sup>라고 하며 발화된 신호는 <b>축삭</b><sup>Axon</sup>을 통해 다음 뉴런에 전달된다. 뉴런이 전기 신호를 전달하는 활동 전위 상태에 있으면 뉴런이 <b>활성화</b><sup>activation</sup>된 것이다.

맥컬록과 피츠는 신경 세포를 이진 출력을 내는 간단한 논리 회로로 표현했다. 신경 생리학자인 맥컬록은 인간의 신경계를 범용 계산 장치로 모델링할 수 있을지 궁금해했고 천재 수학자 피츠를 만나면서 생체 뉴런의 특성을 지니는 최초의 인공 신경망을 정의했다.

이들이 정의한 인공 신경망 모델은 활성 상태와 비활성 상태를 갖는 <b>이진 뉴런</b><sup>binary neuron</sup>으로 구성되며 생체 뉴런과 같이 시냅스의 흥분과 억제에 따라 신호가 전달되고 특정 임계치를 넘어야 신호가 발화한다.

맥컬론과 피츠는 이진 뉴런으로 구성된 신경망이 튜링 머신과 동등한 연산을 수행할 수 있음을 증명했다. 생체 신경망을 수학적으로 모델링했을 때 임의의 논리 연산과 산술 연산이 가능하다는 것을 보여줌으로써 인간의 두뇌가 잠재적으로 매우 강력한 연산 장치임을 증명하고자 했던 것이다. 이진 뉴런으로 구성된 신경망 모델은 AI의 창시자이자 현대 컴퓨터의 구조를 제시한 <b>폰 노이만</b><sup>John von Neumann</sup>에게도 큰 영향을 끼쳤으며 이런 점에서 맥컬록-피츠 모델은 학문적으로 중요하며 그 가치를 높게 평가받고 있다.

## 시냅스 가소성과 기억의 흔적

우리 몸에 새로운 자극이 들어오면 신호를 전달하는 뉴런의 시냅스에는 소포체와 수용체가 많지 않은 상태이기 때문에 신경 전달 물질도 적게 전달된다. 하지만 같은 자극이 반복되면 소포체와 수용체의 수가 점점 늘어나서 신경 전달 물질을 원활히 전달하는 구조로 변화한다. 이처럼 신호를 전달하는 뉴런이 자주 활성화될 때 신호 전달을 강화하기 위해 시냅스 구조가 변하는 성질을 시냅스 <b>가소성</b><sup>plasticity</sup>이라고 한다. 신호 전달이 강화되면 '뉴런이 연결되었다'고 말하며 변화된 시냅스 구조를 '기억의 흔적'이라고 부른다.

시냅스 가소성은 1,949년 캐나다의 신경 심리학자 도널드 헵<sup>Donald O. Hebb</sup>이 <b>헵의 학습 가설</b><sup>Hebbian learning</sup>로 발표했다. '지속해서 활성화되는 뉴런은 연결된다'라는 가설을 통해, 학습 과정에서 형성되는 장기 기억이 시냅스의 구조 변화와 연관되어 있음을 시사했다.

학계에서는 헵의 학습 가설을 바탕으로 시냅스 구조의 변화 과정을 '학습과 기억의 현상'으로 받아들이고 있다. 인간이 무언가 경험하거나 학습할 때는 신호가 발생하며, 이 신호가 신경망을 통해 전달되는 과정에서 기존 기억과 연합한다. 이때 새로운 신호가 연관된 기억을 만나면 연결이 추가되며 관련된 기억 간에 연결이 강화되기도 한다. 그에 따라 <b>신호와 관련된 뉴런의 가지는 굵어지고 연결은 많아지면서 장기 기억이 뇌에 자리 잡는 것</b>이다. 반대로 활성화되지 않은 뉴런은 연결이 약해진다. 이런 과정이 끊임없이 반복되면서 기억은 새롭게 만들어지거나 변화되고 확장되며 오래된 기억은 사라지다. 우리 뇌에는 1,000억 개의 뉴런이 있고 각 뉴런은 수천에서 수만 개의 시냅스 연결을 가진다. 기억을 새로 만들거나, 강화하거나 약화하기 위해 100조 개에 달하는 시냅스 연결이 끊임없이 변화한다. 인간의 뇌는 효율적인 구조로 기억을 관리하기 위해 시냅스의 연결 패턴과 강도를 매 순간 바꾸는 것이다.

## 학습하는 인공 신경망: 퍼셉트론

그러나 맥컬록-피츠 모델은 학습 과정이 없다 보니 문제에 따라 신경망의 구성도 매번 바꿔야 했다. 이런 단점을 해결하기 위해 프랑크 로젠블라트<sup>Frank Rosenblatt</sup>는 MCP 뉴런 모델과 헵의 학습 가설을 기반으로 인공 신경망이 스스로 문제에 맞춰 학습하는 모델인 퍼셉트론 학습 개념을 처음 발표했다.<sup id="a02">[2](#p02)</sup> 퍼셉트론 규칙에서 로젠블라트는 자동으로 최적의 가중치를 학습하는 알고리즘을 제안했다. 이 가중치는 뉴런의 출력 신호를 낼지 말지를 결정하기 위해 입력 특성에 곱하는 계수이다. 즉, 퍼셉트론의 학습 알고리즘은 새로운 입력에 대한 오차가 발생하면 뉴런의 연결 강도(가중치)를 조절하는 방식이다. 지도 학습의 분류 개념으로 말하면 이 알고리즘으로 샘플이 한 클래스에 속하는지 아닌지를 예측할 수 있다.

## 인공 뉴런의 수학적 정의

좀 더 형식적으로 말하면 <b>인공 뉴런</b><sup>artificial neuron</sup> 아이디어를 두 개의 클래스가 있는 <b>이진 분류</b><sup>binary classification</sup> 작업으로 볼 수 있다. 두 클래스는 간단하게 1을 양성 클래스<sup>positive class</sup>, -1을 음성 클래스<sup>negative class</sup>로 나타낸다. 그다음 입력 값 <i><strong>x</strong></i>와 이에 상응하는 가중치 벡터 <strong>w</strong>의 선형 조합으로 결정 함수(<i>Φ(z)</i>)를 정의한다. 최종 입력<sup>net input</sup>인 <i>z</i>는 <i>z = w<sub>1</sub>x<sub>1</sub> + ... + w<sub>m</sub>x<sub>m</sub>이다.

<div style="text-align : center;">
     <img src="./images/formula/ml04/w_x_feat.png">
</div>

이제 특정 샘플 <i><strong>x</strong><sup>(i)</sup></i> 의 최종 입력이 사전에 정의된 임계 값 <i>θ</i>보다 크면 클래스 1로 예측하고, 그렇지 않으면 클래스 -1로 예측한다. 퍼셉트론 알고리즘에서 결정 함수 <i>Φ(·)</i>는 <b>단위 계단 함수</b><sup>unit step function</sup><sup id="a03">[3](#p03)</sup>를 변형한 것이다.

<div style="text-align : center;">
     <img src="./images/formula/ml04/per_act_fun.png">
</div>

식을 간단하게 만들기 위해 임계 값 <i>θ</i>를 식의 왼쪽으로 옮겨 <i>w<sub>0</sub> = -θ</i>고 <i>x<sub>0</sub> = 1</i>인 0번째 가중치를 정의한다. 이렇게 하면 <i>z</i>를 좀 더 간단하게 쓸 수 있다.

<div style="text-align : center;">
     <img src="./images/formula/ml04/z_feat.png">
</div>

그리고 결정 함수는 다음과 같다.

<div style="text-align : center;">
     <img src="./images/formula/ml04/per_act_r_fun.png">
</div>

머신 러닝 분야에서는 음수 임계 값 또는 가중치 <i>w<sub>0</sub>=-θ</i>를 <b>절편</b>라고 한다. 다음 그림은 퍼셉트론 결정 함수로 최종 입력 z = <strong>w<sup>T</sup>x</strong>가 이진 출력(-1 또는 1)으로 압축되는 방법(왼쪽)과 이를 사용하여 선형 분리가 가능한 두 개의 클래스를 직선으로 분류하는 <b>선형 분류기</b><sup>linear classifier</sup>(오른쪽)를 보여준다. 입력 데이터와 가중치의 가중 합산 식은 두 클래스를 분류하는 <b>결정 경계</b><sup>decision boundary</sup>를 이룬다.

![image.png](attachment:image.png)

즉, 퍼셉트론의 가중 합산이 0인 <i>z = w<sub>0</sub>x<sub>0</sub> + ... + w<sub>m</sub>x<sub>m</sub></i> = 0 식은 결정 경계<sup id="a04">[4](#p04)</sup>를 이루는 직선의 방정식으로 가중치 벡터 <b>w</b>는 직선의 법선 벡터<sup>normal vector</sup>를, 편향 w<sub>0</sub>x<sub>0</sub>는 원점과 직선 사이의 거리를 나타낸다. 만일 편향이 0이면 직선이 항상 원점을 지나므로 임의의 위치에 있는 두 종류의 클래스를 완벽히 분류할 수 없다. 직선을 경계로 법선 벡터 방향에 있는 점들은 계단 함수의 실행 결과가 1이 되어 클래스 1로 분류되고, 법선 벡터의 반대 방향에 있는 점들은 계단 함수의 실행 결과가 0이 되어 클래스 -1로 분류된다.

### 생체 신경망을 모방하여 만든 퍼셉트론

퍼셉트론은 생체 신경망을 모방해서 만들었다. 그렇다면 퍼셉트론은 어떤 점에서 생체 신경망을 닮았다고 하는 것일까? 다음 그림을 보면 퍼셉트론이 데이터를 처리하는 과정과 생체 뉴런의 신호 전달 과정이 어떻게 대응되는지를 확인해 볼 수 있다.

![image.png](attachment:image.png)

퍼셉트론이 데이터를 처리하는 과정과 생체 뉴런의 신호 전달 과정을 순서대로 대응해 보면 다음 표와 같이 정리할 수 있다.

<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;}
.tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
  overflow:hidden;padding:10px 5px;word-break:normal;}
.tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
  font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;}
.tg .tg-1wig{font-weight:bold;text-align:left;vertical-align:top}
.tg .tg-c3ow{border-color:inherit;text-align:center;vertical-align:top}
.tg .tg-d0ph{background-color:#9698ed;border-color:#000000;color:#000000;font-weight:bold;text-align:center;vertical-align:top}
.tg .tg-fymr{border-color:inherit;font-weight:bold;text-align:left;vertical-align:top}
.tg .tg-0lax{text-align:left;vertical-align:top}
</style>
<table class="tg">
<thead>
  <tr>
    <th class="tg-d0ph" colspan="2">퍼셉트론</th>
    <th class="tg-d0ph">생체 신경망</th>
  </tr>
</thead>
<tbody>
  <tr>
    <td class="tg-fymr">입력</td>
      <td class="tg-c3ow"><i><b>x</b><sup>T</sup> = (x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>m</sub>)</td>
    <td class="tg-c3ow">이전 뉴런이 발화한 신호</td>
  </tr>
  <tr>
    <td class="tg-fymr">가중치</td>
    <td class="tg-c3ow"><i><b>w</b><sup>T</sup> = (w<sub>1</sub>, w<sub>2</sub>, ..., w<sub>m</sub>)</td>
    <td class="tg-c3ow">시냅스의 연결 강도</td>
  </tr>
  <tr>
    <td class="tg-fymr">입력 데이터와 가중치의 곱</td>
      <td class="tg-c3ow"><i>w<sub>i</sub>x<sub>i</sub>(i=1, 2, ..., m)</td>
    <td class="tg-c3ow">시냅스의 연결 강도에 따라 신호가 강해지거나 약해지는 과정</td>
  </tr>
  <tr>
    <td class="tg-fymr">가중 합산</td>
    <td class="tg-c3ow"><i>z = w<sub>0</sub>x<sub>0</sub> + ... + w<sub>m</sub>x<sub>m</sub></i></td>
    <td class="tg-c3ow">세포체에서 수상 돌기를 통해 들어온 신호를 모으는 과정</td>
  </tr>
  <tr>
    <td class="tg-fymr">활성 함수</td>
    <td class="tg-c3ow"><i>Φ(x)</i></td>
    <td class="tg-c3ow">세포체의 신호 발화 과정</td>
  </tr>
  <tr>
    <td class="tg-1wig">출력</td>
    <td class="tg-0lax"><i>Φ(z)</i></td>
    <td class="tg-0lax">축삭을 따라 시냅스로 전달되는 과정</td>
  </tr>
</tbody>
</table>

<ul>
    <li><b>퍼셉트론의 입력</b>은 생체 신경망에서 이전 뉴런에서 발화된 신호라고 할 수 있다.</li>
    <li><b>퍼셉트론의 가중치</b>는 생체 신경망에서 두 시냅스 사이의 연결 강도를 표현한다. 따라서 학습 과정에서 연결 강도는 변한다.</li>
    <li><b>퍼셉트론에서 입력 데이터와 가중치의 곱</b>은 생체 신경망에서 이전 뉴런에서 발화된 신호가 두 시냅스 사이의 연결 강도에 따라 강해지거나 약해져 전달되는 과정을 나타낸다.</li>
    <li><b>퍼셉트론의 가중 합산 과정</b>은 생체 뉴런에서 여러 수상 돌기를 통해 동시에 들어온 신호가 세포체에 모이는 과정과 같다.</li>
    <li><b>퍼셉트론에서 활성 함수의 실행</b>은 생체 뉴런에서 세포체에 모인 신호가 임계치를 넘었을 때 새로운 신호를 발화하는 과정에 해당한다.</li>
    <li><b>퍼셉트론의 출력</b>은 생체 뉴런의 세포체에서 발화한 신호가 축삭을 따라 시냅스로 전달되는 과정에 해당한다.</li>
</ul>

<mark>쉽게 말해 퍼셉트론은 선형 함수를 통과한 값 <i>z</i>를 계단 함수로 보내 0보다 큰지, 작은지 검사하여 1과 -1로 분류하는 아주 간단한 알고리즘이다.</mark>

## 퍼셉트론 학습 규칙

MCP 뉴런과 로젠블라트의 임계 퍼셉트론 모델 이면에 있는 전반적인 아이디어는 뇌의 뉴런 하나가 작동하는 방식을 흉내 내려는 <b>환원주의</b><sup>reductionism</sup><sup id="a05">[5](#p05)</sup> 접근 방식을 사용한 것이다. 즉, 출력을 내거나 내지 않는 두 가지 경우만 있다. 따라서 로젠블라트의 초기 퍼셉트론 학습 규칙은 매우 간단하다. 요약하면 다음 과정과 같다.

<ol>
    <li>가중치를 0 또는 랜덤한 작은 값으로 초기화한다.</li>
    <li>각 훈련 샘플 <i><b>x</b><sup>(i)</sup></i>에서 다음 작업을 한다.</li>
        <ol>
            <li>출력 값 y^를 계산한다.</li>
            <li>가중치를 업데이트한다.</li>
        </ol>
        </ol>

여기서 출력 값은 앞서 정의한 단위 계단 함수로 예측한 클래스 레이블이다. 가중치 벡터 <b>w</b>에 있는 개별 가중치 <i>w<sub>j</sub></i>가 동시에 업데이트 되는 것을 다음과 같이 쓸 수 있다.

<div style="text-align : center;">
     <img src="./images/formula/ml04/training_w.png">
</div>

가중치 <i>w<sub>j</sub></i>를 업데이트하는 데 사용되는 Δ<i>w<sub>j</sub></i> 값은 퍼셉트론 학습 규칙에 따라 계산된다.

<div style="text-align : center;">
     <img src="./images/formula/ml04/training_dw.png">
</div>

여기서 η는 <b>학습률</b><sup>learning rate</sup>이다(일반적으로 0.0에서 1.0 사이 실수이다). <i>y<sup>(i)</sup></i>는 i번째 훈련 샘플의 <b>진짜 클래스 레이블</b><sup>true class label</sup>이다. <i>y^<sup>(i)</sup></i>는 <b>예측 클래스 레이블</b><sup>predict class label</sup>이다. <mark>가중치 벡터의 모든 가중치를 동시에 업데이트한다는 점이 중요하다.</mark> 즉, 모든 가중치 Δ<i>w<sub>j</sub></i>를 업데이트하기 전에 <i>y^<sup>(i)</sup></i>를 다시 계산하지 않는다. 구체적으로 2차원 데이터셋에서는 다음과 같이 업데이트된다.

<div style="text-align : center;">
     <img src="./images/formula/ml04/ex_training_w.png">
</div>

파이썬으로 퍼셉트론 규칙을 구현하기 전에 간단한 사고 실험을 하여 이 규칙이 얼마나 멋지고 간단하게 작동하는지 알아보자. 퍼셉트론이 클래스 레이블을 정확히 예측한 두 경우는 가중치가 변경되지 않고 그대로 유지된다.

# 각주

<b id="p01">1</b> A Logical Calculus of the Ideas Immanent in Nervous Activity, W. S. McCulloch and W. Pitts, Bulletin of Mathematical Biophysics, 5(4): 115-113, 1943[↩](#a01)

<b id="p02">2</b> The Perceptron: A Perceiving and Recognizing Automaton, F.Rosenblatt, Cornell Aeronautical Laboratory, 1957[↩](#a02)

<b id="p03">3</b> 단위 계단 함수는 <i>z</i> ≥ 0일 때 1, 그렇지 않으면 0을 반환하는 함수이다.[↩](#a03)

<b id="p04">4</b> 입력과 가중치의 가중 합이 0인 식이 2차원이면 직선 방정식이 되지만, 3차원이면 평면 방정식이 되고 n차원이면 초평면<sup>hyperplane</sup> 방정식이된다. 이들은 모두 공간을 둘로 나눈다는 특징이 있다.[↩](#a04)

<b id="p05">5</b> 환원주의는 복잡하고 추상적인 개념을 더 단순한 요소로 명확하게 정의할 수 있다는 믿음이다. 예를 들어 생물의 어떤 현상을 물리적, 화학적으로 설명할 수 있다록 주장한다.[↩](#a05)