- based on : https://datascienceschool.net/view-notebook/342b8e2ecf7a4911a727e6fe97f4ab6b/
- based on: http://scikitlearn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html

## Perceptron
- is another simple algorithm suitable for large scale learning:
    - It does not require a learning rate.
    - It is not regularized(penalized)
    - It updates its model only on mistakes.
- The last characteristic implies that the Perceptron is slightly faster to trian than SGD with the hinge loss and that the resulting models are sparser.

## 퍼셉트론
- 퍼셉트론은 가장 오래되고 단순한 형태의 판별 함수 기반 예측 모형 중 하나이다.
- 퍼셉트론은 입력 x=(x_1,x_2,..,x_m)dp eogo 1 또는 -1의 값을 가지는 종속 변수를 출력하는 비선형 함수이다. 1을 포함하는 입력 요소에 대해 가중치를 곱한 값이 판별 함수가 된다.
- 판별 한수 값이 활성화 함수를 지나면 분류 결과를 나타내는 출력이 생성된다.
- `y=a(f(x)) = a(np.dot(w.T,x))`
- 퍼셉트론은 활성화 함수로 다음과 같은 Heviside step function을 가진다.
    - y = a(z) = if z<0: return -1 ; else: return 1

### 퍼셉트론 손실 함수
- 퍼셉트론은 독립 변수로부터 종속 변수를 예측하는 모형이므로 예측 오차를 최소화하는 가중치를 계산해야 한다. (RSS와 유사하다.)
- 가중치에 따라 달리지는 전체 예측 오타는 i번째 개별 데이터에 대한 손실의 합으로 표현할 수 있다.
- 손실은 실제값과 예측값의 차이를 나타내는 함수이다.
- 나타내는 함수 방식이 RSS와는 다른데, 이유는 판별 함수에서 이진 분류로 -1,1을 사용하는데에 이유가 있다.
- `L(y_hat{i} , y{i}) = max(0,-y_hat{i}*y{i})`
- 위의 방정식은 간단히 해석해보면(간단하다) 예측이 맞으면 0, 틀리면 1이 된다. 즉 틀리면 Loss Function이 당연한 이야기지만 더 커지는 것이다.
- 위의 식은 데이터에 대입해보면, 어자피 예측이 맞은 값들은 0이 되어 사라지고, 틀린 값들만 남게 된다. 즉 오분류된 데이터의 집합의 합이 된다.
- 이때 Heaviside step function을 그대로 적용하면 미분이 불가능하기 때문에 활성화 함수를 적용하기 전인 판별 함수 `f(x) = np.dot(w.T,x)`를 사용하여 미분한다.
- `E(w) = -sigma(missclassification){np.dot(w.T,x_i,y_i)}`

### 가중치 계산
- 손실 함수를 최소화하는 가중치를 찾기 위해 손실 함수를 가중치로 미분하여 gradient를 구한다.
- `dE / dw = -sigma(misclassification){x_i * y_i}`
- gradient descent 방법을 사용하면 다음과 같이 가중치를 구할 수 있다.
- `w{k+1} = w{k} + step_size * sigma(missclassification){x_i * y_i}`

## SGD(Stochastic Grandient Descent) -- optimization method
- 퍼셉트론은 일반적인 gradient descent 방법이 아닌 SGD 최적화 방법을 사용한다.
- SGD최적화 방법은 정확한 gradient 대신 일부 표본 데이터만 사용한 추정치를 이용하는 방법이다.
- 퍼셉트론은 가장 극단적인 경우로 minibatch size=1 ( minibatch size 는 추정에 사용하는 표본 데이터의 갯수를 의미한다.) 
- 즉, 한번에 하나의 오분류된 데이터만을 이용하여 가중치를 조정한다.
- `w{k+1} = w{k} + step_size * x{i} * y{i}`

- 퍼셉트론의 단순 모형 : `Perceptron`
- 퍼셉트론의 더 다양한 옵션 인수를 제공하는 : `SGDClassifier`

In [20]:
from sklearn.datasets import load_iris
iris = load_iris()
X,y = iris.data,iris.target
X = X[:100,0:2]
y=y[:100]

In [21]:
from sklearn.linear_model import Perceptron
perceptron = Perceptron().fit(X,y)
perceptron



Perceptron(alpha=0.0001, class_weight=None, eta0=1.0, fit_intercept=True,
      max_iter=None, n_iter=None, n_jobs=1, penalty=None, random_state=0,
      shuffle=True, tol=None, verbose=0, warm_start=False)

In [22]:
kfold = KFold(5)
cross_val_score(perceptron,X,y,cv=kfold)



array([1.  , 1.  , 0.95, 0.85, 1.  ])

In [23]:
from sklearn.metrics import classification_report,confusion_matrix

In [24]:
confusion_matrix(y,perceptron.predict(X))

array([[49,  1],
       [ 2, 48]])

In [25]:
print(classification_report(y,perceptron.predict(X)))

             precision    recall  f1-score   support

          0       0.96      0.98      0.97        50
          1       0.98      0.96      0.97        50

avg / total       0.97      0.97      0.97       100



In [26]:
from sklearn.linear_model import SGDClassifier

In [27]:
sgdc = SGDClassifier().fit(X,y)



In [28]:
kfold = 5
cross_val_score(sgdc,X,y,cv=kfold)



array([1.  , 1.  , 0.95, 1.  , 0.95])