# 6. 인공 신경망 (Artifical Neural Network)
## 6-1. 머신 러닝 용어 이해하기
### 1. 머신 러닝 모델의 평가
훈련데이터 : 테스트데이터 = 8 : 2 <br>
훈련데이터에서도 검증데이터가 있음 </br>

- 하이퍼 파라미터: 값에 따라서 모델의 성능에 영향을 주는 매개변수들, 사용자가 직접 정해줄 수 있는 변수
 <br> ex) 경사하강법에서 학습률(learning late), 딥러닝에서 은닉층의 수, 뉴런의 수, 드롭아웃 비율 <br>
- 매개변수: 가중치, 편향과 같은 학습을 통해 바뀌어져가는 변수 <br>

### 2. 분류(Classification)와 회귀(Regression)
1. 이진 분류 문제 -> 선형 회귀
2. 다중 클래스 분류 문제-> 소프트맥스 회귀
3. 회귀 문제 문제 -> 선형 회귀

### 3. 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)
1. 지도 학습: 레이블(Label)이라는 정답과 함께 학습하는 것
2. 비지도 학습: 목적 데이터(또는 레이블)이 없는 학습 방법, ex) 군집(clustering)이나 차원 축소
3. 강화 학습: 어떤 환경 내에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법

### 4. 샘플(Sample)과 특성(Feature)
머신 러닝 문제는 1개 이상의 독립 변수 x를 가지고 종속 변수 y를 예측하는 것. <br>
- 샘플(Sample): 하나의 데이터, 하나의 행
- 특성(Feature): 종속 변수 y를 예측하기 위한 각각의 독립 변수 x

### 혼동 행렬(Confusion Matrix)
|-|참|거짓|
|:---:|:---:|:---:|
|참|TP<br>(검출되어야 할 것이 검출됨)|FN<br>(검출되어야 할 것이 검출되지 않음)|
|거짓|FP<br>(검출되지 않아야 할 것이 검출됨)|TN<br>(검출되지 않아야 할 것이 검출되지 않음)|

- 정밀도(Precision) <br>
 : 검출된 것 중에 TP 비율, $ 정밀도=\frac{TP}{TP+FP}$
- 재현률, 검출률(Recall) <br>
 : 실제 양성인 데이터의 전체 개수에 대한 TP 비율, $ 재현률=\frac{TP}{TP+FN}$

### 6. 과적합(Overfitting)과 과소 적합(Underfitting)
과적합(Overfitting): 훈련 데이터를 과하게 학습한 경우. 훈련 데이터에 대해서 지나친 일반화로 실제 서비스에서의 데이터에 대해서는 정확도가 좋지 않은 현상이 발생함. 테스트 데이터의 오차가 증가하기 전이나 정확도가 감소하기 전에 훈련을 멈추는 것이 바람직하다. 드롭아웃(Dropout), 조기 종료(Early Stopping)과 같은 방법들 사용

## 6-2. 퍼셉트론(Perceptron)
### 1. 퍼셉트론(Perceptron)
### 2. 단층 퍼셉트론(Single-Layer Perceptron)
입력층(input layer)와 출력층(output layer)로 구성됨. <br>
단층 퍼셉트론으로 AND, NAND, OR 게이트 구현 가능. 그래프상에서 직선으로 나눌 수 있음. <br>
XOR 게이트는 직선이 아닌 곡선 비선형 영역으로 분리해야 구현이 가능함.
### 3. 다층 퍼셉트론(Multi-Layer Perceptron, MLP)
입력층과 출력층 사이에 은닉층이 존재함. <br>
- 심층 신경망(Deep Neural Network, DNN): 은닉층이 2개 이상인 신경망<br>
- 머신 러닝에서의 학습(training): 가중치를 스스로 찾아내도록 자동화시키는 것. 여기서 손실 함수(Loss function), 옵티마이저(Optimizer) 사용. <br>
- 딥러닝(Deep Learning): 만약 학습시키는 인공 신경망이 심층 신경망일 경우

## 6-3. XOR 문제 - 단층 퍼셉트론 구현하기
### 1. 파이토치로 단층 퍼셉트론 구현하기

In [5]:
import torch
import torch.nn as nn

device = 'cuda' if torch.cuda.is_available() else 'cpu'
torch.manual_seed(777)
if device == 'cuda':
    torch.cuda.manual_seed_all(777)

In [6]:
# XOR 문제에 해당되는 입력과 출력 정의
X = torch.FloatTensor([[0,0], [0,1], [1,0], [1,1]]).to(device)
Y = torch.FloatTensor([[0], [1], [1], [0]]).to(device)

In [7]:
# 단층 퍼셉트론 구현
linear = nn.Linear(2, 1, bias=True)
sigmoid = nn.Sigmoid() #활성화 함수로 시그모이드 사용
model = nn.Sequential(linear, sigmoid).to(device)

In [8]:
# 0또는 1 예측하는 이진 분류 문제이므로 (로지스틱 회귀) 비용함수로 크로스 엔트로피 함수 사용
# 비용 함수와 옵티마이저 정의
criterion = torch.nn.BCELoss().to(device) #nn.BCELoss()는 이진 분류에서 사용하는 크로스엔트로피 함수
optimizer = torch.optim.SGD(model.parameters(), lr=1)

In [10]:
# 10,001번 에포크 수행. 0번 에포크부터 10,000번 에포크까지
for step in range(10001):
    optimizer.zero_grad()
    hypothesis = model(X)
    
    #비용 함수
    cost = criterion(hypothesis, Y)
    cost.backward()
    optimizer.step()
    
    if step % 100 == 0:
        print(step, cost.item()) # 200번 에포크 이후로는 비용줄어들지 않음. 단층 퍼셉트론으로 XOR 문제 풀수 없기 때문

0 0.7273974418640137
100 0.6931475400924683
200 0.6931471824645996
300 0.6931471824645996
400 0.6931471824645996
500 0.6931471824645996
600 0.6931471824645996
700 0.6931471824645996
800 0.6931471824645996
900 0.6931471824645996
1000 0.6931471824645996
1100 0.6931471824645996
1200 0.6931471824645996
1300 0.6931471824645996
1400 0.6931471824645996
1500 0.6931471824645996
1600 0.6931471824645996
1700 0.6931471824645996
1800 0.6931471824645996
1900 0.6931471824645996
2000 0.6931471824645996
2100 0.6931471824645996
2200 0.6931471824645996
2300 0.6931471824645996
2400 0.6931471824645996
2500 0.6931471824645996
2600 0.6931471824645996
2700 0.6931471824645996
2800 0.6931471824645996
2900 0.6931471824645996
3000 0.6931471824645996
3100 0.6931471824645996
3200 0.6931471824645996
3300 0.6931471824645996
3400 0.6931471824645996
3500 0.6931471824645996
3600 0.6931471824645996
3700 0.6931471824645996
3800 0.6931471824645996
3900 0.6931471824645996
4000 0.6931471824645996
4100 0.6931471824645996
4200

### 2. 학습된 단층 퍼셉트론의 예측값 확인하기

In [11]:
with torch.no_grad():
    hypothesis = model(X)
    predicted = (hypothesis > 0.5).float()
    accuracy = (predicted == Y).float().mean()
    print('모델의 출력값(Hypothesis): ', hypothesis.detach().cpu().numpy())
    print('모델의 에측값(Predicted): ', predicted.detach().cpu().numpy())
    print('실제값(Y): ', Y.cpu().numpy())
    print('정확도(Accuracy): ', accuracy.item())

모델의 출력값(Hypothesis):  [[0.5]
 [0.5]
 [0.5]
 [0.5]]
모델의 에측값(Predicted):  [[0.]
 [0.]
 [0.]
 [0.]]
실제값(Y):  [[0.]
 [1.]
 [1.]
 [0.]]
정확도(Accuracy):  0.5


## 6-4. 역전파(BackPropagation)