edwith의 부스트 코스 : "파이토치로 시작하는 딥러닝 기초"를 바탕으로 작성되었습니다.  
https://www.boostcourse.org/ai214

# Logistic Regression
- Logistic Regression
- Computing Hypothesis
- Computing Cost Function
- Evaluation
- Higher Implementation

## Logistic Regression 이론

Hypothesis 
$$H(x) = \dfrac{1}{1+e^{-W^{T}X}}$$

Logistic Regression 은 Binary Classificaion 문제임.  
예를 들어 m개의 샘플로 이루어진 d 라는 차원을 가진 X 데이터가 있을때, d 차원의 d사이즈의 벡터가 m개 만큼 존재할 때, **m 개의 0과1**로 이루어진 1d벡터(정답)를 구할 수 있도록하는 것이 Binary classification 의 문제가 됨.  
d 차원의 d 사이즈의 1d 벡터가 주어졌을때, 이것이 0 또는 1 중에서 어느쪽에 가까운지 구하는 문제임. 이를 수식으로 표현하자면   

$$\begin{aligned}
   H(X)&= P(x=1;W) \\
   &=1 - P(x=0;W)
\end{aligned}$$ 
  
위와 같이 표현할 수 있을 것임. 이를 Logisic Regression을 통해서 x가 1일 확률을 구해야 함. 
Logisic Regression의 모델 파라미터 W는 (d * 1) 크기의 weight를 갖게 됨.  
따라서 X 데이터 (m * d)와 W (d * 1) 를 행렬곱을 해준다음 sigmoid 라는 함수를 통과하여 0~1 사이의 값에 근사하도록 하여 binary classification 문제를 해결할 수 있음.

### sigmoid
sigmoid 는 함수는 -무한대는 0, +무한대는 1에 가까운 값을 반환하는 함수  
$$sigmoid(x) = \dfrac{1}{1+e^{-X}}$$


다시 위의 Logistic Regression의 hypothesis는 다음과 같이 표현 될 수 있다. 
$$\begin{aligned}
   H(X)&= \dfrac{1}{1+e^{-W^{T}X}} \\
   \approx P(X=1)&=\dfrac{1}{1+e^{-X W}}
\end{aligned}
$$
구하고자 하는 H(x) 는 x가 1일 확률을 근사하는 것이므로 위처럼 표현이 될 수 있다.  
수식에서 W X를 행렬곱을 해주기 때문에 행렬곱 수행후 나오게 되는 값의 shape 은 (m, 1) m개의 element 를 가진 1d 벡터가 되는것을 확인할 수 있음  
즉, 구하고자 하는 **m 개의 0과1**로 이루어진 1d벡터(정답)인 (m * 1) 을 얻을 수 있게 된다는 뜻.

### Cost
cost 함수는 다음과 같이 구할 수 있음. 
$$cost(W) = -\dfrac{1}{m} \sum y log(H(x)) + (1 - y)(log(1-H(x))$$

### Weight Update via Gradient Descent
즉, W는 gradient descent 를 통해서 훈련이 가능함. 파라미터 W에 대해서 미분한 gradient 에 대해서 learning rate 를 곱하고, 그 값은 W에서 빼주는 방식으로 gradient descent를 진행하게 됨.  
이렇게 되면 W 가 업데이트 되는 것이며, loss 를 최소화 하는 방향으로 학습이 되게 됨. 
$$
W := W - \alpha \dfrac{\partial}{\partial W}cost(W)
$$



In [51]:
import torch 
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [52]:
# random seed
torch.manual_seed(1)

<torch._C.Generator at 0x7fa00873e3d0>

학생들의 강의수강 시간과, 연구시간이 주어질 때, 해당 강의를 수료할 수 있는지 없는지를 binary classification 하는 모델

In [53]:
x_data = [[1, 2], [2, 3], [3, 1], [4, 3], [5, 3], [6, 2]]
y_data = [[0], [0], [0], [1], [1], [1]]

In [54]:
x_train = torch.FloatTensor(x_data)
y_train = torch.FloatTensor(y_data)

In [55]:
print(x_train.size())
print(y_train.size())

torch.Size([6, 2])
torch.Size([6, 1])


## Computing Hypothesis

$$\begin{aligned}
   H(X)&= \dfrac{1}{1+e^{-W^{T}X}} \\
   \approx P(X=1)&=\dfrac{1}{1+e^{-X W}} \\
   &=\dfrac{1}{1+e^{-(XW + b)}}
\end{aligned}
$$

In [56]:
print('e^1 equals : ', torch.exp(torch.FloatTensor([1])))

e^1 equals :  tensor([2.7183])


In [57]:
W = torch.zeros((2, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

In [58]:
hypothesis = 1 / (1 + torch.exp(-(x_train.matmul(W) + b)))

In [59]:
print(hypothesis)
print(hypothesis.shape)

tensor([[0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000]], grad_fn=<MulBackward0>)
torch.Size([6, 1])


torch 에서는 `torch.sigmoid()` 함수를 제공하여 보다 쉽게 작성이 가능함

In [60]:
print('e^1 equals : ', torch.sigmoid(torch.FloatTensor([1])))

e^1 equals :  tensor([0.7311])


In [61]:
hypothesis = torch.sigmoid(x_train.matmul(W) + b)

In [62]:
print(hypothesis)
print(hypothesis.shape)

tensor([[0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000]], grad_fn=<SigmoidBackward>)
torch.Size([6, 1])


## Computing Cost Function
$$cost(W) = -\dfrac{1}{m} \sum y log(H(x)) + (1 - y)(log(1-H(x))$$

In [63]:
print(hypothesis)
print(y_train)

tensor([[0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000],
        [0.5000]], grad_fn=<SigmoidBackward>)
tensor([[0.],
        [0.],
        [0.],
        [1.],
        [1.],
        [1.]])


In [64]:
- (y_train[0] * torch.log(hypothesis[0]) + (1 - y_train[0]) * torch.log(1 - hypothesis[0]))

tensor([0.6931], grad_fn=<NegBackward>)

In [65]:
losses = - (y_train * torch.log(hypothesis) + (1 - y_train) * torch.log(1 - hypothesis))
print(losses)

tensor([[0.6931],
        [0.6931],
        [0.6931],
        [0.6931],
        [0.6931],
        [0.6931]], grad_fn=<NegBackward>)


In [66]:
cost = torch.mean(losses)
print(cost)

tensor(0.6931, grad_fn=<MeanBackward0>)


torch 에서는 `F.binary_cross_entropy()` 를 제공하여 보다 쉽게 cost 함수를 구할 수 있음.  

In [67]:
F.binary_cross_entropy(hypothesis, y_train)

tensor(0.6931, grad_fn=<BinaryCrossEntropyBackward>)

In [68]:
# 모델 초기화 
W = torch.zeros((2, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# optimizer 설정
optimizer = optim.SGD([W, b], lr=1)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):
    
    # cost 계산
    hypothesis = torch.sigmoid(x_train.matmul(W) + b)
    cost = F.binary_cross_entropy(hypothesis, y_train)
    
    # cost로 H(x) 계산, W 업데이트
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    
    if epoch % 100 == 0:
        print('Epoch : {:4d}/{} Cost : {:.6f}'.format(epoch, nb_epochs, cost.item()))

Epoch :    0/1000 Cost : 0.693147
Epoch :  100/1000 Cost : 0.134722
Epoch :  200/1000 Cost : 0.080643
Epoch :  300/1000 Cost : 0.057900
Epoch :  400/1000 Cost : 0.045300
Epoch :  500/1000 Cost : 0.037261
Epoch :  600/1000 Cost : 0.031672
Epoch :  700/1000 Cost : 0.027556
Epoch :  800/1000 Cost : 0.024394
Epoch :  900/1000 Cost : 0.021888
Epoch : 1000/1000 Cost : 0.019852


## Evaluation

In [69]:
hypothesis = torch.sigmoid(x_train.matmul(W) + b)
print(hypothesis[:5])

tensor([[2.7648e-04],
        [3.1608e-02],
        [3.8977e-02],
        [9.5622e-01],
        [9.9823e-01]], grad_fn=<SliceBackward>)


In [70]:
prediction = hypothesis >= torch.FloatTensor([0.5])
print(prediction[:5])

tensor([[False],
        [False],
        [False],
        [ True],
        [ True]])


In [71]:
correct_prediction = prediction.float() == y_train
print(correct_prediction[:5])

tensor([[True],
        [True],
        [True],
        [True],
        [True]])


## Higher Implementation

In [72]:
class BinaryClassifier(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(2, 1)  # W와 b가 들어있는 Linear Layer
        self.sigmoid = nn.Sigmoid()
        
    def forward(self, x):
        return self.sigmoid(self.linear(x))

In [73]:
model = BinaryClassifier()

In [74]:
# optimizer 설정
optimizer = optim.SGD(model.parameters(), lr=1)

nb_epochs = 1000
for epoch in range(nb_epochs + 1):
    # H(x) 계산
    hypothesis = model(x_train)    

    # cost 계산
    cost = F.binary_cross_entropy(hypothesis, y_train)
    
    # cost로 H(x) 계산, W 업데이트
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    
    if epoch % 100 == 0:
        prediction = hypothesis >= torch.FloatTensor([0.5])
        correct_prediction = prediction.float() == y_train
        accuarcy = correct_prediction.sum().item() / len(correct_prediction)
        
        print('Epoch : {:4d}/{} Cost : {:.6f} Accurcay : {:2.2f}%'.format(epoch, nb_epochs, cost.item(), accuarcy * 100))

Epoch :    0/1000 Cost : 0.539713 Accurcay : 83.33%
Epoch :  100/1000 Cost : 0.134272 Accurcay : 100.00%
Epoch :  200/1000 Cost : 0.080486 Accurcay : 100.00%
Epoch :  300/1000 Cost : 0.057820 Accurcay : 100.00%
Epoch :  400/1000 Cost : 0.045251 Accurcay : 100.00%
Epoch :  500/1000 Cost : 0.037228 Accurcay : 100.00%
Epoch :  600/1000 Cost : 0.031649 Accurcay : 100.00%
Epoch :  700/1000 Cost : 0.027538 Accurcay : 100.00%
Epoch :  800/1000 Cost : 0.024381 Accurcay : 100.00%
Epoch :  900/1000 Cost : 0.021877 Accurcay : 100.00%
Epoch : 1000/1000 Cost : 0.019843 Accurcay : 100.00%
