# Logistic Regression

### Imports

In [2]:
import numpy as np # numpy를 np로써 import
import torch # torch를 import
import torch.nn as nn # torch.nn을 nn로써 import
import torch.nn.functional as func # torch.nn.functional을 func로써 impot
import torch.optim as opt # torch.optimd을 opt로써 import

from google.colab import drive
drive.mount('/content/drive') # colab을 내 google drive와 연결

# Seed 고정
torch.manual_seed(1)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


<torch._C.Generator at 0x7eefe6f74f10>

### 1 Data loading
| $x_1$ | $x_2$ | $y$ |
|---|---|---|
| 1 | 2 | 0 |
| 2 | 3 | 0 |
| 3 | 1 | 0 |
| 4 | 3 | 1 |
| 5 | 3 | 1 |
| 6 | 2 | 1 |

In [3]:
# Data 수동으로 입력하기
x_train = torch.FloatTensor([[1, 2], [2, 3], [3, 1], [4, 3], [5, 3], [6, 2]]) # 각각 2개의 입력을 x_train변수에 저장
y_train = torch.FloatTensor([[0], [0], [0], [1], [1], [1]]) # 1개의 출력을 y_train에 저장

print(x_train) # x_train 출력
print(x_train.shape) # x_train의 모양 출력
print(y_train) # y_train 출력
print(y_train.shape) # y_train의 모양 출력

# Model 설계
class Logistic(nn.Module):
    def __init__(self, num_inputs, num_outputs):
        super().__init__()
        self.linear = nn.Linear(num_inputs, num_outputs) #각각의 input과 output에 linear을 취한 값을 self.linear에 넣어준다
        self.sigmoid = nn.Sigmoid() # sigmoid 함수 정의

    def forward(self, x):
        return self.sigmoid(self.linear(x)) # 위의 data는 2차이기 때문에 1차 -> 1차 해주기 위해 x에 linear를 취한 값을 sigmoid에 넣어준다

# Model 초기화 (입력 dim, 출력 dim)
model = Logistic(2, 1) # 입력 : 2 -> 출력 : 1

tensor([[1., 2.],
        [2., 3.],
        [3., 1.],
        [4., 3.],
        [5., 3.],
        [6., 2.]])
torch.Size([6, 2])
tensor([[0.],
        [0.],
        [0.],
        [1.],
        [1.],
        [1.]])
torch.Size([6, 1])


### 2 Hypothesis, Cost and Optimization
* 다음 수식을 만족한다고 가정한다
  + Input이 1개(Scalar)인 경우
$$ y_{hypo} = H(x) = \frac{1}{1+e^{-\alpha x}} $$
  + Input이 여러개(Vector)인 경우
$$ y_{hypo} = H(X) = \frac{1}{1+e^{-W^TX}} $$

* ex) data가 3개인 경우,
  $$ y =  \frac{1}{1 + e^{-\begin{bmatrix} w_1 && w_2 && w_3 \end{bmatrix} \cdot \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix}}} $$
  + 이를 만족하는 $W$ 를 구해야 한다
* Cost function으로 Binary Cross Entropy를 이용한다
$$ -[y_{train}log(y_{hypo}) + (1-y_{train})log(1-y_{hypo})] $$

In [4]:
# Optimizer 설정 (learning rate = 1로 설정)
optimizer = opt.SGD(model.parameters(), lr=1) # 여기서 lr은 계속 수정하면서 cost값이 가장 작을 때를 선정한다

# 반복
for epoch in range(100): # 100번 반복

  # Cost 계산 / mse_loss(가정에의한값, 참값)
  y_hypo = model(x_train) # model에 대입한 결과값을 y_hypo에 넣어준다
  cost = func.binary_cross_entropy(y_hypo, y_train) # 예상값과 결과값 사이의 binary_cross_entropy의 계산값을 cost에 넣어준

  # cost를 이용해 model update
  optimizer.zero_grad()
  cost.backward()
  optimizer.step()

  # 10번 마다 중간결과 출력
  if epoch % 10 == 9:
    prediction = y_hypo >= torch.FloatTensor([0.5]) # 값이 0.5 이상이면 1, 아니면 0을 출력하게 설정한 값을 prediction에 넣어준다
    correct_prediction = prediction.float() == y_train # prediction의 값과 y_train의 값이 같다면 correct_prediction에 대입
    accuracy = correct_prediction.sum().item() / len(correct_prediction) # 비율을 accuary(정확도)에 넣어준다
    print('Epoch {:4d}/{} Cost: {:.6f} Accuracy {:2.2f}%'.format(
            epoch, 100, cost.item(), accuracy * 100,
    ))

Epoch    9/100 Cost: 0.764956 Accuracy 66.67%
Epoch   19/100 Cost: 0.596826 Accuracy 83.33%
Epoch   29/100 Cost: 0.491604 Accuracy 83.33%
Epoch   39/100 Cost: 0.405330 Accuracy 83.33%
Epoch   49/100 Cost: 0.323565 Accuracy 83.33%
Epoch   59/100 Cost: 0.249201 Accuracy 83.33%
Epoch   69/100 Cost: 0.191438 Accuracy 100.00%
Epoch   79/100 Cost: 0.159492 Accuracy 100.00%
Epoch   89/100 Cost: 0.145180 Accuracy 100.00%
Epoch   99/100 Cost: 0.135187 Accuracy 100.00%


### 3 Assignment
* Data 파일을 이용한 Logistic Regression
  - data_logistic_regression.csv을 이용해 학습한다
    + 8개의 input, 1개의 output
$$ [x_1, ... x_8, y] $$
  - Accuracy 75% 이상을 달성한다

In [5]:
# drive mount
from google.colab import drive
drive.mount('/content/drive') # drive mount

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [6]:
# 필요한 라이브러리 import
import numpy as np # numpy를 np로써 import
import torch # torch를 import
import torch.nn as nn # torch.nn을 nn로써 import
import torch.nn.functional as func # torch.nn.functional을 func로써 impot
import torch.optim as opt # torch.optimd을 opt로써 import

In [12]:
# Numpy를 이용해 csv file을 ndarray로 가져온다
dataset = np.loadtxt(
    '/content/drive/MyDrive/data_logistic_regression.csv',  # 구글드라이브에 있는 파일 가져오기
    delimiter=',', # 콤마로 dataset구분
    dtype=np.float32) # 데이터 타입을 float 형태로 가져옴
np.random.shuffle(dataset) # 순서를 random하게 섞음

x_train = torch.FloatTensor(dataset[:,:-1]) # 슬라이스를 이용해 전체중에 앞에 8개는 x에 대입 (input -> 8개)
y_train = torch.FloatTensor(dataset[:,[-1]]) # 슬라이스를 이용해 전체중에 뒤에 1개는 y rank=n개로 하기 위해 꾸러미로 묶어서 가져온다 (output -> 1)

In [13]:
# Model 설계
class Logistic(nn.Module):
    def __init__(self, num_inputs, num_outputs):
        super().__init__()
        self.linear = nn.Linear(num_inputs, num_outputs) #각각의 input과 output에 linear을 취한 값을 self.linear에 넣어준다
        self.sigmoid = nn.Sigmoid() # sigmoid 함수 정의

    def forward(self, x):
        return self.sigmoid(self.linear(x)) # 위의 data는 2차이기 때문에 1차 -> 1차 해주기 위해 x에 linear를 취한 값을 sigmoid에 넣어준다

In [14]:
# Model 초기화 (입력 dim, 출력 dim)
model = Logistic(8, 1) # 입력 : 2 -> 출력 : 1
optimizer = opt.SGD(model.parameters(), lr=0.5) # learning rate = 0.5

In [15]:
# Optimizer 설정 (learning rate = 1로 설정)
optimizer = opt.SGD(model.parameters(), lr=1) # 여기서 lr은 계속 수정하면서 cost값이 가장 작을 때를 선정한다

# 반복
for epoch in range(100): # 100번 반복

  # Cost 계산 / mse_loss(가정에의한값, 참값)
  y_hypo = model(x_train) # model에 대입한 결과값을 y_hypo에 넣어준다
  cost = func.binary_cross_entropy(y_hypo, y_train) # 예상값과 결과값 사이의 binary_cross_entropy의 계산값을 cost에 넣어준

  # cost를 이용해 model update
  optimizer.zero_grad()
  cost.backward()
  optimizer.step()

  # 10번 마다 중간결과 출력
  if epoch % 10 == 9:
    prediction = y_hypo >= torch.FloatTensor([0.5]) # 값이 0.5 이상이면 1, 아니면 0을 출력하게 설정한 값을 prediction에 넣어준다
    correct_prediction = prediction.float() == y_train # prediction의 값과 y_train의 값이 같다면 correct_prediction에 대입
    accuracy = correct_prediction.sum().item() / len(correct_prediction) # 비율을 accuary(정확도)에 넣어준다
    print('Epoch {:4d}/{} Cost: {:.6f} Accuracy {:2.2f}%'.format(
            epoch, 100, cost.item(), accuracy * 100,
    ))

Epoch    9/100 Cost: 0.577979 Accuracy 66.93%
Epoch   19/100 Cost: 0.541971 Accuracy 72.20%
Epoch   29/100 Cost: 0.520980 Accuracy 75.89%
Epoch   39/100 Cost: 0.507753 Accuracy 76.42%
Epoch   49/100 Cost: 0.498911 Accuracy 76.94%
Epoch   59/100 Cost: 0.492736 Accuracy 77.34%
Epoch   69/100 Cost: 0.488279 Accuracy 76.94%
Epoch   79/100 Cost: 0.484979 Accuracy 76.94%
Epoch   89/100 Cost: 0.482484 Accuracy 76.55%
Epoch   99/100 Cost: 0.480566 Accuracy 76.81%
