# 2. Logistic Regression

---

## 학습 목표
- Logistic Regresssion을 이해하고, Scikit-learn과 NumPy로 구현할 수 있다.
- Titanic 데이터를 사용하여 Binary Classification (1: Survived, 0: Not Survived)를 구현할 수 있다.

---

## 목차

### 2.1. Logistic Regression - Scikit Learn
1. 데이터 로드
2. 모델 정의
3. 모델 학습 (with Train data)
4. 결과 예측 (with Test data)
5. 결과 평가

### 2.2. Logistic Regression - NumPy
1. 데이터 로드
2. 모델 정의
3. 모델 학습 (with Train data)
4. 결과 예측 (with Test data)
5. 결과 평가

---

## 2.1  Logistic Regression - Scikit-Learn (Titanic)

> Scikit-Learn을 사용하여 로지스틱 회귀를 실습해봅니다.
- 사용할 데이터: 외부에서 가져온 titanic 데이터
- Logistic Regression과 Softmax Regression은 Sklearn의 linear_model 패키지에 있는LogisticRegression 메서드를 사용가능합니다.

### 2-1-1. 데이터 로드

Titanic 데이터를 불러올 Load_Dataset 함수를 구현합니다.

In [1]:
import csv                           # 데이터 파일 로드
import numpy as np                   # numpy 행렬 조작을 위해

np.random.seed(1000)

In [2]:
def Load_Dataset(filename):

    with open(filename, 'r') as f:
        csv_reader = csv.reader(f)                  # 파일 로드
        header = next(csv_reader)

        x_data = []
        y_data = []
        for line in csv_reader:
            features = line[1:]
            x = [1] + list(map(float, features))    # x_data에 bias를 위한 1추가
            y = float(line[0])

            x_data.append(x)
            y_data.append(y)

        x_array = np.array(x_data)
        y_array = np.array(y_data)

    return header, x_array, y_array

In [3]:
_, x_train, y_train = Load_Dataset('data/Titanic_train.csv')
_, x_test, y_test = Load_Dataset('data/Titanic_test.csv')

# shape을 확인합니다. (데이터개수 X feature 개수)
print(x_train.shape)
print(x_test.shape)

(779, 7)
(108, 7)


### 2-1-2. 모델 정의

Scikit-Learn에 구현된 LogisticRegression 함수를 정의합니다.

In [4]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(fit_intercept=False)

### 2-1-3. 모델 학습

In [5]:
lr.fit(x_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=False,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### 2-1-4. 결과 예측

In [6]:
y_pred = lr.predict(x_test)
print(y_pred)

[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 1. 0. 1. 1. 0. 0. 0. 0.
 1. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1.
 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 1. 1.
 1. 1. 0. 1. 0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0.
 1. 1. 0. 1. 0. 0. 0. 0. 1. 1. 1. 0.]


### 2-1-5. 결과 평가

일반적으로 분류에서는 `Accuracy (정확도)`를 평가 척도로 사용합니다. 

In [7]:
from sklearn.metrics import accuracy_score

print('로지스틱 회귀, 정확도 : {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))

로지스틱 회귀, 정확도 : 83.33%


---

## 2.2  Logistic Regression - NumPy (Titanic)

> NumPy을 사용하여 로지스틱 회귀를 직접 구현해봅니다.
- 사용할 데이터: 외부에서 가져온 titanic 데이터

### 2-2-1. 데이터 로드

이전과 동일하므로 생략합니다.

In [8]:
import os                            # 데이터 파일 경로 설정
import csv                           # 데이터 파일 로드
import numpy as np                   # numpy 행렬 조작
import matplotlib.pyplot as plt      # 그래프 그리기(선택 사항)

np.random.seed(1000)

### 2-2-2. 모델 정의

1.   __\_\_init\_\___


> *   인자: 모델 설정 
*   출력: x
*   기능: 모델 초기화

> weight *W*를 random하게 initialization

2.   __train__


> *   입력: 학습데이터, 학습 설정
*   출력: Loss 
*   기능: 데이터로 모델 학습

> 매 epoch마다 전체 데이터에 대해 loss, gradient 계산하여 학습


3. __predict__

> *   입력: 검증 데이터
*   출력: 모델의 예측값
*   기능: train로 학습된 모델로 검증, 예측값 생성

> 검증 데이터에 대해 분류 예측 결과 산출 

4. ___sigmoid__

> *   입력: 실수형 numpy array
*   출력: sigmoid를 취한 array
*   기능: 주어진 array에 대한 모든 sigmoid 값 계산

> $sigmoid(x) =\frac{1}{ 1+e^{-(x)}}$

In [9]:
class LogisticRegression:
  def __init__(self, num_features):
    self.W = np.random.rand(num_features, 1) * 0.01

  def train(self, train_x, train_y, num_epochs, learning_rate):
    loss_memory = []
    train_y = np.expand_dims(train_y, 1)

    # ================ 아래에 코드를 작성해주세요 =================

    for epoch in range(num_epochs):

      # 1-1. hypothesis 계산
      hypothesis = None        # np.matmul 사용

      # 1-2. sigmoid 적용
      prob = self._sigmoid(hypothesis)

      # 1-3. Error 및 Loss 계산
      error = None              # prob에서 train_y를 뺀 값
      loss = None

      # 1-4. Loss ‘loss_memory’에 추가
      loss_memory.append(loss)

      # 1-5. Gradient 계산
      grad = np.mean(train_x * error, axis=0, keepdims=True).T

      # 1-6. Weight Update
      self.W = None             # grad와 learning_rate를 사용

    # ===============================================================
    return loss_memory

  def predict(self, test_x):
    # 코드를 작성해주세요        # np.matmul 사용, test_x와 self.W를 사용

    return pred

  def _sigmoid(self, x):
    # 코드를 작성해주세요

      return None

In [10]:
#@title 정답 코드
class LogisticRegression:
  def __init__(self, num_features):
      self.W = np.random.rand(num_features, 1) * 0.01

  def train(self, train_x, train_y, num_epochs, learning_rate):

      loss_memory = []
      train_y = np.expand_dims(train_y, 1)

      for epoch in range(num_epochs):
          # ====================== 아래에 코드를 작성해주세요 ======================
          
          # 1-1. hypothesis 계산
          hypothesis = np.matmul(train_x, self.W)

          # 1-2. sigmoid 적용
          prob = self._sigmoid(hypothesis)

          # 1-3. Error 및 Loss 계산
          error = prob - train_y

          loss = - np.mean(train_y * np.log(prob) + (1 - train_y) * np.log(1 - prob))
          
          # print(loss)
          # 1-4. Loss ‘loss_memory’에 추가
          loss_memory.append(loss)

          # 1-5. Gradient 계산
          grad = np.mean(train_x * error, axis=0, keepdims=True).T

          # 1-6. Weight Update
          self.W -= grad * learning_rate
          # ==================================================================

      # 2. ‘loss_memory’ 반환
      return loss_memory

  def predict(self, test_x):
      prob = self._sigmoid(np.matmul(test_x, self.W))

      return prob

  def _sigmoid(self, x):
      return 1 / (1 + np.exp(-x))

### 2-2-3. 모델 학습

In [11]:
# Hyper-parameter
num_epochs = 1000      # 조정해보세요!
learning_rate = 1e-3   # 조정해보세요!

# Training
header, train_x, train_y = Load_Dataset('data/Titanic_train.csv')
num_data, num_features = train_x.shape

model = LogisticRegression(num_features)
loss_memory = model.train(train_x, train_y, num_epochs, learning_rate)

### 2-2-4. 모델 평가

In [12]:
def Accuracy(prob, true):
  Acc = 0
  
  #Acc 계산
  pred = np.round(prob, 0)
  correct = np.sum(pred.squeeze() == true)
  num_data = pred.shape[0]

  Acc = correct / num_data

  return Acc

In [13]:
# Evaluation
_, test_x, test_y = Load_Dataset('data/Titanic_test.csv')
pred = model.predict(test_x)
acc = Accuracy(pred, test_y)

print('Accuracy: ', acc*100)

Accuracy:  71.29629629629629
