# Logistic Regression

## SKLearn을 이용한 Logistic Regression 살펴보기

In [None]:
# 데이터 준비
import os                            # 데이터 파일 경로 설정
import csv                           # 데이터 파일 로드
import numpy as np                   # numpy 행렬 조작
import matplotlib.pyplot as plt      # 그래프 그리기(선택 사항)

def Load_Iris_Dataset(filename):
    with open(filename, 'r') as f:
        csv_reader = csv.reader(f)                  # 파일 로드
        header = next(csv_reader)

        x_data = []
        y_data = []
        for line in csv_reader:
            features = line[1]
            x = [1] + [float(features)]    # x_data에 bias를 위한 1추가
            y = float(line[0])

            x_data.append(x)
            y_data.append(y)

        x_array = np.array(x_data)
        y_array = np.array(y_data)

    return header, x_array, y_array

In [None]:
_, x_train, y_train = Load_Iris_Dataset('./Iris_Train.csv')
_, x_test, y_test = Load_Iris_Dataset('./Iris_Test.csv')


# train 데이터 시각화
is_virginica_x = x_train[y_train == 1]
is_virginica_y = y_train[y_train == 1]

not_virginica_x = x_train[y_train == 0]
not_virginica_y = y_train[y_train == 0]

plt.scatter(is_virginica_x[:, 1], is_virginica_y, color='b', label='Iris-Virginica')
plt.scatter(not_virginica_x[:, 1], not_virginica_y, color='r', label='Not Iris-Virginica')

plt.xlabel("Petal width", fontsize=14)
plt.ylabel("Class", fontsize=14)
plt.legend(loc="upper left", fontsize=10)
plt.show()

In [None]:
# Scikit-Learn 으로 학습
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(x_train, y_train)

In [None]:
# train data에 대한 학습 모델 시각화
is_virginica_x = x_train[y_train == 1]
is_virginica_y = y_train[y_train == 1]

not_virginica_x = x_train[y_train == 0]
not_virginica_y = y_train[y_train == 0]

plot_feat = np.linspace(0, 3, 100).reshape(-1, 1)
plot_x = np.insert(plot_feat, 0, 1, axis=1)
plot_prob = lr.predict(plot_x)

plt.scatter(is_virginica_x[:, 1], is_virginica_y, color='b', label='Iris-Virginica')
plt.scatter(not_virginica_x[:, 1], not_virginica_y, color='r', label='Not Iris-Virginica')


# 모델이 학습한 Probability
plt.plot(plot_feat, plot_prob, 'g-', label='Hypothesis')

plt.xlabel("Petal width", fontsize=14)
plt.ylabel("Probability", fontsize=14)
plt.legend(loc="upper left", fontsize=10)
plt.show()

In [None]:
# 평가
from sklearn.metrics import accuracy_score

y_pred = lr.predict(x_test)
print('Test Accuracy: {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))

## Numerical Solution 구현

In [None]:
# 데이터 준비
import os                            # 데이터 파일 경로 설정
import csv                           # 데이터 파일 로드
import numpy as np                   # numpy 행렬 조작
import matplotlib.pyplot as plt      # 그래프 그리기(선택 사항)

def Load_Iris_Dataset(filename):
    with open(filename, 'r') as f:
        csv_reader = csv.reader(f)                  # 파일 로드
        header = next(csv_reader)

        x_data = []
        y_data = []
        for line in csv_reader:
            features = line[1]
            x = [1] + [float(features)]    # x_data에 bias를 위한 1추가
            y = float(line[0])

            x_data.append(x)
            y_data.append(y)

        x_array = np.array(x_data)
        y_array = np.array(y_data)

    return header, x_array, y_array

In [None]:
_, x_train, y_train = Load_Iris_Dataset('./Iris_Train.csv')
_, x_test, y_test = Load_Iris_Dataset('./Iris_Test.csv')


# train 데이터 시각화
is_virginica_x = x_train[y_train == 1]
is_virginica_y = y_train[y_train == 1]

not_virginica_x = x_train[y_train == 0]
not_virginica_y = y_train[y_train == 0]

plt.scatter(is_virginica_x[:, 1], is_virginica_y, color='b', label='Iris-Virginica')
plt.scatter(not_virginica_x[:, 1], not_virginica_y, color='r', label='Not Iris-Virginica')

plt.xlabel("Petal width", fontsize=14)
plt.ylabel("Class", fontsize=14)
plt.legend(loc="upper left", fontsize=10)
plt.show()

### 모델 정의
1.   __\_\_init\_\___


> *   인자: 모델 설정 
*   출력: x
*   기능: 모델 초기화

> weight *W*를 random하게 initialization

2.   __train__


> *   입력: 학습데이터, 학습 설정
*   출력: Loss 
*   기능: 데이터로 모델 학습

> 매 epoch마다 전체 데이터에 대해 loss, grad 계산하여 학습


3. __predict__

> *   입력: 검증 데이터
*   출력: 모델의 예측값
*   기능: train로 학습된 모델로 검증, 예측값 생성

> 검증 데이터에 대해 분류 예측 결과 산출 

4. ___sigmoid__

> *   입력: 실수형 numpy array
*   출력: sigmoid를 취한 array
*   기능: 주어진 array에 대한 모든 sigmoid 값 계산

> $sigmoid(x) =\frac{1}{ 1+e^{-(x)}}$





In [None]:
class LogisticRegression:
    def __init__(self, num_features, seed):
        np.random.seed(seed)
        self.W = np.random.rand(num_features, 1)

    def train(self, train_x, train_y, num_epochs, learning_rate):
        loss_memory = []
        train_y = np.expand_dims(train_y, 1)

        for epoch in range(num_epochs):
          # prediction 계산 𝑿^𝑻 𝑾
          prediction = np.matmul(train_x, self.W)

          # sigmoid 적용
          prob = self._sigmoid(prediction)

          # Loss 계산
          error = prob - train_y
          loss = - np.mean(train_y * np.log(prob) + (1 - train_y) * np.log(1 - prob))

          # Gradient 계산
          grad = np.mean(train_x * error, axis=0, keepdims=True).T

          # Weight Update
          self.W -= grad * learning_rate

          loss_memory.append(loss)
        return loss_memory

    def predict_prob(self, test_x):
        prob = self._sigmoid(np.matmul(test_x, self.W))
        return prob.flatten()

    def predict(self, test_x):
        prob = self._sigmoid(np.matmul(test_x, self.W))
        prob = prob.flatten()
        y_pred_one_or_zero = []
        for y in prob:
            if y > 0.5:
                y_pred_one_or_zero.append(1)
            else:
                y_pred_one_or_zero.append(0)
        return y_pred_one_or_zero

    def _sigmoid(self, x):
        return 1 / (1 + np.exp(-x))

In [None]:
# Hyper-parameter 설정 및 학습
num_epochs = 1000
learning_rate = 1e-1
seed = 2

# Training
num_data, num_features = x_train.shape

model = LogisticRegression(num_features, seed)
loss_memory = model.train(x_train, y_train, num_epochs, learning_rate)

In [None]:
# Plot Loss
x_axis = list(range(num_epochs))

plt.plot(x_axis, loss_memory)
plt.title('Loss')
plt.xlabel('Epochs')
plt.ylabel('MSE Loss')

plt.show()

In [None]:
# train data에 대한 학습 모델 시각화
is_virginica_x = x_train[y_train == 1]
is_virginica_y = y_train[y_train == 1]

not_virginica_x = x_train[y_train == 0]
not_virginica_y = y_train[y_train == 0]

plot_feat = np.linspace(0, 3, 100).reshape(-1, 1)
plot_x = np.insert(plot_feat, 0, 1, axis=1)
plot_prob = model.predict_prob(plot_x)

plt.scatter(is_virginica_x[:, 1], is_virginica_y, color='b', label='Iris-Virginica')
plt.scatter(not_virginica_x[:, 1], not_virginica_y, color='r', label='Not Iris-Virginica')

# 모델이 학습한 Probability
plt.plot(plot_feat, plot_prob, 'g-', label='Hypothesis')

plt.xlabel("Petal width", fontsize=14)
plt.ylabel("Probability", fontsize=14)
plt.legend(loc="upper left", fontsize=10)
plt.show()

In [None]:
# train data에 대한 학습 모델 시각화
is_virginica_x = x_train[y_train == 1]
is_virginica_y = y_train[y_train == 1]

not_virginica_x = x_train[y_train == 0]
not_virginica_y = y_train[y_train == 0]

plot_feat = np.linspace(0, 3, 100).reshape(-1, 1)
plot_x = np.insert(plot_feat, 0, 1, axis=1)
plot_prob = model.predict(plot_x)

plt.scatter(is_virginica_x[:, 1], is_virginica_y, color='b', label='Iris-Virginica')
plt.scatter(not_virginica_x[:, 1], not_virginica_y, color='r', label='Not Iris-Virginica')

# 모델이 학습한 Probability
plt.plot(plot_feat, plot_prob, 'g-', label='Hypothesis')

plt.xlabel("Petal width", fontsize=14)
plt.ylabel("Probability", fontsize=14)
plt.legend(loc="upper left", fontsize=10)
plt.show()

In [None]:
# 평가
from sklearn.metrics import accuracy_score

y_pred = model.predict(x_test)
print('Test Accuracy: {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))

## 스팸메일 데이터에서 SKLearn과 Numerical solution 비교


In [None]:
# 데이터 준비
import os                            # 데이터 파일 경로 설정
import csv                           # 데이터 파일 로드
import numpy as np                   # numpy 행렬 조작

def Load_Spam_Dataset(filename):
    with open(filename, 'r') as f:
        csv_reader = csv.reader(f)                  # 파일 로드
        header = next(csv_reader)

        x_data = []
        y_data = []
        for line in csv_reader:
            features = line[:-1]
            x = [1] + list(map(float, features))   # x_data에 bias를 위한 1추가
            y = float(line[-1])

            x_data.append(x)
            y_data.append(y)

        x_array = np.array(x_data)
        y_array = np.array(y_data)

    return header, x_array, y_array

In [None]:
_, x_train, y_train = Load_Spam_Dataset('./Spam_train.csv')
_, x_test, y_test = Load_Spam_Dataset('./Spam_test.csv')

print(x_train.shape) # 데이터 수, feature 수
print(y_train.shape) # 데이터 수

In [None]:
# Logistic regression
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(max_iter=10000)
lr.fit(x_train, y_train)

In [None]:
# 평가
from sklearn.metrics import accuracy_score

y_pred = lr.predict(x_test)
print('Test Accuracy: {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))

In [None]:
# Numerical solution 구현 및 하이퍼파라미터 튜닝

## 유방암 데이터에서 SKLearn과 Numerical solution 비교


In [None]:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print(cancer.feature_names) # feature 이름 출력

# bias를 한번에 계산하기 위해, 1을 X에 추가해 줍니다.
import numpy as np
new_X = np.insert(cancer.data, 0, 1, axis=1)

# train, test 나눔
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(new_X, cancer.target, test_size=0.3, shuffle=True, random_state=1)

In [None]:
# Logistic regression
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(max_iter=10000)
lr.fit(x_train, y_train)


In [None]:
# 평가
from sklearn.metrics import accuracy_score

y_pred = lr.predict(x_test)
print('Test Accuracy: {:.2f}%'.format(accuracy_score(y_test, y_pred)*100))

In [None]:
# Numerical solution 구현 및 하이퍼파라미터 튜닝