<a href="https://colab.research.google.com/github/ttury/Do_It_For_Deep-Learning/blob/main/Logistic_Regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# data set prepare

from sklearn.datasets import load_breast_cancer
import matplotlib.pyplot as plt
import numpy as np

cancer = load_breast_cancer()
print(cancer.data.shape, cancer.target.shape) # 569개의 샘플, 30개의 특성
print()
print(cancer.data[:3])
print()

In [None]:
# checking feature by box plot

plt.boxplot(cancer.data) # 박스플롯 그래프(중앙값으로부터 벗어난 정도)
plt.xlabel('feature')
plt.ylabel('value')
plt.show()
print()

print(cancer.feature_names[[3, 13, 23]]) # 분포가 큰 특성 살피기
print(np.unique(cancer.target, return_counts = True)) # 타겟 데이터의 양성/음성 개수

In [None]:
# spliting training data

from sklearn.model_selection import train_test_split

x = cancer.data
y = cancer.target

x_train, x_test, y_train, y_test = train_test_split(x, y, stratify=y, test_size=0.2, random_state=42) # 훈련 데이터 세트 나누기, stratify는 클래스 비율이 불균형한 경우에 사용
print(x_train.shape, x_test.shape) # 1:4 비율
print()

In [None]:
# ndarray

a = np.array([1, 2, 3])
b = np.array([3, 4, 5])

print(a + b)
print(a * b)
print(np.sum(a * b))
print()

print(np.zeros(5))
print(np.ones((3, 4))) # 다차원 배열을 만들 때는 튜플 사용
print(np.full((5, 5), 7))

In [None]:
class LogisticNeuron:

  def __init__(self):
    self.w = None
    self.b = None

  def forpass(self, x_i):
    z = np.sum(self.w * x_i) + self.b # 하나의 값
    return z

  def backprop(self, x_i, err):
    w_grad = x_i * err # 30차원 벡터
    b_grad = 1 * err # 하나의 값
    return w_grad, b_grad

  def activation(self, z):
    z = np.clip(z, -100, None)
    a = 1 / (1 + np.exp(-z)) # 시그모이드 계산
    return a

  def fit(self, x, y, epochs=100):
    self.w = np.ones(x.shape[1]) # 30차원(특성 개수) 벡터를 가중치로 설정
    self.b = 0
    for _ in range(epochs):
      for x_i, y_i in zip(x, y):
        z = self.forpass(x_i) # 정방향 계산
        a = self.activation(z) # 활성화 함수 적용
        err = -(y_i - a) # 오차 계산
        w_grad, b_grad = self.backprop(x_i, err) # 역방향 계산
        self.w -= w_grad # 30차원 벡터끼리 연산
        self.b -= b_grad # 단일 수끼리 연산
    
  def predict(self, x):
    z = [self.forpass(x_i) for x_i in x] # 569(샘플 수)차원 벡터
    a = self.activation(np.array(z)) # 569차원 벡터
    return a > 0.5 # 1 또는 0 반환

neuron = LogisticNeuron()
neuron.fit(x_train, y_train)

print(np.mean(neuron.predict(x_test) == y_test)) # accuracy

In [None]:
from sklearn.linear_model import SGDClassifier

sgd = SGDClassifier(loss = 'log', max_iter = 100, tol = 1e-3, random_state = 42)
'''
loss : 손실 함수 설정, log는 로지스틱 손실 함수
tol : 에포크마다 tol에 지정한 값만큼 손실 함수가 감소되지 않으면 반복 종료
max_iter : 반복 횟수, 에포크 개수
'''

sgd.fit(x_train, y_train)
print(sgd.score(x_test, y_test))
print(sgd.predict(x_test[0:10])) # 입력 데이터로 2차원 배열만 받아들임