# 회귀(Regression)

회귀분석은 분석 방법중 하나로 여러 데이터를 기반으로 연속형 변수의 관계를 모델링하고 이의 적합도를 측정하는 방식이다.   

예를들어 부모의 키와 자식 키의 관계인데, 상호간 관련성을 갖고 있는 독립변수(independent variable; 혹은 설명 변수 explanatory variable)와 종속변수(dependent variable; 혹은 반응 변수 response variable)로 말할 수 있다.   

부모의 키를 독립변수로 보면 자식의 키는 부모의 키에 비례하는 종속변수로 볼 수 있을까?   
![](https://www.biostat.jhsph.edu/courses/bio653/misc/Regr_FigA2.gif)   
Galton이 분석한 데이터이다. 아버지의 키 $x$와 자식의 키 $y$의 사이에 기울기가 1보다 작아 아버지의 키와 무관하게 자식의 키는 평균에 수렴하는 것을 보게 됐다. 이는 평균으로 회귀(regression)하는 개념이다. 그리고 이 그래프는 선형 회귀분석(Linear Regression)이라고 한다   

오늘날 회귀분석은 두 개 이상의 변수 사이에 있는 함수 관계를 보는 통계적 방법을 의미한다. 간단하면서 실생활에 적용되는 경우가 많아 어느정도 틀만 맞으면 회귀 분석으로 문제를 해결할 만큼 보편적이다. 이 틀은 1) 선형성, 2) 독립성, 3) 등분산성, 4) 정규성 4가지의 조건을 본다.   
[선형 회귀분석 기본가정](https://kkokkilkon.tistory.com/175)   

지도학습은 대부분 데이터 $X$에 대한 정답 $y$가 주어지는 형태였는데, 크게 분류(classification), 회귀(regression) 문제로 나뉜다.
- 분류: 데이터 x의 여러 feature 값들을 통해 클래스 y를 추론
- 회귀: 데이터 x의 여러 feature 값들을 통해 연관된 다른 데이터 y의 정확한 값 추론   
분류는 확률을 출력하고 회귀는 종속변수 값을 출력되는 형태이다.

# 선형 회귀 분석(Linear Regression)

종속변수 Y와 한개 이상의 독립변수 X와의 상관관계를 선형으로 모델링하는 회귀 분석 기법이다.   
하나의 독립변수 그리고 둘 이상의 종속변수를 갖고 있으면 다중 선형회귀라고 한다.   

- 선형회귀모델 표기법 in 머신러닝   
$H = Wx + b$   
H는 가정(Hypothesis), W는 가중치(Weight), b는 편향(bias)이다. 주어진 데이터로 W, b의 값을 구하기 위해서 머신러닝, 딥러닝으로 학습한다. 이들은 스칼라 값이 아닌 고차원의 행렬(matrix) 형태로 이쓴 경우가 많고 개수가 많을수록 모델의 크기가 커지고 학습도 어렵다.

잔차(Residuals)란 __회귀모델을 이용해 추정한 값과 실제 데이터의 차이__ 를 말한다. 예를들어 `(2,8)` 이라는 데이터와 선형 회귀모델의 식이 `y=2x+3`일때 잔차 값은 8(실제 y값)-7(실제 데이터의 x값을 모델에 넣었을 때 추론된 y값) = 1이 된다.   
최소제곱법은 이런 잔차를 이용해서 회귀모델을 찾는 대표적인 방법중 하나다. n개의 점 데이터에 대해서 잔차의 제곱의 합을 최소로 하는 W,b를 구하는 방법이다.   
실제 코드로 Boston dataset의 attribute에 선형 회귀 모델을 구해보고 결정계수를 확인해보자.

In [None]:
from sklearn.datasets import load_boston
from sklearn import model_selection
import pandas as pd
import numpy as np

# 데이터 로드
boston = load_boston()
data, price = boston['data'], boston['target']
x_train, x_test, y_train, y_test = model_selection.train_test_split(data, price, test_size=0.2, random_state=5)

df = pd.DataFrame(x_train, columns=boston['feature_names'])
print("boston dataset의 차원: ", data.shape)
print("price의 차원", price.shape)
print("boston train dataset의 차원: ", x_train.shape)
print("boston test dataset의 차원: ", x_test.shape)

print("Boston dataset의 예시")
print(data.shape)
df.head()

506 row, 13가지 attribute(features)로 구성되어 있다.

In [None]:
# features에 대한 설명을 볼 수 있다.
print(boston["DESCR"]) 

In [1]:
# 각 features에 선형회귀 적용해보기
import pandas as pd
from sklearn import datasets
from sklearn import model_selection
from sklearn.linear_model import LinearRegression
from sklearn import metrics
from sklearn import datasets
import matplotlib.pyplot as plt

fig = plt.figure(figsize=(10,35))
fig.suptitle('Boston dataset - (X:Y = each attr: price) with R2', fontsize=16, y=0.9)

for i in range(data.shape[1]):
    single_attr, attr_name = data[:, i].reshape(-1, 1), boston['feature_names'][i] # i번째 features에 대한 data 및 이름
    estimator = LinearRegression() # 선형 회귀 모델

    # x에 single_attr, y에 price에 해당하는 데이터를 대입해서 최소제곱법을 이용하여 모델 내 W, b를 구하기
    estimator.fit(single_attr, price) 

    # 위 fit() 과정을 통해 구한 회귀계수를 기반으로 회귀모델에 X값을 대입했을 때의 예측 Y 값
    pred_price = estimator.predict(single_attr)

    score = metrics.r2_score(price, pred_price) # 결정계수를 구하는 함수

    # 캔버스 생성
    ax = fig.add_subplot(7, 2, i+1)
    ax.scatter(single_attr, price) # 실제 데이터에 대한 산포도
    ax.plot(single_attr, pred_price, color='red') # 선형회귀모델의 추세선
    ax.set_title("{} x price, R2 score={:.3f}".format(attr_name ,score))
    ax.set_xlabel(attr_name) # x축
    ax.set_ylabel('price') # y축

NameError: name 'data' is not defined

<Figure size 720x2520 with 0 Axes>

R2 score가 높은 편인 LSTAT, RM의 두 데이터가 회귀선을 따라서 잘 모여있는 것을 확인할 수 있다.
여기서 R2 score는 회귀모델이 잘 결정되었는지 확인할때 참고하는 지표로 결정계수(R-squared, R2 score 등)라고 한다.

### 경사하강법
회귀모델에서 주어진 데이터의 손실함수를 최소화 하는 $W$와 $b$를 구하는것이 핵심이다. 그래서 머신러닝에서는 손실함수의 gradient(미분값)가 최소가 되는 지점이 손실함수의 최소 지점이라고 가정한다.
![](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FNc7Ho%2FbtqBLHKc17S%2FuYR1YABBefaW0FzXc7G0S1%2Fimg.png)
$J(W)$의 최소의 가중치 값을 구하기 위해 시각적으로 표현한 경사하강법 사진이다. 경사하강법에서 learning rate의 값이 커질수록 빠른 수렴을 하지만, 최적의 W값을 뛰어 넘는 경우가 생겨 수렴하지 못할 경우를 유의하자.

# 로지스틱 회귀분석(Logistic Regression)

로지스틱 회귀분석이란 데이터가 어떤 범수에 속할 확률을 0~1 사이의 값으로 예측하고 더 높은 확률로 분류해주는 지도 학습 알고리즘이다. 이진 분류(binary classfication) 문제를 풀 때 많이 사용한다.
> 1. 실제 데이터를 대입해서 Odds 및 회귀계수를 구한다.   
2. Log-odds를 계산하고 sigmoid function를 넣어서 특정 범주에 속할 확률 값을 구한다.   
3. 설정한 threshold에 맞춰 설정값 이상이면 1, 이하면 0으로 이진 분류를 한다.   

유방암 데이터셋을 이용해서 로지스틱 회귀분석으로 적합한 이진 분류를 해보자.

In [None]:
# 로지스틱 회귀분석 예제: 유방암 데이터셋
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer=load_breast_cancer()

# y = 0(Malignant - 악성 종양), y=1(Benign - 양성 종양)
cancer_X, cancer_y= cancer.data, cancer['target']
train_X, test_X, train_y, test_y = train_test_split(cancer_X, cancer_y, test_size=0.1, random_state=10) # train 데이터셋과 test 데이터셋으로 나눔
print("전체 검사자 수: {}".format(len(cancer_X)))
print("Attribute 수: {}".format(len(cancer_X[0])))
print("Train dataset에 사용되는 검사자 수: {}".format(len(train_X)))
print("Test dataset에 사용되는 검사자 수: {}".format(len(test_X)))
cancer_df = pd.DataFrame(cancer_X, columns=cancer['feature_names'])
cancer_df.head()

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

LR = LogisticRegression() #로지스틱 회귀분석
LR.fit(train_X, train_y) # 유방암 train data를 이용하여 로지스틱 회귀분석 모델 학습
pred = LR.predict(test_X) # 학습된 로지스틱 회귀분석 모델을 이용한 예측값 출력


# 로지스틱 회귀분석 모델의 예측값과 실제값 비교결과를 나타낸 통계표
print(classification_report(test_y, pred))

# Softmax, Cross Entropy

### Softmax   
위에서는 로지스틱 회귀로 이진 분류를 했는데 여러 범주로 분류하는 다중 로지스틱 회귀(Multinomial Logistic Regression)으로 확장될 수 있다. 그래서 sigmoid는 다중 분류하는 softmax로 확장되어야 한다.   
softmax도 0~1 사이의 값으로 확률 값이 정해지는데 모든 범주에 해당하는 softmax 값을 다 더했을 때 1이 되고, 큰 log-odds와 작은 log-odds의 차이를 극대화해서 어떤 범주에 분류되는지 확실히 알 수 있게 된다. 그리고 one-hot encoding을 통해 표현한다.

### Cross Entropy

softmax 함수의 손실 함수로 쓰인다.   
$H(p,q)=-\displaystyle\sum_{x}p(x)logq(x)$   
가중치가 최적화 될 수록 $H(p,q)$ 값이 감소한다. 그리고 $p(x)$는 실제 데이터 범주 값, $q(x)$는 softmax의 결과값을 대입한다.   

선형회귀와 어떤 부분이 다를까?   
선형회귀에서 손실함수는 잔차(residual)의 제곱의 합이다. 로지스틱 회귀에서는 종속변수 방향이 확률변수 방향이다.   

유방암 데이터셋을 이용해서 softmax, cross entropy 예제를 확인해보자.

In [2]:
import tensorflow as tf
from tensorflow import keras

# 데이터 로드는 선형 회귀분석에 있는 코드 블럭 참고
n_dense=30
n_train_epoch=20
num_classes = 2 # 악성, 양성

model=keras.models.Sequential()

#레이어 3장
model.add(keras.layers.Dense(n_dense, input_shape=(30,), use_bias=True))
model.add(keras.layers.Dense(n_dense,  use_bias=True))
model.add(keras.layers.Dense(n_dense,  use_bias=True))

model.add(keras.layers.Dense(num_classes, use_bias=True, activation='softmax'))

model.summary()
model.compile(optimizer='adam',
             loss='sparse_categorical_crossentropy',
             metrics=['accuracy'])

# 모델 훈련
model.fit(train_X, train_y, epochs=n_train_epoch)

# 모델 시험
test_loss, test_accuracy = model.evaluate(test_X, test_y, verbose=1)
print("test_loss: {} ".format(test_loss))
print("test_accuracy: {}".format(test_accuracy))

KeyboardInterrupt: 

||선형 회귀분석|로지스틱 회귀분석|다중 로지스틱 회귀분석|
|---|---|---|---|
|문제 유형|종속변수가 연속형, 독립 변수의 변화에 따라 종속변수 값 추정| 종속변수 범주가 2개(이진 분류), 범주별 확률을 추정해서 최대확률 범주 결정하는 분류 모델| 종속변수의 범주가 여러 개|
|쓰이는 함수, 변수|최소제곱법 많이 사용|logits(=log-odds), sigmoid 함수|cross entropy 함수, softmax 함수|
|손실함수|최소제곱법 많이 사용|cross entropy(class가 2개)|cross entropy|