# Chapter09 Logistic Regression
데이터 과학을 위한 파이썬 머신러닝

- <a href="#09.1로지스틱회귀란">09.1 로지스틱 회귀란</a>
- <a href="#09.2분류문제의성능지표">09.2 분류 문제의 성능지표</a>
- <a href="#09.3로지스틱회귀구현하기">09.3 로지스틱 회귀 구현하기</a>

[참고] TeX 기호: https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:TeX_%EB%AC%B8%EB%B2%95

------------------

## <a name="09.1로지스틱회귀란">09.1 로지스틱 회귀란</a>

### 1. 로지스틱 회귀의 개념 
- **이진 분류(binary classification) 문제를 확률로 표현**
- 어떤 사건이 일어날 확률을 P(X)로 나타내고 일어나지 않을 확률을 1 - P(x)로 나타냄 $(0 ≤ P(X) ≤ 1)$
- **오즈비(odds ratio: 승산비)** : 어떤 사건이 일어날 확률과 일어나지 않을 확률의 비율<br>
${P(X) \over 1-P(X)}$ <br>
- **로짓(logit) 함수** : 오즈비에 상용로그를 붙인 수식<br>
$logit(P) = ln({P(X) \over 1-P(X)})$ =  $\log_{e}({P(X) \over 1-P(X)}) = -log_{e}({1 \over p} -1)$ <br> $f(z) = y = -log_{e}({1 \over z} -1) = {1 \over 1 + e^{-z}}$ <br>
- **로지스틱 함수(logistic function)** : 로짓 함수의 역함수<br>
그래프가 S자 커브 형태인 **시그모이드 함수**(sigmoid function)<br>
- **로지스틱 회귀(Logistic Regression)** : 종속변수가 이분형일 때 수행할 수 있는, 예측 분석을 위한 회귀분석 기법 <br>
$\log_{e}({P \over 1-P}) = z = w_{0}x_{0}+w_{1}x_{1}+...+w_{n}x_{n}$

### 2. 로지스틱 회귀의 기본 함수

#### 2.1 가설함수(hypothesis function)
- $h_{0}(x) = g(z) = {1 \over 1 + e^{-z}}$  --> **시그모이드 함수식**<br> 
- z는 가중치 값과 피쳐 값의 선형 결합
- 가중치 값을 찾는 학습을 위해 경사하강법 알고리즘 사용<br>
$z = w_{0}x_{0}+w_{1}x_{1}+...+w_{n}x_{n}=\theta^{T}X$ = $w^T{x} $  --> **선형 판별식**

#### 2.2 비용함수
- 먼저 비용함수를 정의하고 예측값과 실제값 간의 차이를 최소화하는 방향으로 학습
- 실제값이 1일 때와 실제값이 0일 때 각각 다르게 비용함수를 정의<br>
$Cost(h_{0}(x), y) = -log(h_{0}(x))$   &nbsp;&nbsp;$if$  $y=1 $, <br> 
&nbsp;&nbsp;&nbsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&nbsp;&nbsp;&nbsp;= $-log(1-h_{0}(x))$  $if$  $y=0$ <br>
- 두 경우의 비용함수를 하나로 통합<br>
$J(\theta) = {1 \over m}\sum_{i=1}^m Cost(h_{0}(x^{i}), y^{i})$ <br>
&nbsp;&nbsp;&nbsp;&nbsp;= $-{1 \over m}\sum_{i=1}^m [y^{i}logh_{0}(x^{i}) + (1-y^{i})log(1-h_{0}(x^{i}))] $

#### 2.3 비용함수의 미분과 가중치 업데이트
- θ의 최적값을 구하기 위해 J값을 θ에 대해 미분(θ는 z값 안에 있는,$w_j$의 집합)<br>
$\partial \over \partial \theta_j$$J(\theta) = {1 \over m}\sum_{i=1}^m (h_{0}(x^{i}) - y^{i})x_j{^i} $
- 가중치 값을 업데이트<br>
$\theta_j = \theta_j - \alpha{\partial \over \partial \theta}J(\theta)$ <br>
&nbsp;&nbsp;&nbsp;$= \theta_j - \alpha{\sum_{i=1}^m (h_{0}(x^{i}) - y^{i})x_j{^i}}$

---------

## <a name="09.2분류문제의성능지표">09.2 분류 문제의 성능지표</a>

### 1. 분류 문제에 있어서 성능지표의 필요성

#### 모델을 평가하는 성능지표들

| 구분 |성능지표 | 
|:------|:---|
| 회귀(regression)| MAE, MSE, RMSE, SSE| 
| 분류(classification) | 정확도, 정밀도, 민감도, F1 스코어, ROC 커브, 리프트 차트|
| 클러스터링(clustering)|DBI, 엘보우 메서드, 실루엣계수|

#### 모델의 성능지표 선택 고려사항
- 모델이 다른 모델보다 경제적으로 나은가?
- 모델이 사용하는 데이터가 많은가? 또는 적은가?
- 모델이 용량이 작은 컴퓨터에서도 작동하는가?
- 모델의 손해가 얼마나 나는가?
<br>등등

### 2. 혼동행렬(혼돈행렬)

#### 혼동행렬(confusion matrix): 
예측값이 실제값 대비 얼마나 잘 맞는지 2×2 행렬로 표현
- 일반적으로 질문의 ‘예’에 해당하는 값은 True 또는 1, 
- ‘아니오’에 해당하는 값은 False 또는 0

![fig9-6.jpg](https://github.com/Joyschool/gachon-ml/blob/main/image/fig9-6.jpg?raw=true)

#### 실제값과 예측값의 조합으로 발생 가능한 4가지 경우
- True Positive(TP) : 예측값과 실제값이 모두 1로 동일할 때, 즉 모델의 예측값이 정답이고 예측 대상이 1일 때
- True Negative(TN) : 예측값과 실제값이 모두 0으로 동일할 때, 즉 모델의 예측값이 정답이고 예측 대상이 0일 때
- False Negative(FN) : 실제값은 1이지만 예측값이 0으로, 모델의 예측값이 오답이고 예측값이 0을 예측할 때
- False Positive(FP) : 실제값은 0이지만 예측값이 1로, 모델의 예측값이 오답이고 예측값이 1을 예측할 때

#### 사이킷런으로 혼동행렬표 나타내기

In [None]:
from sklearn.metrics import confusion_matrix
y_true = [1, 0, 1, 1, 0, 1]    # 실제값
y_pred = [0, 0, 1, 1, 0, 1]    # 예측값
confusion_matrix(y_true, y_pred) 

In [None]:
tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()  # flatten()
(tn, fp, fn, tp)

### 3. 혼동행렬표를 사용한 지표

#### 3.1 정확도
- **정확도(accuracy)** : 전체 데이터 개수 대비 정답을 맞춘 데이터의 개수<br>
<br>$Accuracy = { {TP + TN} \over {TP+TN+FP+FN}}$


![fig9-7.jpg](https://github.com/Joyschool/gachon-ml/blob/main/image/fig9-7.jpg?raw=true)

#### 사이킷런으로 정확도 구하기

In [None]:
import numpy as np
from sklearn.metrics import accuracy_score

y_pred = np.array([0, 1, 1, 0])
y_true = np.array([0, 1, 0, 0])

sum(y_true == y_pred) / len(y_true) 

In [None]:
accuracy_score(y_true, y_pred)

#### 3.2 정밀도, 민감도, F1 스코어
- **정밀도와 민감도는 불균일한 데이터셋을 다룰 때 유용** <br>
데이터에서 1과 0의 비율이 7:3 또는 3:7 이상 차이나는 상태
- **정밀도(precision)** : 모델이 1이라고 예측했을 때 얼마나 잘 맞을지에 대한 비율<br>
<br>$PRECISION(PPV) = { TP \over {TP + FP}}$
    


![fig9-8.jpg](https://github.com/Joyschool/gachon-ml/blob/main/image/fig9-8.jpg?raw=true)

- **민감도(recall)** : 실제 1인 값을 가진 데이터를 모델이 얼마나 1이라고 잘 예측했는지에 대한 비율(반환율 또는 재현율이라고도 부름)<br>
<br>$RECALL(TPR) = { TP \over {TP + FN}}$

- **F1 스코어(F1 score)** : 정밀도와 민감도의 조화평균 값<br>
<br>$F_1 = 2$ x ${{precision x recall} \over {precision + recall}}$

#### 사이킷런으로 정밀도, 민감도, F1 스코어 구하기

In [None]:
import numpy as np
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

y_pred = np.array([0, 1, 1, 0, 1, 1, 1, 0])
y_true = np.array([0, 1, 0, 0, 0, 0, 1, 1])

precision_score(y_true, y_pred) # 정밀도

In [None]:
recall_score(y_true, y_pred)    # 민감도

In [None]:
f1_score(y_true, y_pred)        # F1 스코어

In [None]:
# 정밀도, 민감도, F1-score 한꺼번에 출력하기
from sklearn.metrics import classification_report

print(classification_report(y_true, y_pred))
# macro average : 라벨별 산술평균한 것
# weighted average : 라벨별 샘플 수(support)의 비중에 따라 가중평균한 것

------------

## <a name="09.3로지스틱회귀구현하기">09.3 로지스틱 회귀 구현하기</a>

### 1. 로지스틱 회귀 구현을 위한 함수

#### 1.1 시그모이드 함수
- $h_{0}(x) = g(z) = {1 \over 1 + e^{-z}}$ <br>

In [None]:
def sigmoid(z):
    return 1 / (1 + np.exp(z))

#### 1.2 가설함수
시그모이드 함수의 z 값은 실제로는 가중치와 피쳐의 선형 결합이므로 피쳐 값들을 x 벡터로, 가중치 값들은 θ로 입력해줌
- $z = w_{0}x_{0}+w_{1}x_{1}+...+w_{n}x_{n}=\theta^{T}X$
<br>
- $h_{0}(x) = g(z) = {1 \over 1 + e^{-{\theta^{T}X}}}$ 

In [None]:
def hypothesis_function(x, theta):
    z = (np.dot(-x,theta))  # 행렬곱
    return sigmoid(z)

#### 1.3 비용함수

$J(\theta) = {1 \over m}\sum_{i=1}^m Cost(h_{0}(x^{i}), y^{i})$ <br>
&nbsp;&nbsp;&nbsp;&nbsp;= $-{1 \over m}\sum_{i=1}^m [y^{i}logh_{0}(x^{i}) + (1-y^{i})log(1-h_{0}(x^{i}))] $

In [None]:
def compute_cost(x, y, theta):
    m = y.shape[0]
    J = (-1.0 / m) * (
        y.T.dot(np.log(hypothesis_function(x,theta))) + \
        (1-y).T.dot(np.log(1- hypothesis_function(x,theta))))
 
    return J

#### 1.4 경사하강법 : 가중치 업데이트

$\theta_j := \theta_j - \alpha{\sum_{i=1}^m (h_{0}(x^{i}) - y^{i})x_j{^i}}$

In [None]:
def minimize_gradient(x, y, theta, iterations=100000, alpha=0.01):
    m = y.size
    cost_history = []
    theta_history = []
  
    for _ in range(iterations):
        original_theta = theta
        for i in range(theta.size):
            partial_marginal = x[:, i].reshape(x.shape[0], 1)
            delta = hypothesis_function(x, original_theta) - y
            grad_i = delta.T.dot(partial_marginal)
            theta[i] = theta[i] - (alpha * grad_i)  # 경사하강법
 
        if (_ % 100) == 0:
            theta_history.append(theta)
            cost_history.append(compute_cost(x, y, theta))
    return theta, np.array(cost_history),np.array(theta_history)


### 2.사이킷런을 사용하여 학습하기

#### 2.1 데이터셋 준비
- dataset :  uva.txt 인터넷 사용자가 뉴비(newbie:초보자,풋내기)인지 아닌지 구별하는 와튼대학교 테이블

In [None]:
import pandas as pd
data_url= "http://www-stat.wharton.upenn.edu/~waterman/DataSets/uva.txt"
df = pd.read_table(data_url)
# data= "./data/uva.tx"
# df = pd.read_table(data_url)
df[:5]

#### 2.2 데이터 전처리
- 필요없는 데이터 삭제

In [None]:
df.pop('who') 
df.pop('Country')
df.pop('Years on Internet')

df.dtypes

- 데이터 타입 변환하고 결측값 확인하여 채우기

In [None]:
category_cols = ["Gender", 'Household Income', 
                 'Sexual Preference', 
                 'Education Attainment', 
                 'Major Occupation', "Marital Status"]

for col in category_cols: # 원핫인코딩 형태로 변경하기 위해 데이터 타입 변환
    df[col] = df[col].astype('category')
    
df.info()

In [None]:
# 원핫인코딩 형태로 변환
df_onehot = pd.get_dummies(df)
df_onehot.shape   

In [None]:
# 결측값 확인
df_onehot.isnull().sum()

In [None]:
# (Age)결측값 평균값으로 채우기
df_onehot.loc[pd.isnull(df_onehot['Age']), "Age"] = df_onehot['Age'].mean()
df_onehot.isnull().sum()

#### 2.3 데이터 분리

In [None]:
# 독립변수, 종속변수 분리: x, y 데이터로 나눈다.
x_data = df_onehot.iloc[:, 1:].values
y_data = df_onehot.iloc[:, 0].values.reshape(-1, 1)   # newbie컬럼 2차원 데이터로 만들기
y_data.shape, x_data.shape

In [None]:
# 피쳐 스케일링: x데이터(독립변수) 전체에 대해 실시
from sklearn import preprocessing # Min-Max Standardzation

min_max_scaler = preprocessing.MinMaxScaler()
x_data = min_max_scaler.fit_transform(x_data)

In [None]:
# 학습데이터와 테스테이터로 분리하기
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
      x_data, y_data, test_size=0.33, random_state=42)

X_train.shape, X_test.shape

##### 참고(LogisticRegression) : https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

LogisticRegression(penalty, dual, tol, C, fit_intercept, intercept_scaling, class_weight, random_state, solver, max_iter, multi_class, verbose, warm_start, n_jobs, l1_ratio)

- penalty : 규제에 사용 된 기준을 지정 (l1, l2, elasticnet, none)
- default : l2
- dual : 이중 또는 초기 공식
- tol : 정밀도
- C : 규제 강도
- fit_intercept : 모형에 상수항 (절편)이 있는가 없는가를 결정하는 인수 (default : True)
- intercept_scaling : 정규화 효과 정도
- class_weight : 클래스의 가중치
- random_state : 난수 seed 설정
- solver : 최적화 문제에 사용하는 알고리즘
- max_iter : 계산에 사용할 작업 수
- multi_class : 다중 분류 시에 (ovr, multinomial, auto)로 설정
- verbose : 동작 과정에 대한 출력 메시지
- warm_start : 이전 모델을 초기화로 적합하게 사용할 것인지 여부
- n_jobs : 병렬 처리 할 때 사용되는 CPU 코어 수
- l1_ratio : L1 규제의 비율(Elastic-Net 믹싱 파라미터 경우에만 사용)

In [None]:
# 학습 모델 생성하기 : LogisticRegression 
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression(fit_intercept=True)
logreg.fit(X_train, y_train.flatten())

In [None]:
# 다양한 매개변수 설정 방법
LogisticRegression(C=1.0, class_weight=None, 
                   dual=False, fit_intercept=True, 
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2', 
                   random_state=None, solver='warn', tol=0.0001, 
                   verbose=0, warm_start=False)

#### 2.4 값 예측하기와 성능 측정하기

In [None]:
# X_test데이터 값 예측하기
logreg.predict(X_test[:5])

In [None]:
# X_test데이터 값 예측 확률 구하기 : [P(0), P(1)]
logreg.predict_proba(X_test[:5])

In [None]:
# 성능측정지표
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

y_true = y_test.copy()
y_pred = logreg.predict(X_test)
cm = confusion_matrix(y_true, y_pred)  # 혼돈 매트릭스
cm

In [None]:
tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()  # flatten()
(tn, fp, fn, tp)

In [None]:
accuracy_score(y_true, y_pred)  # 정확도

In [None]:
# 정밀도, 민감도, F1 스코어
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

print(f"정밀도: {precision_score(y_true, y_pred)}") # 정밀도
print(f"민감도: {recall_score(y_true, y_pred)}")    # 민감도
print(f"F1 스코어: {f1_score(y_true, y_pred)}")     # F1 스코어

In [None]:
# 정밀도, 민감도, F1-score 한꺼번에 출력하기
from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay
labels ='0','1'
ConfusionMatrixDisplay(cm, display_labels=labels).plot(cmap='Blues')

------------------

THE END