## Logistic Regression
이항 로지스틱 회귀 분석은 종속변수가 0과 1이며 베르누이 분포를 따를 경우 사용

모델 산출 값은 각 데이터가 1이 될 확률이며 이진 분류를 위해서 경계값(threshold)이 필요

ex. 비 올 확률이 0.7이면 우산을 챙겨야지 → 경계값 = 0.7

모델 평가를 위해 각종 분류 관련 지표 및 AUC 활용

### 승산비 (OR, Odds Ratio)
특정 독립변수를 제외한 나머지 값을 고정하고

해당 독립변수가 1 증가 시 변화하는 승산(Odds)의 비

#### statsmodels - Logit()
로지스틱 회귀분석을 실시하는 statsmodels의 함수

endog, exog 인자에 각각 종속변수와 독립변수를 할당

산출 모델 객체의 params 어트리뷰트에 모델의 계수(coef) 저장

산출 모델 객체의 predict() 메서드로 예측값을 생산하며 이는 종속변수가 1이 될 확률

#### sklearn - LogisticRegression()
로지스틱 회귀분석을 실시하는 sklearn의 함수

(최적값을 학습할 때 많이 사용, but 통계적인 결과를 볼 때는 statsmodels 많이 사용)

fit_intercept, solver 인자로 절편 적합 여부 및 최적화 알고리즘 설정 가능

random_state 인자에 자연수 할당해 결과 고정 가능

fit() 메서드에 독립변수 및 종속변수 할당

산출 모델 객체의 coef_ 어트리뷰트에 모델의 계수 저장

산출 모델 객체의 predict_proba() 메서드로 예측값을 생산하며 두 번째 열이 종속변수가 1이 될 확률값

#### sklearn - roc_auc_score()
AUC(Area Under Curve)를 산출하는 sklearn의 함수

y_true, y_score 인자에 각각 종속변수와 예측 확률값 할당

#### sklearn - accuracy_score()
분류모델의 정확도를 산출하는 sklearn의 함수

y_pred와 y_true에 각각 예측 분류 결과와 실제 값을 할당

#### sklearn - f1_score()
#### sklearn - precision_score()
#### sklearn - recall_score()

In [2]:
import pandas as pd
import numpy as np
from statsmodels.api import Logit
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

In [3]:
df = pd.read_csv('ex/iris.csv')

df['is_setosa'] = (df['Species'] == 'setosa') + 0
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1


In [4]:
model = Logit(endog=df['is_setosa'], exog=df.iloc[:,:2]).fit()
model

Optimization terminated successfully.
         Current function value: 0.036374
         Iterations 11


<statsmodels.discrete.discrete_model.BinaryResultsWrapper at 0x2989216ae90>

In [5]:
model.summary()

0,1,2,3
Dep. Variable:,is_setosa,No. Observations:,150.0
Model:,Logit,Df Residuals:,148.0
Method:,MLE,Df Model:,1.0
Date:,"Fri, 22 Dec 2023",Pseudo R-squ.:,0.9429
Time:,02:27:30,Log-Likelihood:,-5.456
converged:,True,LL-Null:,-95.477
Covariance Type:,nonrobust,LLR p-value:,4.745e-41

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Sepal.Length,-7.5299,2.252,-3.343,0.001,-11.945,-3.115
Sepal.Width,13.1307,3.987,3.294,0.001,5.317,20.945


In [7]:
model.params
model.pvalues

Sepal.Length    0.000828
Sepal.Width     0.000989
dtype: float64

In [8]:
model.predict(df.iloc[:3,:2])

0    0.999477
1    0.923824
2    0.998678
dtype: float64

In [10]:
# LogisticRegression
model = LogisticRegression(random_state=123).fit(X=df.iloc[:,:2], y=df['is_setosa'])
model

In [16]:
pred = model.predict_proba(df.iloc[:,:2])
pred = pred[:,1]

In [17]:
from sklearn.metrics import roc_auc_score

roc_auc_score(y_true=df['is_setosa'],
              y_score = pred)

0.9999999999999999

In [18]:
accuracy_score(y_true = df['is_setosa'],
               y_pred = (pred > 0.9) + 0)

0.8333333333333334