#### 로지스틱 회귀
- 선형 모델 기반으로 분류를 해주는 모델
- 종속 변수 즉, 타겟이 범주형인 경우에 적용
- 결과를 확률로 변환해서 처리
- 종류
    * 2진 분류 : 타겟의 클래스가 2개
    * 다중 분류 : 타겟의 클래스가 3개 이상

### 데이터 준비하기

In [52]:
# 모듈 로딩
import pandas as pd

# 판다스에 지수 표기법 (과학적 표기법) 정지 설정
pd.options.display.float_format = '{:.5f}'.format

# 데이터 준비
DATA_FILE = '../Data/fish.csv'


In [53]:
## CSV ==> DataFrame

fishDF = pd.read_csv(DATA_FILE)
fishDF.head()

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961
3,Bream,363.0,29.0,33.5,12.73,4.4555
4,Bream,430.0,29.0,34.0,12.444,5.134


In [54]:
# 타겟 / 종속 변수의 클래스 수 => 7개
print(pd.unique(fishDF['Species']))

['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']


In [55]:
featureDF = fishDF[fishDF.columns[1:]].to_numpy()
# featureDF = fishDF[['Weight', 'Length', 'Diagonal', 'Height', 'Width']].to_numpy()
print(featureDF[:5])

[[242.      25.4     30.      11.52     4.02  ]
 [290.      26.3     31.2     12.48     4.3056]
 [340.      26.5     31.1     12.3778   4.6961]
 [363.      29.      33.5     12.73     4.4555]
 [430.      29.      34.      12.444    5.134 ]]


In [56]:
# 타겟 추출
targetSR = fishDF['Species'].to_numpy()
print(targetSR[:5])

['Bream' 'Bream' 'Bream' 'Bream' 'Bream']


- 학습용 데이터셋 준비 : trainDS, testDS


In [57]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(featureDF,
                                                    targetSR,
                                                    random_state = 10,
                                                    stratify = targetSR)

In [58]:
from sklearn.preprocessing import StandardScaler

# 학습용(trainDS)기반 스케일러 생성
ss = StandardScaler()
ss.fit(X_train)

# 스케일링 진행
train_scaled = ss.transform(X_train)
test_scaled = ss.transform(X_test)

- 학습 진행
    * 학습 방법 : 지도학습 > 분류
    * 알고리즘 : 로지스틱 회귀
        * 종속 변수 즉, 피쳐에 가중치 곱셈 후 합계 한 결과 >> 확률값으로 변환


In [59]:
import numpy as np
import matplotlib.pyplot as plt

# 과학적/w지수 표기법 대신 소수점 6자리까지 나타낸다.
np.set_printoptions(precision = 6, suppress = True)

# 선형식의 결과값 ==> 0.0 ~ 1.0 범위의 확률비 값을 ㅗ변환
z = np.arange(-5, 5, 0.1) # -5.0 <= ~ < 5.0
phi = 1 / (1 + np.exp(-z))

print(f'z -> {z}\n phi = {phi}')

z -> [-5.  -4.9 -4.8 -4.7 -4.6 -4.5 -4.4 -4.3 -4.2 -4.1 -4.  -3.9 -3.8 -3.7
 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.  -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3
 -2.2 -2.1 -2.  -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1.  -0.9
 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 -0.   0.1  0.2  0.3  0.4  0.5
  0.6  0.7  0.8  0.9  1.   1.1  1.2  1.3  1.4  1.5  1.6  1.7  1.8  1.9
  2.   2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9  3.   3.1  3.2  3.3
  3.4  3.5  3.6  3.7  3.8  3.9  4.   4.1  4.2  4.3  4.4  4.5  4.6  4.7
  4.8  4.9]
 phi = [0.006693 0.007392 0.008163 0.009013 0.009952 0.010987 0.012128 0.013387
 0.014774 0.016302 0.017986 0.01984  0.021881 0.024127 0.026597 0.029312
 0.032295 0.035571 0.039166 0.043107 0.047426 0.052154 0.057324 0.062973
 0.069138 0.075858 0.083173 0.091123 0.09975  0.109097 0.119203 0.130108
 0.141851 0.154465 0.167982 0.182426 0.197816 0.214165 0.231475 0.24974
 0.268941 0.28905  0.310026 0.331812 0.354344 0.377541 0.401312 0.425557
 0.450166 0.475021 0.5      0.524979 0.549

## 로지스틱 회귀로 이진 분류 수행하기

In [60]:
# Boolean Index

char_arr = np.array(['A', 'B', 'C', 'D', 'E'])
print(char_arr[[True, False, True, False, False]])

['A' 'C']


In [61]:
### 2진 분류 --> 2개 품종의 데이터셋 추출
mask = (y_train == 'Bream') | (y_train == 'Smelt')

train_bream_smelt = train_scaled[mask]
target_bream_smelt = y_train[mask]

mask = (y_test == 'Bream') | (y_test == 'Smelt')

test_bream_smelt = test_scaled[mask]
test_target_bream_smelt = y_test[mask]

- 학습 진행

In [62]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(train_bream_smelt, target_bream_smelt)

In [63]:
## 모델 파라미터
print(f'classes_ : {lr.classes_}')
print(f'n_features_in_ : {lr.n_features_in_}')
print(f'n_iter_ : {lr.n_iter_}')
print(f'coef_ : {lr.coef_}')
print(f'intercept_ : {lr.intercept_}')

classes_ : ['Bream' 'Smelt']
n_features_in_ : 5
n_iter_ : [13]
coef_ : [[-0.443163 -0.600773 -0.684162 -1.027121 -0.767243]]
intercept_ : [-2.230105]


In [65]:
### 모델의 성능 => train과 test에 대한 점수 즉, 분류의 경우 정확도
### model.score(feature, target) : 내부에서 predict() 호출 결과 예측값과 target 비교
train_score = lr.score(train_bream_smelt, target_bream_smelt)
test_score = lr.score(test_bream_smelt, test_target_bream_smelt)

print(f'train_score :  {train_score},  test_score : {test_score}')

train_score :  1.0,  test_score : 1.0


- 테스팅 진행 => predict(피쳐2D)
    * predict() : 예측 클래스 반환
    * predict_proba() : 각 클래스별 확률 값
    * decision_function() : 피쳐와 coef_ 곱셈 합계 + intercept_한 결과값


In [66]:
print(lr.predict(train_bream_smelt[:5]))

['Smelt' 'Smelt' 'Bream' 'Bream' 'Bream']


In [68]:
print(lr.classes_, lr.predict_proba(train_bream_smelt[:5]), sep = '\n')

['Bream' 'Smelt']
[[0.03185  0.96815 ]
 [0.070079 0.929921]
 [0.999494 0.000506]
 [0.934717 0.065283]
 [0.994045 0.005955]]


In [70]:
fishDF.columns

Index(['Species', 'Weight', 'Length', 'Diagonal', 'Height', 'Width'], dtype='object')

In [71]:
# y = 'Weight' * coef_[0] + 'Length' * coef_[1] + 'Diagonal' * coef_[2] + 'Height' * coef_[3] + 'Width' * coef_[4] + i
decisions = lr.decision_function(train_bream_smelt[:5])
print(decisions)

[ 3.414347  2.585481 -7.588453 -2.66151  -5.117616]


In [74]:
# 선형식 결과값 ==> 확률 변환, 클래스가 1인 것에 대한 확률 계산

from scipy.special import expit
print(expit(decisions))
print(lr.predict_proba(train_bream_smelt[:5]))
print(lr.predict(train_bream_smelt[:5]))

[0.96815  0.929921 0.000506 0.065283 0.005955]
[[0.03185  0.96815 ]
 [0.070079 0.929921]
 [0.999494 0.000506]
 [0.934717 0.065283]
 [0.994045 0.005955]]
['Smelt' 'Smelt' 'Bream' 'Bream' 'Bream']
