### 목표 : 선형 모델기반의 분류 모델 구현
- 데이터 : sklearn.datasets의 iris
- 피 쳐 : 2개
- 타 겟 : 3개
- 분류 모델 : LogisticRegression

(1) 모듈 로딩 & 데이터 준비<hr>

In [46]:
from sklearn.datasets import load_iris
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [47]:
# 데이터 로딩 => Burnch 타입으로 dict와 유사한 scikit-learn 클래스
data = load_iris() # return_X_y = True -> data만 받아옴   # as_frame = True -> DF형태로 받아옴
print(data.keys())
# 데이터 확인
print(data.feature_names)

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [48]:
data = load_iris(as_frame=True)

# 2가지 품종과 타겟
featureDF = data.data[:100]
targetSR = data.target[:100]

featureDF.shape,targetSR.shape

((100, 4), (100,))

(2) 모델 학습 진행 <hr>

In [49]:
# 모듈 로딩
from sklearn.linear_model import LogisticRegression

In [50]:
# 모델 인스턴스 생성
model = LogisticRegression(max_iter=1000) # 오류나서 max_iter 증가
model.fit(featureDF, targetSR)

In [51]:
# 학습 후 결정된 모델 파라미터 확인
print(model.classes_)  # target 값
print(model.feature_names_in_)  # feature name
print(model.n_iter_)  # 학습 횟수
# 타겟 종류가 3개니까 타겟마다 수식 생성 - 수식 3개 생성(가중치 : 3행 4열, 절편 : 3개)
# 모델 생성 개수 : (3 * 2) / 2 = 3개
# Setosa vs Vers
# 타겟 종류가 2개면 수식 하나만 생성 -> 2진분류(1, 0 분류)
print(model.coef_)  # 각 피쳐의 가중치
print(model.intercept_)  # 절편(Bias)

[0 1]
['sepal length (cm)' 'sepal width (cm)' 'petal length (cm)'
 'petal width (cm)']
[23]
[[ 0.44036482 -0.90696813  2.30849566  0.96232763]]
[-6.61165119]


In [52]:
model.score(featureDF, targetSR)

1.0

In [53]:
model.predict(featureDF.iloc[[1]])  # Setosa

array([0])

In [55]:
model.predict(featureDF.iloc[[-1]])  # Virginica

array([1])

In [58]:
# 각 분류 클래스에 대한 확률값
np.round(model.predict_proba(featureDF.iloc[[-1]]) ,3)

array([[0.017, 0.983]])

In [59]:
# 각 분류기의 선형식에서 계산한 값
model.decision_function(featureDF.iloc[[-1]])

array([4.07477562])