### 목표 : 선형 모델기반의 분류 모델 구현
- 데이터 : sklearn.datasets의 iris
- 피쳐 : 2개
- 타겟 : 3개

(1) 모듈 로딩 & 데이터 준비 <hr>

In [1]:
# 모듈 로딩
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

In [2]:
# 데이터 로딩 => Bunch 타입으로 dict와 유사한 scikit-lean 클래스
dataXy = load_iris(return_X_y=True)

print(type(dataXy), len(dataXy), type(dataXy[0]))

<class 'tuple'> 2 <class 'numpy.ndarray'>


In [3]:
# 데이터와 타겟을 DataFrame 형식으로 로딩
dataXy = load_iris(as_frame=True, return_X_y=True)

print(type(dataXy), len(dataXy), dataXy)

<class 'tuple'> 2 (     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                  5.1               3.5                1.4               0.2
1                  4.9               3.0                1.4               0.2
2                  4.7               3.2                1.3               0.2
3                  4.6               3.1                1.5               0.2
4                  5.0               3.6                1.4               0.2
..                 ...               ...                ...               ...
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9               3.0                5.1               1.8

[150 rows x 4 columns], 0      0
1      0
2 

In [4]:
data=load_iris(as_frame=True)

print(data.keys(), data['data'], sep='\n')

# 2가지 품종 피쳐와 타겟
featerDF = data['data'][:100]
targetDF = data['target'][:100]

print(featerDF.shape, targetDF.shape)

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                  5.1               3.5                1.4               0.2
1                  4.9               3.0                1.4               0.2
2                  4.7               3.2                1.3               0.2
3                  4.6               3.1                1.5               0.2
4                  5.0               3.6                1.4               0.2
..                 ...               ...                ...               ...
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9            

(2) 모델 학습 진행 <hr>

In [5]:
# 모듈 로딩
from sklearn.linear_model import LogisticRegression

In [6]:
# 모델 인스턴스 생성
model=LogisticRegression(max_iter=1000)
model.fit(featerDF, targetDF)

In [7]:
# 학습 후 결정된 모델 파라미터 확인
print('classes_: ', model.classes_)
print('feature_names_in_ : ', model.feature_names_in_)
print('n_iter_: ', model.n_iter_)
print('coef_: ', model.coef_)
print('intercept_: ', model.intercept_)

classes_:  [0 1]
feature_names_in_ :  ['sepal length (cm)' 'sepal width (cm)' 'petal length (cm)'
 'petal width (cm)']
n_iter_:  [23]
coef_:  [[ 0.44036482 -0.90696813  2.30849566  0.96232763]]
intercept_:  [-6.61165119]


In [8]:
model.score(featerDF, targetDF)

1.0

In [9]:
featerDF.head(1), featerDF.iloc[[-1]]

(   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
 0                5.1               3.5                1.4               0.2,
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
 99                5.7               2.8                4.1               1.3)

In [10]:
model.predict(featerDF.iloc[[0]])

array([0])

In [11]:
model.predict(featerDF.iloc[[-1]])

array([1])

In [12]:
# 각 분류 클래스에 대한 확률값
np.round(model.predict_proba(featerDF.iloc[[-1]]), 3)

array([[0.017, 0.983]])

In [13]:
# 각 분류기의 선형식에서 계산한 값
model.decision_function(featerDF.iloc[[-1]])

array([4.07477562])