### 목표 : 선형 모델기반의 분류 모델 구현
- 데이터 : sklearn.datasets의 iris
- 피처 : 2개 
- 타겟 : 3개

(1) 모듈 로딩 & 데이터 준비
<hr>

In [2]:
# 모듈 로딩
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

In [3]:
# 데이터 로딩 => bunch타입으로 dict와 유사한 scikit-learn 클래스
dataXy = load_iris(return_X_y=True)
print(type(dataXy), len(dataXy))

<class 'tuple'> 2


In [4]:
#데이터와 타겟을 DataFrame 형식으로 로딩
dataXy = load_iris(return_X_y=True, as_frame=True)
print(type(dataXy), len(dataXy), dataXy[0])

<class 'tuple'> 2      sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                  5.1               3.5                1.4               0.2
1                  4.9               3.0                1.4               0.2
2                  4.7               3.2                1.3               0.2
3                  4.6               3.1                1.5               0.2
4                  5.0               3.6                1.4               0.2
..                 ...               ...                ...               ...
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9               3.0                5.1               1.8

[150 rows x 4 columns]


In [5]:
data=load_iris(as_frame=True)
print(data.keys(), data['data'], sep='\n')

# 두 가지 품종 피처와 타겟
featureDF = data['data'][:150]
targetDF = data['target'][:150]

print(targetDF.shape, featureDF.shape)

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                  5.1               3.5                1.4               0.2
1                  4.9               3.0                1.4               0.2
2                  4.7               3.2                1.3               0.2
3                  4.6               3.1                1.5               0.2
4                  5.0               3.6                1.4               0.2
..                 ...               ...                ...               ...
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9            

(2) 모델 학습 진행

In [6]:
# 모듈 로딩
from sklearn.linear_model import LogisticRegression

In [7]:
# 모델 인스턴스 생성
model = LogisticRegression(max_iter=1000)
model.fit(featureDF, targetDF)

In [8]:
# 학습 후 결정된 모델 파라미터 확인
print('classes : ', model.classes_)
print('feature_names_in_ : ', model.feature_names_in_)
print('n_iter_: ', model.n_iter_)
print('coef: ', model.coef_)
print('intercept_: ', model.intercept_)

classes :  [0 1 2]
feature_names_in_ :  ['sepal length (cm)' 'sepal width (cm)' 'petal length (cm)'
 'petal width (cm)']
n_iter_:  [120]
coef:  [[-0.42364806  0.96739434 -2.51708319 -1.07937296]
 [ 0.53447765 -0.3216458  -0.20639707 -0.94423775]
 [-0.11082959 -0.64574854  2.72348026  2.02361071]]
intercept_:  [  9.84997373   2.23721656 -12.08719029]


In [9]:
model.score(featureDF, targetDF)

0.9733333333333334

In [10]:
# 각 분류 클래스에 대한 확률값
np.round(model.predict_proba(featureDF.iloc[[-1]]), 3)

array([[0.   , 0.235, 0.765]])

In [None]:
# 각 분류기의 선형식에서 계산한 값
model.decision_function(featureDF.iloc[[-1]])

- 이진 분류 (2개 분류)

- 다중 분류(3개 분류 ▲) ==> OvR/OvA : 이진분류기가 클래스 개수만큼 생성

- 타겟  :

- OvO : 1 vs 1 모델 

- 타겟 : 
    * 사과 => 사과 vs 배    사과 vs 바나나      사과 vs 수박        사과 vs 키위
    * 배 =>                 배 vs 바나나        배 vs 수박          배 vs 키위
    * 바나나 =>                                 바나나vs 수박       바나나VS 키위
    * 수박 =>                                                       수박 VS 키위
    * 키위 => 

[OvA/OvR] ==> 3개 모델 (클래스 개수만큼 생성)
- setosa : setosa vs 나머지
- versicolor : versicolor vs 나머지 
- virginica : virginica

[OvO] ==> (3*2)/2 = 3개
- setosa : setosa vs versicolor             setosa vs virginica
- versicolor :                              versicolor vs virginica
- virginica
