In [10]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris
import numpy as np
import warnings
warnings.filterwarnings('ignore')

- cross_val_score 
- 교차검증을 사용할 수 있는 여러 방법들 중 하나
- cross_val_score : 교차검증 간단하게 수행할 수 있는 함수
    - k-fold 교차검증을 사용하고, k는 분석가 지정할 수 있다.
    - 클래스의 불균형 상관없이 알아서 잘 확인하고 하니 너무 편하게 사용할 수 있다.
- cross_validate - 교차검증 실행할 수 있음 
    - 여러가지 추가 정보들을 확인할 수 있다. 테스트 훈련시간이나, 테스트 시간 등, 정밀도 재현율, 다른 평가지표 한 번에 볼 수 있음
    - 기능적으로 좀 더 세부적으로 볼 수 있다.

In [3]:
iris = load_iris()
X,y = iris.data, iris.target

In [4]:
clf = RandomForestClassifier(random_state = 111)

In [5]:
# Cross_val_score 로 교차검증 진행
scores = cross_val_score(clf,X,y, cv = 5, scoring = 'accuracy')

In [6]:
scores

array([0.96666667, 0.96666667, 0.93333333, 0.93333333, 1.        ])

In [7]:
scores.mean()

0.96

In [11]:
# cross_validate 사용
# cross_validate(모델, x,y, cv=?, scroing=?, return_train_score=True?) 
scoring=['accuracy','precision','recall','f1']

results= cross_validate(clf, X,y, cv=5, scoring=scoring, return_train_score=True)

In [12]:
scoring=['accuracy','precision_micro','recall_micro','f1_micro']

results_mic= cross_validate(clf, X,y, cv=5, scoring=scoring, return_train_score=True)

In [13]:
results_mic

{'fit_time': array([0.11952806, 0.09782887, 0.09544611, 0.09598517, 0.1036768 ]),
 'score_time': array([0.01042414, 0.00955486, 0.00954604, 0.01133609, 0.00954413]),
 'test_accuracy': array([0.96666667, 0.96666667, 0.93333333, 0.93333333, 1.        ]),
 'train_accuracy': array([1., 1., 1., 1., 1.]),
 'test_precision_micro': array([0.96666667, 0.96666667, 0.93333333, 0.93333333, 1.        ]),
 'train_precision_micro': array([1., 1., 1., 1., 1.]),
 'test_recall_micro': array([0.96666667, 0.96666667, 0.93333333, 0.93333333, 1.        ]),
 'train_recall_micro': array([1., 1., 1., 1., 1.]),
 'test_f1_micro': array([0.96666667, 0.96666667, 0.93333333, 0.93333333, 1.        ]),
 'train_f1_micro': array([1., 1., 1., 1., 1.])}

### 다중 클래스 분류문제
- micro 
    - 가중치간의 weight는 무시하고 전체 샘플 수로 계산한다. 모든 클래스가 동등하게 중요한 경우 사용
- macro 
    - 클래스간의 불균형이 큰 경우에 사용한다.
- weighted 
    - 클래스간의 불균형인 경우 가중치를 어디에 더 두는 것에 따라서 다르게 계산되는 것

### precision
- Class A : 1 TP & 1 FP = 0.5
- Class B : 10 TP & 90 FP = 0.1
- Class C : 1TP & 1FP = 0.5
- Class D : 1TP & 1FP = 0.5

- precision을 만든다 하면? 
- Macro -Precision : 평균의 평균을 낸다. ( 0.5+0.1+0.5+0.5 )/4  =0.4


- Micro- Precision : 기존 평균을 내는 방식돠 동일하게 진행  (1+10+1+1)/(2+100+2+2)= 0.123

----
- 클래스의 불균형, 다중분류 등일 때 평가지표를 어떤 것으로 사용해야 하는가?
- 이런 방식이 다르기 때문에 도메인에 맞게 사용하면 된다.
- 클래스의 불균형이 있는 데이터셋이나 케이스의 경우에는 Micro 좀더 효과적인 평가지표

### 이진분류

In [15]:
import seaborn as sns
df = sns.load_dataset('titanic')

In [16]:
df['survived'].value_counts()

0    549
1    342
Name: survived, dtype: int64

In [18]:
df_tt=df[['survived','pclass','fare','age']]
df_tt = df_tt.dropna()

In [19]:
df_tt_x= df_tt[['pclass','fare','age']]
df_tt_y= df_tt['survived']

In [20]:
cross_val_score(clf, df_tt_x,df_tt_y, cv=5, scoring='accuracy') #na값이 있는 경우는 에러 

array([0.58741259, 0.68531469, 0.63636364, 0.66433566, 0.6971831 ])

In [21]:
scoring=['accuracy','precision','recall','f1']
results= cross_validate(clf, df_tt_x,df_tt_y, cv=5, scoring=scoring, return_train_score=True)

In [22]:
results

{'fit_time': array([0.15544391, 0.13413787, 0.12042594, 0.1199801 , 0.12040973]),
 'score_time': array([0.01458001, 0.01298904, 0.01280308, 0.01255178, 0.01280522]),
 'test_accuracy': array([0.58741259, 0.68531469, 0.63636364, 0.66433566, 0.6971831 ]),
 'train_accuracy': array([0.97022767, 0.98073555, 0.97197898, 0.9737303 , 0.97202797]),
 'test_precision': array([0.49152542, 0.61016949, 0.55555556, 0.6       , 0.64150943]),
 'train_precision': array([0.98206278, 0.97835498, 0.96956522, 0.97379913, 0.97787611]),
 'test_recall': array([0.5       , 0.62068966, 0.51724138, 0.51724138, 0.5862069 ]),
 'train_recall': array([0.94396552, 0.97413793, 0.9612069 , 0.9612069 , 0.95258621]),
 'test_f1': array([0.4957265 , 0.61538462, 0.53571429, 0.55555556, 0.61261261]),
 'train_f1': array([0.96263736, 0.9762419 , 0.96536797, 0.96746204, 0.9650655 ])}

#### 모델 3개 이상 교차검증 시행

In [23]:
model=[DecisionTreeClassifier(),RandomForestClassifier(),LogisticRegression()]
name = ['DT','RF','LR']

for model, name in zip(model,name):
    print("### 사용할 알고리즘",name,'###')
    for score in ['accuracy','precision','recall','f1']:
        print(score)
        print('-----')
        print(cross_val_score(model,df_tt_x, df_tt_y, scoring=score, cv=5))

### 사용할 알고리즘 DT ###
accuracy
-----
[0.6013986  0.67132867 0.59440559 0.63636364 0.62676056]
precision
-----
[0.50943396 0.59649123 0.5        0.57692308 0.53125   ]
recall
-----
[0.44827586 0.5862069  0.48275862 0.51724138 0.60344828]
f1
-----
[0.48695652 0.5982906  0.52173913 0.56637168 0.56910569]
### 사용할 알고리즘 RF ###
accuracy
-----
[0.58741259 0.69230769 0.64335664 0.69230769 0.71126761]
precision
-----
[0.5        0.61666667 0.54716981 0.62745098 0.66666667]
recall
-----
[0.51724138 0.60344828 0.51724138 0.56896552 0.56896552]
f1
-----
[0.49122807 0.62608696 0.54054054 0.58490566 0.64285714]
### 사용할 알고리즘 LR ###
accuracy
-----
[0.60839161 0.70629371 0.70629371 0.79020979 0.68309859]
precision
-----
[0.525      0.66       0.7        0.85       0.64444444]
recall
-----
[0.36206897 0.56896552 0.48275862 0.5862069  0.5       ]
f1
-----
[0.42857143 0.61111111 0.57142857 0.69387755 0.5631068 ]


In [24]:
# #추가 교차검증 내용 LeaveOneOut
# #시간이 꽤 오래 걸린다.

# from sklearn.model_selection import LeaveOneOut
# clf = RandomForestClassifier(random_state=111)

# loo = LeaveOneOut()

# scores = cross_val_score(clf, df_tt_x, df_tt_y, cv=loo) #cv를 LeaveOneOut 넣어서 진행하면

### 임계값에 따라서 모든 지표의 값이 다 달라질 수 있다.
- 통상적으로 생각하는 것은 임계값이 0.5 이진분류시 0.5 기준으로 0.5보다 초과면 1, 0.5미만이면 0 이런 식으로 이진분류로 들어간다.
- 도메인, 상황이나 따라서 임계값을 변경해야 하는 경우가 있다. 0.6 0.4 , 0.7 ,0.3 값들이 달라지게 된다. 0.3, 0.7 값이 완전히 달라진다.