In [1]:
# 기본
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게...
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차검증
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 학습 알고리즘
from sklearn.linear_model import LogisticRegression

# 분류용 평가 함수
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

### 분류 평가 지표
- 모든 평가지표는 1에 가까울 수록 성능이 좋다고 판단한다.
- accuracy : 진짜 결과 예측 결과를 비교해 얼마나 일치하는지... 결과의 종류에 상관없이 전체를 보고 판단한다. 결과를 내기위한 결론 비율의 차이가 비슷한 경우도 있기 때문에 판단이 애매한 경우가 있을 수 있다.
- precision : 정밀도. 모델이 True라고 예측한 것 중에서 실제 True인 것의 비율. 각 결과 데이터별로 확인하기 때문에 정확도 보다는 신뢰성이 높다.
- recall : 재현율. 실제 True인 데이터를 모델이 True라고 예측한 비율. 각 결과 데이터 별로 확인하기 때문에 정확도 보다는 신뢰성이 높다.
- f1 score : 정밀도, 재현율을 보두 이용하여 오차 값을 수정한것.
- roc_auc : 실제 false인 데이터를 true로 잘못 분류한 비율과 실제 true인 데이터 중에 True로 잘 분류한 비율을 각각 x, y좌표로 설정하여 비율을 비교하는 그래프가 roc 곡선이다. 이 곡선의 면적을 계산한것이 auc이다. 그래프가 좌상쪽으로 있으면 최대 면적이 된다.

In [2]:
df1 = pd.read_csv('data/forge.csv')
df1

Unnamed: 0,attr1,attr2,target
0,9.963466,4.596765,1
1,11.032954,-0.168167,0
2,11.541558,5.211161,1
3,8.69289,1.54322,0
4,8.106227,4.28696,0
5,8.309889,4.80624,1
6,11.930271,4.648663,1
7,9.672847,-0.202832,0
8,8.348103,5.134156,1
9,8.674947,4.475731,1


In [3]:
# 입력과 결과로 나눈다.
X = df1.drop('target', axis=1)
y = df1['target']

In [4]:
# 학습한다.
model = LogisticRegression()
model.fit(X, y)

LogisticRegression()

In [5]:
# 예측 결과를 가져온다.
y_pred = model.predict(X)
y_pred

array([1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0], dtype=int64)

In [6]:
# 정확도
r1 = accuracy_score(y, y_pred)
r1

0.9230769230769231

In [7]:
# 정밀도
r1 = precision_score(y, y_pred)
r1

0.9230769230769231

In [8]:
# 재현율
r1 = recall_score(y, y_pred)
r1

0.9230769230769231

In [9]:
# f1 score
r1 = f1_score(y, y_pred)
r1

0.9230769230769231

In [10]:
# roc_auc
r1 = roc_auc_score(y, y_pred)
r1

0.9230769230769231

In [11]:
# 교차검증(각 지표별 개별 검증)
model = LogisticRegression()

kfold = KFold(n_splits=10, shuffle=True, random_state=1)

r1 = cross_val_score(model, X, y, scoring='accuracy', cv=kfold)
r2 = cross_val_score(model, X, y, scoring='precision', cv=kfold)
r3 = cross_val_score(model, X, y, scoring='recall', cv=kfold)
r4 = cross_val_score(model, X, y, scoring='f1', cv=kfold)
r5 = cross_val_score(model, X, y, scoring='roc_auc', cv=kfold)

print(r1.mean())
print(r2.mean())
print(r3.mean())
print(r4.mean())
print(r5.mean())

0.9166666666666666
0.85
0.85
0.8333333333333333
nan


In [14]:
# 여러 지표를 이용해 평가를 할 경우
s1 = ['accuracy', 'f1']
r1 = cross_validate(model, X, y, scoring=s1, cv=kfold)
print(r1['test_accuracy'].mean())
print(r1['test_f1'].mean())

0.9166666666666666
0.8333333333333333
