## 이진분류 평가지표

In [1]:
# 머신러닝 예시 코드
import pandas as pd
from sklearn.ensemble import RandomForestClassifier

# train
train = pd.DataFrame({
    'f1': [2, 3, 5, 7, 11, 13, 17, 19, 23, 29],
    'f2': [30, 28, 26, 24, 22, 20, 18, 16, 14, 12],
    'target': ['A', 'A', 'A', 'B', 'B', 'A', 'A', 'A', 'A', 'B']
})

# test
test = pd.DataFrame({
    'f1': [7, 9, 15],
    'f2': [23, 18, 26]
})

# target 데이터 분리
target = train.pop('target')

# 머신러닝 학습 및 예측
clf = RandomForestClassifier(random_state=0)
clf.fit(train, target)
pred = clf.predict(test)
print(pred)

['B' 'A' 'A']


In [2]:
# 머신러닝 예시 코드(predict)
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

train = pd.DataFrame({
    'f1': [2, 3, 5, 7, 11, 13, 17, 19, 23, 29],
    'f2': [30, 28, 26, 24, 22, 20, 18, 16, 14, 12],
    'target': ['A', 'A', 'A', 'B', 'B', 'A', 'A', 'A', 'A', 'B']
})

# 검증 데이터 분리
target = train.pop('target')
X_train, X_val, y_train, y_val = train_test_split(train, target, test_size=0.3, random_state=0)

# 머신러닝 학습 및 예측
clf = RandomForestClassifier(random_state=0)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_val)

print("val:", y_pred) # 예측값
print("정확도:", accuracy_score(y_val, y_pred)) # 정확도 평가

# test
test = pd.DataFrame({
    'f1': [7, 9, 15],
    'f2': [23, 18, 26]
})
pred = clf.predict(test)
print("test:", pred)

val: ['A' 'A' 'A']
정확도: 0.6666666666666666
test: ['B' 'A' 'A']


In [3]:
# 이진분류 데이터
import pandas as pd
y_true = pd.DataFrame([0, 1, 1, 0, 0, 1, 1, 1, 1, 0]) #실제값
y_pred = pd.DataFrame([0, 0, 1, 1, 0, 0, 0, 1, 1, 0]) #예측값

y_true_str = pd.DataFrame(['B', 'A', 'A', 'B', 'B', 'A', 'A', 'A', 'A', 'B']) #실제값
y_pred_str = pd.DataFrame(['B', 'B', 'A', 'A', 'B', 'B', 'B', 'A', 'A', 'B']) #예측값

In [4]:
# 정확도(Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_true, y_pred)
print("정확도:", accuracy)

accuracy = accuracy_score(y_true_str, y_pred_str)
print("정확도:", accuracy)

정확도: 0.6
정확도: 0.6


In [5]:
# F1 스코어(F1 Score) ***
from sklearn.metrics import f1_score
f1 = f1_score(y_true, y_pred)
print("F1 스코어:", f1)

f1 = f1_score(y_true_str, y_pred_str, pos_label='A')
print("F1 스코어:", f1)

F1 스코어: 0.6
F1 스코어: 0.6


In [6]:
# 머신러닝 예시 코드(predict_proba)
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score

df = pd.DataFrame({
    'f1': [2, 3, 5, 7, 11, 13, 17, 19, 23, 29],
    'f2': [30, 28, 26, 24, 22, 20, 18, 16, 14, 12],
    'target': ['A', 'A', 'A', 'B', 'B', 'A', 'A', 'A', 'A', 'B']
})

target = df.pop('target')
X_train, X_val, y_train, y_val = train_test_split(df, target, test_size=0.5, random_state=0)

clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict_proba(X_val)

print(y_pred) # 예측값
roc_auc_score(y_val, y_pred[:,1]) # 정확도 평가

[[0.32 0.68]
 [1.   0.  ]
 [0.75 0.25]
 [1.   0.  ]
 [0.74 0.26]]


0.25

In [7]:
# ROC-AUC ***
from sklearn.metrics import roc_auc_score
import numpy as np

# 실제값 (0: 음성, 1: 양성)
y_true = pd.DataFrame([0, 1, 0, 1, 1, 0, 0, 0, 1, 1])
# 예측값 중 양성(1) 확률
y_pred_proba = np.array([
    [0.8, 0.2],
    [0.1, 0.9],
    [0.77, 0.23],
    [0.6, 0.4],
    [0.2, 0.8],
    [0.4, 0.6],
    [0.6, 0.4],
    [0.8, 0.2],
    [0.3, 0.7],
    [0.4, 0.6]
])

roc_auc = roc_auc_score(y_true, y_pred_proba[:,1])
print("ROC-AUC:", roc_auc)

ROC-AUC: 0.92


In [8]:
# 위와 비교를 위해 데이터(y_true_str)를 동일하게 변경했어요
y_true_str = pd.DataFrame(['A', 'B', 'A', 'B', 'B', 'A', 'A', 'A', 'B', 'B']) #실제값
y_pred_proba_str = np.array([
    [0.8, 0.2],
    [0.1, 0.9],
    [0.77, 0.23],
    [0.6, 0.4],
    [0.2, 0.8],
    [0.4, 0.6],
    [0.6, 0.4],
    [0.8, 0.2],
    [0.3, 0.7],
    [0.4, 0.6]
]) # 예측값

roc_auc = roc_auc_score(y_true_str, y_pred_proba_str[:,1])
print("ROC-AUC:", roc_auc)

ROC-AUC: 0.92


## 다중분류 평가지표

In [9]:
# 다중분류 데이터
y_true = pd.DataFrame([2, 2, 3, 3, 2, 1, 3, 3, 2, 1]) # 실제값
y_pred = pd.DataFrame([2, 2, 1, 3, 2, 1, 1, 2, 2, 1]) # 예측값

y_true_str = pd.DataFrame(['B', 'B', 'C', 'C', 'B', 'A', 'C', 'C', 'B', 'A']) # 실제값
y_pred_str = pd.DataFrame(['B', 'B', 'A', 'C', 'B', 'A', 'A', 'B', 'B', 'A']) # 예측값

In [10]:
# 정확도(Accuracy)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_true, y_pred)
print("정확도:", accuracy)

accuracy = accuracy_score(y_true_str, y_pred_str)
print("정확도:", accuracy)

정확도: 0.7
정확도: 0.7


In [11]:
# F1 스코어(F1 Score) ***
from sklearn.metrics import f1_score
f1 = f1_score(y_true, y_pred, average='macro')  # average= micro, macro, weighted
print("F1 스코어:", f1)

f1 = f1_score(y_true_str, y_pred_str, average='macro')
print("F1 스코어:", f1)

F1 스코어: 0.6518518518518518
F1 스코어: 0.6518518518518518


In [12]:
# 다중분류 데이터(확률값)
y_true = pd.DataFrame([0, 1, 2, 0, 1]) # 실제값
y_pred_proba = pd.DataFrame([[0.2, 0.5, 0.3], [0.7, 0.2, 0.1], [0.4, 0.3, 0.3], [0.4, 0.1, 0.5], [0.1, 0.8, 0.1]], columns=[0, 1, 2]) # 예측값(각 클래스 확률)

In [13]:
y_pred_proba

Unnamed: 0,0,1,2
0,0.2,0.5,0.3
1,0.7,0.2,0.1
2,0.4,0.3,0.3
3,0.4,0.1,0.5
4,0.1,0.8,0.1


In [14]:
pd.get_dummies(y_true[0])

Unnamed: 0,0,1,2
0,True,False,False
1,False,True,False
2,False,False,True
3,True,False,False
4,False,True,False


In [15]:
from sklearn.metrics import roc_auc_score

# 수치형일 때는 자동으로 원핫인코딩에서 제외함. 컬럼 지정 필요
y_true_onehot = pd.get_dummies(y_true[0])

# 인코딩된 순서와 확률 컬럼 순서가 같은지 확인
print("y_true의 원-핫 인코딩된 컬럼 순서:", y_true_onehot.columns)
print("y_pred_proba의 컬럼 순서:", y_pred_proba.columns)

# 'ovo' 방식
roc_score_ovo = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovo')
print("ROC AUC (OvO):", roc_score_ovo)

# 'ovr' 방식
roc_score_ovr = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovr')
print("ROC AUC (OvR):", roc_score_ovr)

y_true의 원-핫 인코딩된 컬럼 순서: Index([0, 1, 2], dtype='int64')
y_pred_proba의 컬럼 순서: Index([0, 1, 2], dtype='int64')
ROC AUC (OvO): 0.5694444444444445
ROC AUC (OvR): 0.5694444444444445


In [16]:
# 다중분류 데이터(확률값)
y_true_str = pd.DataFrame(['A', 'B', 'C', 'A', 'B']) # 실제값
y_pred_proba = pd.DataFrame([[0.2, 0.5, 0.3], [0.7, 0.2, 0.1], [0.4, 0.3, 0.3], [0.4, 0.1, 0.5], [0.1, 0.8, 0.1]], columns=['A', 'B', 'C']) # 예측값(각 클래스 확률)

from sklearn.metrics import roc_auc_score

# 원핫인코딩
y_true_onehot = pd.get_dummies(y_true_str)

# 인코딩된 순서와 확률 컬럼 순서가 같은지 확인
print("y_true의 원-핫 인코딩된 컬럼 순서:", y_true_onehot.columns)
print("y_pred_proba의 컬럼 순서:", y_pred_proba.columns)

# 'ovo' 방식
roc_score_ovo = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovo')
print("ROC AUC (OvO):", roc_score_ovo)

# 'ovr' 방식
roc_score_ovr = roc_auc_score(y_true_onehot, y_pred_proba, multi_class='ovr')
print("ROC AUC (OvR):", roc_score_ovr)

y_true의 원-핫 인코딩된 컬럼 순서: Index(['0_A', '0_B', '0_C'], dtype='object')
y_pred_proba의 컬럼 순서: Index(['A', 'B', 'C'], dtype='object')
ROC AUC (OvO): 0.5694444444444445
ROC AUC (OvR): 0.5694444444444445


### 참고1(다중분류 확률의 컬럼명)
-  pred_proba의 결과값이 배열 형태로 되어있어 컬럼명이 없음
- 확인하는 방법은 model.classes_ (아래 코드 참고)

In [17]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 예제 데이터 생성
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, n_classes=3, random_state=0)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# RandomForestClassifier 모델 생성 및 훈련
rf = RandomForestClassifier(random_state=0)
rf.fit(X_train, y_train)

# 검증 데이터에 대한 클래스 확률 예측
pred_proba = rf.predict_proba(X_val)
pred_proba

# 클래스 확률 출력
print(pred_proba[:3])

# 훈련 데이터에 있는 클래스 레이블의 순서 출력
print("클래스 레이블의 순서:", rf.classes_)


[[0.07 0.35 0.58]
 [0.11 0.58 0.31]
 [0.45 0.33 0.22]]
클래스 레이블의 순서: [0 1 2]


### 참고2(다중분류 확률값을 데이터프레임으로 만들기)
- 예측한 결과를 제출용 파일로 만든다면, 각 클래스에 대한 확률을 각각의 컬럼으로 만들어야 함
- 예를 들어, 클래스가 A, B, C 세 가지라면 A에 대한 확률, B에 대한 확률, C에 대한 확률을 각각의 컬럼으로 만들어야 함

In [18]:
# 각 클래스의 확률을 데이터프레임의 컬럼으로 만들기
# 참고1을 실행한 뒤에 실행해주세요:)
import pandas as pd
pred_proba = rf.predict_proba(X_val)

result_df = pd.DataFrame()
result_df['A'] = pred_proba[:, 0]
result_df['B'] = pred_proba[:, 1]
result_df['C'] = pred_proba[:, 2]
result_df.head(3)

Unnamed: 0,A,B,C
0,0.07,0.35,0.58
1,0.11,0.58,0.31
2,0.45,0.33,0.22


## 회귀 평가지표

In [19]:
# 회귀 데이터
import pandas as pd
y_true = pd.DataFrame([0, 2, 5, 2, 4, 4, 7, 10]) # 실제값
y_pred = pd.DataFrame([1.14, 2.53, 4.87, 3.08, 4.21, 5.53, 7.51, 10.32]) # 예측값

In [20]:
# MSE(Mean Squared Error)
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_true, y_pred)
print("MSE:", mse)

MSE: 0.6889125


In [21]:
# MAE(Mean Absolute Error)
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_true, y_pred)
print("MAE:", mae)

MAE: 0.68125


In [22]:
# 결정 계수(R-squared) ***
from sklearn.metrics import r2_score
r2 = r2_score(y_true, y_pred)
print("결정 계수:", r2)

결정 계수: 0.9207007194244604


In [23]:
# RMSE(Root Mean Squared Error) ***
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_true, y_pred)
rmse = mse ** 0.5
print("RMSE:", rmse)

RMSE: 0.830007530086324


In [24]:
# RMSE 방법2(squared=False 사용) ***
mean_squared_error(y_true, y_pred, squared=False)



0.830007530086324