# 머신러닝 프로세스

## Performance_evaluation_method(성능평가방법)

### 회귀분석

#### (1)MAE

* MAE (Mean Absolute Error): 예측 값(y_pred)와 실제 값(y_test) 사이의 차이(오차)의
  절대 값을 평균한 값으로, 모델의 예측 정확도를 평가합니다.

In [None]:
from sklearn.metrics import mean_absolute_error

# 실제 값 (y_test)와 예측 값(y_pred) 사이의 평균 절대 오차(MAE)를 계산
mae = mean_absolute_error(y_test, y_pred)

# 간단히 말해 MAE는 평균 절대 오차로, 예측 값과 실제 값 사이의 오차 크기의 평균을 나타냄

#### (2)MSE

* MSE (Mean Squared Error): 예측값 (y_pred)와 실제 값(y_test) 사이의 차이를 제곱한 후 평균을 낸 값으로
  모델의 예측 오차를 평가하는 지표 입니다

In [None]:
from sklearn.metrics import mean_squared_error

# 실제 값(y_test)와 예측 값(y_pred) 사이의 평균 제곱 오차(MSE)를 계산
mse = mean_squared_error(y_test, y_pred)

# 간단히 말해 MSE는 예측 값과 실제 값 사이의 차이(오차)의 제곱을 평균한 값으로, 모델의 예측 오차를 측정


#### (3)RMSE

* MSE: 예측 값과 실제 값 간의 차이를 제곱한 후 평균을 낸 값
* RMSE (Root Mean Squared Error): MSE의 제곱근을 구하여 오차의 크기를 더 직관적으로 이해할 수 있도록
  변환한 값, 모델의 예측 오차를 평가하는 데 사용됩니다.


In [None]:
from sklearn.metrics import mean_squared_error

import numpy as np

# 실제 값(y_test)와 예측 값(y_pred) 사이의 평균 제곱 오차(MSE)를 계산
mse = mean_squared_error(y_test, y_pred)

# MSE의 제곱근을 구하여 제곱근 평균 제곱 오차(RMSE)를 계산
rmse = np.sqrt(mse)



#### (4)MSLE

* MLSE (Mean Squared Logarithmic Error): 로그 변환된 예측 값과 실제 값 간의 차이를 제곱한 후
  평균을 구한 값입니다. 주로 값이 음수가 될 수 없거나 큰 값의 차이를 줄이는 데 유용한 평가 지표입니다.

In [None]:
from sklearn.metrics import mean_squared_log_error


# 실제 값(y_test)와 예측 값(y_pred) 사이의 평균 제곱 로그 오차(MLSE)를 계산
msle = mean_squared_log_error(y_test, y_pred)

# mlse는 로그 변환된 예측 값과 실제 값 사이의 제곱 차이를 측정한 값입니다.


#### (5)MAPE

* MAPE (Mean Absolute Percentage Error): 예측 값과 실제 값 간의 차이(오차)를 실제 값에 대한
  백분율로 계산한 후, 그 평균을 구하는 지표입니다. 결과는 백분율로 출력되며, 예측 오류를 비율로 쉽게
  해석할 수 있습니다.

In [None]:
import numpy as np # 숫자 연산을 위한 numpy 불러오기

# 평균 절대 퍼센트 오차 (MAPE)를 계산하는 함수 정의
def MAPE(y_test, y_pred):
    # 절대 퍼센트 오차를 계산하고 그 평균을 100으로 곱해 반환
    mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100
    return mape

# 실제 값(y_test)와 예측 값(y_pred)을 사용해 MAPE 함수를 호출
mape = MAPE(y_test, y_pred)





## 분류분석

#### (1)정확도

* Accuracy Score(정확도): 예측 값이 실제 값과 일치한 비율을 계산하는 지표입니다.
  주로 분류 문제에서 사용되며, 정확도가 높을수록 모델의 예측이 더 정확하다는는 것을 의미합니다

In [None]:
from sklearn.metrics import accuracy_score

# 실제 라벨(y_test)와 예측 라벨(y_pred) 사이의 정확도를 계산
acc = accuracy_score(y_test, y_pred)

# acc는 정확도를 나타내며, 이는 전체 예측 중에서 맞춘 비율을 의미함

#### (2)혼동행렬

* Confsion Matrix(혼동 행렬): 분류 모델의 성능을 평가하는 지표로, 예측 결과와 실제 값을 바탕으로 네 가지 경우
  (참 긍정,참 부정, 거짓 긍정, 거짓 부정)을 요약하여 보여준다.
  이를 통해 모델의 분류 오류를 직관적으로 확인할 수 있습니다.

In [None]:
from sklearn.metrics import confusion_matrix

# 실제 라벨(y_test)와 예측 라벨(y_pred) 사이의 혼동 행렬을 계산
cm = confusion_matrix(y_test, y_pred)

# cm은 혼동 행렬로, 분류 모델의 성능을 요약하여 보여줌

# 행렬은 True Positive, True Negative, False Positive, Fasle Negative를 나타낸다.

#### (3)정밀도

* Precision(정밀도): 모델이 양성으로 예측한 값 중 실제로 양성인 값의 비율을 나타냅니다.
  높은 정밀도는 False Positive(거짓 양성)의 비율이 낮다는 것을 의미합니다.

In [None]:
from sklearn.metrics import precision_score

# 실제 라벨(y_test)와 예측 라벨(y_pred) 사이의 정밀도를 게산
precision = precision_score(y_test, y_pred)

#precision은 정밀도를 나타내며, 이는 True Positive와 False Positive의 합에서 True Positive의 비율을 의미함


* Recall(재현율): 실제 양성 중에서 모델이 양성으로 정확히 예측한 비율입니다.
  높은 재현율은 False Negative(거짓 음성)의 비율이 낮음을 의미합니다.

In [None]:
from sklearn.metrics import recall_score

# 실제 라벨(y_test)와 예측 라벨(y_pred) 사이의 재현율을 계산
recall = recall_score(y_test, y_pred)

# recall은 재현율을 나타내며, 이는 True Positive와 False Negative의 합에서 True Positive의 비율을 의미함


#### (4) F1 스코어

* F1 Score: 정밀도(Precision)와 재현율(Recall)의 조화 평균을 나타내며, 두 지표의 균형을 평가하는 데
  사용됩니다. F1점수는 특히 부균형한 클래스 문제에서 유용합니다.

In [None]:
from sklearn.metrics import f1_score

# 실제 라벨(y_test)와 예측 라벨(y_pred) 사이의 F1 점수를 계산
f1 = f1_score(y_test, y_pred)

# f1은 F1 점수를 나타내며, 이는 정밀도와 재현율의 조화 평균이다.


#### (5) ROC곡선과 AUC스코어

* ROC Curve (Receiver Operating Characteristic Curve): 위양성률(FPR)과 재현율(TPR)의 관계를
  나타내는 그래프입니다. 이는 분류 모델의 성능을 다양한 임계값에서 평가할 수 있게 해주며, 완벽한 모델일수록
  ROC 곡선이 좌상단에 가까워집니다.

In [None]:
from sklearn.metrics import roc_curve

# ROC 곡선을 그리기 위해 FPR(위양성률), TPR(재현율), 임계값을 계산
fqr, tpr, thres = roc_curve(y_test, y_pred, pos_label=1)

import matplotlib.pyplot as plt # 그래프 그리기를 위한 matplotlib 불러오기

plt.plot(fqr, tpr)  # FPR와 TPR 값을 사용하여 ROC 곡선을 그림

# 축에 레이블 추갛여 명확하게 표시
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')

plt.show()

* AUC (Area Under the Curve): ROC 곡선 아래의 면적을 나타내며, 분류 모델의 성능을 평가하는 데 사용됩니다.
  AUC 값이 1에 가까울수록 모델의 성능이 뛰어납니다.
  AUC는 모델이 임의로 양성/음성 클래스를 구분하는 능력을 평가하는 지표입니다.

In [None]:
from sklearn.metrics import roc_curve, auc

# ROC 곡선을 그리기 위해 FPR(위양성률), TPR(재현율), 임계값을 계산
fpr, tpr, thres = roc_curve(y_test, y_pred, pos_label=1)

# FPR와 TPR을 사용하여 AUC(곡선 아래 면적) 값을 계산
auc_value = auc(fpr, tpr)

print('AUC Score:', auc_value)

