## 머신러닝 성능평가 코드 - 회귀

### MAE
- 에러의 크기 그대로 반영
- 이상치 영향 받음
### MSE
- 실제값과 예측값 차이의 면적 합
- 특이값이 존재하면 수치가 증가
### RMSE
- 오차에 제곱을 하면 오차가 클수록 그에 따른 가중치가 높게 반영
- 이 때, 손실이 기하급수적으로 증가하는 상황에서 실제 오류값의 평균보다 값이 더 커지지 않도록 상쇄하기 위해 사용
- 가장 많이 채택하는 성능평가
### MSLE
- RMSE와 마찬가지로 오차가 기하급수적으로 증가하는 상황에서 실제 오차의 평균보다 값이 더 커지지 않도록 상쇄하기 위해 사용
### 결정계수(R^2)
- 회귀모형이 선형인 경우 사용
- 1에 가까울수록 모형의 설명력이 좋음






In [None]:
# 회귀: MAE(Mean Absolute Error)
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_test, y_pred)

# 회귀: MSE(Mean Squared Error) and RMSE(Root Mean Squared Error)
from sklearn.metrics import mean_squared_error
import numpy as np

mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

# 회귀: MSLE(Mean Squared Log Error)
from sklearn.metrics import mean_squared_log_error
msle = mean_squared_log_error(y_test, y_pred)

# 회귀: 결정계수
from skelearn.mtetrics import r2_score
r2 =  r2_score(y_test, y_pred)

## 머신러닝 성능평가 코드 - 분류

### 혼동행렬
- TP, FP, TN, FN
### 정확도
- 가장 많이 사용함
- 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표
- (TP+TN)/전체
### 정밀도
- 양성으로 예측한 것 중 실제 양성인 것
- TP/(TP+FP)
### 재현율, 민감도
- 실제로 양성인 것 중 양성이라고 예측한 것
- TP/(FN+TP)
### F1 스코어
- 실제로 양성인 것 중 양성이라고 예측한 것의 비율
- 정밀도와 재현율이 어느 한쪽으로 치우쳐지지 않을수록 점수가 높음
### ROC 곡선
- 이진 분류모델 주요 성능평가지표
- false positive rate이 변할 때, true positive rate가 변하는 것을 나타내는 곡선
### AUC 스코어
- Area under Roc curve
- 1에 가까울수록 좋은 모델
- 랜덤 수준의 auc값은 0.5



In [None]:
# 분류: 혼동행렬
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

# 분류: 정확도
from sklearn.metrics import accuracy_score
acc =  accuracy_score(y_test, y_pred)

# 분류: 정밀도
from sklearn.metrics import precision_score
pre = precision_score(y_test, y_pred)

# 분류: 재현율, 민감도
from sklearn.metrics import recall_score
recall = recall_score(y_test, y_pred)

# 분류: F1 Score
from sklearn.metrics import f1_score
f1 = f1_score(y_test, y_pred)

# 분류: Roc curve and AUC 스코어
from sklearn.metrics import roc_score, auc
import matplolib.pyplot as plt
fpr, tpr, thres = roc_curve(y_test, y_pred, pos_label = 1)

plt.plot(fpr, tpr) # roc curve
plt.show()

auc = auc(fpr, tpr)

## 하이퍼 파라미터 튜닝
- 모델 최적화를 위해 여러가지 옵션을 조합하는 방법
- Grid Search
- Random Search
    - 빠른 속도
    - 다양한 옵션에 접근이 가능함
    - 일반적으로 사용하는 것

## 시계열 데이터
- 각각 어떤 요인적 특징이 있는지 확인하기
- 계절요인: 일정 주기 패턴 반복
- 추세요인: 장기적인 시간 동안 특정 경향을 보임
- 순환요인: 특정 주기 혹은 수년 간 간격으로 주기적으로 패턴 반복
- 불규칙 요인: 예측할 수 없는 이벤트로 우연한 패턴, noise 취급

### 시계열: 정상성
- 정상성을 가정함
- 정상성을 ADF 검정을 통해 검정
- 정상성이 없으면 변환작업을 통해서 정상성을 만듦

### 시계열 데이터 예측 방법
- ARIMA
    - sktime 라이브러
- LightGBM
    - 의사결정트리에 집중한 모델
    - 분류 및 다중 분류, 수치 예측 문제에 효과적
    - 소규모 데이터셋에서의 과적합
- LightGBM 하이퍼파라미터 주요 매개변수
    - learing_rate
    - n_estimators
    - max_depth
    - num_leaves
    - min_split_gain
    - subsample
    - random_state
