# **[모듈]**

## **Metrics**

In [None]:
import pandas as pd

class Metrics :
  '''
  # 기능
  데이터셋을 받아 시각화하는 기능과 MAE, MSE, R2, RMSE 등의 지표를 계산하는 기능

  def __init__(self, model, X_y) : 
    # 기능
    생성자

    # Input
    model : sklearn의 estimator나 pipeline
      ex) sklearn.linear_model.LinearRegression()
          sklearn.linear_model.LogisticRegression()

    X_y : (X, y) 나 (X, X_test, y, y_test) 의 형태를 가진 iterable
      ex) (X, y) = sklearn.datasets.load_iris(return_X_y = True)
        (X, X_test, y, y_test) = sklearn.model_selection.train_test_split(X, y, test_size = 0.4)

  def MAE(self) :
    # 기능
    y_test와 y_pred의 평균절대오차 계산하여 반환

    # output : numpy.float64

  def MSE(self) :
    # 기능
    y_test와 y_pred의 평균제곱오차 계산하여 반환

    # output : numpy.float64

  def R2_score(self) :
    # 기능
    y_test와 y_pred의 결정계수 계산하여 반환

    # output : numpy.float64

  def RMSE(self) :
    # 기능
    y_test와 y_pred의 평균절대오차 계산하여 반환

    # output : float

  def Precision(self) :
    # 기능
    y_test와 y_pred의 정밀도 계산하여 반환

    # output : numpy.float64

  def Accuracy(self) :
    # 기능
    y_test와 y_pred의 정확도 계산하여 반환

    # output : numpy.float64

  def F1_score(self) :
    # 기능
    y_test와 y_pred의 F1 점수 계산하여 반환

    # output : numpy.float64
  
  def Recall(self) :
    # 기능
    y_test와 y_pred의 재현율 계산하여 반환

    # output : numpy.float64

  def ROC_AUC(self) : 
    # 기능
    y_test와 y_pred의 ROC_AUC 계산하여 반환

    # output : numpy.float64

  def ret_result(self, 
                 index  = (),
                 column = 'Result'
                 ): 
    # 기능
    index 값에 따라 다른 지표를 가지는 데이터프레임 반환

    # input
    index : str in iterable
            str :
              # 회귀용 지표 
              "MAE", "MSE", "R2", "RMSE"

              # 분류용 지표
              "Precision", "Accuracy", "F1", "Recall", "ROC_AUC"
      ex) ["MAE", "MSE", "R2", "RMSE"]
          ("Precision", "Accuracy", "F1", "Recall", "ROC_AUC")

    column : str
              str : 칼럼 이름

    # output : pandas.DataFrame()
              pandas.DataFrame() : 0개 이상의 열과, 1개의 행으로 DataFrame

  def ret_result_regression(self, column = "Result") :
    # 기능
    분류용 지표([MAE(), MSE(), RMSE(), R2_score()])를 가지는 데이터프레임 반환
    
    # Input
    column : str
             str : 칼럼 이름

    # output : pandas.DataFrame()
               pandas.DataFrame() : 4개의 열과 1개의 행으로 이루어진 DataFrame

  def ret_result_classification(self, column = "Result") :
    # 기능
    분류용 지표([Accuracy(), Precision(), Recall(), F1_score(), ROC_AOC()])를 가지는 데이터프레임 반환
    
    # Input
    column : str
             str : 칼럼 이름

    # output : pandas.DataFrame()
               pandas.DataFrame() : 5개의 열과 1개의 행으로 이루어진 DataFrame

  def show_scatter(self) :
    # 기능
    실측치와 예측치의 산점도를 그림

  def show_confusion(self, target_names = []) :
    # 기능
    실측치와 예측치의 혼동행렬을 그림

    # input
    target_names : str in iterable
                    str : 특징 이름

  def show_treeplot(self) :
    # 기능
    model이 decision tree regression 이나 classifier 인 경우
    이 함수를 사용하여 트리플롯을 그린다

  def show_treeplot_with_pipe(self, pipe_index = '', target_names = []) :
    # 기능
    model의 pipeline의 estimator가 decision tree regression 이나 classifier 인 경우
    이 함수를 사용하여 트리플롯을 그린다

    # Input
    pipe_index : str 
                Pipeline()에서 결정트리 객체를 가지는 인덱스 스트링
                아래와 같은 예제에서 pipe_index = 'decision'
                ex) pipe = Pipeline([
                                    ('scaler', StandardScaler()),
                                    ('decision', DecisionTreeClassifier())
                                    ])

    class_names : iterable
                  train, test 데이터의 target_names
                  ex) load_breast_cancer().target_names
  '''

  def __init__(self, 
               model,
               X_y = (None, None, None, None),    # ( X, X_test, y, y_test )
               ):
    
    if len(X_y) == 4 :
      self.X = pd.DataFrame(X_y[0])
      self.X_test = pd.DataFrame(X_y[1])
      self.y = pd.DataFrame(X_y[2])
      self.y_test = pd.DataFrame(X_y[3])

    elif len(X_y) == 2 :
      self.X = pd.DataFrame(X_y[0])
      self.X_test = self.X.copy()
      self.y = pd.DataFrame(X_y[1])
      self.y_test = self.y.copy()
    
    else :
      raise ValueError("X_y의 길이는 2 또는 4가 되어야 합니다.")

    self.model = model    # dataset = load_boston() or fetch_calrifornia_housing()
    self.model.fit(self.X, self.y)
    self.y_pred = pd.DataFrame(self.model.predict(self.X_test))

    # 시각화 도구 모음 클래스
    self.visual = Visualize()
    # 지표 도구 모음 클래스
    self.indicator = Indicator(self.y_test, self.y_pred)
    print(self.indicator)
  
  # 회귀 지표 시작
  def MAE(self) :
    return indicator.MAE()

  def MSE(self) :
    return indicator.MSE()

  def R2_score(self) :
    return indicator.R2_score()

  def RMSE(self) :
    return indicator.RMSE()
  # 회귀 지표 끝
  # 분류 지표 시작
  def Precision(self) :
    return indicator.Precision()

  def Accuracy(self) :
    return indicator.Accuracy()

  def F1_score(self) :
    return indicator.F1_score()
  
  def Recall(self) :
    return indicator.Recall()

  def ROC_AUC(self) : 
    return indicator.ROC_AUC()
  # 분류 지표 끝
  # 종합 지표 출력 시작
  def ret_result(self, 
                 index  = (),
                 column = 'Result'
                 ):
    return self.indicator.ret_result(index = index, column = column)

  def ret_result_regression(self, column = "Result") :    # 회귀용 지표 반환
    index = ["MAE", "MSE", "RMSE", "R2 점수"]
    return self.indicator.ret_result(index = index, column = column)
  
  def ret_result_classification(self, column = "Result") :    # 분류용 지표 반환
    index = ["정확도", "정밀도", "재현율", "F1 점수", "ROC_AUC"]
    return self.indicator.ret_result(index = index, column = column)
  # 종합 지표 출력 끝
  # 시각화 함수 시작
  def show_scatter(self) :
    self.visual.show_scatter(self.y_test, self.y_pred)

  def show_confusion(self, target_names = []) :
    self.visual.show_confusion(self.y_test, self.y_pred)

  def show_treeplot(self) :
    self.visual.show_treeplot(self.model)

  def show_treeplot_with_pipe(self, pipe_index = '', target_names = []) :
    self.visual.show_treeplot_with_pipe(self.model, pipe_index = pipe_index, class_names=target_names)
  # 시각화 함수 끝

### Visualize

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import tree

class Visualize :
  '''
  # 생성자 없음

  def show_hist(self, df) :
    # 기능
    데이터프레임의 히스토그램을 그림

    # Input
    df : pandas.DataFrame()

  def show_heatmap(self, df, colormap = plt.cm.PuBu) :
    # 기능
    데이터프레임의 상관관계도를 그림

    # Input
    df : pandas.DataFrame()

  def show_boxplot(self, df) :
    # 기능
    데이터프레임의 박스플롯을 그림

    # Input
    df : pandas.DataFrame()

  def show_pairplot(self, df, hue = None) :
    # 기능
    데이터프레임의 페어플롯을 그림

    # Input
    df : pandas.DataFrame()

    hue : 페어플롯을 그리는데 기준이 될 column_name

  def show_scatter(self, actual_df, predictive_df) :
    # 기능
    데이터프레임의 실측치와 예측지의 산점도를 그림

    # Input
    actual_df : pandas.DataFrame()
                실측치(y_test)를 가지는 데이터프레임

    predictive_df : pandas.DataFrame()
                    예측치(y_hat)를 가지는 데이터프레임

  def show_confusion(self, actual_df, predictive_df, target_names = []) :
    # 기능
    데이터프레임의 혼동행렬을 그림

    # Input
    actual_df : pandas.DataFrame()
                실측치(y_test)를 가지는 데이터프레임

    predictive_df : pandas.DataFrame()
                    예측치(y_hat)를 가지는 데이터프레임

    target_names : Classification의 Classes
  
  def show_treeplot(self, model) :
    # 기능
    sklearn.tree.DecisionTreeClassifier()의 plot_tree()를 그린다.

  def show_treeplot_with_pipe(self, pipe,
                    *,
                    pipe_index = '',
                    class_names = []) :
    # 기능
    sklearn.pipeline.Pipeline 안에 있는 sklearn.tree.DecisionTreeClassifier()의 plot_tree()를 그린다.

    # Input
    pipe_index : str 
                Pipeline()에서 결정트리 객체를 가지는 인덱스
                아래와 같은 예제에서 pipe_index = 'decision'
                ex) pipe = Pipeline([
                                    ('scaler', StandardScaler()),
                                    ('decision', DecisionTreeClassifier())
                                    ])
    class_names : str in iterable
                  train, test 데이터의 target_names
                  ex) load_breast_cancer().target_names

  '''
  # Column이 여러 개 인 DataFrame이 인자로 들어가는 함수
  def show_hist(self, df) :
    df.hist(bins=50, figsize=(18,12))
    plt.show() 

  def show_heatmap(self, df, colormap = plt.cm.PuBu) :
    plt.figure(figsize=(12, 10))
    plt.title("Heatmap of preprocess", y = 1.05, size = 15)

    sns.heatmap(df.astype(float).corr(), linewidths = 0.1, vmax = 1.0,
           square = True, cmap = colormap, linecolor = "white", annot = True, annot_kws = {"size" : 13})
    
  def show_boxplot(self, df) :
    df.boxplot(figsize = (20, 10))
    plt.show()

  def show_pairplot(self, df, hue = None) :
    sns.pairplot(df, hue=hue)
    plt.title("Pairplot")
    plt.show()

  # Column이 하나인 DataFrame 2개가 인자로 들어가는 함수
  # Regression 작업 결과 시각화할 때 사용
  def show_scatter(self, actual_df, predictive_df) :
    plt.figure(figsize=(12, 6))

    # 데이터프레임을 [0]으로 하지 않으면 아래의 에러가 생김
    # ValueError: Data must be 1-dimensional
    sns.scatterplot(range(len(actual_df)), actual_df.iloc[:, 0],  color='red')
    sns.scatterplot(range(len(predictive_df)), predictive_df.iloc[:, 0], color='blue')

    # plt.xticks(())
    # plt.yticks(())

    plt.title("예측치/실측치 간 오차 확인도", fontsize=22)
    plt.legend(['실측치','예측치'])
    plt.show()

  # classification 작업 결과 시각화할 때 사용
  def show_confusion(self, actual_df, predictive_df, target_names = []) :
    con_matrix = confusion_matrix(actual_df, predictive_df)

    sns.heatmap(data = con_matrix, 
            annot=True,  annot_kws={"size": 14}, # 각 상자 안에 글자를 14포인트로 표시.
            cmap= 'cool',
            xticklabels=target_names, yticklabels=target_names)
    
    plt.xlabel('예측치', fontsize=14)
    plt.ylabel('실측치', fontsize=14)

    plt.suptitle("혼동행렬", y=1.04, size=18)
    plt.show()

  def show_treeplot(self, model) :
    feature_names = None #model.feature_names_in_
    class_names = None
    plt.figure(figsize=(15, 12)) # 그림의 크기를 지정합니다. 첫째 인수로는 너비를, 둘째 인수로는 높이를 지정합니다.
    tree.plot_tree(model, # 훈련된 결정 트리 인스턴스 객체를 여기에 써 줍니다.
                  feature_names=feature_names, 
                  class_names=class_names,
                  filled=True, # 이 값이 True이면 상자를 색칠합니다.
                  fontsize=14, # 상자 안 글꼴의 크기를 지정합니다. 
                  node_ids=True, # 각 상자의 순번을 나타냅니다.
                  rounded=True # 상자의 귀를 동그랗게 합니다.
                  ) 
    plt.show()

  def show_treeplot_with_pipe(self, pipe,
                    *,
                    pipe_index = '',
                    class_names = []) :
    feature_names = pipe.feature_names_in_
    # class_names = pipe.classes_
    plt.figure(figsize=(15, 12)) # 그림의 크기를 지정합니다. 첫째 인수로는 너비를, 둘째 인수로는 높이를 지정합니다.
    tree.plot_tree(pipe[pipe_index], # 훈련된 결정 트리 인스턴스 객체를 여기에 써 줍니다.
                  feature_names=feature_names, 
                  class_names=class_names,
                  filled=True, # 이 값이 True이면 상자를 색칠합니다.
                  fontsize=14, # 상자 안 글꼴의 크기를 지정합니다. 
                  node_ids=True, # 각 상자의 순번을 나타냅니다.
                  rounded=True # 상자의 귀를 동그랗게 합니다.
                  ) 
    plt.show()

### Indicator

In [None]:
import pandas as pd
import math
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, confusion_matrix, accuracy_score, f1_score, precision_score, recall_score, roc_auc_score
from sklearn.preprocessing import label_binarize

class Indicator :
  '''
  def __init__(self, test, pred) :
    # 기능
    생성자

    # input
    test : 결과치를 가지는 DataFrame

    pred : 예측치를 가지는 DataFrame

  def MAE(self) :
    # 기능
    MAE 값을 반환

  def MSE(self) :
    # 기능
    MSE 값을 반환

  def R2_score(self) :
    # 기능
    R2 점수 반환

  def RMSE(self) :
    # 기능
    RMSE 값을 반환

  def Precision(self) :
    # 기능
    정밀도 반환

  def Accuracy(self) :
    # 기능
    정확도 반환

  def F1_score(self) :
    # 기능
    F1 점수 반환
  
  def Recall(self) :
    재현율 반환

  def ROC_AUC(self) : 
    # 기능
    ROC_AUC 반환

  def ret_result(self, 
                 index  = (),
                 column = 'Result'
                 ):
    # 기능
    index 값에 따라 다른 지표를 가지는 데이터프레임 반환

    # input
    index : str in iterable
            str :
              # 회귀용 지표 
              "MAE"
              "MSE", 
              "R2", "R2_score", "R2 점수"
              "RMSE"

              # 분류용 지표
              "Precision", "PPV", "정밀도"
              "Accuracy", "ACC", "정확도"
              "F1", "F1_score", "F1 점수"
              "Recall", "Sensitivity", "TPR", "재현율"
              "ROC_AUC"

      ex) ["MAE", "MSE", "R2", "RMSE"]
          ("Precision", "Accuracy", "F1", "Recall", "ROC_AUC")

    column : str
              str : 칼럼 이름

    # output : pandas.DataFrame()
              pandas.DataFrame() : 0개 이상의 열과, 1개의 행으로 DataFrame
  '''
  def __init__(self, test, pred) :
    self.y_test = test
    self.y_pred = pred

    # 함수가 담긴 딕셔너리
    self.value_dict = {
      # 회귀용 지표
      **dict.fromkeys(["MAE"], self.MAE),
      **dict.fromkeys(["MSE"], self.MSE),
      **dict.fromkeys(["R2", "R2_score", "R2 점수"], self.R2_score),
      **dict.fromkeys(["RMSE"], self.RMSE),

      # 분류용 지표
      **dict.fromkeys(["Precision", "PPV", "정밀도"], self.Precision),
      **dict.fromkeys(["Accuracy", "ACC", "정확도"], self.Accuracy),
      **dict.fromkeys(["F1", "F1_score", "F1 점수"], self.F1_score),
      **dict.fromkeys(["Recall", "Sensitivity", "TPR", "재현율"], self.Recall),
      **dict.fromkeys(["ROC_AUC"], self.ROC_AUC),
    }

  # 회귀 지표 시작
  def MAE(self) :
    return mean_absolute_error(self.y_test, self.y_pred)

  def MSE(self) :
    return mean_squared_error(self.y_test, self.y_pred)

  def R2_score(self) :
    return r2_score(self.y_test, self.y_pred)

  def RMSE(self) :
    return math.sqrt(mean_squared_error(self.y_test, self.y_pred))
  # 회귀 지표 끝
  # 분류 지표 시작
  def Precision(self) :
    return precision_score(self.y_test, self.y_pred, average = 'weighted')

  def Accuracy(self) :
    return accuracy_score(self.y_test, self.y_pred)

  def F1_score(self) :
    return f1_score(self.y_test, self.y_pred, average = 'weighted')
  
  def Recall(self) :
    return recall_score(self.y_test, self.y_pred, average = 'weighted')

  def ROC_AUC(self) : 
    y_test = self.y_test.copy()
    multi_class = 'binary'
    if y_test.nunique()[0] > 2 :
      multi_class = 'raise'

    classes = y_test.iloc[:, 0].unique()
    y_test_lb = label_binarize(self.y_test, classes = classes)
    y_pred_lb = label_binarize(self.y_pred, classes = classes)

    return roc_auc_score(y_test_lb, y_pred_lb, multi_class = multi_class)
  # 분류 지표 끝
  # 종합 지표 출력 시작
  def ret_result(self, 
                 index  = (),
                 column = 'Result'
                 ):
    indicator = []
    for s in index :
      indicator.append(self.value_dict[s]())
    
    indicator = pd.DataFrame(indicator, index = index, columns= [column])
    indicator.index.name = "구분"
    
    return indicator
  # 종합 지표 출력 끝