In [None]:
import sklearn
from sklearn.linear_model import LogisticRegression
from sklearn.cross_decomposition import PLSRegression
from sklearn.discriminant_analysis import (
    LinearDiscriminantAnalysis,
    QuadraticDiscriminantAnalysis
)
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import (
    RandomForestClassifier,
    GradientBoostingClassifier
)
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.neural_network import MLPClassifier

import numpy as np

from module.common import parameter_grid

## Scikit-Learn 클래스

### Logistic Regression
- **클래스**: `sklearn.linear_model.LogisticRegression`
- **설명**: 특성 데이터셋에 효율적인 이진 분류를 위한 로지스틱 회귀를 사용하기 위해 import합니다.

### PLS Regression
- **클래스**: `sklearn.cross_decomposition.PLSRegression`
- **설명**: 고차원 데이터셋에 적합한 독립 변수와 종속 변수 행렬을 예측하는 부분 최소 제곱 회귀를 사용하기 위해 import합니다.

### Linear Discriminant Analysis
- **클래스**: `sklearn.discriminant_analysis.LinearDiscriminantAnalysis`
- **설명**: 다중 클래스 분류와 차원 축소에 사용되는 선형 판별 분석입니다.

### Quadratic Discriminant Analysis
- **클래스**: `sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis`
- **설명**: 클래스 분포가 가우시안 분포일 때 유용한 2차 판별 분석입니다.

### Decision Tree Classifier
- **클래스**: `sklearn.tree.DecisionTreeClassifier`
- **설명**: 비선형 데이터셋에 적합한 결정 트리 분류기입니다.

### Random Forest Classifier
- **클래스**: `sklearn.ensemble.RandomForestClassifier`
- **설명**: 분류 작업에 효과적인 결정 트리 기반의 앙상블 학습 방법을 구현한 랜덤 포레스트 분류기입니다.

### Gradient Boosting Classifier
- **클래스**: `sklearn.ensemble.GradientBoostingClassifier`
- **설명**: 단계적으로 모델을 구축하는 그래디언트 부스팅 분류기입니다.

************

### XGBoost Classifier
- **라이브러리**: `xgboost`
- **클래스**: `XGBClassifier`
- **설명**: XGBoost는 향상된 그라디언트 부스팅 시스템으로, 큰 규모의 데이터셋에서 뛰어난 속도와 성능을 제공합니다. 병렬 처리, 트리 가지치기, 하드웨어 최적화가 가능합니다.

### LightGBM Classifier
- **라이브러리**: `lightgbm`
- **클래스**: `LGBMClassifier`
- **설명**: LightGBM은 메모리 사용량이 적고, 학습에 소요되는 시간이 짧은 그라디언트 부스팅 프레임워크입니다.

### MLP Classifier
- **클래스**: `sklearn.neural_network.MLPClassifier`
- **설명**: 다층 퍼셉트론(신경망)을 구현하는 분류기입니다.

## NumPy
- **라이브러리**: `numpy`
- **설명**: 다차원 배열 및 수치 계산을 위한 핵심 라이브러리입니다.

## 사용자 정의 함수
- **함수**: `parameter_grid`
- **모듈**: `module.common`
- **설명**: module.commmon에 정의된 그리드 생성 함수로 param_dict 사전을 입력받아 가능한 모든 매개변수 조합을 생성하는 함수입니다.


In [None]:
def load_model(model: str, seed: int, param: dict):
    if model == 'logistic':
        clf = LogisticRegression(random_state = seed, **param)

    elif model == 'dt':
        clf = DecisionTreeClassifier(random_state = seed, **param)

    elif model == 'rf':
        clf = RandomForestClassifier(random_state = seed, **param)

    elif model == 'gbt':
        clf = GradientBoostingClassifier(random_state = seed, **param)

    elif model == 'xgb':
        clf = XGBClassifier(random_state = seed, **param)

    elif model == 'lgb':
        clf = LGBMClassifier(random_state = seed, **param)

    elif model == 'lda':
        clf = LinearDiscriminantAnalysis(**param)

    elif model == 'qda':
        clf = QuadraticDiscriminantAnalysis(**param)

    elif model == 'plsda':
        clf = PLSRegression(**param)

    elif model == 'mlp':
        clf = MLPClassifier(random_state = seed, **param)

    return clf

# **load_model**
`load_model` 함수는 입력받은 머신 러닝 모델 이름에 따라 모델을 초기화하여 반환합니다.

- **매개변수**:
  - `model`: 문자열 형태로. 초기화하고자 하는 모델의 이름을 입력받습니다.
  - `seed`: 모델의 재현 가능성을 위해 사용되는 정수 시드 값을 입력받습니다.
  - `param`: 사전 형태로 모델의 하이퍼파라미터를 입력받습니다.

- **동작 과정**:
  1. 입력된 `model` 문자열에 따라 해당하는 머신 러닝 모델을 선택합니다.
  2. `param` 매개변수를 사용하여 모델에 하이퍼파라미터를 전달합니다.
  3. `random_state`는 `seed` 값으로 설정합니다.
  4. 초기화된 모델 `clf`을 반환합니다.

- **사용된 모델 10가지**:
  - Logistic Regression (`LogisticRegression`)
  - Decision Tree (`DecisionTreeClassifier`)
  - Random Forest (`RandomForestClassifier`)
  - Gradient Boosting (`GradientBoostingClassifier`)
  - XGBoost (`XGBClassifier`)
  - LightGBM (`LGBMClassifier`)
  - Linear Discriminant Analysis (`LinearDiscriminantAnalysis`)
  - Quadratic Discriminant Analysis (`QuadraticDiscriminantAnalysis`)
  - PLS Regression (`PLSRegression`)
  - MLP Classifier (`MLPClassifier`)


In [None]:
def load_hyperparameter(model: str):
    if model == 'logistic':
        params_dict = {
            'C': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9,
                  1, 2, 3, 4, 5, 7, 9, 11, 15, 20, 25, 30, 35, 40, 50, 100],
            'penalty': ['l1', 'l2'],
            'solver': ['liblinear', 'saga']
        }

    elif model == 'dt':
        params_dict = {
            'criterion': ['gini', 'entropy'],
            'max_depth': [None, 1, 2, 3, 4, 5],
            'min_samples_split': [2, 3, 4],
            'min_samples_leaf': [1, 2, 3]
        }

    elif model == 'rf':
        params_dict = {
            'n_estimators': [3, 5, 10, 15, 20, 30, 50, 90, 95,
                            100, 125, 130, 150],
            'criterion': ['gini'],
            'min_samples_split': [2, 4],
            'min_samples_leaf': [1, 3],
            'max_features': ['sqrt', 'log2']
        }

    elif model == 'gbt':
        params_dict = {
            'learning_rate': [0.001, 0.005, 0.01, 0.05, 0.1],
            'n_estimators': [5, 10, 50, 100, 130],
            'max_depth': [1, 2, 3, 4]
        }

    elif model == 'xgb':
        params_dict = {
            'min_child_weight': [1, 2, 3, 5],
            'max_depth': [3, 6, 9],
            'gamma': np.linspace(0, 3, 10),
            # 'objective': ['multi:softmax'],
            'booster': ['gbtree']
        }

    elif model == 'lgb':
        params_dict = {
            # 'objective': ['multiclass'],
            'num_leaves': [15, 21, 27, 31, 33],
            'max_depth': [-1, 2],
            'n_estimators': [5, 10, 50, 100, 130],
            'min_child_samples': [10, 20, 25, 30]
        }

    elif model == 'lda':
        params_dict1 = {
            'solver': ['lsqr', 'eigen'],
            'shrinkage': np.logspace(-3, 0, 30)
        }
        params_dict2 = {
            'solver': ['svd'],
            'tol': np.logspace(-5, -3, 20)
        }

    elif model == 'qda':
        params_dict = {
            'reg_param': np.append(np.array([0]), np.logspace(-5, 0, 10)),
            'tol': np.logspace(-5, -3, 10)
        }

    elif model == 'plsda':
        params_dict = {
            'n_components': [1, 2, 3],
            'max_iter': [300, 500, 1000],
            'tol': np.logspace(-7, -5, 10)
        }

    elif model == 'mlp':
        params_dict = {
            'hidden_layer_sizes': [(50), (100, 50, 10), (100, 70, 50, 30, 10)],
            'activation': ['relu', 'tanh'],
            'solver': ['adam', 'sgd'],
            'alpha': [0.0001, 0.001],
            'learning_rate_init': [0.001, 0.01, 0.1],
            'max_iter': [50, 100, 200]
        }

    #
    if model == 'lda':
        params = parameter_grid(params_dict1)
        params.extend(parameter_grid(params_dict2))
    else:
        params = parameter_grid(params_dict)

    return params

# **load_hyperparameter**

`load_hyperparameter` 함수는 입은 받은 머신 러닝 모델에 대한 하이퍼파라미터 그리드를 생성하여 반환하는 함수입니다.

- **매개변수**:
  - `model`: 하이퍼파라미터를 생성할 모델의 이름을 문자열로 입력받습니다.

- **동작 과정**:
  1. 모델 이름에 따라 해당 모델의 하이퍼파라미터 설정을 담고 있는 `params_dict` dictionary를 생성합니다.
  2. 각 모델에 대한 하이퍼파라미터 값의 범위를 지정합니다.
  3. `parameter_grid` 함수를 사용하여 가능한 모든 하이퍼파라미터 조합을 생성합니다.
  4. 생성된 하이퍼파라미터 조합을 리스트 형태로 반환합니다.

- **모델 및 하이퍼파라미터**:
  - Logistic Regression: `C`, `penalty`, `solver`
  - Decision Tree: `criterion`, `max_depth`, `min_samples_split`
  - Random Forest: `n_estimators`, `criterion`, `min_samples_split`
  - Gradient Boosting: `learning_rate`, `n_estimators`, `max_depth`
  - XGBoost: `min_child_weight`, `max_depth`, `gamma`
  - LightGBM: `num_leaves`, `max_depth`, `n_estimators`
  - Linear Discriminant Analysis: `solver`, `shrinkage`, `tol`
  - Quadratic Discriminant Analysis: `reg_param`, `tol`
  - PLS Regression: `n_components`, `max_iter`, `tol`
  - MLP Classifier: `hidden_layer_sizes`, `activation`, `solver`
