# H2O AutoML: Automatic Machine Learning

최근 몇 년 동안 머신러닝 전문가에 대한 수요가 공급을 앞질렀지만, 이 분야로 진입하는 사람들이 급증하고 있습니다. 이러한 격차를 해소하기 위해 비전문가도 사용할 수 있는 사용자 친화적인 머신러닝 소프트웨어 개발이 큰 진전을 이루었습니다. 머신러닝을 단순화하기 위한 첫 번째 단계는 다양한 머신러닝 알고리즘(예: H2O)에 대한 간단하고 통합된 인터페이스를 개발하는 것이었습니다.

H2O의 AutoML은 사용자가 지정한 시간 제한 내에서 여러 모델을 자동으로 학습하고 튜닝하는 등 머신러닝 워크플로우를 자동화하는 데 사용할 수 있습니다.



# Required Parameters

## Required Data Parameters

`y`: This argument is the name (or index) of the response column.

`training_frame`: Specifies the training set.

## Required Stopping Parameters

다음 중지 전략(시간 또는 모델 수 기반) 중 하나를 지정해야 합니다. 두 옵션이 모두 설정되어 있으면 AutoML 실행이 다음 중 하나에 도달하는 즉시 중지됩니다. 두 옵션이 모두 설정되어 있으면 AutoML 실행이 다음 제한 중 하나에 도달하는 즉시 중지됩니다.

`max_runtime_secs`: 이 인수는 AutoML 프로세스가 실행될 최대 시간을 지정합니다. 기본값은 0(제한 없음)이지만 사용자가 max_runtime_secs 및 max_models 중 어느 것도 지정하지 않으면 동적으로 1시간으로 설정됩니다.

`max_models`: 스택형 앙상블 모델을 제외하고 AutoML 실행에서 빌드할 최대 모델 수를 지정합니다. 기본값은 NULL/없음입니다. AutoML 재현성을 보장하려면 항상 이 매개변수를 설정하면 모든 모델이 수렴될 때까지 학습되고 시간 예산의 제약을 받지 않습니다.

# Optional Parameters

## Optional Data Parameters

`x`: 예측자 열 이름 또는 인덱스의 목록/벡터입니다. 이 인수는 사용자가 예측자 집합에서 열을 제외하려는 경우에만 지정하면 됩니다. 응답을 제외한 모든 열을 예측에 사용해야 하는 경우에는 이 인수를 설정할 필요가 없습니다.(독립변수 지정한다는 뜻)

`validation_frame`: 이 인수는 개별 모델의 조기 중지 및 그리드 검색의 조기 중지에 유효성 검사 프레임을 지정하여 사용할 수 있는 nfolds == 0이 아닌 한 무시됩니다(max_models 또는 max_runtime_secs가 메트릭 기반 조기 중지를 재정의하지 않는 한). 기본적으로 nfolds가 1보다 크면 교차 유효성 검사 메트릭이 조기 정지에 사용되므로 validation_frame은 무시됩니다.

`leaderboard_frame`: 이 인수를 통해 사용자는 리더보드에서 모델의 점수를 매기고 순위를 매기는 데 사용할 특정 데이터 프레임을 지정할 수 있습니다. 이 프레임은 리더보드 점수 이외의 다른 용도로는 사용되지 않습니다. 사용자가 리더보드 프레임을 지정하지 않으면 리더보드에서 교차 검증 메트릭을 대신 사용하거나 nfolds = 0으로 설정하여 교차 검증을 해제하면 학습 프레임에서 리더보드 프레임이 자동으로 생성됩니다.

`blending_frame`:스택형 앙상블 모델 메탈어너의 훈련 프레임 역할을 하는 예측을 계산하는 데 사용할 프레임을 지정합니다. 이 옵션을 제공하면 AutoML에서 생성된 모든 스택형 앙상블은 교차 검증을 기반으로 하는 기본 스택 방식 대신 블렌딩(일명 홀드아웃 스택)을 사용하여 학습됩니다.

`fold_column`: 관측값당 교차 검증 폴드 인덱스가 할당된 열을 지정합니다. 이는 AutoML 실행에서 개별 모델에 대한 기본 무작위 5배수 교차 검증 체계를 재정의하는 데 사용됩니다.

`weights_column`: 관측값 가중치가 있는 열을 지정합니다. 어떤 관측값에 0의 가중치를 부여하는 것은 데이터 집합에서 제외하는 것과 같고, 어떤 관측값에 2의 상대 가중치를 부여하는 것은 해당 행을 두 번 반복하는 것과 같습니다. 음수 가중치는 허용되지 않습니다.

# Explainability
AutoML 객체는 H2O 모델 설명성 인터페이스를 통해 완벽하게 지원됩니다. h2o.explain()을 한 번만 호출하면 다수의 다중 모델 비교 및 단일 모델(AutoML 리더) 플롯을 자동으로 생성할 수 있습니다.

https://docs.h2o.ai/h2o/latest-stable/h2o-docs/explain.html

# Train

다음은 R의 h2o.automl() 함수와 Python의 H2OAutoML 클래스의 기본 사용법을 보여주는 예제입니다. 이 데이터 집합에서는 인수가 필요하지 않지만 데모 목적으로만 명시적으로 x 인수를 지정했습니다. 이 데이터 세트에서 예측자 집합은 응답을 제외한 모든 열입니다. 다른 H2O 알고리즘과 마찬가지로 x의 기본값은 "y를 제외한 모든 열"이므로 동일한 결과를 생성합니다.

In [1]:
!pip install h2o

Collecting h2o
  Downloading h2o-3.46.0.3.tar.gz (265.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m265.3/265.3 MB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: h2o
  Building wheel for h2o (setup.py) ... [?25l[?25hdone
  Created wheel for h2o: filename=h2o-3.46.0.3-py2.py3-none-any.whl size=265365897 sha256=83affd8e4fce7d99ef64c88a0264be9d7fc7b2cdf539ae19889fea68efa3bc21
  Stored in directory: /root/.cache/pip/wheels/c4/63/41/baa115b5255e1db3e2383bce4e2e6181746aac0b42264c242f
Successfully built h2o
Installing collected packages: h2o
Successfully installed h2o-3.46.0.3


In [2]:
import h2o
from h2o.automl import H2OAutoML

# Start the H2O cluster (locally)
h2o.init()

# Import a sample binary outcome train/test set into H2O
train = h2o.import_file("https://s3.amazonaws.com/erin-data/higgs/higgs_train_10k.csv")
test = h2o.import_file("https://s3.amazonaws.com/erin-data/higgs/higgs_test_5k.csv")

# Identify predictors and response
x = train.columns
y = "response"
x.remove(y)

# For binary classification, response should be a factor
train[y] = train[y].asfactor()
test[y] = test[y].asfactor()

# Run AutoML for 20 base models
aml = H2OAutoML(max_models=20, seed=1)
aml.train(x=x, y=y, training_frame=train)

# View the AutoML Leaderboard
lb = aml.leaderboard
lb.head(rows=lb.nrows)  # Print all rows instead of default (10 rows)

Checking whether there is an H2O instance running at http://localhost:54321..... not found.
Attempting to start a local H2O server...
  Java Version: openjdk version "11.0.23" 2024-04-16; OpenJDK Runtime Environment (build 11.0.23+9-post-Ubuntu-1ubuntu122.04.1); OpenJDK 64-Bit Server VM (build 11.0.23+9-post-Ubuntu-1ubuntu122.04.1, mixed mode, sharing)
  Starting server from /usr/local/lib/python3.10/dist-packages/h2o/backend/bin/h2o.jar
  Ice root: /tmp/tmpguxxwquf
  JVM stdout: /tmp/tmpguxxwquf/h2o_unknownUser_started_from_python.out
  JVM stderr: /tmp/tmpguxxwquf/h2o_unknownUser_started_from_python.err
  Server is running at http://127.0.0.1:54321
Connecting to H2O server at http://127.0.0.1:54321 ... successful.


0,1
H2O_cluster_uptime:,06 secs
H2O_cluster_timezone:,Etc/UTC
H2O_data_parsing_timezone:,UTC
H2O_cluster_version:,3.46.0.3
H2O_cluster_version_age:,8 days
H2O_cluster_name:,H2O_from_python_unknownUser_knqtrf
H2O_cluster_total_nodes:,1
H2O_cluster_free_memory:,3.170 Gb
H2O_cluster_total_cores:,2
H2O_cluster_allowed_cores:,2


Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |███████████████████████████████████████████████████████████████| (done) 100%


model_id,auc,logloss,aucpr,mean_per_class_error,rmse,mse
StackedEnsemble_AllModels_1_AutoML_1_20240620_21927,0.78865,0.550757,0.807661,0.3235,0.432286,0.186871
StackedEnsemble_BestOfFamily_1_AutoML_1_20240620_21927,0.787555,0.551702,0.806054,0.323724,0.432743,0.187267
GBM_1_AutoML_1_20240620_21927,0.782177,0.557734,0.800457,0.328058,0.435367,0.189544
GBM_2_AutoML_1_20240620_21927,0.77971,0.560845,0.798129,0.332059,0.436651,0.190664
GBM_5_AutoML_1_20240620_21927,0.778805,0.561756,0.796787,0.334326,0.437108,0.191063
GBM_grid_1_AutoML_1_20240620_21927_model_2,0.77786,0.564655,0.795359,0.33376,0.438088,0.191921
GBM_3_AutoML_1_20240620_21927,0.774951,0.565286,0.794951,0.3354,0.438932,0.192661
GBM_4_AutoML_1_20240620_21927,0.769913,0.570673,0.787941,0.34322,0.441434,0.194864
XGBoost_grid_1_AutoML_1_20240620_21927_model_2,0.76909,0.581469,0.786922,0.346163,0.444983,0.19801
XGBoost_3_AutoML_1_20240620_21927,0.76813,0.574021,0.787229,0.337348,0.442807,0.196078
