**automl**
<br/>
- 여러 모델 자동화
1. 데이터 전처리: 누락된 값 처리, 특성 스케일링, 범주형 변수 인코딩 등
2. 특성 선택 및 추출: 모델 학습에 가장 유용한 특성을 선택하거나 추출합니다.
3. 모델 선택
4. 모델 구성 및 최적화
5. 앙상블

In [None]:
#예제 코드
import h2o
from h2o.automl import H2OAutoML

# H2O 클러스터 초기화
h2o.init()

# 데이터 로딩
data = h2o.import_file(" ")

# AutoML 모델 초기화 및 실행
aml = H2OAutoML(max_models=10, seed=1) #최대 10개의 모델 학습, 랜덤 시드
aml.train(y="target_column", training_frame=data) #모델 학습(예측하려는 열의 이름 지정, 데이터 프레임 지정)

# 결과 확인
leaderboard = aml.leaderboard #AutoML에서 학습된 모델의 성능을 나타내는 리더보드를 가져옴
print(leaderboard)

# 최적의 모델 선택
best_model = aml.leader #AutoML에서 선택된 최적의 모델을 가져옴

# 모델 성능 확인
performance = best_model.model_performance(test_data=data)
print(performance)

In [None]:
!pip install h2o

Collecting h2o
  Downloading h2o-3.44.0.3.tar.gz (265.2 MB)
     ---------------------------------------- 0.0/265.2 MB ? eta -:--:--
     ---------------------------------------- 0.1/265.2 MB 1.9 MB/s eta 0:02:19
     ---------------------------------------- 0.2/265.2 MB 2.1 MB/s eta 0:02:08
     ---------------------------------------- 0.4/265.2 MB 2.8 MB/s eta 0:01:36
     ---------------------------------------- 0.6/265.2 MB 3.4 MB/s eta 0:01:19
     ---------------------------------------- 0.8/265.2 MB 3.6 MB/s eta 0:01:13
     ---------------------------------------- 0.9/265.2 MB 3.3 MB/s eta 0:01:20
     ---------------------------------------- 1.1/265.2 MB 3.5 MB/s eta 0:01:17
     ---------------------------------------- 1.4/265.2 MB 3.7 MB/s eta 0:01:12
     ---------------------------------------- 1.8/265.2 MB 3.5 MB/s eta 0:01:15
     ---------------------------------------- 2.0/265.2 MB 3.7 MB/s eta 0:01:13
     ---------------------------------------- 2.2/265.2 MB 3.7 MB/s


[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
import pandas as pd
import h2o
from h2o.automl import H2OAutoML

In [None]:
# H2O 클러스터 초기화
h2o.init()

Checking whether there is an H2O instance running at http://localhost:54321..... not found.
Attempting to start a local H2O server...


CalledProcessError: Command '['C:\\Program Files (x86)\\Common Files\\Oracle\\Java\\javapath\\java.exe', '-version']' returned non-zero exit status 1.

In [None]:
train = pd.read_csv(r"C:\Users\USER\OneDrive - 한국외국어대학교\바탕 화면\open\train.csv")
test = pd.read_csv(r"C:\Users\USER\OneDrive - 한국외국어대학교\바탕 화면\open\test.csv")

In [None]:
train_h2o = h2o.H2OFrame(train) #H2OFrame으로 변환
test_h2o = h2o.H2OFrame(test)

In [None]:
aml = H2OAutoML(max_models=10, seed=42, exclude_algos=["StackedEnsemble", "DeepLearning"])
#최대 10개 모델 학습, 랜덤시드 42개
#제외할 변수 설정: 스태킹 앙상블과 딥러닝을 제외한 모든 알고리즘을 사용
x = train_h2o.columns #입력 변수
# train 데이터셋인 train_h2o의 모든 열을 입력 변수로 사용
y = "price(원/kg)"  # 타겟 변수
x.remove(y) #입력 변수 중에서 타겟 변수를 제거

In [None]:
aml.train(x=x, y=y, training_frame=train_h2o)
# 입력 변수로 사용할 데이터 프레임의 열을 지정, 입력변수
# 타겟 변수로 사용할 열을 지정
# 학습에 사용할 데이터 프레임을 지정

In [None]:
# AutoML 모델 성능 확인
lb = aml.leaderboard
print(lb)

In [None]:
preds = aml.leader.predict(test_h2o)
print(preds)

In [None]:
#종료
h2o.shutdown()