In [1]:
import pickle
import pandas as pd
from flaml import AutoML

class FLAMLPredictor:
    def __init__(self, model_file, data_file, target_idx_code):
        """
        FLAML 모델 훈련 및 예측을 위한 클래스 초기화
        :param model_file: 저장할 모델 및 예측 결과물 파일 경로
        :param data_file: .pkl 데이터 파일 경로 (전처리된 데이터)
        :param target_idx_code: 타겟 인덱스 코드
        """
        self.model_file = model_file
        self.data_file = data_file
        self.target_idx_code = target_idx_code
        self.X, self.y, self.X_last = self.load_data(data_file)
        self.model_name = 'lgbm'
        
        # FLAML 객체 생성
        self.automl = AutoML()

    def load_data(self, data_file):
        """
        저장된 데이터 파일을 불러오는 함수
        :param data_file: .pkl 파일 경로
        :return: (X, y, X_last)
        """
        with open(data_file, 'rb') as f:
            data = pickle.load(f)
        
        # X = data['X']
        # y = data['y']
        # X_last = data['X_last']

        ## 입력데이터 형식 변경되어 아래와 같이 코드 수정
      
        # pandas DataFrame으로 변환
        X = pd.DataFrame(data['X'])
        X_last = pd.DataFrame(data['X_last'])
        
        # 숫자형 데이터만 선택
        X = X.select_dtypes(include=['number'])
        X_last = X_last.select_dtypes(include=['number'])
        
        # numpy 배열로 변환
        X = X.values
        X_last = X_last.values
        
        # y 데이터를 1차원 배열로 변환
        y = pd.Series(data['y']).values.ravel()
        
        # y 데이터가 숫자형인지 확인
        try:
            y = y.astype(float)  # float으로 변환 시도
        except ValueError:
            raise ValueError("y 데이터에 숫자가 아닌 값이 포함되어 있습니다.")
        
        return X, y, X_last


    def train_model(self):
        """
        FLAML 모델 훈련을 위한 메서드
        """
        settings = {
            "time_budget": 60,  # 초 단위 최대 탐색 시간
            "metric": "log_loss",  # 분류 문제 평가 지표
            "task": "classification",  # 분류 문제로 설정
            "estimator_list": [self.model_name],  # LightGBM 모델 사용
            "log_file_name": "ml_flaml_lgbm.log",  # 로그 저장 파일
            "seed": 42 ,  # 시드 고정
            "verbose": False
        }
        
        # 학습
        self.automl.fit(self.X, self.y, **settings)

        # 최적화 결과 출력
        print("Best model config:", self.automl.best_config)
        print("Best model score:", self.automl.best_loss)

    def predict_last(self):
        """
        마지막 행에 대한 예측을 수행하는 메서드
        :return: 예측값과 확률
        """
        # y_pred_last = self.automl.predict(self.X_last)
        # y_prob_last = self.automl.predict_proba(self.X_last)
        # print("Prediction for the last row (1: Up, 0: Down):", y_pred_last[0], 'proba :', y_prob_last[0][y_pred_last[0]])

        ## index 오류 발생하여 아래와 같이 코드 수정
        
        # 마지막 행에 대한 예측 수행
        y_pred_last = self.automl.predict(self.X_last)
        y_prob_last = self.automl.predict_proba(self.X_last)
    
        # 예측 결과를 정수로 변환
        y_pred_last = y_pred_last.astype(int)
    
        # 확률 및 예측 출력
        print("Prediction for the last row (1: Up, 0: Down):", y_pred_last[0], 'proba :', y_prob_last[0][y_pred_last[0]])
        
        return y_pred_last, y_prob_last

    def save_model_and_results(self):
        """
        훈련된 모델과 예측 결과물을 저장하는 메서드
        """
        # 모델 저장
        with open(f"ml_flaml_{self.model_name}_{self.model_file}.pkl", "wb") as model_f:
            pickle.dump(self.automl, model_f)

        # 예측 결과물 저장
        results = {
            "best_config": self.automl.best_config,
            "best_loss": self.automl.best_loss,
            "predictions": self.automl.predict(self.X_last),
            "probabilities": self.automl.predict_proba(self.X_last)
        }

        with open(f"rs_{self.model_file}.pkl", "wb") as result_f:
            pickle.dump(results, result_f)

        print(f"Model and results saved to flaml_{self.model_name}_{self.model_file}.pkl and rs_{self.model_file}.pkl")

# 모델 파일과 전처리된 데이터 파일 경로 지정
model_file = "domesticIndex"
data_file = "ds_domesticIndex_flaml.pkl"

# FLAML 모델 훈련 및 예측
predictor = FLAMLPredictor(model_file, data_file, target_idx_code='0001')

# 모델 훈련
predictor.train_model()

# 마지막 행 예측
predictor.predict_last()

# 모델 및 예측 결과 저장
predictor.save_model_and_results()

Best model config: {'n_estimators': 40, 'num_leaves': 11, 'min_child_samples': 37, 'learning_rate': 1.0, 'log_max_bin': 9, 'colsample_bytree': 0.9440560309038013, 'reg_alpha': 0.0009875999009378935, 'reg_lambda': 0.0017596730633155154}
Best model score: 1.709680927370502e-05
Prediction for the last row (1: Up, 0: Down): 0 proba : 0.9999979413258141
Model and results saved to flaml_lgbm_domesticIndex.pkl and rs_domesticIndex.pkl


In [2]:
predictor.automl.predict(predictor.X_last)

array([0.])