In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
from tqdm.notebook import tqdm
import xgboost as xgb
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV

# 데이터가 저장된 디렉토리 경로
print(os.getcwd())
directory = 'data/All_not_null'

# 저장할 디렉토리 경로
output_directory = 'data/All_not_null_result'
if not os.path.exists(output_directory):
    os.makedirs(output_directory)

# 디렉토리 내 모든 CSV 파일에 대해 처리
for filename in tqdm(os.listdir(directory)):
    if filename.endswith('.csv'):
        # 파일 경로
        file_path = os.path.join(directory, filename)
        
        # 데이터 읽기
        data = pd.read_csv(file_path)
        data = data.fillna(0)
        
        # 데이터 전처리
        X = data.iloc[:, 4:-6]  # 특성 데이터 (온도 포함하려면 3:-6)
        y = data.iloc[:, -5:]  # 목표 변수
        features = X.columns.to_list()

        for i in range(y.shape[1]):  # 각 목표 변수에 대해 반복
            target = y.iloc[:, i]

            model = xgb.XGBRegressor(objective='reg:squarederror', eval_metric='rmse')

            # XGBoost 회귀 모델 학습
            param_grid = {
                'max_depth': [2, 3, 4, 5],
                'n_estimators': [100, 200, 300],
                'learning_rate': [0.01, 0.1],
                'subsample': [0.8, 1.0]
            }

            # GridSearchCV 설정 및 모델 학습
            grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='neg_mean_squared_error', verbose=1)
            grid_search.fit(X, target)

            grid_imp = grid_search.best_estimator_.feature_importances_
            
            indices = np.argsort(grid_imp)[::-1]
            
            # 시각화
            plt.figure(figsize=(15, 10))
            plt.title(f'{filename} - Target {i+1} \n Top 5: {np.array(features)[indices[:5]]} \n HP: {grid_search.best_params_}')
            plt.bar(range(X.shape[1]), grid_imp[indices], align='center')
            plt.xticks(range(X.shape[1]), np.array(features)[indices], rotation=90)
            plt.xlim([-1, X.shape[1]])

            # 파일로 저장
            output_file = os.path.join(output_directory, f'{filename}_target_{i+1}.png')
            plt.savefig(output_file)
            plt.close()
