In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import cross_val_score
import numpy as np
import optuna

# train.csv 파일 불러오기
train_data = pd.read_csv('train.csv')

# '월'과 '일'을 결합하여 '월일' 변수 생성
train_data['월일'] = train_data['월'].astype(str) + '-' + train_data['일'].astype(str)

# '월일' 열을 datetime 형식으로 변환하며, 변환 중 오류가 발생하면 처리
def convert_to_nearest_valid_date(x):
    try:
        return pd.to_datetime(x, format='%m-%d')
    except ValueError:
        month, day = x.split('-')
        month, day = int(month), int(day)
        max_day_in_month = np.clip(day, 1, 28)  # Clip day to be within a valid range (1 to 28)
        return pd.to_datetime(f'2022-{month:02d}-{max_day_in_month:02d}')

train_data['월일'] = train_data['월일'].apply(convert_to_nearest_valid_date)


# 1월 1일로부터 며칠이 지났는지 일 수를 센 값으로 변경
train_data['일_수'] = train_data['월일'] - pd.to_datetime('01-01', format='%m-%d')
train_data['일_수'] = train_data['일_수'].dt.days

# '일 수' 값을 365로 나누어 새로운 변수 '일_수_정규화' 생성
train_data['일_수_정규화'] = train_data['일_수'] % 365

# '일 수_정규화' 변수를 sin, cos 함수를 활용하여 주기성을 나타내는 두 개의 새로운 변수 생성
train_data['월일_sin'] = np.sin(2 * np.pi * train_data['일_수_정규화'] / 365)
train_data['월일_cos'] = np.cos(2 * np.pi * train_data['일_수_정규화'] / 365)

# '월일' 열은 더 이상 필요 없으므로 삭제
train_data.drop(['월일'], axis=1, inplace=True)



# '측정 시간대'를 시간대로 변환하는 함수 생성
def time_to_hour_category(time_str):
    if '새벽' in time_str:
        return 0  # 새벽
    elif '오전' in time_str:
        return 6  # 오전
    elif '오후' in time_str:
        return 12  # 오후
    elif '저녁' in time_str:
        return 18  # 저녁
    else:
        return None  # 그 외의 경우 (예: 결측치)

# '측정 시간대' 컬럼을 시간대로 변환하여 새로운 컬럼 '시간대' 생성
train_data['시간대'] = train_data['측정 시간대'].apply(time_to_hour_category)

# 변환에 사용되지 않을 '측정 시간대' 컬럼을 삭제
train_data.drop(['측정 시간대'], axis=1, inplace=True)

# '월'을 기반으로 '계절' 더미 열 생성 함수
def get_season(month):
    if 3 <= month <= 5:
        return '봄'
    elif 6 <= month <= 8:
        return '여름'
    elif 9 <= month <= 11:
        return '가을'
    else:
        return '겨울'
# '월' 정보를 바탕으로 '계절' 더미 열 생성
train_data['계절'] = train_data['월'].apply(get_season)
# One-Hot Encoding을 활용하여 '계절' 더미 열을 변환
ohe = OneHotEncoder(sparse=False)
train_season_encoded = pd.DataFrame(ohe.fit_transform(train_data[['계절']]), columns=ohe.get_feature_names(['계절']))
# 기존 데이터와 '계절' 더미 열을 합칩니다.
train_data = pd.concat([train_data, train_season_encoded], axis=1)
# 더미 열로 변환된 '계절' 컬럼과 원래의 '계절' 컬럼을 삭제합니다.
train_data.drop(['계절'], axis=1, inplace=True)

# 결측치를 평균값으로 대체
train_data = train_data.fillna(train_data.mean())

# 풍속을 예측할 특성(입력 변수)과 풍속(출력 변수)을 분리합니다.
X_train = train_data.drop(['ID', '풍속 (m/s)'], axis=1)  # 입력 변수들
y_train = train_data['풍속 (m/s)']  # 출력 변수 (풍속)

# test.csv 파일 불러오기
test_data = pd.read_csv('test.csv')

# '월'과 '일'을 결합하여 '월일' 변수 생성
test_data['월일'] = test_data['월'].astype(str) + '-' + test_data['일'].astype(str)

# '월일' 열을 datetime 형식으로 변환하며, 변환 중 오류가 발생하면 가장 가까운 날짜로 처리
test_data['월일'] = test_data['월일'].apply(convert_to_nearest_valid_date)

# 1월 1일로부터 며칠이 지났는지 일 수를 센 값으로 변경
test_data['일_수'] = test_data['월일'] - pd.to_datetime('01-01', format='%m-%d')
test_data['일_수'] = test_data['일_수'].dt.days

# '일 수' 값을 365로 나누어 새로운 변수 '일_수_정규화' 생성
test_data['일_수_정규화'] = test_data['일_수'] % 365

# '일 수_정규화' 변수를 sin, cos 함수를 활용하여 주기성을 나타내는 두 개의 새로운 변수 생성
test_data['월일_sin'] = np.sin(2 * np.pi * train_data['일_수_정규화'] / 365)
test_data['월일_cos'] = np.cos(2 * np.pi * train_data['일_수_정규화'] / 365)

# '월일' 열은 더 이상 필요 없으므로 삭제
test_data.drop(['월일'], axis=1, inplace=True)

# '측정 시간대' 컬럼을 시간대로 변환하여 새로운 컬럼 '시간대' 생성
test_data['시간대'] = test_data['측정 시간대'].apply(time_to_hour_category)

# 변환에 사용되지 않을 '측정 시간대' 컬럼을 삭제
test_data.drop(['측정 시간대'], axis=1, inplace=True)


#'시간대' 변수를 sin, cos 함수를 활용하여 주기성을 나타내는 두 개의 새로운 변수를 생성합니다.

train_data['시간대_sin'] = np.sin(2 * np.pi * train_data['시간대'] / 24)
train_data['시간대_cos'] = np.cos(2 * np.pi * train_data['시간대'] / 24)

test_data['시간대_sin'] = np.sin(2 * np.pi * test_data['시간대'] / 24)
test_data['시간대_cos'] = np.cos(2 * np.pi * test_data['시간대'] / 24)

# '월' 정보를 바탕으로 '계절' 더미 열 생성
test_data['계절'] = test_data['월'].apply(get_season)

# One-Hot Encoding을 활용하여 '계절' 더미 열을 변환
test_season_encoded = pd.DataFrame(ohe.transform(test_data[['계절']]), columns=ohe.get_feature_names(['계절']))

# 기존 데이터와 '계절' 더미 열을 합칩니다.
test_data = pd.concat([test_data, test_season_encoded], axis=1)

# 더미 열로 변환된 '계절' 컬럼과 원래의 '계절' 컬럼을 삭제합니다.
test_data.drop(['계절'], axis=1, inplace=True)


# 결측치를 평균값으로 대체
test_data = test_data.fillna(test_data.mean())

X_test = test_data.drop('ID', axis=1)  # 테스트 입력 변수들

# 함수 정의: Optuna를 활용한 하이퍼파라미터 최적화
def objective(trial):
    # ExtraTreesRegressor의 하이퍼파라미터 탐색 범위를 지정합니다.
    n_estimators = trial.suggest_int("n_estimators", 50, 200)
    max_features = trial.suggest_float("max_features", 0.1, 1.0)
    min_samples_split = trial.suggest_int("min_samples_split", 2, 20)
    min_samples_leaf = trial.suggest_int("min_samples_leaf", 1, 20)

    # ExtraTreesRegressor 모델을 정의합니다.
    model = ExtraTreesRegressor(
        n_estimators=n_estimators,
        max_features=max_features,
        min_samples_split=min_samples_split,
        min_samples_leaf=min_samples_leaf,
        random_state=42,
    )

    # Cross Validation으로 모델 평가 (MAE를 평가 지표로 사용합니다.)
    mae_scores = -cross_val_score(model, X_train, y_train, scoring='neg_mean_absolute_error', cv=5)
    mean_mae = np.mean(mae_scores)
    return mean_mae

# 풍속을 예측할 특성(입력 변수)과 풍속(출력 변수)을 분리합니다.
X_train = train_data.drop(['ID', '풍속 (m/s)'], axis=1)  # 입력 변수들
y_train = train_data['풍속 (m/s)']  # 출력 변수 (풍속)

# Optuna를 활용한 하이퍼파라미터 최적화
study = optuna.create_study(direction="minimize")
study.optimize(objective, n_trials=100)

# 최적 하이퍼파라미터 값을 가져옵니다.
best_params = study.best_params

# 최적화된 하이퍼파라미터로 모델을 재학습합니다.
best_model = ExtraTreesRegressor(
    n_estimators=best_params["n_estimators"],
    max_features=best_params["max_features"],
    min_samples_split=best_params["min_samples_split"],
    min_samples_leaf=best_params["min_samples_leaf"],
    random_state=42,
)

best_model.fit(X_train, y_train)

# 테스트 데이터로 풍속 예측을 수행합니다.
y_pred = best_model.predict(X_test)  # 테스트 데이터로 풍속 예측

# Submit / 제출
submission = pd.read_csv('./sample_submission.csv')

# 풍속 예측 결과를 '풍속 (m/s)' 열에 대입합니다.
submission['풍속 (m/s)'] = y_pred

# 예측 결과를 submission.csv 양식에 맞게 저장합니다.
submission.to_csv('submission.csv', index=False)

print("풍속 예측이 완료되었습니다. 결과가 submission.csv에 저장되었습니다.")


# Cross Validation을 활용하여 평균 MAE 계산
mae_scores = -cross_val_score(best_model, X_train, y_train, scoring='neg_mean_absolute_error', cv=5)
print("평균 MAE:", np.mean(mae_scores))

  from .autonotebook import tqdm as notebook_tqdm
