In [1]:
import pandas as pd
import numpy as np
from tpot import TPOTRegressor

# train.csv 파일 불러오기
train_data = pd.read_csv('train.csv')

# '월'과 '일'을 결합하여 '월일' 변수 생성
train_data['월일'] = train_data['월'].astype(str) + '-' + train_data['일'].astype(str)

# '월일' 열을 datetime 형식으로 변환하며, 변환 중 오류가 발생하면 처리
def convert_to_nearest_valid_date(x):
    try:
        return pd.to_datetime(x, format='%m-%d')
    except ValueError:
        month, day = x.split('-')
        month, day = int(month), int(day)
        max_day_in_month = np.clip(day, 1, 28)  # Clip day to be within a valid range (1 to 28)
        return pd.to_datetime(f'2022-{month:02d}-{max_day_in_month:02d}')

train_data['월일'] = train_data['월일'].apply(convert_to_nearest_valid_date)

# 1월 1일로부터 며칠이 지났는지 일 수를 센 값으로 변경
train_data['일_수'] = train_data['월일'] - pd.to_datetime('01-01', format='%m-%d')
train_data['일_수'] = train_data['일_수'].dt.days

# '일 수' 값을 365로 나누어 새로운 변수 '일_수_정규화' 생성
train_data['일_수_정규화'] = train_data['일_수'] % 365

# '일 수_정규화' 변수를 sin, cos 함수를 활용하여 주기성을 나타내는 두 개의 새로운 변수 생성
train_data['월일_sin'] = np.sin(2 * np.pi * train_data['일_수_정규화'] / 365)
train_data['월일_cos'] = np.cos(2 * np.pi * train_data['일_수_정규화'] / 365)

# '월일' 열은 더 이상 필요 없으므로 삭제
train_data.drop(['월일'], axis=1, inplace=True)

# '측정 시간대'를 시간대로 변환하는 함수 생성
def time_to_hour_category(time_str):
    if '새벽' in time_str:
        return 0  # 새벽
    elif '오전' in time_str:
        return 6  # 오전
    elif '오후' in time_str:
        return 12  # 오후
    elif '저녁' in time_str:
        return 18  # 저녁
    else:
        return None  # 그 외의 경우 (예: 결측치)

# '측정 시간대' 컬럼을 시간대로 변환하여 새로운 컬럼 '시간대' 생성
train_data['시간대'] = train_data['측정 시간대'].apply(time_to_hour_category)

# 변환에 사용되지 않을 '측정 시간대' 컬럼을 삭제
train_data.drop(['측정 시간대'], axis=1, inplace=True)

# '월'을 기반으로 '계절' 더미 열 생성 함수
def get_season(month):
    if 3 <= month <= 5:
        return '봄'
    elif 6 <= month <= 8:
        return '여름'
    elif 9 <= month <= 11:
        return '가을'
    else:
        return '겨울'
# '월' 정보를 바탕으로 '계절' 더미 열 생성
train_data['계절'] = train_data['월'].apply(get_season)
# One-Hot Encoding을 활용하여 '계절' 더미 열을 변환
ohe = OneHotEncoder(sparse=False)
train_season_encoded = pd.DataFrame(ohe.fit_transform(train_data[['계절']]), columns=ohe.get_feature_names(['계절']))
# 기존 데이터와 '계절' 더미 열을 합칩니다.
train_data = pd.concat([train_data, train_season_encoded], axis=1)
# 더미 열로 변환된 '계절' 컬럼과 원래의 '계절' 컬럼을 삭제합니다.
train_data.drop(['계절'], axis=1, inplace=True)


# 결측치를 평균값으로 대체
train_data = train_data.fillna(train_data.mean())

# 풍속을 예측할 특성(입력 변수)과 풍속(출력 변수)을 분리합니다.
X_train = train_data.drop(['ID', '풍속 (m/s)'], axis=1)  # 입력 변수들
y_train = train_data['풍속 (m/s)']  # 출력 변수 (풍속)

# test.csv 파일 불러오기
test_data = pd.read_csv('test.csv')

# '월'과 '일'을 결합하여 '월일' 변수 생성
test_data['월일'] = test_data['월'].astype(str) + '-' + test_data['일'].astype(str)

# '월일' 열을 datetime 형식으로 변환하며, 변환 중 오류가 발생하면 가장 가까운 날짜로 처리
test_data['월일'] = test_data['월일'].apply(convert_to_nearest_valid_date)

# 1월 1일로부터 며칠이 지났는지 일 수를 센 값으로 변경
test_data['일_수'] = test_data['월일'] - pd.to_datetime('01-01', format='%m-%d')
test_data['일_수'] = test_data['일_수'].dt.days

# '일 수' 값을 365로 나누어 새로운 변수 '일_수_정규화' 생성
test_data['일_수_정규화'] = test_data['일_수'] % 365

# '일 수_정규화' 변수를 sin, cos 함수를 활용하여 주기성을 나타내는 두 개의 새로운 변수 생성
test_data['월일_sin'] = np.sin(2 * np.pi * train_data['일_수_정규화'] / 365)
test_data['월일_cos'] = np.cos(2 * np.pi * train_data['일_수_정규화'] / 365)

# '월일' 열은 더 이상 필요 없으므로 삭제
test_data.drop(['월일'], axis=1, inplace=True)

# '측정 시간대' 컬럼을 시간대로 변환하여 새로운 컬럼 '시간대' 생성
test_data['시간대'] = test_data['측정 시간대'].apply(time_to_hour_category)

# 변환에 사용되지 않을 '측정 시간대' 컬럼을 삭제
test_data.drop(['측정 시간대'], axis=1, inplace=True)

#'시간대' 변수를 sin, cos 함수를 활용하여 주기성을 나타내는 두 개의 새로운 변수를 생성합니다.
train_data['시간대_sin'] = np.sin(2 * np.pi * train_data['시간대'] / 24)
train_data['시간대_cos'] = np.cos(2 * np.pi * train_data['시간대'] / 24)

test_data['시간대_sin'] = np.sin(2 * np.pi * test_data['시간대'] / 24)
test_data['시간대_cos'] = np.cos(2 * np.pi * test_data['시간대'] / 24)

# '월' 정보를 바탕으로 '계절' 더미 열 생성
test_data['계절'] = test_data['월'].apply(get_season)

# One-Hot Encoding을 활용하여 '계절' 더미 열을 변환
test_season_encoded = pd.DataFrame(ohe.transform(test_data[['계절']]), columns=ohe.get_feature_names(['계절']))

# 기존 데이터와 '계절' 더미 열을 합칩니다.
test_data = pd.concat([test_data, test_season_encoded], axis=1)

# 더미 열로 변환된 '계절' 컬럼과 원래의 '계절' 컬럼을 삭제합니다.
test_data.drop(['계절'], axis=1, inplace=True)

# 결측치를 평균값으로 대체
test_data = test_data.fillna(test_data.mean())

# 훈련 데이터와 테스트 데이터의 feature 개수를 일치시킴
common_features = set(X_train.columns) & set(test_data.columns)
X_test = test_data[common_features]

# AutoML 모델 생성과 최적화 (TPOT 사용)
auto_model = TPOTRegressor(generations=5, population_size=20, random_state=42, verbosity=2)
auto_model.fit(X_train, y_train)

# 테스트 데이터로 풍속 예측을 수행합니다.
y_pred = auto_model.predict(X_test)  # 테스트 데이터로 풍속 예측

# Submit / 제출
submission = pd.read_csv('./sample_submission.csv')

# 풍속 예측 결과를 '풍속 (m/s)' 열에 대입합니다.
submission['풍속 (m/s)'] = y_pred 

# 예측 결과를 submission.csv 양식에 맞게 저장합니다.
submission.to_csv('submission.csv', index=False)

print("풍속 예측이 완료되었습니다. 결과가 submission.csv에 저장되었습니다.")


  from .autonotebook import tqdm as notebook_tqdm
Version 0.11.7 of tpot is outdated. Version 0.12.0 was released Thursday May 25, 2023.


                                                                                                                       
Generation 1 - Current best internal CV score: -0.4256937011981331
                                                                                                                       
Generation 2 - Current best internal CV score: -0.3426586318333413
                                                                                                                       
Generation 3 - Current best internal CV score: -0.3426586318333413
                                                                                                                       
Generation 4 - Current best internal CV score: -0.3280204350465884
                                                                                                                       
Generation 5 - Current best internal CV score: -0.3280204350465884
                                                              
Be

In [3]:
train_data

Unnamed: 0,ID,월,일,섭씨 온도(°⁣C),절대 온도(K),이슬점 온도(°C),상대 습도 (%),대기압(mbar),포화 증기압(mbar),실제 증기압(mbar),...,공기 밀도 (g/m**3),풍향 (deg),풍속 (m/s),일_수,일_수_정규화,월일_sin,월일_cos,시간대,시간대_sin,시간대_cos
0,TRAIN_00000,7,2,13.97,287.78,9.84,76.10,992.08,15.98,12.16,...,1198.06,155.60,1.61,182,182,0.008607,-0.999963,18,-1.000000e+00,-1.836970e-16
1,TRAIN_00001,8,21,16.94,290.85,12.14,73.30,991.07,19.33,14.17,...,1183.67,177.00,1.68,232,232,-0.752667,-0.658402,6,1.000000e+00,6.123234e-17
2,TRAIN_00002,11,1,9.76,283.84,5.40,74.20,988.71,12.10,8.98,...,1213.22,146.20,0.73,304,304,-0.867456,0.497513,18,-1.000000e+00,-1.836970e-16
3,TRAIN_00003,12,28,5.27,277.30,2.71,83.50,1014.25,8.89,7.43,...,1265.48,264.50,2.71,361,361,-0.068802,0.997630,6,1.000000e+00,6.123234e-17
4,TRAIN_00004,9,26,17.35,290.86,12.68,74.00,995.77,19.84,14.68,...,1187.40,19.34,1.00,268,268,-0.995105,-0.098820,12,1.224647e-16,-1.000000e+00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36576,TRAIN_36576,8,10,14.10,287.79,4.99,54.15,993.53,16.11,8.73,...,1200.85,292.90,0.77,221,221,-0.615285,-0.788305,18,-1.000000e+00,-1.836970e-16
36577,TRAIN_36577,2,20,3.80,277.91,-1.01,70.70,988.03,8.02,5.67,...,1240.06,210.50,8.97,50,50,0.758306,0.651899,6,1.000000e+00,6.123234e-17
36578,TRAIN_36578,5,29,20.06,295.10,16.70,81.00,977.90,23.51,19.04,...,1153.24,19.22,2.58,148,148,0.559589,-0.828770,18,-1.000000e+00,-1.836970e-16
36579,TRAIN_36579,9,10,25.65,299.81,15.30,52.81,988.39,32.98,17.41,...,1144.61,225.40,0.36,252,252,-0.930724,-0.365723,18,-1.000000e+00,-1.836970e-16


In [4]:
X_train

Unnamed: 0,월,일,섭씨 온도(°⁣C),절대 온도(K),이슬점 온도(°C),상대 습도 (%),대기압(mbar),포화 증기압(mbar),실제 증기압(mbar),증기압 부족량(mbar),수증기 함량 (g/kg),공기 밀도 (g/m**3),풍향 (deg),일_수,일_수_정규화,월일_sin,월일_cos,시간대
0,7,2,13.97,287.78,9.84,76.10,992.08,15.98,12.16,3.82,7.66,1198.06,155.60,182,182,0.008607,-0.999963,18
1,8,21,16.94,290.85,12.14,73.30,991.07,19.33,14.17,5.16,8.94,1183.67,177.00,232,232,-0.752667,-0.658402,6
2,11,1,9.76,283.84,5.40,74.20,988.71,12.10,8.98,3.12,5.67,1213.22,146.20,304,304,-0.867456,0.497513,18
3,12,28,5.27,277.30,2.71,83.50,1014.25,8.89,7.43,1.47,4.57,1265.48,264.50,361,361,-0.068802,0.997630,6
4,9,26,17.35,290.86,12.68,74.00,995.77,19.84,14.68,5.16,9.22,1187.40,19.34,268,268,-0.995105,-0.098820,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36576,8,10,14.10,287.79,4.99,54.15,993.53,16.11,8.73,7.39,5.48,1200.85,292.90,221,221,-0.615285,-0.788305,18
36577,2,20,3.80,277.91,-1.01,70.70,988.03,8.02,5.67,2.35,3.58,1240.06,210.50,50,50,0.758306,0.651899,6
36578,5,29,20.06,295.10,16.70,81.00,977.90,23.51,19.04,4.47,12.20,1153.24,19.22,148,148,0.559589,-0.828770,18
36579,9,10,25.65,299.81,15.30,52.81,988.39,32.98,17.41,15.56,11.03,1144.61,225.40,252,252,-0.930724,-0.365723,18


In [5]:
X_test

Unnamed: 0,월,일,섭씨 온도(°⁣C),절대 온도(K),이슬점 온도(°C),상대 습도 (%),대기압(mbar),포화 증기압(mbar),실제 증기압(mbar),증기압 부족량(mbar),수증기 함량 (g/kg),공기 밀도 (g/m**3),풍향 (deg),일_수,일_수_정규화,월일_sin,월일_cos,시간대,시간대_sin,시간대_cos
0,3,24,4.28,278.68,-0.21,72.5,984.48,8.30,6.02,2.28,3.81,1233.29,251.80,82,82,0.008607,-0.999963,0,0.000000e+00,1.000000e+00
1,9,24,13.40,286.81,10.36,81.8,996.98,15.40,12.59,2.80,7.89,1206.20,225.60,266,266,-0.752667,-0.658402,18,-1.000000e+00,-1.836970e-16
2,5,28,19.89,294.33,14.95,73.2,984.83,23.26,17.03,6.23,10.82,1163.06,10.39,147,147,-0.867456,0.497513,18,-1.000000e+00,-1.836970e-16
3,1,17,-2.88,270.44,-4.47,88.7,998.02,4.94,4.38,0.56,2.73,1284.19,260.20,16,16,-0.068802,0.997630,18,-1.000000e+00,-1.836970e-16
4,10,22,6.97,281.18,4.36,83.4,987.00,10.01,8.35,1.66,5.28,1223.47,262.50,294,294,-0.995105,-0.098820,12,1.224647e-16,-1.000000e+00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15673,3,16,1.61,274.67,-0.49,85.9,1001.26,6.86,5.89,0.97,3.67,1266.62,56.18,74,74,0.213521,-0.976938,0,0.000000e+00,1.000000e+00
15674,9,5,18.27,292.19,13.35,73.0,990.98,21.03,15.35,5.68,9.69,1177.63,265.30,247,247,-0.580800,0.814046,12,1.224647e-16,-1.000000e+00
15675,8,8,16.08,289.66,12.25,78.0,994.97,18.30,14.28,4.03,8.97,1191.84,189.80,219,219,-0.854322,-0.519744,0,0.000000e+00,1.000000e+00
15676,2,4,3.07,276.68,-0.95,74.8,994.31,7.62,5.70,1.92,3.57,1251.24,269.70,34,34,-0.478734,0.877960,0,0.000000e+00,1.000000e+00
