In [1]:
import pandas as pd
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# train.csv 파일 불러오기
train_data = pd.read_csv('train.csv')

# 결측치를 평균값으로 대체
train_data = train_data.fillna(train_data.mean())

# '측정 시간대'를 원핫 인코딩하여 숫자 형태로 변환
encoder = OneHotEncoder(sparse=False)
time_encoded = encoder.fit_transform(train_data[['측정 시간대']])
time_encoded_df = pd.DataFrame(time_encoded, columns=encoder.get_feature_names(['측정 시간대']))
train_data = pd.concat([train_data, time_encoded_df], axis=1).drop(['측정 시간대'], axis=1)

# 풍속을 예측할 특성(입력 변수)과 풍속(출력 변수)을 분리합니다.
X_train = train_data.drop(['ID', '풍속 (m/s)'], axis=1)  # 입력 변수들
y_train = train_data['풍속 (m/s)']  # 출력 변수 (풍속)

# 엑스트라 회귀 모델을 사용하여 풍속 예측 모델을 학습시킵니다.
model = ExtraTreesRegressor(random_state=42)  # 모델 변경: RandomForestRegressor -> ExtraTreesRegressor
model.fit(X_train, y_train)

# 변수 중요도 계산
importance = model.feature_importances_
features = X_train.columns

# 변수 중요도를 내림차순으로 정렬하여 출력
importance_df = pd.DataFrame({'Feature': features, 'Importance': importance})
importance_df = importance_df.sort_values(by='Importance', ascending=False)
print(importance_df)



  # This is added back by InteractiveShellApp.init_path()


           Feature  Importance
12        풍향 (deg)    0.131196
0                월    0.125510
6        대기압(mbar)    0.105794
1                일    0.099242
5        상대 습도 (%)    0.095091
15       측정 시간대_오후    0.058664
9    증기압 부족량(mbar)    0.054384
11  공기 밀도 (g/m**3)    0.049424
7     포화 증기압(mbar)    0.042372
4       이슬점 온도(°C)    0.041945
3         절대 온도(K)    0.041470
8     실제 증기압(mbar)    0.039602
10   수증기 함량 (g/kg)    0.039208
2       섭씨 온도(°⁣C)    0.038585
14       측정 시간대_오전    0.015894
13       측정 시간대_새벽    0.011534
16       측정 시간대_저녁    0.010087
