In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor

In [2]:
train = pd.read_csv('c:/data/train.csv') 
test = pd.read_csv('c:/data/test.csv')

In [4]:
train.isnull().sum()

id                          0
hour                        0
hour_bef_temperature        2
hour_bef_precipitation      2
hour_bef_windspeed          9
hour_bef_humidity           2
hour_bef_visibility         2
hour_bef_ozone             76
hour_bef_pm10              90
hour_bef_pm2.5            117
count                       0
dtype: int64

In [5]:
train.interpolate(inplace=True)
train.isnull().sum()

id                        0
hour                      0
hour_bef_temperature      0
hour_bef_precipitation    0
hour_bef_windspeed        0
hour_bef_humidity         0
hour_bef_visibility       0
hour_bef_ozone            0
hour_bef_pm10             0
hour_bef_pm2.5            0
count                     0
dtype: int64

In [6]:
X_train=train.drop(['count'],axis=1)
Y_train=train['count']

In [7]:
model = RandomForestRegressor(criterion = 'mse')
model.fit(X_train, Y_train)

  warn(


RandomForestRegressor(criterion='mse')

In [8]:
'''
feature_importances_ 속성(attribute) 으로 변수의 중요도를 파악할 수 있습니다.
변수의 중요도란 예측변수를 결정할 때 각 피쳐가 얼마나 중요한 역할을 하는지에 대한 척도입니다.
변수의 중요도가 낮다면 해당 피쳐를 제거하는 것이 모델의 성능을 높일 수 있습니다.
'''
model.feature_importances_

array([0.02681154, 0.59609099, 0.17652664, 0.01811537, 0.02602703,
       0.035532  , 0.03446566, 0.03548559, 0.03024142, 0.02070375])

In [9]:
test.fillna(0, inplace=True)

In [10]:
X_train_1=train.drop(['count','id'],axis=1)
X_train_2=train.drop(['count','id','hour_bef_windspeed'],axis=1)
X_train_3=train.drop(['count','id','hour_bef_windspeed','hour_bef_pm2.5'],axis=1)

In [11]:
# 각 train 에 따라 동일하게 피쳐를 drop 한 test 셋들을 생성
test_1 = test.drop(['id'], axis=1)
test_2 = test.drop(['id', 'hour_bef_windspeed'], axis=1)
test_3 = test.drop(['id', 'hour_bef_windspeed', 'hour_bef_pm2.5'], axis=1)

In [12]:
# 각 X_train에 대해 모델 훈련
model_input_var1 = RandomForestRegressor(criterion = 'mse')
model_input_var1.fit(X_train_1, Y_train)

model_input_var2 = RandomForestRegressor(criterion = 'mse')
model_input_var2.fit(X_train_2, Y_train)

model_input_var3 = RandomForestRegressor(criterion = 'mse')
model_input_var3.fit(X_train_3, Y_train)

  warn(
  warn(
  warn(


RandomForestRegressor(criterion='mse')

In [13]:
# 각 모델로 test 셋들을 예측

y_pred_1 = model_input_var1.predict(test_1)
y_pred_2 = model_input_var2.predict(test_2)
y_pred_3 = model_input_var3.predict(test_3)

In [15]:
# 각 결과들을 submission 파일로 저장

submission_1 = pd.read_csv('c:/data/submission.csv')
submission_2 = pd.read_csv('c:/data/submission.csv')
submission_3 = pd.read_csv('c:/data/submission.csv')

submission_1['count'] = y_pred_1
submission_2['count'] = y_pred_2
submission_3['count'] = y_pred_3

submission_1.to_csv('sub_1.csv',index=False)
submission_2.to_csv('sub_2.csv',index=False)
submission_3.to_csv('sub_3.csv',index=False)

In [16]:
'''
하이퍼파라미터 튜닝: 정지규칙들을 종합적으로 고려해 최적의 조건값을 설정
4가지 정지규칙
1. 최대 깊이
2. 최소 노드크기
3. 최소 향상도
4. 비용복잡도

Best
- GridSearch 가장 우수한 조합을 찾아줌, 시간이 매우 오래 걸린다
'''

'\n하이퍼파라미터 튜닝: 정지규칙들을 종합적으로 고려해 최적의 조건값을 설정\n4가지 정지규칙\n1. 최대 깊이\n2. 최소 노드크기\n3. 최소 향상도\n4. 비용복잡도\n\nBest\n- GridSearch 가장 우수한 조합을 찾아줌, 시간이 매우 오래 걸린다\n'

In [17]:
from sklearn.model_selection import GridSearchCV

model = RandomForestRegressor(criterion = 'mse', random_state=2020)

params = {'n_estimators': [200, 300, 500],
          'max_features': [5, 6, 8],
          'min_samples_leaf': [1, 3, 5]}

greedy_CV = GridSearchCV(model, param_grid=params, cv = 3, n_jobs = -1)
greedy_CV.fit(X_train, Y_train)

  warn(


GridSearchCV(cv=3,
             estimator=RandomForestRegressor(criterion='mse',
                                             random_state=2020),
             n_jobs=-1,
             param_grid={'max_features': [5, 6, 8],
                         'min_samples_leaf': [1, 3, 5],
                         'n_estimators': [200, 300, 500]})

In [18]:
pred = greedy_CV.predict(test)

In [19]:
pred

array([ 98.2096086 , 219.56942193,  79.55960615,  42.45692629,
        58.30486392, 128.80483538, 192.5235082 , 293.74524871,
        41.61470815, 110.82005016, 299.65255831, 251.45269998,
       108.02500782,  43.80077573, 201.53157912, 161.17019805,
        25.26753403, 178.62625389, 331.2115303 , 162.13943663,
       232.61158011,  81.12243977,  30.00139691, 140.52185454,
       139.41846753, 114.47330363,  26.48873329, 120.80212807,
       114.07323016, 159.43079647,  82.01214334,  40.45128678,
        74.95156806, 129.96711484, 277.92944208,  40.14311712,
       134.36958668, 117.57202501, 225.60856668,  85.28241007,
        64.89094315, 122.77523341, 169.98789946,  80.12606825,
       321.01760867, 188.70778622,  88.67695961,  71.60596116,
        21.55733771,  89.84926431, 248.55496642,  94.11972066,
       143.42935269,  81.08390931, 201.26205712, 150.92577552,
        50.57824471, 184.3272286 ,  29.43277822,  19.47562297,
        96.77822777,  85.50351067, 255.50734634, 294.43

In [20]:
submission = pd.read_csv('c:/data/submission.csv')

In [21]:
import numpy as np

submission['count'] = np.round(pred, 2)

In [22]:
submission.head()

Unnamed: 0,id,count
0,0,98.21
1,1,219.57
2,2,79.56
3,4,42.46
4,5,58.3


In [23]:
submission.to_csv('sub.csv',index=False)