In [132]:
# 필요한 라이브러리 설치 및 임포트
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet
from sklearn.tree import DecisionTreeRegressor as DTR

from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.ensemble import GradientBoostingRegressor as GBR
from sklearn.metrics import mean_squared_error as mse
from sklearn.metrics import r2_score
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score as acc
from sklearn.metrics import recall_score as recall
import joblib
import matplotlib.pyplot as plt

# [Step 3] 머신러닝 모델링1

#### **<span style="color:blue">[3-1] 학습 및 테스트 데이터 로딩</span>**

In [133]:
# train_x.csv / train_y.csv / test_x.csv / test_y.csv 4개의 데이터 로딩
# train_x.csv 파일 로딩
train_x = pd.read_csv('train_x.csv')

# train_y.csv 파일 로딩
train_y = pd.read_csv('train_y.csv')

# test_x.csv 파일 로딩
test_x = pd.read_csv('test_x.csv')

# test_y.csv 파일 로딩
test_y = pd.read_csv('test_y.csv')

---

#### **<span style="color:blue">[3-2] 모델링: LinearRegression</span>**

* Train과 Test로 나눈 데이터를 기준으로 LinearRegression 모델링을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [134]:
from sklearn.metrics import mean_squared_error, r2_score

In [135]:
# LinearRegression 코드를 작성하세요.
model = LinearRegression()
model.fit(train_x, train_y)

In [136]:
# predict로 예측하여 y_pred_LR에 저장해보세요.
y_pred_LR = model.predict(test_x)

In [137]:
# test_y 데이터와 y_pred_LR 데이터로 성능을 평가하여 출력해보세요.
# 성능지표는 mse와 r2를 이용하세요.
# 테스트 데이터에 대한 예측 결과와 실제 값 비교
mse_LR = mean_squared_error(test_y, y_pred_LR)
r2_LR = r2_score(test_y, y_pred_LR)

# 성능 지표 출력
print(f"LR MSE: {mse_LR:.5f}")
print(f"LR r2 :{r2_LR:.5f}")

LR MSE: 41.82193
LR r2 :0.92465


In [138]:
# 학습한 모델을 pkl 파일로 저장해보세요.
joblib.dump(model, 'linear_regression_model.pkl')

['linear_regression_model.pkl']

# [Step 4] 머신러닝 모델링2

#### **<span style="color:blue">(선택 수행)[4-1] 모델링: 랜덤포레스트</span>**

* 랜덤포레스트: 배깅의 일종으로 의사결정나무(Decision Tree) 여러 개를 모아서 숲을 랜덤으로 구성하고 이를 종합해서 최종 모델을 산출하는 기법
* Train과 Test로 나눈 데이터를 기준으로 렌덤포레스트로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [139]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
rf_model = RFR(n_estimators=100, random_state=42)
rf_model.fit(train_x, train_y)

  rf_model.fit(train_x, train_y)


In [140]:
# Test 데이터로 성능을 평가해보세요.
rf_model.fit(train_x, train_y)
test_preds_rf = rf_model.predict(test_x)

# MSE 계산
test_mse_rf = mean_squared_error(test_y, test_preds_rf)

# R-squared Score 계산
test_r2_rf = r2_score(test_y, test_preds_rf)

  rf_model.fit(train_x, train_y)


In [141]:
print(f"RFR MSE : {test_mse_rf:.5f}")
print(f"RFRr2: {test_r2_rf:.5f}")

RFR MSE : 45.42132
RFRr2: 0.91817


In [142]:
# 학습한 모델을 파일로 저장해보세요.
joblib.dump(rf_model, 'random_forest_model.pkl')

['random_forest_model.pkl']

In [143]:
# (다음 진행은 선택입니다)
# 렌덤포레스트로 학습한 모델의 feature_importances를 구해보세요.
# 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.
# Feature의 중요도 확인
# 특성별 중요도를 데이터프레임으로 만들어서 정렬

importances = rf_model.feature_importances_
feature_names = train_x.columns
feature_importance_df = pd.DataFrame({'Feature': feature_names, 'Importance': importances})
sorted_feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)
print(sorted_feature_importance_df)


              Feature  Importance
12               PM10    0.937958
13               PM25    0.019717
11      30cm 지중온도(°C)    0.008447
8             시정(10m)    0.004921
2               습도(%)    0.003554
5           현지기압(hPa)    0.003222
6           해면기압(hPa)    0.002599
10       5cm 지중온도(°C)    0.002287
18  previous_day_pm25    0.002120
17               hour    0.002083
16                day    0.001953
19          PM10_lag1    0.001878
1             풍속(m/s)    0.001763
0              기온(°C)    0.001523
7           전운량(10분위)    0.001521
9            지면온도(°C)    0.001475
4           이슬점온도(°C)    0.001206
3            증기압(hPa)    0.001077
15              month    0.000367
14               강수여부    0.000221
20                 계절    0.000107


In [144]:
# (선택) 확인할 수 있는 인사이트
# 1.
# 2.
# 3.

#### **<span style="color:blue">(선택 수행)[4-2] 모델링: GradientBoosting</span>**

* GradientBoosting: 앞선 모델의 에러를 다음 모델의 예측 값으로 활용하면서 가중치 업데이트 하는데 경사하강법(Gradient Descent)를 활용해서 최적 모델을 만드는 기법
* Train과 Test로 나눈 데이터를 기준으로 그라디언트부스팅으로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : RMSE, R-squared Score(소수점 5째자리까지)

In [145]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
gb_model = GBR(n_estimators=100, random_state=42)

# 모델 학습
gb_model.fit(train_x, train_y)

# 모델 예측
test_preds_gb = gb_model.predict(test_x)

  y = column_or_1d(y, warn=True)


In [146]:
# Test 데이터로 성능을 평가해보세요.
# RMSE 계산
test_rmse_gb = mean_squared_error(test_y, test_preds_gb)

# R-squared Score 계산
test_r2_gb = r2_score(test_y, test_preds_gb)

print(f"GBR RMSE : {test_rmse_gb:.5f}")
print(f"GBR r2 : {test_r2_gb:.5f}")

GBR RMSE : 49.67447
GBR r2 : 0.91051


In [147]:
# 학습한 모델을 파일로 저장해보세요.
joblib.dump(gb_model, 'gradient_boosting_model.pkl')

['gradient_boosting_model.pkl']

In [148]:
# (다음 진행은 선택입니다)
# 그라디언트부스팅으로 학습한 모델의 feature_importances를 구해보세요.
# 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.
# Feature의 중요도 확인
importances = gb_model.feature_importances_
feature_names = train_x.columns

feature_importances = pd.DataFrame({'Feature': feature_names, 'Importance': importances})
feature_importances = feature_importances.sort_values(by='Importance', ascending=False)

print(feature_importances)

              Feature  Importance
12               PM10    0.967182
11      30cm 지중온도(°C)    0.009866
13               PM25    0.008176
2               습도(%)    0.003863
16                day    0.002870
10       5cm 지중온도(°C)    0.001737
5           현지기압(hPa)    0.001366
8             시정(10m)    0.000879
19          PM10_lag1    0.000789
9            지면온도(°C)    0.000533
6           해면기압(hPa)    0.000524
17               hour    0.000511
18  previous_day_pm25    0.000506
0              기온(°C)    0.000322
1             풍속(m/s)    0.000313
3            증기압(hPa)    0.000285
4           이슬점온도(°C)    0.000169
7           전운량(10분위)    0.000055
15              month    0.000039
14               강수여부    0.000009
20                 계절    0.000007


In [149]:
# 확인할 수 있는 인사이트
# 1.
# 2.
# 3.

#### **<span style="color:blue">(선택 수행)[4-3] 모델링: Self Choice Model</span>**

* Self Choice Model: 앞선 교육과정에서 배운 머신러닝 모델 중 어떤 것이든 좋습니다. 원하는 모델을 선택해서 학습을 시켜보세요.
* Train과 Test로 나눈 데이터를 기준으로 Self Choice Model로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : RMSE, R-squared Score(소수점 5째자리까지)

In [150]:
pip install xgboost

Note: you may need to restart the kernel to use updated packages.


In [151]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
import xgboost as xgb
xgb_model = xgb.XGBRegressor(objective="reg:squarederror", random_state=42)

# 모델 학습
xgb_model.fit(train_x, train_y)

In [162]:
# Test 데이터로 성능을 평가해보세요.

test_preds_xgb = xgb_model.predict(test_x)

test_rmse_xgb = mean_squared_error(test_y, test_preds_xgb)
test_r2_xgb = r2_score(test_y, test_preds_xgb)

print(f"XGBoost RMSE: {test_rmse_xgb:.5f}")
print(f"XGBoost r2: {test_r2_xgb:.5f}")

XGBoost RMSE: 55.44791
XGBoost r2: 0.90011


In [153]:
# 학습한 모델을 파일로 저장해보세요.
joblib.dump(gb_model, 'xgboost_model.pkl')

['xgboost_model.pkl']

In [154]:
# (다음 진행은 선택입니다)
# 그라디언트부스팅으로 학습한 모델의 feature_importances를 구해보세요.
# 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.
# Feature의 중요도 확인



In [155]:
# Feature의 중요도 확인





In [156]:
# 확인할 수 있는 인사이트
# 1.
# 2.
# 3.

#### **<span style="color:blue">추가 모델링: Self Choice Model</span>**

In [157]:
pip install lightgbm

Note: you may need to restart the kernel to use updated packages.


In [158]:
import lightgbm as lgb

In [159]:
# LightGBM 모델 초기화
lgb_model = lgb.LGBMRegressor(objective="regression", random_state=42)

# 모델 학습
lgb_model.fit(train_x, train_y)

# 모델 예측
test_preds_lgb = lgb_model.predict(test_x)

# RMSE 계산
test_rmse_lgb = np.sqrt(mean_squared_error(test_y, test_preds_lgb))

# R-squared Score 계산
test_r2_lgb = r2_score(test_y, test_preds_lgb)

You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 3124
[LightGBM] [Info] Number of data points in the train set: 8369, number of used features: 21
[LightGBM] [Info] Start training from score 38.829012


In [160]:
### 결과 출력
print(f"LightGBM RMSE: {test_rmse_lgb:.5f}")
print(f"LightGBM R-squared Score: {test_r2_lgb:.5f}")

### 모델을 .pkl 파일로 저장
joblib.dump(lgb_model, 'lightgbm_model.pkl')

LightGBM RMSE: 6.81371
LightGBM R-squared Score: 0.91636


['lightgbm_model.pkl']

#### **<span style="color:blue">(선택 수행)[4-4] 머신러닝 모델에 대해 성능 최적화 진행</span>**

* 위 머신러닝 모델들에 대해 성능 최적화를 진행해보세요.

In [161]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.

