In [48]:
# 필요한 라이브러리 설치 및 임포트

import pandas as pd

from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet
from sklearn.tree import DecisionTreeRegressor as DTR
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.ensemble import GradientBoostingRegressor as GBR
from sklearn.metrics import mean_squared_error as mse
from sklearn.metrics import r2_score
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score as acc
from sklearn.metrics import recall_score as recall
import joblib

import seaborn as sns
import matplotlib.pyplot as plt

# [Step 3] 머신러닝 모델링1

#### **<span style="color:orange">[3-1] 학습 및 테스트 데이터 로딩</span>**

In [17]:
# train_x.csv / train_y.csv / test_x.csv / test_y.csv 4개의 데이터 로딩
x_train = pd.read_csv('train_x.csv')
y_train = pd.read_csv('train_y.csv')

x_test = pd.read_csv('test_x.csv')
y_test = pd.read_csv('test_y.csv')

In [18]:
x_train.shape, y_train.shape, x_test.shape, y_test.shape

((8734, 11), (8734, 1), (2135, 11), (2135, 1))

In [19]:
plt.rc('font', family='nanum')
sns.set(font="Malgun Gothic",#"NanumGothic", 
        rc={"axes.unicode_minus":False}, # 마이너스 부호 깨짐 현상 해결
        style='darkgrid')     

---

#### **<span style="color:orange">[3-2] 모델링: LinearRegression</span>**

* Train과 Test로 나눈 데이터를 기준으로 LinearRegression 모델링을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [20]:
# LinearRegression 코드를 작성하세요.
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

In [21]:
# predict로 예측하여 y_pred_LR에 저장해보세요.
LR = LinearRegression()
LR.fit(x_train, y_train)

In [22]:
print(list(x_train))
print(LR.coef_.round(2))
print(LR.intercept_)

['PM10', 'PM25', 'CO', 'NO2', '기온(°C)', '습도(%)', '풍속(m/s)', 'month', 'day', 'hour', 'PM10_Lag1']
[[ 0.99 -0.04  4.47  2.61  0.01 -0.    0.07 -0.07 -0.    0.01 -0.02]]
[-0.28324707]


In [23]:
len(LR.coef_[0])

11

In [24]:
y_pred = LR.predict(x_test)

mae = mean_absolute_error(y_test, y_pred)
print(f"Mean Absolute Error: {mae:.5f}")

r2 = r2_score(y_test, y_pred)
print(f"R^2 Score: {r2:.5f}")

Mean Absolute Error: 3.88914
R^2 Score: 0.93356


In [159]:
from joblib import dump, load

dump(LR, 'linear_regression.joblib')

['linear_regression_model.joblib']

In [6]:
# 학습한 모델을 pkl 파일로 저장해보세요.




# [Step 4] 머신러닝 모델링2

#### **<span style="color:orange">(선택 수행)[4-1] 모델링: 랜덤포레스트</span>**

* 랜덤포레스트: 배깅의 일종으로 의사결정나무(Decision Tree) 여러 개를 모아서 숲을 랜덤으로 구성하고 이를 종합해서 최종 모델을 산출하는 기법
* Train과 Test로 나눈 데이터를 기준으로 렌덤포레스트로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [30]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
from sklearn.ensemble import RandomForestRegressor

RF = RandomForestRegressor()
RF.fit(x_train, y_train.values.ravel())

In [31]:
# Test 데이터로 성능을 평가해보세요.
y_pred = RF.predict(x_test)

mae = mean_absolute_error(y_test, y_pred)
print(f"Mean Absolute Error: {mae:.5f}")

r2 = r2_score(y_test, y_pred)
print(f"R^2 Score: {r2:.5f}")

Mean Absolute Error: 4.00859
R^2 Score: 0.92827


In [118]:
# 학습한 모델을 파일로 저장해보세요.
dump(RF, 'random_forest_model.joblib')

['random_forest_model.joblib']

#### **<span style="color:orange">(선택 수행)[4-2] 모델링: GradientBoosting</span>**

* GradientBoosting: 앞선 모델의 에러를 다음 모델의 예측 값으로 활용하면서 가중치 업데이트 하는데 경사하강법(Gradient Descent)를 활용해서 최적 모델을 만드는 기법
* Train과 Test로 나눈 데이터를 기준으로 그라디언트부스팅으로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : RMSE, R-squared Score(소수점 5째자리까지)

In [34]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
from sklearn.ensemble import GradientBoostingRegressor

GB = GradientBoostingRegressor()
GB.fit(x_train, y_train.values.ravel())

In [35]:
# Test 데이터로 성능을 평가해보세요.
y_pred = GB.predict(x_test)
mae = mean_absolute_error(y_test, y_pred)
print(f"Mean Absolute Error: {mae:.5f}")
r2 = r2_score(y_test, y_pred)
print(f"R^2 Score: {r2:.5f}")

Mean Absolute Error: 3.90984
R^2 Score: 0.92471


In [124]:
# 학습한 모델을 파일로 저장해보세요.
dump(GB, 'gradient_boosting_model.joblib')

['gradient_boosting_model.joblib']

#### **<span style="color:orange">(선택 수행)[4-3] 모델링: Self Choice Model</span>**

* Self Choice Model: 앞선 교육과정에서 배운 머신러닝 모델 중 어떤 것이든 좋습니다. 원하는 모델을 선택해서 학습을 시켜보세요.
* Train과 Test로 나눈 데이터를 기준으로 Self Choice Model로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : RMSE, R-squared Score(소수점 5째자리까지)

In [43]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.
import lightgbm as lgb

lgbm = lgb.LGBMRegressor()
lgbm.fit(x_train, y_train)

[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000163 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 1190
[LightGBM] [Info] Number of data points in the train set: 8734, number of used features: 11
[LightGBM] [Info] Start training from score 38.811885


In [44]:
# Test 데이터로 성능을 평가해보세요.
y_pred = lgbm.predict(x_test)
mae = mean_absolute_error(y_test, y_pred)
print(f"Mean Absolute Error: {mae:.5f}")
r2 = r2_score(y_test, y_pred)
print(f"R^2 Score: {r2:.5f}")

Mean Absolute Error: 3.88338
R^2 Score: 0.93031


In [128]:
# 학습한 모델을 파일로 저장해보세요.
dump(lgbm, 'light_gradient_model.joblib')

['light_gradient_model.joblib']

#### **<span style="color:orange">(선택 수행)[4-4] 머신러닝 모델에 대해 성능 최적화 진행</span>**

In [46]:
import warnings
warnings.filterwarnings("ignore")

In [59]:
# Test 데이터로 성능을 평가해보세요.
y_pred1 = LR.predict(x_test)
y_pred2 = RF.predict(x_test)
y_pred3 = GB.predict(x_test)
y_pred4 = lgbm.predict(x_test)
y_pred = y_pred1.ravel() * 0.3 + y_pred2.ravel() * 0.1 + y_pred3.ravel() * 0.3 + y_pred4.ravel() * 0.3
mae = mean_absolute_error(y_test, y_pred)
print(f"Mean Absolute Error: {mae:.5f}")
r2 = r2_score(y_test, y_pred)
print(f"R^2 Score: {r2:.5f}")

Mean Absolute Error: 3.79717
R^2 Score: 0.93488
