In [103]:
# 필요한 라이브러리 설치 및 임포트

import pandas as pd

from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet
from sklearn.tree import DecisionTreeRegressor as DTR
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.ensemble import GradientBoostingRegressor as GBR
from sklearn.metrics import mean_squared_error as mse
from sklearn.metrics import r2_score
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score as acc
from sklearn.metrics import recall_score as recall
import joblib
import matplotlib.pyplot as plt

# [Step 3] 머신러닝 모델링1

#### **<span style="color:blue">[3-1] 학습 및 테스트 데이터 로딩</span>**

In [104]:
# train_x.csv / train_y.csv / test_x.csv / test_y.csv 4개의 데이터 로딩
train_x = pd.read_csv('train_x.csv')
train_y = pd.read_csv('train_y.csv')
test_x = pd.read_csv('test_x.csv')
test_y = pd.read_csv('test_y.csv')

In [105]:
print(train_x.shape)
print(train_y.shape)
print(test_x.shape)
print(test_y.shape)

(8734, 24)
(8734, 2)
(2135, 24)
(2135, 2)


In [106]:
train_x.drop(train_x.columns[0], axis=1, inplace=True)
train_y.drop(train_y.columns[0], axis=1, inplace=True)
test_x.drop(test_x.columns[0], axis=1, inplace=True)
test_y.drop(test_y.columns[0], axis=1, inplace=True)

In [107]:
print(train_x.shape)
print(train_y.shape)
print(test_x.shape)
print(test_y.shape)

(8734, 23)
(8734, 1)
(2135, 23)
(2135, 1)


---

#### **<span style="color:blue">[3-2] 모델링: LinearRegression</span>**

* Train과 Test로 나눈 데이터를 기준으로 LinearRegression 모델링을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [108]:
# LinearRegression 모델 선언
model_lr = LinearRegression()

# 모델 학습
model_lr.fit(train_x, train_y)

# 예측
y_pred_LR = model_lr.predict(test_x)

# 성능 평가
print('MSE:', round(mse(test_y, y_pred_LR), 5))
print('R2-score:', round(r2_score(test_y, y_pred_LR), 5))

MSE: 42.95461
R2-score: 0.9222


In [109]:
# 학습 성능
print('train score :', model_lr.score(train_x, train_y))

# 평가 성능
print('test score :', model_lr.score(test_x, test_y))

train score : 0.9630115134752376
test score : 0.9221988760662279


In [110]:
# 학습한 모델을 pkl 파일로 저장해보세요.
import pickle

with open('model_lr.pickle', 'wb') as f:
    pickle.dump(model_lr, f, pickle.HIGHEST_PROTOCOL)

# [Step 4] 머신러닝 모델링2

#### **<span style="color:blue">(선택 수행)[4-1] 모델링: 랜덤포레스트</span>**

* 랜덤포레스트: 배깅의 일종으로 의사결정나무(Decision Tree) 여러 개를 모아서 숲을 랜덤으로 구성하고 이를 종합해서 최종 모델을 산출하는 기법
* Train과 Test로 나눈 데이터를 기준으로 렌덤포레스트로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : MSE, R-squared Score(소수점 5째자리까지)

In [111]:
# 모델 선언
model_rf = RFR(max_depth=5)

# 모델 학습
model_rf.fit(train_x, train_y)

# 예측하기
y_pred_RF = model_rf.predict(test_x)

# 성능 평가
print('MSE:', round(mse(test_y, y_pred_RF), 5))
print('R2-score:', round(r2_score(test_y, y_pred_RF), 5))

  """


MSE: 45.58117
R2-score: 0.91744


In [112]:
# 학습한 모델을 파일로 저장해보세요.


In [113]:
# (다음 진행은 선택입니다)
# 렌덤포레스트로 학습한 모델의 feature_importances를 구해보세요.
# 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.
# Feature의 중요도 확인



In [114]:
# (선택) 확인할 수 있는 인사이트
# 1.
# 2.
# 3.

#### **<span style="color:blue">(선택 수행)[4-2] 모델링: GradientBoosting</span>**

* GradientBoosting: 앞선 모델의 에러를 다음 모델의 예측 값으로 활용하면서 가중치 업데이트 하는데 경사하강법(Gradient Descent)를 활용해서 최적 모델을 만드는 기법
* Train과 Test로 나눈 데이터를 기준으로 그라디언트부스팅으로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : RMSE, R-squared Score(소수점 5째자리까지)

In [115]:
# 모델 선언
model_gb = GBR(max_depth=5)

# 모델 학습
model_gb.fit(train_x, train_y)

# 예측하기
y_pred_GB = model_gb.predict(test_x)

# 성능 평가
print('MSE:', round(mse(test_y, y_pred_GB), 5))
print('R2-score:', round(r2_score(test_y, y_pred_GB), 5))

  y = column_or_1d(y, warn=True)


MSE: 42.94927
R2-score: 0.92221


In [116]:
# Test 데이터로 성능을 평가해보세요.




In [117]:
# 학습한 모델을 파일로 저장해보세요.




In [118]:
# (다음 진행은 선택입니다)
# 그라디언트부스팅으로 학습한 모델의 feature_importances를 구해보세요.
# 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.
# Feature의 중요도 확인




In [119]:
# 확인할 수 있는 인사이트
# 1.
# 2.
# 3.

#### **<span style="color:blue">(선택 수행)[4-3] 모델링: Self Choice Model</span>**

* Self Choice Model: 앞선 교육과정에서 배운 머신러닝 모델 중 어떤 것이든 좋습니다. 원하는 모델을 선택해서 학습을 시켜보세요.
* Train과 Test로 나눈 데이터를 기준으로 Self Choice Model로 모델을 학습을 진행하고 평가를 해주세요.
* 그리고 모델 파일을 pkl로 저장해주세요.
* 성능지표 : RMSE, R-squared Score(소수점 5째자리까지)

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.




In [None]:
# Test 데이터로 성능을 평가해보세요.




In [None]:
# 학습한 모델을 파일로 저장해보세요.




In [None]:
# (다음 진행은 선택입니다)
# 그라디언트부스팅으로 학습한 모델의 feature_importances를 구해보세요.
# 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.
# Feature의 중요도 확인



In [None]:
# Feature의 중요도 확인





In [None]:
# 확인할 수 있는 인사이트
# 1.
# 2.
# 3.

#### **<span style="color:blue">(선택 수행)[4-4] 머신러닝 모델에 대해 성능 최적화 진행</span>**

* 위 머신러닝 모델들에 대해 성능 최적화를 진행해보세요.

In [None]:
# 아래에 필요한 코드를 작성하고 결과를 확인합니다.

