### ML 예측모델 만들기 - MPG

In [None]:
import pandas as pd
import numpy as np
import pickle
from seaborn import load_dataset
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import MinMaxScaler

#### 1. MPG 데이터를 가져와서 전처리 한다:

In [None]:
# Seaborn의 내장 데이터 mpg를 가져온다.
df= load_dataset("mpg")

In [None]:
# 불필요한 name 컬럼은 제거한다.
df.drop(columns="name",inplace=True)
df.head()

In [None]:
# 결측치를 확인해 본다.
df.isnull().sum(axis=0)

In [None]:
# 결측치를 제거한다.
df.dropna(axis=0, inplace=True)

In [None]:
# 명목형 변수인 Origin는 가변수 (dummy variable)로 변환하여 둔다. 
df = df.join(pd.get_dummies(df["origin"], drop_first=True)).drop(columns=["origin"])
df.head()

In [None]:
# 설명 변수(X)들을 별도로 둔다.
df_X = df.drop(columns="mpg")
column_names = df_X.columns

In [None]:
# 종속변수.
Y= df["mpg"]

In [None]:
# X 변수의 MinMaxScaler 전처리.
my_scaler = MinMaxScaler()
X_scaled = my_scaler.fit_transform(df_X.values)

In [None]:
# 전처리 된 X 변수.
df_X_scaled = pd.DataFrame(data=X_scaled, columns= column_names)
df_X_scaled.head()

#### 2.  ML(회귀) 모델 생성과 저장:

In [None]:
# 모델을 학습 시킨다.
my_regressor = RandomForestRegressor()
my_regressor.fit(df_X_scaled, Y)

In [None]:
# In-sample 결정계수 R^2를 계산해 본다.
rsq = my_regressor.score(df_X_scaled, Y)
print(f"In-sample 결정계수는 {rsq:0.3f} 입니다.")

In [None]:
# my_regressor 객체 저장.
with open("my_regressor.pkl","wb") as f:
    pickle.dump(my_regressor, f)

In [None]:
# my_scaler 객체 저장.
with open("my_scaler.pkl","wb") as f:
    pickle.dump(my_scaler, f)