1. MPG 데이터 불러오기

In [None]:
import pandas as pd
import numpy as np

dataset = pd.read_csv('mpg.csv')

dataset.head()

Unnamed: 0,Cylinders,Displacement,Horsepower,Weight,Acceleration,Model Year,Origin,MPG
0,8,307.0,130.0,3504,12.0,70,1,18.0
1,8,350.0,165.0,3693,11.5,70,1,15.0
2,8,318.0,150.0,3436,11.0,70,1,18.0
3,8,304.0,150.0,3433,12.0,70,1,16.0
4,8,302.0,140.0,3449,10.5,70,1,17.0


2. 간단한 데이터 확인 및 전처리

In [None]:
# 결측치(NULL) 확인
dataset.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Cylinders     398 non-null    int64  
 1   Displacement  398 non-null    float64
 2   Horsepower    392 non-null    float64
 3   Weight        398 non-null    int64  
 4   Acceleration  398 non-null    float64
 5   Model Year    398 non-null    int64  
 6   Origin        398 non-null    int64  
 7   MPG           398 non-null    float64
dtypes: float64(4), int64(4)
memory usage: 25.0 KB


In [None]:
# 결측치 제거

# dataset.dropna(inplace=True)
dataset.info() 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 392 entries, 0 to 397
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Cylinders     392 non-null    int64  
 1   Displacement  392 non-null    float64
 2   Horsepower    392 non-null    float64
 3   Weight        392 non-null    int64  
 4   Acceleration  392 non-null    float64
 5   Model Year    392 non-null    int64  
 6   Origin        392 non-null    int64  
 7   MPG           392 non-null    float64
dtypes: float64(4), int64(4)
memory usage: 27.6 KB


In [None]:
# feature(독립변수)와 label(종속변수) 지정하기

x = dataset.iloc[:, 0:-1]  # feature
y = dataset.iloc[:, -1]    # label

In [None]:
# 독립변수 표준화하기
from sklearn.preprocessing  import StandardScaler

scaler = StandardScaler()
xs = scaler.fit_transform(x)
x = pd.DataFrame(xs, columns=x.columns)

In [None]:
# 학습데이터를 독립변수x 종속변수y로 구분하기

from sklearn.model_selection import train_test_split
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.2) 

3. 인공신경망(ANN) 모델 설계

In [None]:
from tensorflow.keras.layers import Dense      # 완전연결층 => 가장 기본적인 딥러닝 층
from tensorflow.keras.models import Sequential # Keras 패키지의 Model 생성 함수

model = Sequential()                                           # Sequential은 layer을 순차적으로 쌓는다
model.add(Dense(64,  activation='relu'))                       # Dense (Fully Connected Layer, 완전연결층) 레이어의 입력과 출력을 빠짐없이 모두 연결함. # Node (neuron) 수   # 활성화 함수(activation function) relu (rectified linear unit) 딥러닝에서 가장 많이 사용  
model.add(Dense(32, activation='relu'))   
model.add(Dense(1))

4. 인공신경망 모델의 손실함수(Loss)와 최적화함수(Optimizer) 설정

In [None]:
# 종속변수(Y) = 출력값 => 연속형 숫자 값.

# 따라서,

# 최적화함수는 Adam
# 손실함수는 mse  #mean squared error
# 정확도 계산 방식은 Accuracy를 사용 # Accuracy외에도 precision, F1_score 등 설정 가능

model.compile(loss='mse', optimizer='adam', metrics=['mse'])
# 손실함수(loss function): 예측값과 실제관측값의 차이를 줄이는 방향으로 학습함. 'mse', mean squared error가 많이 사용됨.
# 최적화(optimizer), 손실함수를 기반으로 학습방향을 결정함 #adam #rmsprop # sgd(stochastic gradient descent) 등이 사용됨.
# 평가지표(metrics), 학습과정을 모니터링함. accuracy(줄여서 acc), mae,   


In [None]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 14)                112       
                                                                 
 dense_1 (Dense)             (None, 7)                 105       
                                                                 
 dense_2 (Dense)             (None, 1)                 8         
                                                                 
Total params: 225
Trainable params: 225
Non-trainable params: 0
_________________________________________________________________


5. 인공신경망 모델 학습 수행

In [None]:
# 학습은 model.fit으로 할 수 있다.

epochs = 10
batch_size = 16

history = model.fit(train_x, train_y, epochs=epochs, batch_size=batch_size, validation_split=0.3,  verbose=1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


6. 평가 데이터를 통한 예측 및 결과확인

In [None]:
from sklearn.metrics import r2_score, mean_squared_error


# 학습 성능 (예측력) 확인하기: R² 와 RMSE (test data)
y_pred = model.predict(test_x)
R2 = r2_score(test_y, y_pred)    #r2_score(실재값, 예측값)
RMSE = mean_squared_error(test_y, y_pred)**(1/2)


# 학습 성능 (예측력) 확인하기
print('test data 성과평가', R2, RMSE)

test data 성과평가 0.8557536710440758 3.1220291933788133


In [None]:
print(test_y[:10])

323    27.9
61     21.0
332    29.8
25     10.0
167    29.0
218    36.0
290    15.5
2      18.0
88     14.0
54     35.0
Name: MPG, dtype: float64


In [None]:
print(y_pred[:10])

[[24.75269 ]
 [23.776592]
 [34.771206]
 [10.160806]
 [28.007612]
 [31.551165]
 [17.747412]
 [17.025091]
 [14.739377]
 [30.355991]]
