<a href="https://colab.research.google.com/github/qortmdgh4141/Comparing-Performance-of-Shallow-and-Deep-MLP-for-Regression-Analysis/blob/main/Shallow_and_Deep_MLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**1. 패키지 설정**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# MLP의 회귀분석을 위해서 sklearn의 MLPRegressor 모듈을 사용
from sklearn.neural_network import MLPRegressor
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_percentage_error
import numpy as np
import matplotlib.pyplot as plt

**2. 데이터 준비**

In [None]:
# 입력값 : X 변수값의 범위는 1~100 사이의 정수로 지정
# 출력값 : X의 값에 대응하는 Y값 계산
x = np.array(range(1, 101))
y = np.sqrt(x)

print(f"x 값의 범위 : {np.min(x)} ~ {np.max(x)}")
print(f"y 값의 범위 : {int(np.min(y))} ~ {int(np.max(y))}")

**3. 탐색적 데이터 분석**

In [None]:
# X와 Y간의 관계를 그래프로 그려보면, X 값이 증가할 때 Y 값도 점차 증가하지만, 
# 그 증가 속도는 X 값이 증가함에 따라 감소하는 비선형 곡선
# 이러한 형태를 지니는 완만하게 증가하는 곡선을 로그 곡선(log curve)이라고 함
plt.figure(figsize=(12, 3))
plt.scatter(x, y, color='g')
plt.title('y=sqrt(x)')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(['Actual Data']) 
plt.show()

**4. 데이터 분리**

In [None]:
# 학습용과 테스트용 데이터를 7:3으로 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1234)
    
print(f"1) 학습용 입력 데이터(X) 형상 : {x_train.shape}")
print(f"2) 학습용 정답 데이터(Y) 형상 : {y_train.shape}")
print(f"3) 평가용 입력 데이터(X) 형상 : {x_test.shape}")
print(f"4) 평가용 정답 데이터(Y) 형상 : {x_test.shape}")   



**5. 피처 스케일링**

In [None]:
# 데이터 세트의 차원을 1열 구조로 변형
x_train = x_train.reshape(-1, 1)
x_test = x_test.reshape(-1, 1)
y_train = y_train.reshape(-1, 1)
y_test = y_test.reshape(-1, 1)

print(f"1) 학습용 입력 데이터(X) 형상 : {x_train.shape}")
print(f"2) 학습용 정답 데이터(Y) 형상 : {y_train.shape}")
print(f"3) 평가용 입력 데이터(X) 형상 : {x_test.shape}")
print(f"4) 평가용 정답 데이터(Y) 형상 : {x_test.shape}")  

In [None]:
# 최솟값은 0, 최댓값은 1이 되도록 학습 데이터에 대해 정규화
# 피처 스케일링 : 학습 데이터의 입력 값
scalerX = MinMaxScaler()
scalerX.fit(x_train)
x_train_norm = scalerX.transform(x_train)

# 피처 스케일링 : 학습 데이터의 출력 값
scalerY = MinMaxScaler()
scalerY.fit(y_train)
y_train_norm = scalerY.transform(y_train)

# 피처 스케일링 : 테스트 데이터의 입출력 값
x_test_norm = scalerX.transform(x_test)
y_test_norm = scalerY.transform(y_test)

**6. 얕은 모델(Shallow Model) 모형화 및 학습**

In [None]:
"""
1. 입출력 노드 : 1개
   - 학습 시에 입출력 값이 각각 1개이기 때문에, 그에 대응하는 입출력 노드도 각각 1개씩 존재

2. 은닉층 개수 / 노드 : 1개 / 2개
    - 총 1개의 은닉층이 존재하며 각 은닉층에는 2개의 노드가 존재

3. 활성화 함수 :  로지스틱 함수(시그모이드 함수)
   - 0과 1 사이의 값을 출력하는 S자 형태의 비선형 함수인 로지스틱 함수(시그모이드 함수)로 설정

4. 최적화 알고리즘 
   - 작은 데이터셋에서는 일반적으로 수렴 속도가 빠르고, 
     대부분의 경우 다른 최적화 알고리즘보다 더 나은 성능을 보이는 L-BFGS (Limited-memory BFGS)를 사용

5. 비용함수 : 
   - 예측값과 실제값의 차이를 제곱한 값의 평균을 계산함으로써, 
     예측값과 실제값 사이의 오차를 잘 나타내는 MSE를 사용

6. 최대 학습 반복 횟수 : 100회
"""

# 모형화
shallow_model = MLPRegressor(hidden_layer_sizes=(2,), activation='logistic'
                                , solver='lbfgs', max_iter=100)

# 학습
shallow_model.fit(x_train_norm, y_train_norm)

**7. 얕은 모델(Shallow Model) 예측**

In [None]:
# 예측
y_pred = shallow_model.predict(x_test_norm)
# 예측 값의 데이터를 1열 구조로 변형
y_pred = y_pred.reshape(-1,1)
# 예측 값을 실제 스케일로 역변환
y_pred_inverse = scalerY.inverse_transform(y_pred)
print(f"Shallow Model - 예측 값의 범위 : {np.min(y_pred_inverse)} ~ {np.max(y_pred_inverse)}")

In [None]:
# 실제 값 대비 절대 오차의 평균 백분율(MAPE)로 정확도를 계산
# MAPE(오차 측정) 값이 0에 가까울수록 모델의 예측 성능은 일반적으로 좋다고 판단
shallow_model_mape = mean_absolute_percentage_error(y_test, y_pred_inverse)
print(f"Shallow Model - MAPE : {shallow_model_mape:.2f}")

In [None]:
# 1~100 사이의 X값에 대응하는 Y의 실제 값과 테스트 데이터로 예측한 값을 산포도로 출력하면, 
# 예측 값이 실제 값과 비슷한 결과를 도출 
# 실제 데이터의 분포
plt.figure(figsize=(12, 3))
plt.scatter(x, y, color='g')
# 테스트 데이터의 분포
plt.scatter(x_test, y_pred_inverse, color='r')

plt.title('y=sqrt(x)')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(['Actual Data', 'Predicted Data by Shallow Model']) 
plt.show()

**8. 깊은 모델(Deep Model) 모형화 및 학습**

In [None]:
"""
1. 입출력 노드 : 1개
   - 학습 시에 입출력 값이 각각 1개이기 때문에, 그에 대응하는 입출력 노드도 각각 1개씩 존재

2. 은닉층 개수 / 노드 : 4개 / 8개
    - 총 4개의 은닉층이 존재하며 각 은닉층에는 8개의 노드가 존재

3. 활성화 함수 :  로지스틱 함수(시그모이드 함수)
   - 0과 1 사이의 값을 출력하는 S자 형태의 비선형 함수인 로지스틱 함수(시그모이드 함수)로 설정

4. 최적화 알고리즘 
   - 작은 데이터셋에서는 일반적으로 수렴 속도가 빠르고, 
     대부분의 경우 다른 최적화 알고리즘보다 더 나은 성능을 보이는 L-BFGS (Limited-memory BFGS)를 사용

5. 비용함수 : 
   - 예측값과 실제값의 차이를 제곱한 값의 평균을 계산함으로써, 
     예측값과 실제값 사이의 오차를 잘 나타내는 MSE를 사용

6. 최대 학습 반복 횟수 : 100회
"""

# 모형화
deep_model = MLPRegressor(hidden_layer_sizes=(8,8,8,8), activation='logistic'
                                , solver='lbfgs', max_iter=100)

# 학습
deep_model.fit(x_train_norm, y_train_norm)

**9. 깊은 모델(Deep Model) 예측**

In [None]:
# 예측
y_pred_extended = deep_model.predict(x_test_norm)
# 예측 값의 데이터를 1열 구조로 변형
y_pred_extended = y_pred_extended.reshape(-1,1)
# 예측 값을 실제 스케일로 역변환
y_pred_inverse_extended = scalerY.inverse_transform(y_pred_extended)
print(f"예측 값의 범위 : {np.min(y_pred_inverse_extended)} ~ {np.max(y_pred_inverse_extended)}")

In [None]:
# 실제 값 대비 절대 오차의 평균 백분율(MAPE)로 정확도를 계산
# MAPE(오차 측정) 값이 0에 가까울수록 모델의 예측 성능은 일반적으로 좋다고 판단
deep_model_mape = mean_absolute_percentage_error(y_test, y_pred_inverse_extended)
print(f"Deep Model - MAPE : {deep_model_mape:.2f}")

In [None]:
# 1~100 사이의 X값에 대응하는 Y의 실제 값과 테스트 데이터로 예측한 값을 산포도로 출력 
# 실제 데이터의 분포
plt.figure(figsize=(12, 3))
plt.scatter(x, y, color='g')
# 테스트 데이터의 분포
plt.scatter(x_test, y_pred_inverse_extended, color='b')

plt.title('y=sqrt(x)')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(['Actual Data', 'Predicted Data by Deep Model']) 
plt.show()

In [None]:
# 1~100 사이의 X값에 대응하는 Y의 실제 값과 테스트 데이터로 예측한 값을 산포도로 출력하면, 예측 값이 실제 값과 비슷한 결과를 도출 
# 실제 데이터의 분포
plt.figure(figsize=(8, 4))
plt.scatter(x, y, color='g')
# 테스트 데이터의 분포
plt.scatter(x_test, y_pred_inverse, color='r')
plt.scatter(x_test, y_pred_inverse_extended, color='b')

plt.title('y=sqrt(x)')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend(['Actual Data', 'Predicted Data by Shallow Model', 'Predicted Data by Deep Model'],fontsize=8)
plt.show()

In [None]:
def gradientbars(bars, cmap_list):
    # cmap 가중치 설정
    grad = np.atleast_2d(np.linspace(0,1,256)).T
    # 플롯 영역 재설정
    ax = bars[0].axes
    lim = ax.get_xlim()+ax.get_ylim()
    ax.axis(lim)
    # 각 막대에 색 입히기
    max = 0
    for i, bar in enumerate(bars):
        bar.set_facecolor("none")
        x,y = bar.get_xy()
        w, h = bar.get_width(), bar.get_height()
        ax.imshow(grad, extent=[x,x+w,y,y+h], aspect="auto", cmap=cmap_list[i])
        plt.text(bar.get_width(), bar.get_y() + bar.get_height() / 2, f' ==> {df.Mape[i]:.2f}', ha='left', va='center', fontsize=10, color='black')

fig, ax = plt.subplots(figsize=(8,4))
df = pd.DataFrame({'Model':['Shallow Model', 'Deep Model'], 'Mape':[shallow_model_mape, deep_model_mape]})
cmap_color = ['viridis_r', 'YlOrRd']
gradientbars(ax.barh(df.Model, df.Mape), cmap_color)

plt.title(f"Comparison of MAPE values between shallow and deep models", fontsize=12)
plt.xlabel('Mape', fontsize=10)
plt.xlim([0, 0.4])
plt.xticks(fontsize=10)
plt.yticks(fontsize=10)
plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(12,2))
df = pd.DataFrame({'Model':['Shallow', 'Deep'], 'Mape':[shallow_model_mape, deep_model_mape]})
cmap_color = ['viridis_r', 'YlOrRd']
bars = ax.barh(df.Model, df.Accuracy, color=cmap_color)

plt.title("Comparison of MAPE values between shallow and deep models", fontsize=10)
plt.xlabel('Mape', fontsize=8)
plt.xlim([0, 0.4])
plt.xticks(fontsize=8)
plt.yticks(fontsize=8)

for i, bar in enumerate(bars):
    ax.text(bar.get_width() + 0.01, i, str(round(bar.get_width(), 3)), fontsize=8, va='center')
    
plt.tight_layout()

plt.show()