In [260]:
import numpy as np
import pandas as pd
import plotly.express as px

# 데이터 생성
n_data = 500

x1 = np.random.uniform(-1, 1, n_data)  # 독립 변수 1
x2 = np.random.uniform(1, 3, n_data)  # 독립 변수 2
y = 2.5*x1 + 3.75*x2 + np.random.normal(0, 1.25, n_data)  # 종속 변수 (선형 관계 + 노이즈)

data = pd.DataFrame({'X1': x1, 'X2': x2, 'Y': y})

In [261]:
# Scatter plot 표시
fig = px.scatter_3d(data,
                    x='X1', y='X2', z='Y',
                    color='Y',
                    title="Linear Regression Example Data")
fig.update_traces(marker_size=1.5)
fig.update_layout(width=640, height=600)

fig.show()

In [262]:
# 독립 변수와 종속 변수를 구분

X = data[['X1', 'X2']]
Y_linear = data['Y']

In [263]:
# 학습 데이터 80%, 테스트 데이터 20%로 분리

from sklearn.model_selection import train_test_split

X_train, X_test, Y_linear_train, Y_linear_test = \
    train_test_split(X, Y_linear,
                     test_size=0.2,
                     random_state=2025)

**1. Linear Regression**

In [264]:
# Linear Regression

from sklearn.linear_model import LinearRegression

linear_regression = LinearRegression()
linear_regression.fit(X_train, Y_linear_train)

In [265]:
# MSE (Mean Square Error) 를 이용한 테스트 데이터 평가

from sklearn.metrics import mean_squared_error

Y_linear_pred = linear_regression.predict(X_test)
mse = mean_squared_error(Y_linear_test, Y_linear_pred)

print(f'prediction examples :\n{Y_linear_pred[:10]}\n')
print(f'Dataset A + Linear Regression => MSE : {mse:.4f}')

prediction examples :
[4.08824442 9.74571072 8.79921508 8.34168784 4.12493594 7.11820776
 6.35308507 9.5897769  8.54665442 7.72950916]

Dataset A + Linear Regression => MSE : 1.6188


In [266]:
# 선형 회귀식 출력

coef = linear_regression.coef_
intercept = linear_regression.intercept_
coef_x1, coef_x2 = coef[0], coef[1]

print(f'y = {coef_x1} * x1 + {coef_x2} * x2 + {intercept}')

y = 2.6679383181452825 * x1 + 3.7790950901761775 * x2 + -0.01878723504464741


In [267]:
# Scatter plot에 선형 회귀 평면 추가하여 시각화

import plotly.graph_objects as go

# plotly 평면 추가를 위해 x1, x2 를 각각 2차원으로 변환

# [참고] 아래 코드 대신 "x1_, x2_ = np.meshgrid(x1, x2)" 와 같이 사용 시 다음과 같은 문제점 발생
# - 모든 data point의 x1, x2 값을 이용하여 평면을 만들기 때문에, 계산 시간이 급증함
# - 평면의 색이 균일하지 않으므로 시각적 효과가 떨어짐

x1_, x2_ = np.meshgrid([np.min(x1), np.max(x1)],
                       [np.min(x2), np.max(x2)])

purple_colorscale = [[0, '#75F'], [1, '#E9F']]
fig.add_trace(go.Surface(x=x1_,
                         y=x2_,
                         z=(coef_x1 * x1_ + coef_x2 * x2_ + intercept),
                         colorscale=purple_colorscale,
                         showscale=False,
                         opacity=0.8))
fig.update_layout(title='Linear Regression Result Data')
fig.show()