# 회귀

* 가격, 매출, 주가, 환율, 수량 등 연속적인 값을 갖는 연속변수를 예측하고자 할 때 주로 사용

  * 모델이 예측하고자 하는 목표 : 종속변수 또는 예측 변수

  * 예측을 위해 모델이 사용하는 속성 : 독립변수 또는 설명 변수

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 단순 회귀

In [None]:
# 데이터 로딩
df = pd.read_csv('./auto-mpg.csv', header=None)
df.head()

In [None]:
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleration', 'model year', 'origin', 'car name']

df.head()

In [None]:
df.to_csv('auto-mpg-header.csv')

In [None]:
# 데이터 탐색
df.info()

In [None]:
# horsepower column : object to float
df.horsepower.unique()

In [None]:
df.horsepower.replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df.horsepower = df.horsepower.astype('float')

df.info()

In [None]:
# 연비에 영향이 있을만 하다고 생각되는 컬럼을 추출
ndf = df[['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration']]
ndf.head()

In [None]:
# 변수 간 경우의 수 (상관관계)
sns.pairplot(ndf)
plt.show()
plt.close()

In [None]:
# mpg, weight 간의 산점도 그리기
fig = plt.figure(figsize=(14, 5))
ax1 = fig.add_subplot(1, 2, 1)
ax2 = fig.add_subplot(1, 2, 2)
sns.regplot(x='weight', y='mpg', data=ndf, ax=ax1)
sns.regplot(x='weight', y='mpg', data=ndf, ax=ax2, fit_reg=False)
plt.show()
plt.close()

In [None]:
# 회귀 : 모델이 학습하면서 최적의 회귀선(계수) 을 찾아가는 과정

In [None]:
# 학습 데이터 /테스트 데이터 분리
X = ndf[['weight']]
y = ndf['mpg']

print(X.shape, y.shape)

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)

In [None]:
# 학습 / 예측 / 평가
from sklearn.linear_model import LinearRegression

lr = LinearRegression()

lr.fit(X_train, y_train)

r_score = lr.score(X_test, y_test)
r_score

In [None]:
# 회귀 계수 (기울기, 절편)
print('기울기 : ', lr.coef_, ' , ' , '절편 : ', lr.intercept_)

In [None]:
# 평가 - 그래프
y_pred = lr.predict(X)

plt.figure(figsize=(10, 5))
sns.kdeplot(y, label='y', linewidth=2)
sns.kdeplot(y_pred, label='y_pred', linewidth=2)
plt.legend()
plt.show()
plt.close()

## 다항회귀

* 독립변수 X와 종속변수 y 사이를 나타내는 관계가 직선보다 곡선으로 설명하는 것이 더 적합하다고 보일 때

* 2차 함수 이상의 함수를 이용해서 두 변수 간의 선형관계를 설명하고자 하는 회귀 방법 ==> 비선형 회귀

In [None]:
# 데이터 로딩
df = pd.read_csv('./auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleration', 'model year', 'origin', 'car name']

df.horsepower.replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df.horsepower = df.horsepower.astype('float')

df.head()

In [None]:
# 연비에 영향이 있을만 하다고 생각되는 컬럼을 추출
ndf = df[['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration']]

X = ndf[['weight']]
y = ndf['mpg']

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)

print(X_train)

In [None]:
# 다항식 변환
poly = PolynomialFeatures(degree=2)
# train 데이터를 2차항으로 변환
X_train_poly = poly.fit_transform(X_train)

In [None]:
print(X_train_poly)

In [None]:
# 학습 / 예측 / 평가
pr = LinearRegression()

pr.fit(X_train_poly, y_train)

In [None]:
# 모델의 결정 계수 추출
X_test_poly = poly.fit_transform(X_test)
r_score = pr.score(X_test_poly, y_test)
r_score

In [None]:
# 평가 - 그래프
X_poly = poly.fit_transform(X)
y_pred = pr.predict(X_poly)

plt.figure(figsize=(10, 5))
sns.kdeplot(y, label='y', linewidth=2)
sns.kdeplot(y_pred, label='y_pred', linewidth=2)
plt.legend()
plt.show()
plt.close()

### 다중회귀 (다변량 회귀)

* 여러 개의 독립변수가 종속변수에 영향을 주고 선형관계를 갖을 경우 사용하는 방법

In [None]:
# 데이터 로딩
df = pd.read_csv('./auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleration', 'model year', 'origin', 'car name']

df.horsepower.replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], axis=0, inplace=True)
df.horsepower = df.horsepower.astype('float')

df.head()

In [None]:
# 연비에 영향이 있을만 하다고 생각되는 컬럼을 추출
ndf = df[['mpg', 'displacement', 'horsepower', 'weight', 'acceleration']]

X = ndf[['weight']]
y = ndf['mpg']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)

In [None]:
# 학습 / 예측 / 평가
lr = LinearRegression()

lr.fit(X_train, y_train)

r_score = lr.score(X_test, y_test)

r_score

In [None]:
# 평가 - 그래프
y_pred = lr.predict(X)

plt.figure(figsize=(10, 5))
sns.kdeplot(y, label='y', linewidth=2)
sns.kdeplot(y_pred, label='y_pred', linewidth=2)
plt.legend()
plt.show()
plt.close()

## 다항 + 다중 회귀

*  **여러 특성(다중 회귀)**을 사용하면서, 각 특성들을 **다항식(2차 이상)**으로 확장하는 회귀 모델

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [None]:
# 1. 데이터 로딩 및 전처리
df = pd.read_csv('/content/auto-mpg.csv', header=None)

df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleration', 'model year', 'origin', 'car name']

df['horsepower'].replace('?', np.nan, inplace=True)
df.dropna(subset=['horsepower'], inplace=True)
df['horsepower'] = df['horsepower'].astype('float')

In [None]:
# 2. 다중 특성 선택
features = ['displacement', 'horsepower', 'weight', 'acceleration']
X = df[features]
y = df['mpg']

In [None]:
# 3. 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)

In [None]:
# 4. 다항 특성 변환 (degree=2로 예제)
poly = PolynomialFeatures(degree=2, include_bias=False)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

In [None]:
# 5. 모델 학습
model = LinearRegression()
model.fit(X_train_poly, y_train)

# 6. 예측
y_pred = model.predict(X_test_poly)

# 7. 평가
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("📊 다항 + 다중 회귀 평가 결과")
print(f" MSE: {mse:.3f}")
print(f" MAE: {mae:.3f}")
print(f" R²: {r2:.3f}")

In [None]:
# 8. 예측 vs 실제 시각화
plt.figure(figsize=(10, 6))
sns.kdeplot(y_test, label='label mpg', linewidth=2)
sns.kdeplot(y_pred, label='predcited mpg', linewidth=2, linestyle='--')
plt.xlabel('MPG')
plt.legend()
plt.grid(True)
plt.show()
