In [None]:
""" github 연동 """
!git clone https://github.com/ku-sungsukim/2025-LGElec-Day2.git ### colab 사용시

## **0. 필요 패키지 불러오기**

In [None]:
""" 데이터 전처리 관련 패키지 """
import numpy as np
import pandas as pd


""" 기계학습 모델 구축 및 평가 패키지 """
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error


""" 데이터 시각화 패키지 """
import seaborn as sns
import matplotlib.pyplot as plt


""" 경고 숨기기 """
import warnings
warnings.filterwarnings(action='ignore')

## **1. 데이터 핸들링 및 탐색적 데이터 분석**
 - 분석 데이터: Toyota 중고차 가격 예측

#### **설명변수**
- Id : Record_ID
- Model : Model Description
- Age_08_04 : Age in months as in August 2004
- Mfg_Month : Manufacturing month (1-12)
- Mfg_Year : Manufacturing Year
- KM : Accumulated Kilometers on odometer
- Fuel_Type : Fuel Type (Petrol, Diesel, CNG)
- HP : Horse Power
- Met_Color : Metallic Color (Yes=1, No=0)
- Color : Color (Blue, Red, Grey, Silver, Black, etc.)
- Automatic : Automatic (Yes=1, No=0)
- CC : Cylinder Volume in cubic centimeters
- Doors : Number of doors
- Cylinders : Number of cylinders
- Gears : Number of gear positions
- Quarterly_Tax : Quarterly road tax in EUROs
- Weight : Weight in Kilograms
- Mfr_Guarantee : Within Manufacturer's Guarantee period (Yes=1, No=0)
- BOVAG_Guarantee : BOVAG (Dutch dealer network) Guarantee (Yes=1, No=0)
- Guarantee_Period : Guarantee period in months
- ABS : Anti-Lock Brake System (Yes=1, No=0)
- Airbag_1 : Driver_Airbag (Yes=1, No=0)
- Airbag_2 : Passenger Airbag (Yes=1, No=0)
- Airco : Airconditioning (Yes=1, No=0)
- Automatic_airco : Automatic Airconditioning (Yes=1, No=0)
- Boardcomputer : Boardcomputer (Yes=1, No=0)
- CD_Player : CD Player (Yes=1, No=0)
- Central_Lock : Central Lock (Yes=1, No=0)
- Powered_Windows : Powered Windows (Yes=1, No=0)
- Power_Steering : Power Steering (Yes=1, No=0)
- Radio : Radio (Yes=1, No=0)
- Mistlamps : Mistlamps (Yes=1, No=0)
- Sport_Model : Sport Model (Yes=1, No=0)
- Backseat_Divider : Backseat Divider (Yes=1, No=0)
- Metallic_Rim : Metallic Rim (Yes=1, No=0)
- Radio_cassette : Radio Cassette (Yes=1, No=0)
- Parking_Assistant : Parking assistance system (Yes=1, No=0)
- Tow_Bar : Tow Bar (Yes=1, No=0)

#### **반응변수**
- Price : Offer Price in EUROs

#### **1-1. 데이터 불러오기 및 개요 파악**

In [None]:
""" 데이터 불러오기 """
# data = pd.read_csv('data/ToyotaCorolla.csv') ### 로컬 사용시
data = pd.read_csv('/content/2025-LGElec-Day2/data/ToyotaCorolla.csv') ### colab 사용시

In [None]:
""" 데이터 상위 5개 Row 확인 """
data.'''Answer'''

In [None]:
""" 데이터 크기 확인 """
data.'''Answer'''

#### **1-2. 탐색적 데이터 분석**

In [None]:
""" 데이터 결측치 여부 및 변수 타입 확인 """
data.'''Answer'''

In [None]:
""" 각 변수별 통계량 확인 """
data.'''Answer'''

In [None]:
""" pairplot을 통한 각 변수 간 관계성 파악 """

"""
1. cc, Mfg_Year, HP, KM, Price 변수들에 대해서만 시각화
"""

sns.pairplot(data['''Answer'''])
plt.show()

In [None]:
""" 상관관계 히트맵을 통한 변수 간 상관관계 분석 """

"""
1. cc, Mfg_Year, HP, KM, Price 변수들에 대해서만 시각화
2. Figure 크기: 높이 및 너비 모두 10, 10
3. annotation을 상관관계 값으로 표기할 것
4. annotation 폰트 크기: 10
"""

plt.figure('''Answer''')
sns.heatmap(
    data['''Answer'''].'''Answer''', 
    cmap=sns.color_palette("coolwarm", 10), 
    annot='''Answer''',
    annot_kws={'''Answer'''}
    ) 
plt.show()

## **2. 데이터 분할**

In [None]:
""" 예측에 필요하지 않은 변수 제거 """

"""
1. 불필요 변수: Id, Model, Fuel_Type
"""

data = data.'''Answer'''
data.head()

In [None]:
""" 학습데이터와 평가데이터 분할"""

"""
1. X, y변수 구분
  - X: 전체 데이터에서 Price 변수를 제외한 모든 변수
  - Y: Price 변수
2. 학습데이터:평가데이터 = 7:3으로 나눌 것
3. random_state: 216
"""

X = data.'''Answer'''
y = data['''Answer''']

X_train, X_test, y_train, y_test = train_test_split('''Answer''')

X_train.shape, X_test.shape, y_train.shape, y_test.shape

## **3. 모델링**

#### **3-1. 모델 학습 (파라미터 도출)**
 - 이때, statsmodels 패키지를 활용하여 회귀모형을 적합

In [None]:
""" 회귀분석을 위한 상수항 추가 """

"""
1. train 데이터와 test 데이터 모두 추가
"""

X_train = sm.'''Answer'''
X_test = sm.'''Answer'''

In [None]:
""" 회귀모형 파라미터 도출 """
lm = sm.OLS('''Answer''')
lm_trained = '''Answer'''

In [None]:
""" train 데이터의 예측 결과 비교 """

"""
1. Figure 크기는 너비 및 높이 모두 12로 지정
 - X축: 실제값
 - Y축: 예측값
2. y=x 그래프를 그릴 것 (범위: [4000, 35000] / 색깔: 빨간색)
3. Figure 제목 및 축 제목 지정
 - Figure 제목: Prediction Result for Train Data
 - X축: Lable Value (폰트크기: 20)
 - Y축: Prediction Value (폰트크기: 20)
4. Figure에 시각화 할 X축 및 Y축 범위를 모두 [4000, 35000]로 지정
"""

y_train_pred = lm_trained.fittedvalues 

plt.figure(figsize='''Answer''') 

plt.scatter(y_train, y_train_pred) 
plt.plot('''Answer''') 

plt.title('''Answer''') 
plt.xlabel('''Answer''') 
plt.ylabel('''Answer''') 

plt.xlim('''Answer''') 
plt.ylim('''Answer''') 

plt.show()

#### **3-2. 선형회귀 모델의 가정 충족여부 확인**

In [None]:
""" 오차 값 확인 """
model_residuals = lm_trained.'''Answer'''
model_residuals

In [None]:
""" 오차의 정규성 확인 """

"""
1. QQ-plot으로 오차의 정규성 분석
 - 이미지 너비 및 높이: 12
 - Figure Title: QQ Plot
 - 표준정규분포선 표시
"""

plt.rcParams['axes.unicode_minus'] = False ### 음수 폰트 깨짐 방지

fig, ax = plt.subplots(1, 1) 
fig.set_figheight('''Answer''') 
fig.set_figwidth('''Answer''') 

sm.ProbPlot(model_residuals).qqplot('''Answer''', 
                                    color='#1f77b4', 
                                    ax=ax) 
ax.title.set_text('''Answer''') 

In [None]:
""" 오차의 등분산성 확인 """

"""
1. residual plot으로 오차의 등분산성 확인
 - 이미지 너비 및 높이: 15
 - 추세선 표시
 - 투명도: 0.3
 - 추세선 색깔: Green
 - Figure 제목: Figure for Residuals and Fitted
 - x축 제목: Fitted values
 - y축 제목: Residuals
"""

model_fitted_y= lm_trained.fittedvalues

fig, ax = plt.subplots(1, 1)
fig.set_figheight('''Answer''')
fig.set_figwidth('''Answer''')

sns.residplot(x=model_fitted_y, 
              y=y_train, 
              lowess=True, 
              scatter_kws={'''Answer'''}, 
              line_kws={'''Answer'''}, 
              ax=ax)
ax.title.set_text('''Answer''')
ax.set(xlabel='''Answer''', ylabel='''Answer''')

#### **3-3. 모델 평가 및 결과해석**

In [None]:
""" 모델 결과 해석 """
print(lm_trained.'''Answer''')

In [None]:
""" 모델 1차 성능 평가 (train data) """

"""
1. 평가척도: MSE, RMSE, MAE, MAPE, R2
"""

def mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    return '''Answer'''

train_pred = lm_trained.'''Answer'''

print('Training MSE: {:.3f}'.format('''Answer'''))
print('Training RMSE: {:.3f}'.format('''Answer'''))
print('Training MAE: {:.3f}'.format('''Answer'''))
print('Training MAPE: {:.3f}'.format('''Answer'''))
print('Training R2: {:.3f}'.format('''Answer'''))

In [None]:
""" 모델 1차 성능 평가 (test data) """

"""
1. 평가척도: MSE, RMSE, MAE, MAPE, R2
"""

test_pred = lm_trained.predict(X_test)

print('Testing MSE: {:.3f}'.format('''Answer'''))
print('Testing RMSE: {:.3f}'.format('''Answer'''))
print('Testing MAE: {:.3f}'.format('''Answer'''))
print('Testing MAPE: {:.3f}'.format('''Answer'''))
print('Testing R2: {:.3f}'.format('''Answer'''))

In [None]:
""" 유의미하지 않은 변수 제거 후, 다시 모델링 """

"""
1. 유의수준 기준: 0.05
"""

""" 유의미하지 않은 변수들 식별 """
not_significants = '''Answer'''
# not_significants = lm_trained.pvalues.index[lm_trained.pvalues > 0.05] ### solution2: 눈으로 일일이 식별하지 않고 쉽게 제거 가능
print(f'유의미하지 않은 변수들: {not_significants}')

""" 유의미하지 않은 변수들 제거 """
X_train_new = X_train.'''Answer'''
X_test_new = X_test.'''Answer'''

In [None]:
""" 변수 제거 후, 모델 학습 결과 다시 확인 """
lm_new = sm.OLS('''Answer''')
lm_new_trained = '''Answer'''
print(lm_new_trained.summary())

In [None]:
""" 모델 2차 성능 평가 (train data) """

"""
1. 평가척도: MSE, RMSE, MAE, MAPE, R2
"""

train_pred_new = lm_new_trained.predict(X_train_new)

print('Training MSE: {:.3f}'.format(mean_squared_error(y_train, train_pred_new)))
print('Training RMSE: {:.3f}'.format(np.sqrt(mean_squared_error(y_train, train_pred_new))))
print('Training MAE: {:.3f}'.format(mean_absolute_error(y_train, train_pred_new)))
print('Training MAPE: {:.3f}'.format(mean_absolute_percentage_error(y_train, train_pred_new)))
print('Training R2: {:.3f}'.format(r2_score(y_train, train_pred_new)))

In [None]:
""" 모델 2차 성능 평가 (test data) """

"""
1. 평가척도: MSE, RMSE, MAE, MAPE, R2
"""

test_pred_new = lm_new_trained.predict(X_test_new)

print('Testing MSE: {:.3f}'.format(mean_squared_error(y_test, test_pred_new)))
print('Testing RMSE: {:.3f}'.format(np.sqrt(mean_squared_error(y_test, test_pred_new))))
print('Testing MAE: {:.3f}'.format(mean_absolute_error(y_test, test_pred_new)))
print('Testing MAPE: {:.3f}'.format(mean_absolute_percentage_error(y_test, test_pred_new)))
print('Testing R2: {:.3f}'.format(r2_score(y_test, test_pred_new)))

## **Appendix. sklearn을 활용한 선형회귀모형 구축**

In [None]:
""" sklearn으로 모델 학습 및 예측 """

"""
1. sklearn의 LinearRegression함수 활용하여 예측값까지 산출
 - 모델 내 상수항은 활용하지 않을 것
"""

lr_skl = LinearRegression(fit_intercept=False) 
lr_skl.fit(X_train, y_train) 
y_pred_skl = lr_skl.predict(X_test) 


In [None]:
""" sklearn을 통한 회귀계수 확인"""
lr_skl.coef_

In [None]:
""" sklearn 예측 결과 확인 """

"""
1. 평가척도: MSE, RMSE, MAE, MAPE, R2
"""

test_mse_skl = mean_squared_error(y_test, y_pred_skl)
test_rmse_skl = np.sqrt(mean_squared_error(y_test, y_pred_skl))
test_mae_skl = mean_absolute_error(y_test, y_pred_skl)
test_mape_skl = mean_absolute_percentage_error(y_test, y_pred_skl)
test_r2_skl = r2_score(y_test, y_pred_skl)

print('sklearn Testing MSE: {:.3f}'.format(test_mse_skl))
print('sklearn Testing RMSE: {:.3f}'.format(test_rmse_skl))
print('sklearn Testing MAE: {:.3f}'.format(test_mae_skl))
print('sklearn Testing MAPE: {:.3f}'.format(test_mape_skl))
print('sklearn Testing R2: {:.3f}'.format(test_r2_skl))