In [51]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, QuantileTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import accuracy_score, mean_squared_error  # 평균 절대 오차

✅ Mean Absolute Error (MAE)란?

    - **MAE(평균 절대 오차)**는 회귀 모델의 성능을 평가하는 데 사용되는 지표로, 예측값과 실제값 간의 절대적 차이의 평균을 나타냅니다.

✅ MAE의 특징

| 항목       | 설명                                     |
| -------- | -------------------------------------- |
| **직관성**  | "평균적으로 예측이 실제값에서 얼마나 벗어났는가?"를 쉽게 설명 가능 |
| **단위**   | 예측 대상 변수와 동일한 단위를 가짐                   |
| **해석력**  | MAE가 5라면, 평균적으로 5만큼 예측이 틀렸다는 의미        |
| **강건성**  | 이상치에 **다소 강함** (MSE보다는 민감하지 않음)        |
| **비미분성** | 딥러닝에선 미분이 어렵기 때문에 보통은 MSE가 더 자주 쓰임     |


✅ 활용 시기

- 회귀 문제에서 모델 예측이 얼마나 틀렸는지를 직관적으로 파악하고 싶을 때
- 이상치가 많지 않은 데이터
- 사용자에게 "예측이 평균적으로 이 정도 틀렸다"고 명확하게 설명해야 할 때

In [52]:
california = fetch_california_housing()

In [53]:
scalers = {
    "None": None,
    "StandardScaler": StandardScaler(),
    "MinMaxScaler": MinMaxScaler(),
    "QuantileTransformer": QuantileTransformer(output_distribution='normal'),
}

In [54]:
X_train, X_test, y_train, y_test = train_test_split(california.data, california.target, random_state=42)

In [45]:
scaling_results = {}
for name, scaler in scalers.items():
    if scaler is not None:
       X_train_scaled = scaler.fit_transform(X_train)
       X_test_scaled = scaler.transform(X_test)
    else:
        X_train_scaled = X_train
        X_test_scaled = X_test
    
    model = RandomForestRegressor()
    model.fit(X_train_scaled, y_train)
    
    y_pred = model.predict(X_test_scaled)
    mae = mean_squared_error(y_test, y_pred)
    
    scaling_results[name] = {"mae": mae}

In [46]:
scaling_results

{'None': {'mae': 0.25484337511987826},
 'StandardScaler': {'mae': 0.254022084794315},
 'MinMaxScaler': {'mae': 0.25423285504993537},
 'QuantileTransformer': {'mae': 0.25320296156172767}}

In [50]:
print(california.DESCR)

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

:Number of Instances: 20640

:Number of Attributes: 8 numeric, predictive attributes and the target

:Attribute Information:
    - MedInc        median income in block group
    - HouseAge      median house age in block group
    - AveRooms      average number of rooms per household
    - AveBedrms     average number of bedrooms per household
    - Population    block group population
    - AveOccup      average number of household members
    - Latitude      block group latitude
    - Longitude     block group longitude

:Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived from the 1990 U.S. census, using one row per ce