# 5. Select and Train a Model

In [None]:
import joblib
housing_prepared = joblib.load("data/housing_prepared.pkl") # 노트북 나눠서 불러오기
housing_labels = joblib.load("data/housing_labels.pkl")
housing = joblib.load("data/housing_raw.pkl")

In [8]:
import pickle
import numpy as np
from sklearn.base import BaseEstimator, TransformerMixin

# CombinedAttributesAdder 클래스 정의
class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room=True):
        self.add_bedrooms_per_room = add_bedrooms_per_room

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]  
        population_per_household = X[:, population_ix] / X[:, households_ix]  
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]  
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]

# pickle로 저장된 CombinedAttributesAdder 객체 불러오기
with open('combined_attributes_adder.pkl', 'rb') as f:
    attr_adder = pickle.load(f)

# 이제 attr_adder를 사용하여 변환을 수행할 수 있다.


In [10]:
# 저장된 full_pipeline 불러오기
with open('full_pipeline.pkl', 'rb') as f:
    full_pipeline = pickle.load(f)

In [14]:
col_names = "total_rooms", "total_bedrooms", "population", "households" # 재지정
rooms_ix, bedrooms_ix, population_ix, households_ix = [
    housing.columns.get_loc(c) for c in col_names] # get the column indices

## Training and Evaluating on the Training Set

선형 회귀 모델 훈련

In [3]:
from sklearn.linear_model import LinearRegression  

# 선형 회귀 모델 객체 생성
lin_reg = LinearRegression()

# 변환된 데이터(housing_prepared)와 레이블(housing_labels)을 사용하여 모델 훈련
lin_reg.fit(housing_prepared, housing_labels)


0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


학습 세트에서 몇 개 인스턴스 사용해 시험

In [13]:
# 몇 가지 훈련 인스턴스에서 전체 전처리 파이프라인 시도

# 훈련 데이터에서 처음 5개의 인스턴스를 선택
some_data = housing.iloc[:5]  # housing 데이터에서 첫 5개 행을 선택
some_labels = housing_labels.iloc[:5]  # housing_labels에서 첫 5개 레이블을 선택

# 선택된 데이터에 대해 전체 전처리 파이프라인을 적용
some_data_prepared = full_pipeline.transform(some_data)  # 전체 전처리 파이프라인을 적용하여 데이터 준비

# 준비된 데이터로 선형 회귀 모델을 사용하여 예측 수행
print("Predictions:", lin_reg.predict(some_data_prepared))  # 선형 회귀 모델을 통해 예측값 출력

Predictions: [ 85657.90192014 305492.60737488 152056.46122456 186095.70946094
 244550.67966089]


In [16]:
print("Labels:", list(some_labels)) # 실제 값과 비교

Labels: [72100.0, 279600.0, 82700.0, 112500.0, 238300.0]


In [17]:
some_data_prepared

array([[-0.94135046,  1.34743822,  0.02756357,  0.58477745,  0.64037127,
         0.73260236,  0.55628602, -0.8936472 ,  0.01739526,  0.00622264,
        -0.12112176,  0.        ,  1.        ,  0.        ,  0.        ,
         0.        ],
       [ 1.17178212, -1.19243966, -1.72201763,  1.26146668,  0.78156132,
         0.53361152,  0.72131799,  1.292168  ,  0.56925554, -0.04081077,
        -0.81086696,  0.        ,  0.        ,  0.        ,  0.        ,
         1.        ],
       [ 0.26758118, -0.1259716 ,  1.22045984, -0.46977281, -0.54513828,
        -0.67467519, -0.52440722, -0.52543365, -0.01802432, -0.07537122,
        -0.33827252,  0.        ,  1.        ,  0.        ,  0.        ,
         0.        ],
       [ 1.22173797, -1.35147437, -0.37006852, -0.34865152, -0.03636724,
        -0.46761716, -0.03729672, -0.86592882, -0.59513997, -0.10680295,
         0.96120521,  0.        ,  0.        ,  0.        ,  0.        ,
         1.        ],
       [ 0.43743108, -0.63581817, -0

비록 예측이 정확하지는 않지만 모델의 RMSE를 측정  
Scikit-Learn의 `mean_squared_error()` 함수 사용해서 전체 학습 세트에서 이 회귀 모델의 RMSE 측정 가능

In [22]:
from sklearn.metrics import mean_squared_error  # mean_squared_error를 임포트

# 선형 회귀 모델을 사용하여 housing_prepared 데이터에 대한 예측 수행
housing_predictions = lin_reg.predict(housing_prepared)

# 실제값(housing_labels)과 예측값(housing_predictions)을 사용하여 평균 제곱 오차(MSE) 계산
lin_mse = mean_squared_error(housing_labels, housing_predictions)

# 평균 제곱 오차(MSE)의 제곱근을 구하여 루트 평균 제곱 오차(RMSE) 계산
lin_rmse = np.sqrt(lin_mse)

# 계산된 루트 평균 제곱 오차(RMSE) 출력
lin_rmse


np.float64(68627.87390018745)

In [23]:
from sklearn.metrics import mean_absolute_error  # mean_absolute_error를 임포트

# 모델의 예측값과 실제값을 사용하여 평균 절대 오차 계산
lin_mae = mean_absolute_error(housing_labels, housing_predictions)

# 계산된 평균 절대 오차 출력
lin_mae


49438.66860915801

대부분의 지역구의 `median_housing_values`는 `$120,000`에서 `$265,000` 사이이므로,  
평균 예측 오차가 $68,628이라는 것은 만족스럽지 않음 -> 모델이 학습 데이터에 과소적합

-> 특성들이 좋은 예측을 하기엔 충분한 정보를 제공하지 못하거나, 모델 성능 부족

과소적합을 해결하는 주요 방법
>더 강력한 모델을 선택하거나,  
훈련 알고리즘에 더 나은 특성들을 제공하거나,  
모델에 대한 제약을 줄이기(이 모델은 정규화되지 않았기 때문에 X)

인구의 로그값과 같은 특성을 추가해 볼 수도 있지만, 먼저 더 복잡한 모델을 사용해 성능이 어떻게 나오는지 확인

`DecisionTreeRegressor` 훈련  
이 모델은 데이터를 기반으로 복잡한 비선형 관계를 찾아낼 수 있는 강력한 모델  
(의사결정 트리는 6장에서 더 자세히 다룬다)

In [20]:
from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor(random_state=42)
tree_reg.fit(housing_prepared, housing_labels)

0,1,2
,criterion,'squared_error'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,42
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [24]:
housing_predictions = tree_reg.predict(housing_prepared)
tree_mse = mean_squared_error(housing_labels, housing_predictions)
tree_rmse = np.sqrt(tree_mse)
tree_rmse

np.float64(0.0)

오차가 0.0 -> 이 모델이 데이터 과적합했을 가능성이 높음

모델에 대해 확신이 생기기 전까지는 테스트 세트를 건드리지 않아야 하므로,  
학습 세트의 일부는 훈련에 사용하고 일부는 모델 검증에 사용해야


## Better Evaluation Using Cross-Validation

`Decision Tree` 모델 평가 방법 중 하나
>`train_test_split()` 함수를 사용해 학습 세트를 더 작은 학습 세트와 검증 세트로 나누고,  
>모델을 더 작은 학습 세트에 대해 훈련시킨 다음 검증 세트에 대해 평가하는 것

훌륭한 대안은 Scikit-Learn의 `K-fold` 교차 검증 기능을 사용  
다음 코드는 학습 세트를 무작위로 10개의 고유한 부분집합(폴드)으로 나눈 다음, `Decision Tree` 모델을 10번 훈련 및 평가  
매번 다른 폴드를 평가에 사용하고 나머지 9개 폴드를 훈련에 사용 -> 10개의 평가 점수를 포함하는 배열

In [26]:
from sklearn.model_selection import cross_val_score  # cross_val_score를 임포트

# 교차 검증을 사용하여 결정 트리 모델의 성능 평가
scores = cross_val_score(tree_reg, housing_prepared, housing_labels,
                         scoring="neg_mean_squared_error", cv=10)  # 10-겹 교차 검증, MSE를 음수로 반환

# 음수로 반환된 MSE 값을 양수로 변환하고, 제곱근을 구하여 RMSE 계산
tree_rmse_scores = np.sqrt(-scores)

# tree_rmse_scores는 각 폴드(fold)에서 계산된 RMSE를 담고 있다.


In [30]:
def display_scores(scores):
    # 주어진 scores를 출력 (각각의 성능 점수, 예: RMSE 값들)
    print("Scores:", scores)
    # 성능 점수의 평균 계산 후 출력
    print("Mean:", scores.mean())
    # 성능 점수의 표준 편차 계산 후 출력
    print("Standard deviation:", scores.std())

# tree_rmse_scores 배열에 대해 display_scores 함수 실행
display_scores(tree_rmse_scores)


Scores: [72831.45749112 69973.18438322 69528.56551415 72517.78229792
 69145.50006909 79094.74123727 68960.045444   73344.50225684
 69826.02473916 71077.09753998]
Mean: 71629.89009727491
Standard deviation: 2914.035468468928


Decision Tree는 Linear Regression 모델보다 성능이 더 나빠 보임  
교차 검증은 모델의 성능을 추정할 수 있을 뿐만 아니라, 이 추정이 얼마나 정확한지도(표준 편차) 알려 줌

Decision Tree는 약 71,629의 점수

확인을 위해 Linear Regression 모델에 대해서도 동일한 점수를 계산

In [32]:
# 선형 회귀 모델에 대해 교차 검증을 수행하여 평균 제곱 오차(MSE)를 계산
# scoring="neg_mean_squared_error"는 MSE를 음수로 반환하기 때문에 이를 변환해야 함
lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels,
                             scoring="neg_mean_squared_error", cv=10)

# 음수로 반환된 MSE 값을 양수로 변환하고, 제곱근을 구하여 RMSE 계산
lin_rmse_scores = np.sqrt(-lin_scores)

# RMSE 점수의 평균과 표준 편차를 출력
display_scores(lin_rmse_scores)

Scores: [71762.76364394 64114.99166359 67771.17124356 68635.19072082
 66846.14089488 72528.03725385 73997.08050233 68802.33629334
 66443.28836884 70139.79923956]
Mean: 69104.07998247063
Standard deviation: 2880.3282098180666


`Decision Tree` 모델은 너무 심하게 과적합되어 있어서, `Linear Regression` 모델보다 성능이 떨어짐

`RandomForestRegressor` 시도하기  
`Random Forest`는 특성들의 무작위 부분집합에 대해 여러 개의 Decision Tree를 훈련시키고, 그 예측의 평균 구함

여러 모델을 기반으로 또 다른 모델을 만드는 방식 -> **`앙상블 학습(Ensemble Learning)`**

In [33]:
# 기본값이 Scikit-Learn 0.22에서 100으로 변경될 예정이므로,
# 미래를 대비해 n_estimators=100으로 지정
from sklearn.ensemble import RandomForestRegressor 

# 랜덤 포레스트 회귀 모델 생성 (n_estimators=100으로 100개의 결정 트리를 사용, random_state=42로 재현 가능하게 설정)
forest_reg = RandomForestRegressor(n_estimators=100, random_state=42)

# 모델 훈련: 준비된 데이터(housing_prepared)와 실제 값(housing_labels)을 사용하여 모델을 훈련시킴
forest_reg.fit(housing_prepared, housing_labels)


0,1,2
,n_estimators,100
,criterion,'squared_error'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,1.0
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [35]:
# 훈련된 랜덤 포레스트 모델을 사용하여 housing_prepared 데이터에 대한 예측 수행
housing_predictions = forest_reg.predict(housing_prepared)

# 실제값(housing_labels)과 예측값(housing_predictions)을 사용하여 평균 제곱 오차(MSE) 계산
forest_mse = mean_squared_error(housing_labels, housing_predictions)

# 평균 제곱 오차(MSE)의 제곱근을 구하여 루트 평균 제곱 오차(RMSE) 계산
forest_rmse = np.sqrt(forest_mse)

# 계산된 루트 평균 제곱 오차(RMSE) 출력
forest_rmse

np.float64(18650.698705770003)

주의할 점: 학습 세트에서의 점수가 여전히 검증 세트보다 훨씬 낮다  
이는 모델이 여전히 학습 세트를 과적합하고 있다는 의미  
과적합에 대한 가능한 해결책은 모델을 단순화하거나, 제약을 가하거나(즉, 정규화하거나), 훨씬 더 많은 학습 데이터를 확보하는 것

`Random Forest`를 더 깊이 파고들기 전에 다양한 머신러닝 알고리즘 범주에서 여러 다른 모델들도 시도해보는 것이 좋음  
(예: 다양한 커널을 사용한 여러 Support Vector Machine, 가능하다면 하나의 신경망 등)  
이때는 하이퍼파라미터를 너무 많이 조정하지 않고 비교적 가볍게 시도하는 것이 좋음  
목표는 유망한 모델 두세 개에서 다섯 개 정도를 최종 후보로 추리는 것

In [None]:
# 교차 검증을 사용하여 랜덤 포레스트 모델의 성능 평가
# scoring="neg_mean_squared_error"로 평균 제곱 오차(MSE)를 음수로 반환받음
forest_scores = cross_val_score(forest_reg, housing_prepared, housing_labels,
                                scoring="neg_mean_squared_error", cv=10)

# 음수로 반환된 MSE 값을 양수로 변환하고, 제곱근을 구하여 루트 평균 제곱 오차(RMSE) 계산
forest_rmse_scores = np.sqrt(-forest_scores)

# RMSE 점수의 평균과 표준 편차를 출력
display_scores(forest_rmse_scores)


In [None]:
# 교차 검증을 사용하여 선형 회귀 모델의 성능 평가
# scoring="neg_mean_squared_error"로 평균 제곱 오차(MSE)를 음수로 반환받음
scores = cross_val_score(lin_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)

# 음수로 반환된 MSE 값을 양수로 변환하고, 제곱근을 구하여 루트 평균 제곱 오차(RMSE) 계산
# pd.Series(np.sqrt(-scores))를 사용하여 RMSE의 통계적 요약 정보를 출력
pd.Series(np.sqrt(-scores)).describe()  # RMSE의 평균, 표준 편차, 최소값, 최대값 등을 포함한 요약 통계 출력


In [None]:
from sklearn.svm import SVR  
# 선형 커널을 사용하여 Support Vector Regression 모델 생성
svm_reg = SVR(kernel="linear")

# 모델 훈련: 준비된 데이터(housing_prepared)와 실제 값(housing_labels)을 사용하여 모델을 훈련
svm_reg.fit(housing_prepared, housing_labels)

# 훈련된 모델을 사용하여 housing_prepared 데이터에 대해 예측 수행
housing_predictions = svm_reg.predict(housing_prepared)

# 실제값(housing_labels)과 예측값(housing_predictions)을 사용하여 평균 제곱 오차(MSE) 계산
svm_mse = mean_squared_error(housing_labels, housing_predictions)

# 평균 제곱 오차(MSE)의 제곱근을 구하여 루트 평균 제곱 오차(RMSE) 계산
svm_rmse = np.sqrt(svm_mse)

# 계산된 루트 평균 제곱 오차(RMSE) 출력
svm_rmse


모델을 실험할 때마다 저장해두는 것이 좋음  
그래야 나중에 원하는 모델로 쉽게 돌아올 수 있음  
하이퍼파라미터와 훈련된 파라미터뿐만 아니라, 교차 검증 점수와 실제 예측값도 함께 저장해두어야 함  

이렇게 하면 다양한 모델 유형 간의 점수를 쉽게 비교할 수 있고, 그들이 만드는 오류 유형도 비교할 수 있음  
Scikit-Learn 모델은 Python의 `pickle` 모듈이나, 큰 `NumPy` 배열을 직렬화하는 데 더 효율적인 `joblib` 라이브러리를 사용해 쉽게 저장할 수 있음(pip 사용해 설치 가능)





