In [None]:
# 데이터를 다운받는 함수 코드 
import os
import tarfile
from six.moves import urllib

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = "datasets/housing"
HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()

In [1]:
# 데이터를 추출하는 함수
import os
import pandas as pd

HOUSING_PATH = "datasets/housing"

def load_housing_data(housing_path = HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

  return f(*args, **kwds)
  return f(*args, **kwds)


In [2]:
housing = load_housing_data()
#ocean_proximity만 제외하고 모든 특성이 숫자형이다.

In [None]:
# 기본적인 사용코드
housing.head() # 데이터의 처음 5행 출력
housing.info() # 데이터의 간략한 설명과 특히 전체 행 수, 각 특성의 데이터 타입과 널이 아닌 값의 개수를 확인하는데 유용 정보 출력
housing["ocean_proximity"].value_counts() # 범주형 특성의 정보 
housing.describe() # 숫자형 특성의 요약정보 

%matplotlib inline # 주피터 노트북의 매직 명령 주피터 자체의 백엔드를 사용 - 그래프는 노트북 안에 그려지게 됨 
import matplotlib.pyplot as plt
housing.hist(bins=50, figsize=(20,15))
plt.show()

In [3]:
# 테스트 세트 만들기 
# 샘플을 선택해 데이터 셋의 20퍼센트 정도 떼놓으면 된다. 
import numpy as np

def split_train_test(data, test_ratio):
    shuffled_indices = np.random.permutation(len(data))
    test_set_size = int(len(data) * test_ratio)
    test_indices = shuffled_indices[:test_set_size]
    train_indices = shuffled_indices[test_set_size:]
    return data.iloc[train_indices], data.iloc[test_indices]

In [4]:
from zlib import crc32

def test_set_check(identifier, test_ratio):
    return crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32

def split_train_test_by_id(data, test_ratio, id_column):
    ids = data[id_column]
    in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio))
    return data.loc[~in_test_set], data.loc[in_test_set]

In [5]:
housing_with_id = housing.reset_index()
train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "index")

In [6]:
# 사이킷런을 이용하여 데이터셋을 여러 서브셋으로 만들 수 있다. 
from sklearn.model_selection import StratifiedShuffleSplit

housing["income_cat"] = np.ceil(housing["median_income"]/1.5)
housing["income_cat"].where(housing["income_cat"] < 5, 5.0, inplace = True)

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

In [7]:
from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]
    
housing["income_cat"].value_counts() / len(housing)

3.0    0.350581
2.0    0.318847
4.0    0.176308
5.0    0.114438
1.0    0.039826
Name: income_cat, dtype: float64

In [8]:
for set_ in (strat_train_set, strat_test_set):
    set_.drop("income_cat", axis=1, inplace=True)

In [9]:
housing_with_id = housing.reset_index()
train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "index")

In [55]:
# 지리적 데이터 시각화 
housing.plot(kind="scatter", x="longitude", y="latitude")
# 밀집된 지역이 잘 부각된 산점도
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)
# 주택 가격(=색)과 인구(=원의 반지름)가 포함된 산점도 
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, 
             s=housing["population"]/100, label="population", figsize=(10, 7),
             c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True, sharex=False)
plt.legend()
# 표준상관관계 조사 corr()메서드를 이용
corr_matrix = housing.corr()

# 주택가격과 다른 특성 사이의 상관관계크기 살펴보기
corr_matrix["median_house_value"].sort_values(ascending=False)
# 산점도 행렬 
from pandas.plotting import scatter_matrix

attributes = ["median_house_value", "median_income", "total_rooms", "housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8))


NameError: name 'plot' is not defined

In [10]:
# 머신러닝을 위한 데이터 준비 
# 예측 변수와 레이블을 분리 
housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"].copy()

In [11]:
# 데이터 정제 
# total_bedrooms 특성에 값이 경우를 고치기
# 방법은 3가지 - 해당구역 제거(dropna()), 전체 특성을 삭제(drop()), 어떤 값으로 채우기(fillna())
housing.dropna(subset=["total_bedrooms"])     # 1
housing.drop("total_bedrooms", axis=1)        # 2    
median = housing["total_bedrooms"].median()   # 3
housing["total_bedrooms"].fillna(median, inplace=True)

In [12]:
# 사이킷런의 Imputer 를 이용하여 누락된 값을 손쉽게 다루도록 함
from sklearn.preprocessing import Imputer

imputer = Imputer(strategy = "median") # 누락된 값을 특성의 중간값으로 변경 
housing_num = housing.drop("ocean_proximity", axis=1) # 중간값이 수치형 특성에서만 계산될 수 있기때문에 텍스트 특성을 제외한 복사본 생성 
imputer.fit(housing_num) # fit 메서드를 이용하여 훈련데이터에 적용
# 어떤 수치형 데이터가 누락될지 모르니까 모든 수치형 특성에 imputer 특성을 적용하는것이 바람직 
# imputer는 각 특성의 중간값을 계산하여 그 결과를 객체의 statistics 속성에 저장한다.
# imputer.statistic_

# 학습된 imputer 객체를 사용해 훈련세트에서 누락된 값을 학습한 중간값으로 바꿀수 있다. 
X = imputer.transform(housing_num)
housing_tr = pd.DataFrame(X, columns=housing_num.columns, index = list(housing.index.values))


In [13]:
# 텍스트와 범주형 특성 다루기 
housing_cat = housing["ocean_proximity"]
housing_cat.head(10)

17606     <1H OCEAN
18632     <1H OCEAN
14650    NEAR OCEAN
3230         INLAND
3555      <1H OCEAN
19480        INLAND
8879      <1H OCEAN
13685        INLAND
4937      <1H OCEAN
4861      <1H OCEAN
Name: ocean_proximity, dtype: object

In [14]:
# 대부분의 머신러닝 알고리즘은 숫자형을 다루므로 이 카테고리를 텍스트에서 숫자로 변경한다.
# 각 카테고리를 다른 정숫값으로 매핑해주는 판다스의 factorize() 메서드를 사용
housing_cat_encoded, housing_categories = housing_cat.factorize()
housing_cat_encoded[:10]

array([0, 0, 1, 2, 0, 2, 0, 2, 0, 0])

In [15]:
housing_categories

Index(['<1H OCEAN', 'NEAR OCEAN', 'INLAND', 'NEAR BAY', 'ISLAND'], dtype='object')

In [16]:
# 카테고리 별 이진특성을 만들어 사용(카테고리가 <1H OCEAN 일때 한 특성은 1 나머지는 0으로 각각 카테고리별로 )
# 원-핫 인코딩
# 사이킷 런에서 숫자로된 범주형 값을 윈-핫 백터로 바꾸어주는 OneHotEncoder를 제공한다. 

from future_encoders import OneHotEncoder

encoder = OneHotEncoder()
housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(1, -1)) # 2차원 배열을 1차원 배열로 변경
housing_cat_1hot
housing_cat_1hot.toarray()

array([[1., 1., 1., ..., 1., 1., 1.]])

In [17]:
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.utils import check_array
from sklearn.preprocessing import LabelEncoder
from scipy import sparse

class CategoricalEncoder(BaseEstimator, TransformerMixin):
    def __init__(self, encoding='onehot', categories='auto', dtype=np.float64,
                 handle_unknown='error'):
        self.encoding = encoding
        self.categories = categories
        self.dtype = dtype
        self.handle_unknown = handle_unknown

    def fit(self, X, y=None):
        if self.encoding not in ['onehot', 'onehot-dense', 'ordinal']:
            template = ("encoding should be either 'onehot', 'onehot-dense' "
                        "or 'ordinal', got %s")
            raise ValueError(template % self.handle_unknown)

        if self.handle_unknown not in ['error', 'ignore']:
            template = ("handle_unknown should be either 'error' or "
                        "'ignore', got %s")
            raise ValueError(template % self.handle_unknown)

        if self.encoding == 'ordinal' and self.handle_unknown == 'ignore':
            raise ValueError("handle_unknown='ignore' is not supported for"
                             " encoding='ordinal'")

        if self.categories != 'auto':
            for cats in self.categories:
                if not np.all(np.sort(cats) == np.array(cats)):
                    raise ValueError("Unsorted categories are not yet "
                                     "supported")

        X_temp = check_array(X, dtype=None)
        if not hasattr(X, 'dtype') and np.issubdtype(X_temp.dtype, str):
            X = check_array(X, dtype=np.object)
        else:
            X = X_temp

        n_samples, n_features = X.shape

        self._label_encoders_ = [LabelEncoder() for _ in range(n_features)]

        for i in range(n_features):
            le = self._label_encoders_[i]
            Xi = X[:, i]
            if self.categories == 'auto':
                le.fit(Xi)
            else:
                if self.handle_unknown == 'error':
                    valid_mask = np.in1d(Xi, self.categories[i])
                    if not np.all(valid_mask):
                        diff = np.unique(Xi[~valid_mask])
                        msg = ("Found unknown categories {0} in column {1}"
                               " during fit".format(diff, i))
                        raise ValueError(msg)
                le.classes_ = np.array(self.categories[i])

        self.categories_ = [le.classes_ for le in self._label_encoders_]

        return self

    def transform(self, X):
        X_temp = check_array(X, dtype=None)
        if not hasattr(X, 'dtype') and np.issubdtype(X_temp.dtype, str):
            X = check_array(X, dtype=np.object)
        else:
            X = X_temp

        n_samples, n_features = X.shape
        X_int = np.zeros_like(X, dtype=np.int)
        X_mask = np.ones_like(X, dtype=np.bool)

        for i in range(n_features):
            Xi = X[:, i]
            valid_mask = np.in1d(Xi, self.categories_[i])

            if not np.all(valid_mask):
                if self.handle_unknown == 'error':
                    diff = np.unique(X[~valid_mask, i])
                    msg = ("Found unknown categories {0} in column {1}"
                           " during transform".format(diff, i))
                    raise ValueError(msg)
                else:
                    # Set the problematic rows to an acceptable value and
                    # continue `The rows are marked `X_mask` and will be
                    # removed later.
                    X_mask[:, i] = valid_mask
                    Xi = Xi.copy()
                    Xi[~valid_mask] = self.categories_[i][0]
            X_int[:, i] = self._label_encoders_[i].transform(Xi)

        if self.encoding == 'ordinal':
            return X_int.astype(self.dtype, copy=False)

        mask = X_mask.ravel()
        n_values = [cats.shape[0] for cats in self.categories_]
        n_values = np.array([0] + n_values)
        feature_indices = np.cumsum(n_values)

        indices = (X_int + feature_indices[:-1]).ravel()[mask]
        indptr = X_mask.sum(axis=1).cumsum()
        indptr = np.insert(indptr, 0, 0)
        data = np.ones(n_samples * n_features)[mask]

        out = sparse.csr_matrix((data, indices, indptr),
                                shape=(n_samples, feature_indices[-1]),
                                dtype=self.dtype)
        if self.encoding == 'onehot-dense':
            return out.toarray()
        else:
            return out

    def inverse_transform(self, X):
        check_is_fitted(self, 'categories_')
        X = check_array(X, accept_sparse='csr')

        n_samples, _ = X.shape
        n_features = len(self.categories_)
        n_transformed_features = sum([len(cats) for cats in self.categories_])

        # validate shape of passed X
        msg = ("Shape of the passed X data is not correct. Expected {0} "
               "columns, got {1}.")
        if self.encoding == 'ordinal' and X.shape[1] != n_features:
            raise ValueError(msg.format(n_features, X.shape[1]))
        elif (self.encoding.startswith('onehot')
                and X.shape[1] != n_transformed_features):
            raise ValueError(msg.format(n_transformed_features, X.shape[1]))

        # create resulting array of appropriate dtype
        dt = np.find_common_type([cat.dtype for cat in self.categories_], [])
        X_tr = np.empty((n_samples, n_features), dtype=dt)

        if self.encoding == 'ordinal':
            for i in range(n_features):
                labels = X[:, i].astype('int64')
                X_tr[:, i] = self.categories_[i][labels]

        else:  # encoding == 'onehot' / 'onehot-dense'
            j = 0
            found_unknown = {}

            for i in range(n_features):
                n_categories = len(self.categories_[i])
                sub = X[:, j:j + n_categories]

                # for sparse X argmax returns 2D matrix, ensure 1D array
                labels = np.asarray(_argmax(sub, axis=1)).flatten()
                X_tr[:, i] = self.categories_[i][labels]

                if self.handle_unknown == 'ignore':
                    # ignored unknown categories: we have a row of all zero's
                    unknown = np.asarray(sub.sum(axis=1) == 0).flatten()
                    if unknown.any():
                        found_unknown[i] = unknown

                j += n_categories

            # if ignored are found: potentially need to upcast result to
            # insert None values
            if found_unknown:
                if X_tr.dtype != object:
                    X_tr = X_tr.astype(object)

                for idx, mask in found_unknown.items():
                    X_tr[mask, idx] = None

        return X_tr

In [18]:
# 텍스트 카테고리를 숫자 카테고리로 숫자카테고리를 원-핫 벡터로 바꾸어주는 이 두가지 변환을 
# CategoricalEncoder를 이용하여 한번에 할수 있다.

cat_encoder = CategoricalEncoder()
housing_cat_reshaped = housing_cat.values.reshape(1, -1)
cat_encoder = CategoricalEncoder(encoding="onehot-dense")
housing_cat_1hot = cat_encoder.fit_transform(housing_cat_reshaped)
#cat_encoder.categories_

In [19]:
# 나만의 변환기 
# 사이킷런의 기능과 매끄럽게 연동하고 싶을것입니다. 사이킷 런은 덕 타이핑을 지원하므로
# fit()-(self를 반환), transfrom(), fit_transform()을 구현한 파이썬 클레스를 만들면 됨
# 마지막 메소드(fit_transform())은 TransformerMixin을 상속하면 생성된다.
# 또한 BaseEstimator를 상속하면 하이퍼파라미터 튜닝에 필요한 두 메서드를 (get_params(), set_params())를 얻게된다. 
from sklearn.base import BaseEstimator, TransformerMixin

rooms_ix, bedrooms_ix, population_ix, household_ix = 3, 4, 5, 6

class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room = True):
        self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
        return self
    def transform(self, X, y=None):
        rooms_per_household = X[:, rooms_ix]/ X[:,household_ix]
        population_per_household = X[:,population_ix]/X[:,household_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:,bedrooms_ix]/ X[:,rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        else :
            return np.c_[X, rooms_per_household, population_per_household]
        
attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.values)

In [20]:
# 변환 파이프라인 
# 변환단계를 순서대로 실행될 수 있도록 사이킷런의 Pipeline 클레스를 이용하여 수정한다. 

# 연속된 단계를 나타내는 이름/추정기 쌍의 목록을 입력으로 받는다. 
# 마지막 단계에는 변환기와 추정기를 모두 사용할 수 있고 나머지는 모두 변환기이어야 한다. 즉 fit_transform() 메서드를 모두 갖고 있어야함
# 마지막 추정기가 변환기 StandardScaler 이므로 파이프라인이 데이터에 대해 모든 변환을 순서대로 적용하는 transfrom() 메소드를 갖고있다. 

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
        ('imputer', Imputer(strategy="median")),
        ('attribs_adder', CombinedAttributesAdder()),
        ('std_scaler', StandardScaler()),
    ])
using_num_tr = num_pipeline.fit_transform(housing_num)

In [21]:
# 수치형 컬럼을 넘파이 배열로 추출하는대신 판다스의 데이터 프레임을 파이프라인에 직접 주입하면 좋다.
# 수치형 컬럼을 넘파이 배열로 추출하는 대싱 판다스의 데이터 프레임을 다룰 수는 없지만 이를 처리하는 변환기를 만들수 있다. 

from sklearn.preprocessing import LabelBinarizer

class CustomLabelBinarizer(BaseEstimator, TransformerMixin):
    def __init__(self, sparse_output=False):
        self.sparse_output = sparse_output
    def fit(self, X, y=None):
        return self
    def transform(self, X, y=None):
        enc = LabelBinarizer(sparse_output=self.sparse_output)
        return enc.fit_transform(X)

from sklearn.base import BaseEstimator, TransformerMixin

# 나머지는 버리고 필요한 특성을 선택하명 데이터 프레임을 넘파이 배열로바꾸는 식으로 데이터를 변환한다.
class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        print(X[self.attribute_names].values)
        return X[self.attribute_names].values

num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]

num_pipeline = Pipeline([
        ('selector', DataFrameSelector(num_attribs)), # 수치형 특성을 선택한 걸로 파이프라인을 시작
        ('imputer', Imputer(strategy="median")),
        ('attribs_adder', CombinedAttributesAdder()),
        ('std_scaler', StandardScaler()),
    ])

cat_pipeline = Pipeline([
        ('selector', DataFrameSelector(cat_attribs)), # 범주현 특성을 선택한걸로 파이프라인을 시작 
        ('label_binarizer',CustomLabelBinarizer()),
    ])

from sklearn.pipeline import FeatureUnion  # 파이프라인을 하나의 파이프라인으로 통합 
full_pipeline = FeatureUnion(transformer_list=[
        ("num_pipeline", num_pipeline),
        ("cat_pipeline", cat_pipeline),
    ])

housing_prepared = full_pipeline.fit_transform(housing) # 전체 파이프라인을 간단하게 실행 

[[-121.89     37.29     38.     ...  710.      339.        2.7042]
 [-121.93     37.05     14.     ...  306.      113.        6.4214]
 [-117.2      32.77     31.     ...  936.      462.        2.8621]
 ...
 [-116.4      34.09      9.     ... 2098.      765.        3.2723]
 [-118.01     33.82     31.     ... 1356.      356.        4.0625]
 [-122.45     37.77     52.     ... 1269.      639.        3.575 ]]
[['<1H OCEAN']
 ['<1H OCEAN']
 ['NEAR OCEAN']
 ...
 ['INLAND']
 ['<1H OCEAN']
 ['NEAR BAY']]


In [22]:
# 훈련 세트에서 훈련하고 평가 하기
# 완전히 작동하는 선형 회귀 모델
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(housing_prepared, housing_labels)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [23]:
from sklearn.metrics import mean_squared_error
housing_predictions = lin_reg.predict(housing_prepared)
lin_mse = mean_squared_error(housing_labels, housing_predictions)
lin_rmse = np.sqrt(lin_mse)
lin_rmse
#과소적합 사례

68628.19819848922

In [24]:
# 결정 트리 회귀 모델 
from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor()
tree_reg.fit(housing_prepared, housing_labels)

DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=None, splitter='best')

In [25]:
housing_predictions = tree_reg.predict(housing_prepared)
tree_mse = mean_squared_error(housing_labels, housing_predictions)
tree_rmse = np.sqrt(tree_mse)
tree_rmse
#과대적합 사례

0.0

In [26]:
# 교차검증을 사용한 평가 (k-겹교차 검증) 
# 훈련세트를 폴드라고 불리는 10개의 서브셋으로 무작위 분할하여 10번 훈련후 평가 매번 다른 폴드를 선택해 평가에 사용 나머지 9개 훈련
from sklearn.model_selection import cross_val_score

# 결정 트리 결과
scores = cross_val_score(tree_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)
tree_rmse_scores = np.sqrt(-scores)

In [27]:
def display_scores(scores):
    print("Scores: " , scores)
    print("Mean: " , scores.mean())
    print("Standard deviation", scores.std())
    
display_scores(tree_rmse_scores)

Scores:  [68881.36196262 67084.82309188 70231.72686057 69124.86032182
 70554.05783656 74729.66421325 69456.37141762 70221.09347389
 77169.7600642  70476.75722755]
Mean:  70793.0476469977
Standard deviation 2809.5160331056804


In [28]:
# 선형 회귀 모델 
lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)
lin_rmse_scores = np.sqrt(-lin_scores)
display_scores(lin_rmse_scores)

Scores:  [66782.73843989 66960.118071   70347.95244419 74739.57052552
 68031.13388938 71193.84183426 64969.63056405 68281.61137997
 71552.91566558 67665.10082067]
Mean:  69052.46136345083
Standard deviation 2731.674001798348


In [41]:
# randomForestRegressor 모델 앙상블 학습 - 특성을 무작위로 선택해서 많은 결정트리를 만들고 그 예측을 평가하는 방법
from sklearn.ensemble import RandomForestRegressor

forest_reg = RandomForestRegressor()
forest_reg.fit(housing_prepared, housing_labels)
housing_predictions = forest_reg.predict(housing_prepared)
forest_mse = mean_squared_error(housing_labels, housing_predictions)
forest_rmse = np.sqrt(forest_mse)
forest_rmse

22024.67386238609

In [43]:
forest_scores = cross_val_score(forest_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)
forest_rmse_scores = np.sqrt(-forest_scores)
display_scores(forest_rmse_scores)

Scores:  [52089.05595594 48701.14898599 51787.69210648 54723.34524624
 52897.92645302 54992.16450494 51558.20042744 50978.77218868
 56637.75233165 53024.03962986]
Mean:  52739.00978302391
Standard deviation 2155.1217054158305


In [45]:
# 모델 세부 튜닝
# 그리드 탐색 - 사이킷런 GridSearchCV 사용 RandomForestRegressor에 대한 최적의 하이퍼파라이터 조합을 탐색한다.

from sklearn.model_selection import GridSearchCV

#  3x4=12, 2x3=6 => 18개 탐색 5번 모델을 훈련시킨다. 18x5=90 
param_grid = [ 
    {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},
    {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]}]

forest_reg = RandomForestRegressor()

grid_search = GridSearchCV(forest_reg, param_grid, cv=5, scoring='neg_mean_squared_error', return_train_score=True)
grid_search.fit(housing_prepared, housing_labels)

GridSearchCV(cv=5, error_score='raise',
       estimator=RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
           oob_score=False, random_state=None, verbose=0, warm_start=False),
       fit_params=None, iid=True, n_jobs=1,
       param_grid=[{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]}, {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring='neg_mean_squared_error', verbose=0)

In [46]:
# 최적의 조합
grid_search.best_params_

{'max_features': 6, 'n_estimators': 30}

In [47]:
# 최적의 추정기 직접 접근 
grid_search.best_estimator_

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features=6, max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           n_estimators=30, n_jobs=1, oob_score=False, random_state=None,
           verbose=0, warm_start=False)

In [48]:
# 평가 점수 확인하기
cvres = grid_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score), params)

64305.9015998273 {'max_features': 2, 'n_estimators': 3}
55610.781578271984 {'max_features': 2, 'n_estimators': 10}
52885.7300030974 {'max_features': 2, 'n_estimators': 30}
60880.47498323534 {'max_features': 4, 'n_estimators': 3}
53310.87351152515 {'max_features': 4, 'n_estimators': 10}
50530.03380608251 {'max_features': 4, 'n_estimators': 30}
59066.4548258895 {'max_features': 6, 'n_estimators': 3}
52159.77381362492 {'max_features': 6, 'n_estimators': 10}
50067.65000471752 {'max_features': 6, 'n_estimators': 30}
59031.04232971704 {'max_features': 8, 'n_estimators': 3}
52103.51486569085 {'max_features': 8, 'n_estimators': 10}
50213.82716088023 {'max_features': 8, 'n_estimators': 30}
62198.285415524195 {'bootstrap': False, 'max_features': 2, 'n_estimators': 3}
54613.23216201322 {'bootstrap': False, 'max_features': 2, 'n_estimators': 10}
59798.09576363317 {'bootstrap': False, 'max_features': 3, 'n_estimators': 3}
52283.29378187078 {'bootstrap': False, 'max_features': 3, 'n_estimators': 10}

In [49]:
# 최상의 모델과 오차분석
feature_importances = grid_search.best_estimator_.feature_importances_
feature_importances 

array([7.99809182e-02, 7.08073829e-02, 4.34923463e-02, 1.73935034e-02,
       1.71711841e-02, 1.78652661e-02, 1.58548871e-02, 3.25076120e-01,
       5.91630629e-02, 1.06543400e-01, 8.86884398e-02, 1.22462502e-02,
       1.34065681e-01, 6.24104269e-05, 5.61723441e-03, 5.97191419e-03])

In [50]:
extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room"]
cat_one_hot_attribs = list(encoder.)
attributes = num_attribs + extra_attribs + cat_one_hot_attribs
sorted(zip(feature_importances, attibutes), reverse=True)


AttributeError: 'OneHotEncoder' object has no attribute 'classes_'

In [53]:
# 테스트 세트로 시스템 평가하기
final_model = grid_search.best_estimator_

X_test = strat_test_set.drop("median_house_value", axis = 1)
Y_test = strat_test_set["median_house_value"].copy()

X_test_prepared = full_pipeline.transform(X_test)

final_predictions = final_model.predict(X_test_prepared)

final_mse = mean_squared_error(Y_test, final_predictions)
final_rmse = np.sqrt(final_mse)
final_rmse

[[-118.39     34.12     29.     ... 2184.      960.        8.2816]
 [-117.86     33.77     39.     ... 1669.      651.        4.6111]
 [-119.05     34.21     27.     ... 2110.      876.        3.0119]
 ...
 [-118.49     34.18     31.     ... 1486.      684.        4.8984]
 [-117.32     33.99     27.     ... 2400.      836.        4.711 ]
 [-118.91     36.79     19.     ...  187.       80.        3.7857]]
[['<1H OCEAN']
 ['<1H OCEAN']
 ['<1H OCEAN']
 ...
 ['<1H OCEAN']
 ['INLAND']
 ['INLAND']]


47429.440582564865