In [2]:
## 2.3 요약
# 데이터 가져오기
import os
HOUSING_PATH = os.path.join("datasets", "housing")

import pandas as pd
def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

housing = load_housing_data()


# 중요 특성인 중간소득을 계층 별로 나눠 계층적 샘플링
import numpy as np
housing["income_cat"] = pd.cut(housing["median_income"],
                               bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1, 2, 3, 4, 5])

from sklearn.model_selection import StratifiedShuffleSplit
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

    
# 계층적 샘플링에 사용했던 income_cat 특성 제거하기
for set_ in (strat_train_set, strat_test_set):
    set_.drop("income_cat", axis=1, inplace=True)

## 2.4는 데이터 탐색과 시각화일 뿐, 2.5에 영향을 주진 않는다

In [3]:
## 2.5 머신러닝 알고리즘을 위한 데이터 준비
'''
함수로 자동화
원래 훈련 세트로 복원하고, 예측 변수과 타깃값(레이블)을 분리한다.
drop()은 복사본을 만들며, 기존에 영향을 주지 않는다.
'''

housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"].copy()

In [4]:
# 2.5.1 데이터 정제
'''
누락된 특성을 처리하자
1. 해당 구역 제거
2. 전체 특성 삭제
3. 어떤 값으로 채우기 -> 계산한 중간값을 저장하고 사용.
'''

#housing.dropna(subset=["total_bedrooms"])
#housing.drop("total_bedrooms", axis=1)
#median = housing["total_bedrooms"].median()
#housing["total_bedrooms"].fillna(median, inplace=True)

pass

In [5]:
'''
사이킷런의 SimpleImputer -> 누락된 값을 손쉽게 다루게 해줌
일단, 특성의 중간값으로 대체하게 해보자
'''

from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy="median")

In [6]:
'''
중간값은 수치형 데이터에서만 계산될 수 있음 -> 텍스트 특성인 ocean_proximity를 제외한 데이터 복사본 생성
'''

housing_num = housing.drop("ocean_proximity", axis=1)

In [7]:
'''
imputer 객체의 fit() 메서드 사용해서 훈련 데이터에 적용
'''

imputer.fit(housing_num)

SimpleImputer(strategy='median')

In [8]:
'''
imputer는 각 특성의 중간값을 계산해서 그 결과를 객체의 statistics_ 속성에 저장한다
나중에 어떤 값이 누락될 지 모르니 모든 수치형 특성에 imputer를 적용하자
'''

imputer.statistics_

array([-118.51  ,   34.26  ,   29.    , 2119.5   ,  433.    , 1164.    ,
        408.    ,    3.5409])

In [9]:
housing_num.median().values

array([-118.51  ,   34.26  ,   29.    , 2119.5   ,  433.    , 1164.    ,
        408.    ,    3.5409])

In [10]:
'''
이제 학습된 imputer 객체를 사용해 훈련 세트에 누락된 값을 중간값으로 바꿀 수 있다
'''

X = imputer.transform(housing_num)
X

array([[-121.89  ,   37.29  ,   38.    , ...,  710.    ,  339.    ,
           2.7042],
       [-121.93  ,   37.05  ,   14.    , ...,  306.    ,  113.    ,
           6.4214],
       [-117.2   ,   32.77  ,   31.    , ...,  936.    ,  462.    ,
           2.8621],
       ...,
       [-116.4   ,   34.09  ,    9.    , ..., 2098.    ,  765.    ,
           3.2723],
       [-118.01  ,   33.82  ,   31.    , ..., 1356.    ,  356.    ,
           4.0625],
       [-122.45  ,   37.77  ,   52.    , ..., 1269.    ,  639.    ,
           3.575 ]])

In [11]:
'''
이 결과는 평범한 넘파이 배열이다. 다시 판다스 데이터프레임으로 되돌리자
'''

housing_tr = pd.DataFrame(X, columns=housing_num.columns, index=housing_num.index)

In [12]:
# 2.5.2 텍스트와 번주형 특성 다루기
# OrdinalEncoder, OneHotEncoder
'''
이 데이터셋에는 텍스트 특성이 ocean_proximity 하나다
'''

housing_cat = housing[["ocean_proximity"]]
housing_cat.head(10)

Unnamed: 0,ocean_proximity
17606,<1H OCEAN
18632,<1H OCEAN
14650,NEAR OCEAN
3230,INLAND
3555,<1H OCEAN
19480,INLAND
8879,<1H OCEAN
13685,INLAND
4937,<1H OCEAN
4861,<1H OCEAN


In [13]:
'''
가능한 값을 제한된 개수로 나열한 것. 각 값은 카테고리를 나타낸다
이 특성은 범주형 특성이다.
이를 숫자로 변환하겠다
OrdinalEncode 클래스를 사용하자
'''

from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder = OrdinalEncoder()
housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)
housing_cat_encoded[:10]

array([[0.],
       [0.],
       [4.],
       [1.],
       [0.],
       [1.],
       [0.],
       [1.],
       [0.],
       [0.]])

In [14]:
'''
categories_ 인스턴스 변수 -> 카테고리 목록을 얻을 수 있음
각 범주형 특성마다 카테고리들의 1D 배열을 담은 리스트가 반환 (이 경우에는 범주형 특성이 하나뿐)
'''

ordinal_encoder.categories_

[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],
       dtype=object)]

In [15]:
'''
이 표현방식의 문제 : 가까이 있는 두 값이 떨어져 있는 두 값보다 더 비슷하다고 생각한다.
이 문제는 일반적으로 카테고리별 이진 특성을 만들어 해결한다.
한 특성이 1, 나머지 특성은 0 -> 원-핫 인코딩
'''

from sklearn.preprocessing import OneHotEncoder
cat_encoder = OneHotEncoder()
housing_cat_1hot = cat_encoder.fit_transform(housing_cat)
housing_cat_1hot

<16512x5 sparse matrix of type '<class 'numpy.float64'>'
	with 16512 stored elements in Compressed Sparse Row format>

In [16]:
'''
사이파이 희소행렬 (0이 아닌 원소의 위치만 저장함)
넘파이 배열로 바꾸려면 toarray() 함수
'''

housing_cat_1hot.toarray()

array([[1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       ...,
       [0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.]])

In [17]:
cat_encoder.categories_

[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],
       dtype=object)]

In [18]:
# 2.5.3 나만의 변환기

'''
사이킷런이 유용한 변환기를 많이 제공하지만 자신만의 변환기를 만들어야 할 때가 있다.
사이킷런은 (상속이 아닌) 덕 타이핑을 지원하므로 fit(), transform(), fit_gransform() 메서드를 구현한 파이썬 클래스를 만들면 된다.

마지막 메서드는 TransformerMixin을 상속하면 자동으로 생성된다.
또한 BaseExtimator를 상속하면 하이퍼파라미터 튜닝에 필요한 두 메서드(get_params()와 set_params())를 추가로 얻게 된다.

앞서 이야기한 조합 특성을 추가하는 간단한 변환기를 보여주겠다.
'''


from sklearn.base import BaseEstimator, TransformerMixin

rooms_ix, bedrooms_ix, population_ix, households_ix = 3, 4, 5, 6

class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room = True):
        self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        
        else:
            return np.c_[X, rooms_per_household, population_per_household]

attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.values)

In [19]:
# 2.5.4 특성 스케일링
'''
표준화, 정규화 등
사이킷런 - StandardScaler
'''

# 2.5.5 변환 파이프라인
'''
변환 단계가 많은데, 정확한 순서대로 실행되어야 한다.
사이킷런에는 변환을 순서대로 처리해주는 Pipeline 클래스가 있다.
수치형 특성을 처리하는 간단한 파이프라인을 보자.
'''

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy="median")),
    ('attribs_adder', CombinedAttributesAdder()),
    ('std_scaler', StandardScaler())
])

housing_num_tr = num_pipeline.fit_transform(housing_num)

In [22]:
'''
(이름, 추정기) 쌍의 목록을 입력으로 받는다.
마지막 단계 - 변환기, 추정기 모두 사용 가능. 그 외에는 변환기여야 한다. (즉, fit_transform() 함수를 가지고 있어야 한다.)

하나의 변환기로 각 열마다 적절한 변환을 적용하여 모든 열을 처리할 수 있다면 더 편리할 것이다??
ColumnTransformer
'''

from sklearn.compose import ColumnTransformer

num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]

full_pipeline = ColumnTransformer([
    ("nun", num_pipeline, num_attribs),
    ("cat", OneHotEncoder(), cat_attribs),
])

housing_prepared = full_pipeline.fit_transform(housing)

In [23]:
'''
ColumnTransformer 클래스를 임포트
수치형 열 이름의 리스트
범주형 열 이름의 리스트 만들기
ColumnTransformer 객체 만들기 (튜플을 리스트로 받음 - 이름,변환기,변환기)
ColumnTransformer를 주택 데이터에 적용
'''
pass

In [24]:
# 2.6 모델 선택과 훈련

'''
이제 모델을 선택하고 훈련시킬 준비가 되었다.

2.6.1 훈련 세트에서 훈련하고 평가하기
선형회귀 모델을 훈련시켜보겠다
'''

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(housing_prepared, housing_labels)

LinearRegression()

In [26]:
some_data = housing.iloc[:5]
some_labels = housing_labels.iloc[:5]
some_data_prepared = full_pipeline.transform(some_data)

print("예측:", lin_reg.predict(some_data_prepared))

print("레이블:", list(some_labels))

예측: [210644.60459286 317768.80697211 210956.43331178  59218.98886849
 189747.55849879]
레이블: [286600.0, 340600.0, 196900.0, 46300.0, 254500.0]


In [27]:
from sklearn.metrics import mean_squared_error
housing_predictions = lin_reg.predict(housing_prepared)
lin_mse = mean_squared_error(housing_labels, housing_predictions)
lin_rmse = np.sqrt(lin_mse)
lin_rmse

68628.19819848923

In [32]:
'''
과소적합
더 복잡한 모델을 시도해보자
'''

from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor()
tree_reg.fit(housing_prepared, housing_labels)

DecisionTreeRegressor()

In [33]:
housing_predictions = tree_reg.predict(housing_prepared)
tree_mse = mean_squared_error(housing_labels, housing_predictions)
tree_rmse = np.sqrt(tree_mse)
tree_rmse

0.0

In [34]:
'''
과대적합

2.6.2 교차검증을 사용한 평가
결정 트리 모델을 평가하는 방법?
train_test_split -> 더 작은 훈련세트와 검증세트로 나누기 / 사이킷런의 k-겹 교차검증
'''

from sklearn.model_selection import cross_val_score
scores = cross_val_score(tree_reg, housing_prepared, housing_labels,
                        scoring="neg_mean_squared_error", cv=10)
tree_rmse_scores = np.sqrt(-scores)

In [37]:
def display_scores(scores):
    print("점수:", scores)
    print("평균:", scores.mean())
    print("표준편차:", scores.std())

display_scores(tree_rmse_scores)

점수: [68928.85727801 67594.65807956 69866.45250403 69303.89436209
 72683.43056727 74701.49965157 70965.16049043 70579.05333567
 77163.6491091  70225.81859874]
평균: 71201.24739764762
표준편차: 2737.627806937331


In [40]:
lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels,
                            scoring="neg_mean_squared_error", cv=10)

lin_rmse_scores = np.sqrt(-lin_scores)
display_scores(lin_rmse_scores)

점수: [66763.70922083 66962.56645975 70347.95244419 74746.92830953
 68031.13388938 71215.74436195 64966.62626808 68277.96814759
 71552.91566558 67662.53153935]
평균: 69052.80763062098
표준편차: 2737.0104998331326


In [41]:
from sklearn.ensemble import RandomForestRegressor
forest_reg = RandomForestRegressor()
forest_reg.fit(housing_prepared, housing_labels)

forest_rmse

NameError: name 'forest_rmse' is not defined

In [42]:
display_scores(forest_rmse_scores)

NameError: name 'forest_rmse_scores' is not defined