In [None]:
print("Hello world!")

In [None]:
# 그림을 저장할 폴드
import os
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "end_to_end_project"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

In [None]:

import tarfile
from six.moves import urllib



DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
fetch_housing_data()

In [None]:
import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

In [None]:
housing = load_housing_data()  # pandas 객체 반환
housing.head()
#  pandas.head()  =>  dataframe 에서 대표값만 출력(앞부분)

In [None]:
housing.info()
#pandas.info()    =>   특성정보와 그에 해당하는 샘플

In [None]:
housing["ocean_proximity"].value_counts()
# pandas.value_counts()   =>   해당 범주형 특성에 어떤 카테고리가 있고, 얼마나 많은 샘플이 해당하는지

In [None]:
housing.describe()
# pandas.describe()  =>  숫자형 특성의 요약정보  / 이때 null값은 제외됨/ std 표준편차

In [None]:
import matplotlib.pyplot  as plt
# 히스토그램(그래프)을 그리기 위해서 맷플롯립을 import

housing.hist(bins = 50, figsize=(20,15))
plt.show()

In [None]:
#테스터셋 설정 => 난수 초기값을 설정하거나 처음부터 따로 떼어둬도 되지만 이는 데이터셋이 변경되면 기존에는 훈련셋에 있던 샘플이 테스터셋에
#들어올 수도 있게된다. 따라서 여기서는 해쉬를 이용해서 테스터셋을 준비한다.
import numpy as np
from zlib import crc32

def test_set_check(identifier, test_ratio):
    return crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32

def split_train_test_by_id(data, test_ratio, id_column):
    ids = data[id_column]
    in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio))
    return data.loc[~in_test_set], data.loc[in_test_set]

housing_with_id  = housing.reset_index() #pandas.reset_index=> 'index'열이 추가된 데이터프레임이 반환된다.(index로 테스트셋 구분하기 위해)
train_set, test_set = split_train_test_by_id(housing_with_id,0.2,"index")

In [None]:
# 만약 인덱스가 변할 가능성이 있다면 (예를 들어 새로운 데이터가 데이터셋의  마지막 부분  외에도 추가될 수 있거나, 특정 행이 삭젤 될 수 
#있는 경우에) 위 데이터셋의 경우 위도와 경도 값은 변하지 않는 값으로 여길 수 있으므로 다음과 같이 식별자를 설정해줄 수 있다.
housing_with_id["id"] = housing["longitude"]*1000 + housing["latitude"]
train_set, test_set = split_train_test_by_id(housing_with_id,0.2,"id")

In [None]:
# 사이킷런에서는 데이터셋을 여러 서브셋으로 나누는 다양한 방법을 제공한다.
from sklearn.model_selection import train_test_split
train_set, test_set = train_test_split(housing, test_size = 0.2, random_state = 42)

In [None]:
# 계층적 샘플림(각 계층이 모수에서 차지하는  비율만큼 올바른 수의 샘플을 테스트셋으로 추출하는 과정) - 편향방지
housing["income_cat"] = np.ceil(housing["median_income"]/1.5)
housing["income_cat"].where(housing["income_cat"]<5,5.0,inplace=True)

In [None]:
# housing.hist(bins = 50, figsize=(20,15))
# plt.show()
housing["income_cat"].hist() # hlusing 은 데이터 프래임(pandas)이고, 그 중에서 "incom_cat"특성부분만 히스토그램으로 출력하겠다는 의미
plt.show()

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

In [None]:
#데이터셋의 중간소득 특성의 카테고리별 비율
housing["income_cat"].value_counts() / len(housing) # 나눠준 이유는 비율을 보기 위해서

In [None]:
#테스터셋의 중간소득 특성의 카테고리별 비율
housing["income_cat"].value_counts() / len(housing) 

In [None]:
#계층 샘플링과 순수한 무작위 샘플리의 편향 비교
def income_cat_proportions(data):
    return data["income_cat"].value_counts() / len(data)

train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)

compare_props = pd.DataFrame({
    "Overall": income_cat_proportions(housing),
    "Stratified": income_cat_proportions(strat_test_set),
    "Random": income_cat_proportions(test_set),
}).sort_index()
compare_props["Rand. %error"] = 100 * compare_props["Random"] / compare_props["Overall"] - 100
compare_props["Strat. %error"] = 100 * compare_props["Stratified"] / compare_props["Overall"] - 100

compare_props

In [None]:
for set_ in (strat_train_set, strat_test_set):
    set_.drop("income_cat", axis=1, inplace=True)
    #데이터프레임에서 새롭게 생성한 "income_cat"을 삭제해서 원래 데이터프레임으로 되돌림
    #판다스 데이터프레임에서 drop메서는 행 또는 열 삭제 (axis 가 0이면 행, 1이면 열)
    #inplace 매개변수는 True일 경우 데이터프래임 자체를 수정하고 아무런 값도 반환하지 않는다

In [None]:
housing = strat_train_set.copy()
#원본 손상을 막기 위해 카피본 사용

In [None]:
#지리적 데이터 시각화 => 데이터 시각화는 데이터의 성질에 따라 데이터를 탐색(파악)하는데 매우 좋은 방법일 수 있다.
housing.plot(kind="scatter", x =  "longitude", y="latitude")
save_fig("bad_visualization_plot")

In [None]:
housing.plot(kind="scatter", x =  "longitude", y="latitude",alpha=0.1)
#alpha 값을 설정하면서 데이터포인터가 밀집된 곳을 보여줌(alpha 값은 아마 투명도로 예상된다)
save_fig("better_visualization_plot")

In [None]:
ax = housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
    s=housing["population"]/100, label="인구", figsize=(10,7),
    c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,
    sharex=False)
ax.set(xlabel='경도', ylabel='위도')
plt.legend()
save_fig("housing_prices_scatterplot")
#데이터에서 더 두드러지는 패턴을 파악하기 위해 여러 매개변수를 추가했다
#S=인구, C=가격

In [None]:
#표준 상관계수(피어슨의 r)을 구한다  =>  두 변수 간의 선형 상관관계를 나타냄 
corr_matrix = housing.corr()

In [None]:
#중간주택가격과 다른 특성들 사이의 상관관계 (-1 ~ 1)
corr_matrix["median_house_value"].sort_values(ascending=False)

In [None]:
# 이미지를 겹쳐서 보여주는  mpimg 을 이용해서 캘리포니아 지도와 데이터셋을 함께 보여주는 모습
import matplotlib.image as mpimg
california_img=mpimg.imread(PROJECT_ROOT_DIR + '/images/end_to_end_project/california.png')
ax = housing.plot(kind="scatter", x="longitude", y="latitude", figsize=(10,7),
                       s=housing['population']/100, label="인구",
                       c="median_house_value", cmap=plt.get_cmap("jet"),
                       colorbar=False, alpha=0.4,
                      )
plt.imshow(california_img, extent=[-124.55, -113.80, 32.45, 42.05], alpha=0.5)
plt.ylabel("위도", fontsize=14)
plt.xlabel("경도", fontsize=14)

prices = housing["median_house_value"]
tick_values = np.linspace(prices.min(), prices.max(), 11)
cbar = plt.colorbar()
cbar.ax.set_yticklabels(["$%dk"%(round(v/1000)) for v in tick_values], fontsize=14)
cbar.set_label('중간 주택 가격', fontsize=16)

plt.legend(fontsize=16)
save_fig("california_housing_prices_plot")
plt.show()

In [None]:
from pandas.plotting import scatter_matrix

#중간 주택 가격과 상관관계가 높아 보이는 특성 몇가지 사이의 산점도를 그려줌
#대각선 방향은 자기 자신과 자기 자신의 상관관계 이므로 그냥 직선이 되어 의미가없음 => 판다스에서 그냥 디폴트값으로 히스토그램을 그려줌
#                                                                                        diagonal 값을 'kde'로 하면 선그래프 그려줌
attributes = ["median_house_value", "median_income", "total_rooms",
              "housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8), diagonal = 'hist')
save_fig("scatter_matrix_plot")

In [None]:
# 위 그래프를 보니 중간 주택 가격과 가장 상관관계가 있어보이는 특성은 중간 소득이므로 상관관계 산점도를 확대
housing.plot(kind="scatter", x="median_income", y="median_house_value",
             alpha=0.1)
plt.axis([0, 16, 0, 550000])
save_fig("income_vs_house_value_scatterplot")
# 매우강한 상관관계 / 수평선의 경우 중간 주택 가격 특성의 가격 제한 때문 / 이 외의 중간중간 수평선이 보이는데 제거하는 것이 좋음

In [None]:
# 특성들을 조합해 새로운 특성을 만들어보자
housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"]=housing["population"]/housing["households"]

In [None]:
# 다시 상관관계 행렬 확인
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending = False)
# 기존의 그냥 "총침대수", "총방수", "총인구수" 보다는 가구당~# 이 더 의미있는 상관관계가 있음을 알 수 있다.

In [None]:
housing = strat_train_set.drop("median_house_value", axis=1) # 훈련 세트를 위해 레이블 삭제  / drop은 데이터프레임의 특정 행or열을 삭제
housing_labels = strat_train_set["median_house_value"].copy() # 예측변수와 레이블(반응변수)을 분리해줌 -> 레이블은 변하면 안되기때문에

In [None]:
#  데이터 정제  => 특정  특성에 값이 누락된 경우(없는 경우) 1. 해당 구역 제거  2. 전체 특성 삭제  3. 특정 값으로 채움
# 데이터프레임의 dropna(), drop(), fillna() 사용
housing.dropna(subset = ["total_bedrooms"]) # 1
housing.drop("total_bedrooms", axis = 1) # 2
median = housing["total_bedrooms"].median() # 3 -> 특정 값은 나중에 테스트세트의 누락된 값을 채울때도 사용해야 하므로 따로 꼭 저장해야됨
housing["total_bedrooms"].fillna(median, inplace = True)

In [None]:
#from sklearn.preprocessing import Imputer
# 누락된 값을 손쉽게 다룰 수 있게 해주는 사이킷런의 클래스
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy="median")

In [None]:
# 중간값은 수치형 특성에만 계산될 수 있기 때문에 텍스트 특성을 제외
housing_num= housing.drop("ocean_proximity", axis = 1)

In [None]:
imputer.fit(housing_num) # 추정

In [None]:
imputer.statistics_
# imputer에 저장된 중간값과 실제 중간값을 비교해보자 => 실제로 서비스 될 때는 어디에 누락값이 있을지 모르므로 imputer는 전체에 적용해야함

In [None]:
housing_num.median().values

In [None]:
X = imputer.transform(housing_num) # 변환(적용) -> 변환된 데이터셋 return -> 이는 판다스 배열로 저장됨

In [None]:
housing_tr = pd.DataFrame(X, columns = housing_num.columns, index = list(housing.index.values))

In [None]:
# 남겨둔 텍스트형 카테고리를 가진 특성을 정수형 카테고리로 바꿔준다
housing_cat = housing['ocean_proximity']
housing_cat.head(10)

In [None]:
# 판다스의 factorize()는 각 카테고리를 서로 다른 정숫값으로 매핑해준다
housing_cat_encoded, housing_categories = housing_cat.factorize()
housing_cat_encoded[:10]

In [None]:
housing_categories

In [None]:
# 머신러닝 알고리즘은 0과1을 0과4보다 더 비슷한 값으로 생각한다는 것이다
# 위 카테고리에서는 0과4가 0과1 보다 비슷하다  =>  이를  "원-핫 인코딩"으로  해결(한 특성만 1이 되고 나머지는 0이 되는)
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(categories='auto')
housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(-1,1))
housing_cat_1hot

In [None]:
housing_cat_1hot.toarray() # => OneHotEncoder는 기본적으로 사이파의 희소배열을 반환하지만 판다스의torray를 통해 일반 배열로 나타낼 수 있음

In [None]:
# 텍스트를 숫자로, 숫자를 원핫벡터로 한 번에 바꿔줄 수도 있다.(위의 방식으로는 예전에는 안되었지만 지금은 된다.)
# housing_cat => 텍스트형 카테고리를 가진 특성 / sparse = False 로 해주면 희소행렬이 아닌 일반행렬(밀집행렬)을 반환한다
from sklearn.preprocessing import OneHotEncoder

cat_encoder = OneHotEncoder(categories='auto', sparse=False)
housing_cat_1hot = cat_encoder.fit_transform(housing_cat.values.reshape(-1, 1))
housing_cat_1hot

In [None]:
#  카테고리 리스트를 얻을 수 있다. 여기에서는 하나의 카테고리 특성(범주형 특성)만이 있기 때문에 배열 하나만 담긴 리스트가 출력된다.
cat_encoder.categories_

In [None]:
# 특별한 데이터 정제를 위해서는 나만의 변환기를 만들어야 할 때가 있다. 이 변환기가 사이킷런의  기능과 매끈하게 연동되게 하려면
# fit(), transform(), fit_transform()메서드를 구현한 파이썬 클래스를 만들면 된다(덕타이핑 방식). 
# 이때, fit_trnseform()은 따로 구현하지 않고 해당 클래스가 TransformerMixin을 상속하면 자동으로 생성된다.
# 또한  BaseEstimator를 상속하면 하이퍼파라미터 튜닝에 필요한 메서드(get_params(), set_params()를 갖게됨)

In [None]:
from sklearn.base import BaseEstimator, TransformerMixin

# 열 인덱스
rooms_ix, bedrooms_ix, population_ix, households_ix = 3, 4, 5, 6

class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room=True): # *args 또는 **kargs 없음
        self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
        return self  # 아무것도 하지 않습니다
    def transform(self, X):
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household,
                         bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]

attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.to_numpy())

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy="median")),
        ('attribs_adder', CombinedAttributesAdder()),
        ('std_scaler', StandardScaler()),
    ])

housing_num_tr = num_pipeline.fit_transform(housing_num)

In [None]:
print(housing)