<a href="https://colab.research.google.com/github/taekyungss/Hands_on_ML_Study/blob/main/Chapter2_housing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **chapter2. 머신러닝 프로젝트 처음부터 끝까지**

### 데이터 다운로드

In [None]:
import os
import tarfile
import urllib

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/rickiepark/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

def fetch_housing_data(housing_url = HOUSING_URL, housing_path = HOUSING_PATH):
  os.makedirs(housing_path,exist_ok =True)
  tgz_path = os.path.join(housing_path, "housing.tgz")
  urllib.request.urlretrieve(housing_url, tgz_path)
  housing_tgz = tarfile.open(tgz_path)
  housing_tgz.extractall(path = housing_path)
  housing_tgz.close()

In [None]:
fetch_housing_data()

In [None]:
# 판다스 사용해 데이터 읽어오기 - 데이터 프레임 객체 반환

In [None]:
import pandas as pd

def load_housing_data(housing_path = HOUSING_PATH):
  csv_path = os.path.join(housing_path,"housing.csv")
  return pd.read_csv(csv_path)

### 데이터 구조 흝어보기

In [None]:
# housing 변수에 불러온 데이터 저장, 5행 불러오기.
housing = load_housing_data()
housing.head()

In [None]:
# feature는 longitude, longitude housing_median_age total_rooms total_bedrooms~

In [None]:
# 데이터에 대한 간단한 설명

housing.info()

In [None]:
# ocean_proximity 의 경우, Dtype이 object, 아마 범주형 추정
# 어떤 카테고리가 있고 얼마나 많은 구역이 있는지 확인

housing["ocean_proximity"].value_counts()


In [None]:
# descrobe method : 숫자형 특성의 요약 정보 나타냄

housing.describe()

In [None]:
# 숫자형 데이터에 대해 히스토그램으로 시각화해보기

%matplotlib inline

import matplotlib.pyplot as plt
housing.hist(bins=50,figsize=(10,8))
plt.show()

In [None]:
# housing_median_age , median_house_value feature들을 봤을때, 젤 오른쪽 값이 급격하게 높아지면서 히스토그램이 끝남.
# 이는 마지막 값으로 한정 (한계값을 넘어가지 않도록 미리 최댓값을 정해서 설정해놓은것을 알 수 있음. ) 이 부분이 문제가 되는 지 안되는지 검토할 필요가 있음.
# 만약 정확한 예측값이 필요한 경우, a. 한곗값 밖의 구역에 대한 정확한 레이블을 구한다. b. 훈련 세트에서 이런 구역을 제거한다. (테스트세트에서도 제거)

### 테스트 세트 만들기

순수한 무작위 방식

In [None]:
import numpy as np

def split_train_test(data, test_ratio):
  shuffled_indices = np.random.permutation(len(data))
  test_set_size = int(len(data)*test_ratio)
  test_indices = shuffled_indices[:test_set_size]
  train_indices = shuffled_indices[test_set_size:]
  return data.iloc[train_indices], data.iloc[test_indices]

In [None]:
train_set, test_set = split_train_test(housing, 0.2)

print(len(train_set))
print(len(test_set))

In [None]:
# 프로그램을 다시 실행하면 다른 테스트 세트 생성 , 
# --> 알고리즘이 전체 데이터셋을 볼 수도.. 따라서 기존 훈련과 test를 완벽히 분리해야함.
# 이를 구현한 코드
import numpy as np

from zlib import crc32

def test_set_check(identifier, test_ratio):
  return crc32(np.int64(identifier)) & 0xffffffff < test_ratio * 2**32

def split_train_test_by_id(data, test_ratio, id_column):
  ids = data[id_column]
  in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio))
  return data.loc[~in_test_set], data.loc[in_test_set]
  


In [None]:
housing_with_id = housing.reset_index()

train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "index")

In [None]:
housing_with_id["id"] = housing["longitude"] * 1000 + housing["latitude"]
train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "id")

In [None]:
# 사이킷런을 통해 데이터셋을 train, test로 분리

from sklearn.model_selection import train_test_split

train_set, test_set= train_test_split(housing, test_size=0.2, random_state=42)

계층적 샘플링 방식

특정 방식을 유지하면서 샘플 추출

In [None]:
# 전문가들이 중간 소득이 중간 주택 가격을 예측하는데 익어서 매우 중요하다고 한다. 
# 이 경우, 중간 소득의 비율을 유지하면서 / 즉, 테스트 세트가 전체 데이터셋에 있는 여러 소득 카테고리를 잘 대표해야한다.

In [None]:
housing["income_cat"] = pd.cut(housing["median_income"], bins=[0.,1.5,3.0,4.5,6., np.inf], labels=[1,2,3,4,5])
housing["income_cat"].hist()


In [None]:
from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits = 1, test_size = 0.2, random_state = 42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
  strat_train_set = housing.loc[train_index]
  strat_test_set = housing.loc[test_index]

In [None]:
strat_test_set["income_cat"].value_counts() / len(strat_test_set)

In [None]:
# income_cat특성 삭제, 데이터 원래 상태로 복구

for set_ in (strat_train_set, strat_test_set):
  set_.drop("income_cat", axis=1, inplace=True)

### 데이터 이해를 위한 탐색과 시각화

In [None]:
# 훈련세트 손상 시키지 않기 위해 복사본 만들어 사용

housing = strat_train_set.copy()

In [None]:
# 지리적 데이터 시각화 ( 지리정보 ) --> 산점도

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)

# alpha 옵션 -> 데이터 포인트가 밀집된 영역을 잘 보여줌.

In [None]:
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
             s=housing["population"]/100, label="population", figsize=(10,7),
             c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True, 
             sharex=False
             )
plt.legend()

In [None]:
# 위 시각화 그림을 통해 주액 가격은 지역과 인구 밀도에 관련이 크다는 것을 확인 가능.

### 상관관계 조사

In [None]:
# 표준 상관계수(피어슨의 r) corr() method 사용

corr_matrix = housing.corr()

In [None]:
corr_matrix["median_house_value"].sort_values(ascending=False)

In [None]:
from ast import Attribute
# scatter_matrix 함수 사용해서 산점도 그려서 상관관계 확인

from pandas.plotting import scatter_matrix
attributes = ["median_house_value","median_income", "total_rooms","housing_median_age"]
scatter_matrix(housing[attributes], figsize=(8,5))

In [None]:
# median_house_value을 예측하는데 중간소득이 가장 유용 해당 상관관계 산점도

housing.plot(kind="scatter", x="median_income", y="median_house_value",
             alpha=0.1)


In [None]:
# 위 그래프에서 직선에 가까운 수평선이 잘 보임. 이런 이상한 형태 학습하지 않도록 해당 구역 제거할 필요 있음.

### 특성 조합으로 실험

In [None]:
housing.head()

In [None]:
housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"] = housing["population"]/housing["households"]

In [None]:
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

### 데이터 정제

In [None]:
housing.head()

In [None]:
housing.info() # null값 존재 이제 처리

In [None]:
# 처리방법 3가지 1. 해당 구역 제거 2. 전체 특성 삭제 3. 어떤 값으로 채우기(0, 평균, 중간값 등.)

# housing.dropna(subset=["total_bedrooms"]) # 옵션1
# housing.drop("total_bedrooms", axis=1)  # 옵션2
# median = housing["total_bedrooms"].median()
# housing["total_bedrooms"].fillna(median,inplace=True)  # 옵션3

In [None]:
# 사이킷런의 SimpleImputer을 사용해 누락된 값 손쉽게 다루기 _ 중앙값으로 결측지 채우기

from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy ="median")
housing_num = housing.drop("ocean_proximity", axis=1)
imputer.fit(housing_num)

In [None]:
# 어떤 값을 저장했는지 확인
imputer.statistics_

In [None]:
housing_num.median().values

In [None]:
X = imputer.transform(housing_num)

In [None]:
housing_tr = pd.DataFrame(X, columns = housing_num.columns,
                          index=housing_num.index)

### 텍스트와 범주형 특성 다루기

In [None]:
housing.head()

In [None]:
housing_cat = housing[["ocean_proximity"]]
housing_cat.head(10)

In [None]:
# 해당 카테고리를 텍스트에서 숫자로 변환

from sklearn.preprocessing import OrdinalEncoder

In [None]:
ordinal_encoder = OrdinalEncoder()
housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)
housing_cat_encoded[:10]

In [None]:
# 카테고리 목록 얻기

ordinal_encoder.categories_