In [1]:
# 2. 머신러닝 프로젝트 처음부터 끝까지

# 과정
# 1. 큰 그림을 본다.
# 2. 데이터를 구한다.
# 3. 데이터로부터 통찰을 얻기 위해 탐색하고 시각화 한다.
# 4. 머신러닝 알고리즘을 위해 데이터를 준비
# 5. 모델을 선택하고 훈련.
# 6. 모델을 상세하게 조사.
# 7. 솔루션을 제시.
# 8. 시스템을 론칭하고 모니터링하고 유지 보수.

# 1. 큰그림 보기
# - 목적 : 캘리포니아 인구조사 데이터를 사용해 캘리포니아 주택 가격 모델을 만드는 것.
# - 데이터는 캘리포니아의 블록 그룹마다 인구, 중간 소득, 중간 주택 가격등을 담고 있다.
# - 블록 그룹은 최소한의 지리적 단위 (구역)
# - 결론 : 이 모델을 활용해 다른 측정 데이터가 주어졌을 때 이 구역의 중간 주택 가격을 예측.

# 1-1 문제 정의
# 질문 1. "비즈니스의 목적이 정확히 무엇인가?"
# -> 모델의 출력이 여러가지 다른 신호와 함께 다른 머신러닝 시스템에 입력으로 사용됨.
# -> 뒤따르는 시스템이 해당 지역에 투자할 가치가 있는지 결정, 수익에 직결되기에 올바른 예측이 중요
# 질문 2. "현재 솔루션은 어떻게 구성되어 있나요?"
# -> 문제 해결 방법에 대한 정보와 참고 성능으로 사용 가능.
# -> 현재 전문가가 수동으로 추정하고 있음
# -> 이는 비용과 시간이 많이 들고 결과도 좋지 않았음.
# 질문 3. "모델은 어떤 걸 사용해야 할까?"
# -> 사람이 감독하에 훈련하는지?(레이블이 있는지) - 지도학습
# 그 안에서 종류는? - 회귀문제(값을 예측해야 하므로), 다중 회귀(특성이 여러개이므로)
# 그 안에서 종류는? - 단변량 회귀(구역마다 하나의 값을 예측)
# (+) 다변량 회귀 - 구역마다 여러가지의 값을 예측
# -> 실시간으로 점진적인 학습을 하는지? - 배치 학습(온라인 학습)
# -> 단순하게 알고 있는 데이터 포인터와 새 포인터를 비교하는지, 
# 훈련 데이터 셋에서 패턴을 발견하여 예측모델을 만드는지? - ?

# (+) 파이프라인
# - 데이터 처리 '컴포넌트'들이 연속되어 있는 것을 '데이터 파이프라인' 이라고 한다.
# - 보통 컴포넌트들은 비동기적으로 동작.
# - 각 컴포넌트는 많은 데이터를 추출 후 처리하고 그 결과를 다른 데이터 저장소로 보냄.
# - 일정 시간 후 파이프라인의 다음 컴포넌트가 그 데이터를 추출해 자신의 출력결과를 만듬.
# - 컴포넌트는 독립적이며 컴포넌트 사이의 인터페이스는 데이터 저장소일 뿐이다.
# - 각 팀은 각자의 컴포넌트의 집중을 할 수 있도록 도와주고 한 컴포넌트의 문제가 생기더라도 해결이 용이함.

# 1-2 성능 측정 지표 선택
# 1. 평균 제곱근 오차(RMSE) : 회귀 문제의 전형적인 성능 지표
# -> 오차가 커질수록 이 값이 커지므로 예측에 얼마나 많은 오류가 있는지 가늠하게 해준다.
# 2. 평균 절대 오차(MAE)
# (+) 둘 다 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법

# 1-3 가정 검사
# 데이터 분석을 통해 위의 설정이 맞는지 검증.

In [12]:
# 데이터 가져오기

# 데이터 다운로드
import os
import tarfile
import urllib

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

# 디렉토리 만들고 tgz 파일 다운
def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    os.makedirs(housing_path, exist_ok=True)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()

    
fetch_housing_data()

In [13]:
import pandas as pd

def load_housing_data(housing_path = HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

In [14]:
# 데이터 구조 훑어보기
housing = load_housing_data()
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
