# 2. 머신러닝 프로젝트 처음부터 끝까지. 

### 주요 단계
1. 큰 그림을 봅니다.
2. 데이터를 구한다.
3. 데이터로부터 통찰을 얻기 위해 탐색하고 시각화 한다.
4. 머신러닝 알고리즘을 위해 데이터를 준비한다.
5. 모델을 선택하고 훈련 시킨다.
6. 모델을 상세하게 조정한다.
7. 솔루션을 제시 
8. 시스템을 론칭하고 모닡링하고 유지 보수 한다.

## 2.1 실제 데이터로 작업하기. 
 - 다양한 저장소가 존재한다. 책 참조 

# 캘리포니아 주택 가격 모델 만들기 

## 2.2 큰 그림 보기. 
 - 데이터 : 캘리포니아 인구조사 데이터 
 - 내용 : 캘리포니아 블록 그룹(Block Group)마다 인구수(population), 중간 소득(median income), 중간 주택 가격(median housing price) 등을 담고 있음. 
 - 요구 사항: 구역의 중간 주택 가격 예측

### 2.2.1 문제 정의 
 - **비즈니스의 목적이 정확히 무엇인가?** 를 정의 해야함, 모델을 만드는 것이 목적이 아닐 것이기 때문이다. 
 - 만들 모델의 출력을 여러 가지 다른 신호(Signal)과 함께 다른 머신러닝 시스템에 입력으로 사용 될 것이라고 함. 
 - 뒤 따르는 시스템이 해당 지역에 투자할 가치가 있는지를 결정 

#### ※ 파이프 라인
데이터 처리 컴포넌트들이 연속되어 있는 것을 데이터 파이프 라인이라고 한다. 머신러닝 시스템의 경우 이러한 파이프 라인을 사용하는 경우가 많다. 
 - 비동기적 작동.
 - 각 컴포넌트는 완전히 독립적, 즉 컴포넌트 사이의 인터페이스는 데이터 저장소뿐.

현재 솔루션의 구성과 함께 현재 어떻게 구현되고 있는지 문의가 필요하다. 이러한 작업이 끝난 후 어떠한 작업을 수행 해야 할지 고민 
 - 지도 학습, 회귀분석, 배치 학습 형태로 진행 하면 될 것으로 판단된다.
 - => 답은 레이블된 훈련데이터가 존재하므로 지도 학습, 다변량 회귀(**Multivariable Regression**), 데이터량이 빠르게 변하지 않고 충분히 작으므로 일반적인 배치 학습이 적절
  - 데이터가 매우 크면 MapReduce 기술을 하용하여 배치 학습을 통해 여러 서버로 분할하거나, 온라인 학습 기법을 사용할 수 있다.

### 2.2.2 성능 지표 선택 
 - 회귀 문제의 전형적인 성능 지표는 **RMSE (Root Mean Square Error, 평균 제곱근 오차) **
 - $RMSE(X,h)$ = $\sqrt{1/m\sum_{i=1}^{m}(h(x^{i})-y^{(i)})^2}$

### 2.2.3 가정 검사 
 - 지금까지의 가정을 나열하고 검사하는 것이 좋다. 정확한 가격을 원하는 것이 아니라 저렴 보통 고가 와 같은 카테고리로 결과를 구해야 한다면 시스템은 완전히 다르게 구성되어야 할 것이다. 

## 2.3 데이터 가지고 오기 
 - datasets 안에 있음(Github)

In [1]:
import pandas as pd

In [4]:
housing = pd.read_csv('datasets/housing/housing.csv', encoding='utf-8')
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


 - total_bedrooms만 Null을 포함한 컬럼이다. 
 - ocean_proximity 를 제외한 모들 필드가 수치형 데이터 임을 알 수 있다.

In [5]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
longitude             20640 non-null float64
latitude              20640 non-null float64
housing_median_age    20640 non-null float64
total_rooms           20640 non-null float64
total_bedrooms        20433 non-null float64
population            20640 non-null float64
households            20640 non-null float64
median_income         20640 non-null float64
median_house_value    20640 non-null float64
ocean_proximity       20640 non-null object
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


In [6]:
housing['ocean_proximity'].value_counts()

<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290
ISLAND           5
Name: ocean_proximity, dtype: int64

### 데이터 단순 요약 (통계치)

In [7]:
housing.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0
