# 2장 머신러닝 프로젝트 처음부터 끝까지 (1부)

## 개요

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-01da.png" width="800"></div>

## 2.1. 실전 데이터 활용

### 실전 데이터 저장소

* [OpenML](https://www.openml.org/)

* [캐글(Kaggle) 데이터셋](http://www.kaggle.com/datasets)

* [페이퍼스 위드 코드](https://paperswithcode.com/)

* [UC 얼바인(UC Irvine) 대학교 머신러닝 저장소](http://archive.ics.uci.edu/ml)

* [아마존 AWS 데이터셋](https://registry.opendata.aws)

* [텐서플로우 데이터셋](https://www.tensorflow.org/datasets)

### 갤리포니아 주택가격 데이터

- 1990년 미국 캘리포니아 주에서 수집한 주택가격 데이터

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/housing-data.png" width="800"></div>

## 2.2. 큰 그림 그리기

- 데이터 기초 정보 확인

- 훈련 모델 확인

### 2.2.1. 데이터 기초 정보 확인

* 미국 캘리포니아 주의 20,640개 지역별 주택가격 데이터

* 특성 10개: 경도, 위도, 주택 건물 중위연령, 방의 총 개수, 침실 총 개수, 인구, 가구 수, 중위소득, 주택 중위가격, 해안 근접도

* 목표: 구역별 주택 중위가격 예측 시스템 구현

### 미국 캘리포니아 지도

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/LA-USA01.png" width="600"></div>

### 2.2.2. 훈련 모델 확인

* 지도 학습: 타깃은 구역별 주택 중위가격.

* 회귀: 주택 중위가격 예측, 즉 이산형 값이 아닌 연속형 값 예측.
  * 다중 회귀: 구역별로 여러 특성을 주택 가격 예측에 사용
  * 단변량 회귀: 구역별로 한 종류의 값만 예측

* 배치 학습:  빠르게 변하는 데이터에 적응할 필요가 없으며, 데이터셋의 크기도 충분히 작기에 데이터셋 전체를 대상으로 훈련 진행

### 이산형 데이터 vs 연속형 데이터

- 이산형 데이터: 1, 2, 3, 등 값과 값 사이를 명확하게 구분할 수 있는 데이터

- 연속형 데이터: 유리수, 실수 처럼 두 개의 값 사이에 항상 새로운 값이 존재하는 데이터

## 2.3. 데이터 구하기

- 캘리포니아 주택가격 데이터: 많은 공개 저장소에서 다운로드 가능

- 여기서는 개인 깃허브 리포지토리에 압축파일로 저장한 파일을 다운로드

- `load_housing_data()` 함수: 캘리포니아 주택가격 데이터를 다운로드한 후에 Pandas 데이터프레임으로 반환

    ```python
    housing = load_housing_data()
    ```

## 2.4. 데이터 탐색과 시각화

- 데이터프레임과 데이터 탐색

- 훈련셋과 테스트셋

- 데이터 시각화

### 2.4.1. 데이터프레임과 데이터 탐색

* pandas의 데이터프레임 활용

* `head()`, `info()`, `describe()`, `hist()` 등 데이터프레임 메서드를 사용하여 데이터 기초 정보 확인

* 범부형/수치형 특성 탐색

### `head()` 메서드

```python
housing.head()
```

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-05.png" width="1000"></div>

- 데이터 일부 확인 용도

### `info()` 메서드

```python
housing.info()
```

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-05a.png" width="300"></div>

* 20,640개 구역별로 총 10개의 조사 항목.
* 해안 근접도를 뜻하는 `ocean_proximity` 특성은 **범주형**<font size='2'>categorical</font>이고 
    나머지는 **수치형**<font size='2'>numerical</font> 특성임.
* 방의 총 개수를 뜻하는 `total_bedrooms` 특성은 207개의 null 값, 즉 결측치 포함.

### 범주형 특성 탐색: `valule_counts()` 메서드

```python
housing["ocean_proximity"].value_counts()
```

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-05b.png" width="350"></div></p>

* '해안 근접도'는 5개의 범주로 구분
- `valule_counts()` 메서드: 사용된 특성값과 각각의 특성값이 사용된 횟수 확인

### 해안 근접도 특성값

| 특성값 | 설명 |
| --- | --- |
| <1H OCEAN | 해안에서 1시간 이내 |
| INLAND | 내륙 |
| NEAR OCEAN | 해안 근처 |
| NEAR BAY | 샌프란시스코의 Bay Area 지역 |
| ISLAND | 섬  |

### 수치형 특성 탐색: `describe()` 메서드

```python
housing.describe()
```

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/housing-describe.png"></div></p>

- 수치형 특성들의 정보 요약: 평균값, 표준편차, 사분범위

### 수치형 특성별 히스토그램

```python
housing.hist(bins=50, figsize=(12, 8))
```

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/feature-histogram.png" width="700px"></div></p>

### 수치형 특성별 데이터 분포

- 각 특성마다 사용되는 단위와 스케일(척도)이 다르다. 1 단위부터 만 단위까지 다양하다.

- 일부 특성은 한쪽으로 치우쳐저 있다. 
    예를 들어 `total_rooms`, `total_bedrooms`, `population`, `households` 등의 특성값들이 오른쪽 꼬리를 길게 갖는다.

- 일부 특성은 값을 제한한 것으로 보인다. 
    예를 들어 `housing_median_age`, `median_house_value` 등의 특성값 상한값이 임의로 지정되어 잘린 것처럼 보인다.

### 2.4.2. 훈련셋과 테스트셋

* 모델 학습 시작 이전에 준비된 데이터셋을 훈련셋과 테스트셋으로 구분.
* 테스트셋 크기: 전체 데이터 셋의 20% 이하. 너무 크지 않게.
* 훈련셋의 일부는 훈련 중에 훈련의 진척 정도를 측정하는 검증 용도로 활용.

* 훈련셋와 데이터 세트를 구분하는 방식에 따라 결과가 조금씩 달라짐 
    * 무작위 샘플링 vs. 계층 샘플링
    * 여기서는 계층 샘플링 활용

<p><div align="center"><img src="https://github.com/codingalzi/handson-ml3/blob/master/jupyter-book/imgs/ch01/train-test-validation.jpg?raw=true" style="width:500px;"></div></p>

### 계층 샘플링

* 계층: 유사한 성질의 데이터로 구성된 그룹.
    

- 계층 샘플링: 계층별로 적절한 양의 샘플을 추출하는 기법

- 계층별로 충분한 크기의 샘플이 훈련셋으로 추출되어야 훈련 과정에서 편향이 발생하지 않음.

- 여기서는 소득 구간으로 구분된 계층 활용. 주택가격에 가장 큰 영향을 주는 특성이기 때문임.

- 특정 소득 구간에 포함된 샘플이 과하게 적거나 많으면 해당 계층의 중요도가 과대 혹은 과소 평가됨

### 중위소득 히스토그램

* 대부분 구역의 중위소득이 **1.5~6.0**, 즉 15,000에서 60,000 달러 사이임을 확인

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-08.png" width="500"></div>

### 소득 구간 구분

* 소득 구간을 아래 숫자를 기준으로 5개로 구분해서 활용

| 구간 | 범위 |
| :---: | :--- |
| 1 | 0 ~ 1.5 |
| 2 | 1.5 ~ 3.0 |
| 3 | 3.0 ~ 4.5 |
| 4 | 4.5 ~ 6.0 |
| 5 | 6.0 ~  |

- 소득 구간을 활용하는 `income_cat` 특성 추가

    ```python
    housing["income_cat"] = pd.cut(housing["median_income"],
                                bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                                labels=[1, 2, 3, 4, 5])
    ```

### 소득 구간별 데이터 분포

```python
housing["income_cat"].value_counts().sort_index().plot.bar(rot=0, grid=True)
```

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-08a.png" width="500"></div></p>

### 계층 샘플링과 무작위 샘플링 비교

- 계층 샘플링을 활용한 훈련셋과 테스트셋 구분

    ```python
    from sklearn.model_selection import train_test_split

    strat_train_set, strat_test_set = train_test_split(housing, 
                                        test_size=0.2, 
                                        stratify=housing["income_cat"], 
                                        random_state=42)
    ```

- 무작위 샘플링을 활용한 구분과의 비교

| 소득 구간 | 전체(%) | 계층 샘플링(%) | 무작위 샘플링(%) |
| :---: | ---: | ---: | ---: |
| 1 | 3.98 | 4.00 | 4.24 |
| 2 | 31.88 | 31.88 | 30.74 |
| 3 | 35.06 | 35.05 | 34.52 |
| 4 | 17.63 | 17.64 | 18.41 |
| 5	| 11.44 | 11.43 | 12.09 |

### 2.4.3. 데이터 시각화

- 테스트셋를 제외한 훈련셋에 대해서만 시각화를 이용하여 탐색

- 테스트셋에 대해서 훈련 전에 너무 많은 정보를 알게 되면 이를 이용하여 훈련을 달리할 수 있음.

- 그러면 제대로 된 실전 테스트를 진행할 수 없게 되어 훈련된 모델의 실전 성능을 정확히 파악하기 어려움.

### 지리적 데이터 시각화

- 경도와 위도 정보를 이용하여 구역 정보를 산포도로 표현하여 인구밀도 확인 가능.

- 샌프란시스코의 Bay Area, LA, 샌디에고 등 유명 대도시의 특정 구역이 높은 인구 밀도를 가짐.

### 데이터프레임의 `plot()` 메서드

- 산점도 그리기

    ```python
    housing.plot(kind="scatter", 
                 x="longitude", 
                 y="latitude", 
                 grid=True,
                 s=housing["population"] / 100, 
                 label="population",
                 c="median_house_value", 
                 cmap="jet", 
                 colorbar=True,
                 legend=True, 
                 figsize=(10, 7))
    ```

### 산점도

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-10a.png" width="600"></div></p>

### 실제 지도 활용

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-11.png" width="600"></div></p>

### 상관관계

- 데이터프레임의 `corr()` 메서드는 수치형 특성들 사이의 선형 상관계수를 계산

    ```python
    corr_matrix = housing.corr()
    ```

* 주택 중위가격 특성과 다른 특성들 사이의 상관계수

    ```python
    median_house_value    1.000000
    median_income         0.688380
    total_rooms           0.137455
    housing_median_age    0.102175
    households            0.071426
    total_bedrooms        0.054635
    population           -0.020153
    longitude            -0.050859
    latitude             -0.139584
    ```

### 상관계수와 상관관계

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-14.png" width="500"></div></p>

* 상관계수가 1에 가까울 수록: 강한 양의 선형 상관관계
* 상관계수가 -1에 가까울 수록: 강한 음의 선형 상관관계
* 상관계수가 0에 가까울 수록: 매우 약한 선형 상관관계

### 주택 중위가격과 중위소득의 상관관계

* 상관계수가 0.68로 중위소득에 따라 주택 중위가격 함께 변하는 경향 감함.
* 점들이 너무 넓게 퍼져 있음. 완벽한 선형관계와 거리 멂.
* 50만 달러 수평선: 가격 제한 결과로 보임
* 이상한 형태를 학습하지 않도록 해당 구역을 제거하는 것이 좋음. (여기서는 그대로 두고 사용)

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch02/homl02-13.png" width="400"></div></p>

### 특성 조합 활용

* 구역별 방의 총 개수와 침실의 총 개수 대신 아래 특성이 보다 유용함
    * 가구당 방 개수(`rooms_per_household`)
    * 방 하나당 침실 개수(`bedrooms_per_room`)
    * 가구당 인원(`population_per_household`)

* 주택 중위가격과 방 하나당 침실 개수의 상관관계가
    중위소득을 제외한 기존의 다른 특성들에 비해 높음.