# 2.5 머신러닝 알고리즘을 위한 데이터 준비

## 2.5.0 준비

In [1]:
# 데이터 추출 함수
import os
import tarfile
import urllib

DOWNLOAD_ROOT = 'https://raw.githubusercontent.com/ageron/handson-ml2/master/'
HOUSING_PATH = '../' + os.path.join('datasets', 'housing')
HOUSING_URL = DOWNLOAD_ROOT + 'datasets/housing/housing.tgz'

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    """
    현재 작업 공간에 "datasets/housing" 디렉터리 생성
    housing.tgz 파일 내려받음
    같인 디렉터리에 압축을 풀어 "housing.csv" 파일 생성
    """
    os.makedirs(housing_path, exist_ok=True)
    tgz_path = os.path.join(housing_path, 'housing.tgz')
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
    
#fetch_housing_data(HOUSING_URL, HOUSING_PATH)

In [7]:
# 데이터 읽기 함수
import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, 'housing.csv')
    return pd.read_csv(csv_path)

housing = load_housing_data()
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [8]:
# 테스트 세트 분리
import numpy as np
from sklearn.model_selection import StratifiedShuffleSplit

# income_cat 특성 생성
housing['income_cat'] = pd.cut(housing['median_income'],
                               bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1, 2, 3, 4, 5])

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing['income_cat']):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]
    
# income_cat 특성 삭제
for set_ in (strat_train_set, strat_test_set):
    set_.drop('income_cat', axis=1, inplace=True)
    
print('strat_train_set size : {}'.format(len(strat_train_set)))
print('strat_test_set size : {}'.format(len(strat_test_set)))

strat_train_set size : 16512
strat_test_set size : 4128


<br>

**cf) 머신러닝 알고리즘을 위한 데이터 준비 작업을 자동화해야 하는 이유**

- 어떤 데이터셋에 대해서도 데이터 변환을 손쉽게 반복할 수 있어야 한다.  
(ex. 다음번에 새로운 데이터셋을 사용할 때)
- 향후 프로젝트에 사용할 수 있는 변환 라이브러리를 점진적으로 구축하게 된다.
- 실제 시스템에서 알고리즘에 새 데이터를 주입하기 전에 변환시키는 데 이 함수를 사용할 수 있다.
- 여러 가지 데이터를 변환을 쉽게 시도해볼 수 있고 어떤 조합이 가장 좋은 지 확인하는 데 편리하다.

In [9]:
# 예측 변수와 레이블 분리
# - drop()은 데이터 복사본을 만들며 strat_train_set에 영향을 주지 않음
housing = strat_train_set.drop('median_house_value', axis=1)
housing_labels = strat_train_set['median_house_value'].copy()

<br>

## 2.5.1 데이터 정제

### 2.5.1.1 결측치 처리

- 대부분의 머신러닝 알고리즘은 누락된 특성을 다루지 못함
- 이를 처리할 수 있는 함수 생성

- `total_bedrooms` 특성에 값이 없는 경우가 있음
- 이를 처리하는 방법은 3가지가 있음
- 데이터프레임의 `dropna()`, `drop()`, `fillna()` 메서드를 이용해 이런 작업을 할 수 있음

<br>

**1. 해당 구역을 제거**

```python
df.dropna(subsets=['total_bedrooms'])
```

<br>

**2. 전체 특성을 삭제**

```python
df.drop('total_bedrooms', axis=1)
```

<br>

**3. 어떤 값으로 채움 (ex. 0, 평균, 중간값 등)**

```python
median = df['total_bedrooms'].median() # 중간값
df['total_bedrooms'].fillna(median, inplace=True)
```

- 계산한 값(ex. 중간값)은 다음과 같은 상황에 활용하기 위해 저장해 놓아야 한다.
  - 시스템을 평가할 때 테스트 세트에 있는 누락된 값을 채울 때 필요
  - 시스템이 실제 운영될 때 새로운 데이터에 있는 누락된 값을 채울 때 필요
- 테스트 세트의 중간값을 사용하면 훈련 세트에서 학습한 것이 소용없어지므로 사용하면 안된다.

<br>

### 2.5.1.2 `SimpleImputer`를 통한 결측치 처리

- 사이킷런의 `SimpleImputer`는 누락된 값을 손쉽게 다루도록 한다.

In [12]:
from sklearn.impute import SimpleImputer

# 누락된 값을 특성의 중간값으로 대체한다고 지정하여 객체 생성
imputer = SimpleImputer(strategy='median')

# 중간값이 수치형 특성에서만 계산될 수 있기 때문에 텍스트 특성인 ocean_proximity를 제외한 데이터 복사본 생성
housing_num = housing.drop('ocean_proximity', axis=1)

# imputer 객체의 fit() 메서드를 사용해 훈련 데이터에 적용
imputer.fit(housing_num)

# imputer는 각 특성의 중간값을 계산해서 그 결과를 객체의 statistics_ 속성에 저장
# total_bedrooms 특성에만 누락된 값이 있음
# 하지만 나중에 시스템이 서비스될 때 새로운 데이터에서 어떤 값이 누락될지 알 수 없음
# 그러므로 모든 수치형 특성에 imputer를 적용하는 것이 바람직함
print('imputer median : ', imputer.statistics_)
print('df calc median : ', housing.median().values)

# 학습된 imputer 객체를 사용해 훈련 세트에서 누락된 값을 학습한 중간값으로 바꿀 수 있음
X = imputer.transform(housing_num)

# 위의 실행 결과는 변형된 특성들이 들어 있는 평범한 넘파이 배열임
# 이를 다시 판다스 데이터프레임으로 간단히 되돌릴 수 있음
housing_tr = pd.DataFrame(X, columns=housing_num.columns, index=housing_num.index)

imputer median :  [-118.51     34.26     29.     2119.5     433.     1164.      408.
    3.5409]
df calc median :  [-118.51     34.26     29.     2119.5     433.     1164.      408.
    3.5409]


In [13]:
housing_tr.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income
17606,-121.89,37.29,38.0,1568.0,351.0,710.0,339.0,2.7042
18632,-121.93,37.05,14.0,679.0,108.0,306.0,113.0,6.4214
14650,-117.2,32.77,31.0,1952.0,471.0,936.0,462.0,2.8621
3230,-119.61,36.31,25.0,1847.0,371.0,1460.0,353.0,1.8839
3555,-118.59,34.23,17.0,6592.0,1525.0,4459.0,1463.0,3.0347


In [14]:
housing_tr.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16512 entries, 17606 to 15775
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           16512 non-null  float64
 1   latitude            16512 non-null  float64
 2   housing_median_age  16512 non-null  float64
 3   total_rooms         16512 non-null  float64
 4   total_bedrooms      16512 non-null  float64
 5   population          16512 non-null  float64
 6   households          16512 non-null  float64
 7   median_income       16512 non-null  float64
dtypes: float64(8)
memory usage: 1.1 MB


<br>

### cf) 사이킷런 설계 철학

**일관성**

- 모든 객체가 일관되고 단순한 인터페이스를 공유

- **추정기(estimator)**
  - 데이터셋을 기반으로 일련의 모델 파라미터들을 추정하는 객체를 추정기라 함
    - ex) `imputer` 객체
  - 추정 자체는 `fit()` 메서드에 의해 수행됨
  - 하나의 매개변수로 하나의 데이터셋만 전달
    - 지도 학습 알고리즘에서는 매개변수가 두 개(두 번째 데이터셋은 레이블을 담고 있음)
  - 추정 과정에서 필요한 다른 매개변수들은 모두 하이퍼 파라미터로 간주되고, *인스턴스 변수*로 저장됨  
  (보통 *생성자의 매개변수*로 전달)
    - ex) `imputer` 객체의 `strategy` 매개변수
    - *인스턴스 변수*
      - 객체지향 프로그래밍에서 객체가 각각 독립적으로 가지고 있는 변수
    - *생성자의 매개변수*
      - 파이썬 객체 생성 시 전달하는 매개변수를 의미
      - 이 매개변수는 파이썬에서 새로운 객체가 생성될 때 자동으로 포출되는 특수 메서드인 `__init__`에 전달됨
      - 객체 생성 시 호출되는 또 다른 특수 메서드인 `__new__`도 있지만 종종 `__init__`을 생성자라고 부름  
  
  
- **변환기(transformer)**
  - 데이터셋을 변환하는 추정기를 변환기라고 함
    - ex) `imputer`
  - 변환은 데이터셋을 매개변수로 전달받은 `transform()` 메서드가 수행함
  - 변환기는 변환된 데이터셋을 반환함
  - 이런 변환은 일반적으로 `imputer`의 경우와 같이 학습된 모델 파라미터에 의해 결정됨
    - `imputer`가 실제로 계산한 것 : 데이터셋에 있는 각 특성의 중간값
    - 사이킷런에서는 변환기도 추정기와 인터페이스가 같기 때문에 학습한다고 표현함
  - 모든 변환기는 `fit()`과 `transform()`을 연달아 호출하는 것과 동일한 `fit_transform()` 메서드를 가지고 있음
    - `fit_transform()`이 최적화되어 있어서 더 빠름  
  
  
- **예측기(predictor)**
  - 일부 추정기는 주어진 데이터셋에 대해 예측을 만들 수 있음
    - ex) `LinearRegression` 모델
  - 예측기의 `predict()` 메서드는 새로운 데이터셋을 받아 이에 상응하는 예측값을 반환함
  - 또한 테스트 세트(지도 학습 알고리즘이라면 레이블도 함께)를 사용해 예측의 품질을 측정하는 `score()` 메서드를 가짐
    - 어떤 예측기는 예측의 확신을 측정하는 메서드도 제공함
      - 분류 모델이 제공하는 메서드들(`predict_proba()`, `decision_function()`)
      
<br>

**검사 기능**

- 모든 추정기의 하이퍼파라미터는 공개(public) 인스턴스 변수로 직접 접근할 수 있음
  - ex) `imputer.strategy`
- 모든 추정기의 학습된 모델 파라미터도 접미사로 밑줄(`_`)을 붙여서 공개 인스턴스 변수로 제공됨
  - ex) `imputer.statistics_`

<br>

**클래스 남용 방지**

- 데이터셋을 별도의 클래스가 아니라 넘파이 배열이나 사이파이 희소(sparse) 행렬로 표현함
- 하이퍼파라미터는 보통의 파이썬 문자열이나 숫자임

<br>

**조합성**

- 기존의 구성요소를 최대한 재사용함
  - ex) 여러 변환기를 연결한 다음 마지막에 추정기 하나를 배치한 `Pipeline` 추정기를 쉽게 만들 수 있음

<br>

**합리적인 기본값**

- 사이킷런은 일단 돌아가는 기본 시스템을 빠르게 만들 수 있도록 대부분의 매개변수에 합리적인 기본값을 지정해둠

<br>

## 2.5.2 텍스트와 범주형 특성 다루기

### 2.5.2.1 범주형 특성의 데이터 확인

In [15]:
housing_cat = housing[['ocean_proximity']]
housing_cat.head(10)

Unnamed: 0,ocean_proximity
17606,<1H OCEAN
18632,<1H OCEAN
14650,NEAR OCEAN
3230,INLAND
3555,<1H OCEAN
19480,INLAND
8879,<1H OCEAN
13685,INLAND
4937,<1H OCEAN
4861,<1H OCEAN


<br>

- 위 값들은 임의의 텍스트가 아니라 가능한 값을 제한된 개수로 나열한 것임
- 각 값은 카테고리를 나타냄
- 따라서 이 특성은 범주형 특성임을 알 수 있음

<br>

### 2.5.2.2 범주형 특성 데이터 숫자 변환

- 대부분의 머신러닝 알고리즘은 숫자를 다룸
- 따라서 위의 카테고리를 텍스트에서 숫자로 변환
- 사이킷런의 `OrdinalEncoder` 클래스 사용
  - 사이킷런 0.20 버전에 추가된 클래스
  - 하위 버전 사용 시 `pandas.Series.factorize()` 를 대신 사용

In [16]:
from sklearn.preprocessing import OrdinalEncoder

ordinal_encoder = OrdinalEncoder()
housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)
housing_cat_encoded[:10]

array([[0.],
       [0.],
       [4.],
       [1.],
       [0.],
       [1.],
       [0.],
       [1.],
       [0.],
       [0.]])

<br>

- `categories_` 인스턴스 변수를 사용해 카테고리 목록을 얻을 수 있음
- 범주형 특성마다 카테고리들의 1D 배열을 담은 리스트가 반환됨
  - 이 경우는 범주형 특성이 하나만 있으므로 배열 하나를 담은 리스트가 반환됨

In [17]:
ordinal_encoder.categories_

[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],
       dtype=object)]

<br>

### 2.5.2.3 위 방식의 한계

- 이 표현 방식의 문제는 머신러닝 알고리즘이 가까이 있는 두 값이 떨어져 있는 두 값보다 더 비슷하다고 생각한다는 점이다.
- 이 문제는 일반적으로 **카테고리별 이진 특성**을 만들어 해결한다.
  - 카테고리가 `<1H OCEAN` 일 때 한 특성이 `1`이고 그 외 특성은 `0`
  - 카테고리가 `INLAND` 일 때 한 특성이 `1`이고 그 외 특성은 `0`

<br>

### 2.5.2.4 원-핫 인코딩 (one-hot encoding)

- 한 특성만 `1`이고(핫) 나머지는 `0`으로 변환하는 것
- 새로운 특성을 **더미(dummy)** 특성이라도고 부름
- 사이킷런은 범주의 값을 원-핫 벡터로 바꾸기 위한 `OneHotEncoder` 클래스를 제공
  - 사이킷런 0.20 버전 이전에는 이 메서드가 정수 범주형 값만 인코딩할 수 있음
  - 0.20 버전부터 텍스트 범주형 값을 포함하여 다른 입력 타입도 처리할 수 있음

In [18]:
from sklearn.preprocessing import OneHotEncoder

cat_encoder = OneHotEncoder()
housing_cat_1hot = cat_encoder.fit_transform(housing_cat)
housing_cat_1hot

<16512x5 sparse matrix of type '<class 'numpy.float64'>'
	with 16512 stored elements in Compressed Sparse Row format>

<br>

- 출력이 넘파이 배열이 아닌 사이파이(SciPy)의 **희소 행렬(sparse matrix)** 이다.
- 이는 수천 개의 카테고리가 있는 범주형 특성일 경우 매우 효율적이다.

- 이런 특성을 원-핫 인코딩하면 열이 수천 개인 행렬로 변하고, 각 행은 1이 하나뿐이고 그 외에는 모두 0으로 채워져 있음
- 0을 모두 메모리에 저장하는 것은 낭비이므로 희소 행렬은 0이 아닌 원소의 위치만 저장함
- 이 행렬을 거의 일반적인 2차원 배열로 사용할 수 있지만 (밀집된) 넘파이 배열로 바꾸려면 `toarray()` 메서드를 호출하면 됨
  - `housing_cat_1hot`은 사이파이가 지원하는 희소 행렬 중 행을 압축하는 `scr_matrix` 임

In [19]:
housing_cat_1hot.toarray()

array([[1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       ...,
       [0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.]])

<br>

- 인코더의 `categories_` 인스턴스 변수를 사용해 카테고리 리스트를 얻을 수 있음

In [20]:
cat_encoder.categories_

[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],
       dtype=object)]

<br>

### 2.5.2.5 임베딩(embedding), 표현 학습(representation learning)

- p107 ~