# Boston 주택 가격 데이터셋 로드 및 탐색

이 노트북은 `scikit-learn`의 `fetch_openml` 함수를 사용하여 Boston 주택 가격 데이터셋을 로드하고, 데이터의 기본적인 구조와 내용을 탐색하는 과정을 보여줍니다.

---
**참고: `load_boston` 함수에 대하여**

과거에는 `sklearn.datasets.load_boston` 함수를 사용하여 이 데이터셋을 불러왔습니다. 하지만 이 데이터셋에는 인종(B)과 관련된 특성이 포함되어 있어 윤리적인 문제가 제기되었고, `scikit-learn` 버전 1.2부터는 `load_boston` 함수가 **삭제(deprecated)** 되었습니다. 

따라서 현재는 `fetch_openml(name="boston")`을 사용하여 데이터를 불러오는 것이 권장됩니다.

### 1. 라이브러리 임포트

In [None]:
from sklearn.datasets import fetch_openml
import pandas as pd
import numpy as np

### 2. 데이터 로드

`fetch_openml` 함수를 사용하여 OpenML 데이터베이스로부터 Boston 데이터셋을 가져옵니다.
- `as_frame=True` 옵션을 사용하면 데이터를 `pandas`의 DataFrame 형식으로 편리하게 받아올 수 있습니다.

In [None]:
try:
    # as_frame=True로 설정하여 데이터를 DataFrame으로 바로 받습니다.
    boston = fetch_openml("boston", version=1, as_frame=True)
    print("데이터 로드 성공!")
except Exception as e:
    print(f"데이터 로드 중 오류가 발생했습니다: {e}")
    boston = None

### 3. 데이터 구조 확인

로드된 데이터는 `scikit-learn`의 `Bunch` 객체 형식으로, 여러 정보를 담고 있습니다. `keys()` 메소드로 어떤 정보들이 있는지 확인할 수 있습니다.

In [None]:
if boston:
    print("데이터 객체 타입:", type(boston))
    print("
데이터셋의 키:", boston.keys())

#### 데이터 설명서(DESCR) 확인

`DESCR` 키에는 데이터셋의 출처, 각 특성의 의미 등 상세한 설명이 포함되어 있습니다.

In [None]:
if boston:
    # 설명이 매우 길기 때문에, 필요할 때 주석을 해제하여 확인하는 것을 권장합니다.
    print(boston["DESCR"])

### 4. 특성(X)과 타겟(y) 데이터 분리

머신러닝 모델 학습을 위해 입력 데이터인 특성(X)과 예측 대상인 타겟(y)을 분리합니다.

In [None]:
if boston:
    # as_frame=True로 로드했기 때문에 .data와 .target 속성으로 쉽게 접근 가능합니다.
    X = boston.data
    y = boston.target # 원본 코드의 오타(targeet)를 수정했습니다.

    print("--- 특성 데이터 (X) ---")
    print("형태:", X.shape)
    print(X.head())
    
    print("
--- 타겟 데이터 (y) ---")
    print("형태:", y.shape)
    print(y.head())