### sklearn.datasets

#### 카테고리

- load_xxx : 저장된 데이터세트 import
- fetch_xxx : 인터넷에서 캐쉬로 다운로드 진행 후 import
- make_xxx : 가상 데이터세트를 생성

In [3]:
import sklearn.datasets
df = sklearn.datasets.load_iris()
# df

#### load 계열

- 작은 데이터들은 패키지에 이미 포함
- 큰 데이터들은 최초 사용 시 인터넷을 통해서 다운로드 후 저장

|함수|내용|
|:---|---:|
| load_boston() | 회귀 분석용 Boston 집값 데이터 세트 |
| load_diabetes() | 회귀 분석용 당뇨병 데이터 세트 |
| load_linnerud() | 회귀 분석용 linnerud 데이터 세트 |
| load_iris() | 분류용 iris 데이터 세트 |
| load_breast_cancer() | 분류용 유방암 진단 데이터 세트 |
| load_digits() | 분류용 숫자 필기 이미지 데이터 세트 |
| load_wine() | 분류용 포도주 등급 데이터 세트 |

In [6]:
# sklearn.datasets.fetch_20newsgroups()

#### fetch 계열

- 데이터가 너무 커서, 인터넷으로 다운로드하여 sklearn_learn_data 밑으로 저장

|함수|내용|
|:---|---:|
| fetch_20newsgroups() | 뉴스그룹 텍스트용 데이터 세트 |
| fetch_olivetti_faces() | 얼굴 이미지 데이터 세트 |
| fetch_lfw_people() | 얼굴 이미지 데이터 세트 |
| fetch_lfw_pairs() | 얼굴 이미지 데이터 세트 |
| fetch_rcv1() | 로이터 뉴스 코퍼스 데이터 세트 |
| fetch_mldata() | ML 웹사이트 데이터 세트 |
| fetch_covtype() | 회귀 분석용 토지 조사 데이터 세트 |

#### make 계열

- 알고리즘 모형을 시험하기 위해 특정 특성을 가진 가상의 데이터를 필요로 할 때
- 가상 데이터를 생성

|함수|내용|
|:---|---:|
| make_classification() | 분류용 가상 데이터 세트 |
| make_regression() | 회귀 분석용 가상 데이터 세트 |
| make_blobs() | 클러스터링용 가상 데이터 세트 |

In [7]:
print(df.keys())

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])


#### sklearn.utils.Bunch

- sklearn에서 제공하는 데이터 세트의 타입

|변수|내용|
|:---|---:|
| data | (필수) 독립 변수, ndarray(배열) |
| target | (필수) 종속 변수, ndarray(배열) |
| feature_names | (옵션) 독립 변수 이름 리스트 |
| target_names | (옵션) 종속 변수 이름 리스트 |
| DESCR | (옵션) 데이터 설명 |

In [8]:
# (필수) 독립 변수, ndarray(배열)
df['data']

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [9]:
# (필수) 종속 변수, ndarray(배열)
df['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [10]:
# (옵션) 독립 변수 이름 리스트
df['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [11]:
# (옵션) 종속 변수 이름 리스트
df['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [12]:
# (옵션) 데이터 설명
df['DESCR']

