# sklearn.datasets

- 해당 패키지는 알고리즘의 실습 테스트를 위하여 예제 데이터 세트를 제공

In [0]:
import sklearn.datasets as mls

In [4]:
# 해당 모듈에 존재하는 모든 맴버들을 출력
dir(mls) 

['__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '_base',
 '_california_housing',
 '_covtype',
 '_kddcup99',
 '_lfw',
 '_olivetti_faces',
 '_openml',
 '_rcv1',
 '_samples_generator',
 '_species_distributions',
 '_svmlight_format_fast',
 '_svmlight_format_io',
 '_twenty_newsgroups',
 'clear_data_home',
 'dump_svmlight_file',
 'fetch_20newsgroups',
 'fetch_20newsgroups_vectorized',
 'fetch_california_housing',
 'fetch_covtype',
 'fetch_kddcup99',
 'fetch_lfw_pairs',
 'fetch_lfw_people',
 'fetch_olivetti_faces',
 'fetch_openml',
 'fetch_rcv1',
 'fetch_species_distributions',
 'get_data_home',
 'load_boston',
 'load_breast_cancer',
 'load_diabetes',
 'load_digits',
 'load_files',
 'load_iris',
 'load_linnerud',
 'load_sample_image',
 'load_sample_images',
 'load_svmlight_file',
 'load_svmlight_files',
 'load_wine',
 'make_biclusters',
 'make_blobs',
 'make_checkerboard',
 'make_circles',
 'make_class

# load 계열

- local PC에 저장되어 있는 dataset (패키지가 설치되면 같이 저장)

 - 'load_boston',        회귀 분석용 보슨턴 집값
 - 'load_breast_cancer', 분류용 유방암 진단 자료
 - 'load_diabetes',      회귀 분석용 당뇨병 자료
 - 'load_digits',        분류용 숫자 필기 이미지 자료
 - 'load_files',
 - 'load_iris',          분류용 iris 자료
 - 'load_linnerud',
 - 'load_sample_image',
 - 'load_sample_images',
 - 'load_svmlight_file',
 - 'load_svmlight_files',
 - 'load_wine',          분류용 포도주 등급 자료

# fetch 계열

- 인터넷에서 cache된 후 요청시 download후 제공
- 네트워크 않되면 이용불가(최초 다운로드시), scikit_learn_data 하위에저장

 - 'fetch_20newsgroups', 뉴스 그룹용 텍스트 데이터
 - 'fetch_20newsgroups_vectorized', 
 - 'fetch_california_housing', 
 - 'fetch_covtype', 회귀 분석용 토지 조사자료
 - 'fetch_kddcup99',
 - 'fetch_lfw_pairs',  얼굴 이미지
 - 'fetch_lfw_people', 얼굴 이미지
 - 'fetch_olivetti_faces',
 - 'fetch_openml',
 - 'fetch_rcv1',
 - 'fetch_species_distributions',

# make 계열

- 가상의 데이터세트 구성(용도에 맞게 더미 데이터를 생성)

- 'make_biclusters',
- 'make_blobs',  클서스터링용 가상 데이터 생성
- 'make_checkerboard',
- 'make_circles',
- 'make_classification', 분류용 가상 데이터 생성
- 'make_friedman1',
- 'make_friedman2',
- 'make_friedman3',
- 'make_gaussian_quantiles',
- 'make_hastie_10_2',
- 'make_low_rank_matrix',
- 'make_moons',
- 'make_multilabel_classification',
- 'make_regression',  회귀용 가상 데이터 생성
- 'make_s_curve',
- 'make_sparse_coded_signal',
- 'make_sparse_spd_matrix',
- 'make_sparse_uncorrelated',
- 'make_spd_matrix',
- 'make_swiss_roll'

# 데이터 세트 구조(형식) : Bunch class

In [0]:
datas = mls.load_iris()

In [10]:
# sklearn.utils.Bunch 클레스
type(datas)

sklearn.utils.Bunch

In [11]:
dir(datas)

['DESCR', 'data', 'feature_names', 'filename', 'target', 'target_names']

- 'DESCR' : 자료에 대한 설명
- 'data'  : (필수)실데이터, 독립변수, ndarray
- 'feature_names' : 독립변수에 대한 이름
- 'filename' : 파일명
- 'target' : (필수)종속변수 ndarray
- 'target_names' : 종속변수의 값의 목록(정답목록)

In [21]:
datas.target_names, datas.data.shape, datas.target.shape

(array(['setosa', 'versicolor', 'virginica'], dtype='<U10'), (150, 4), (150,))

In [22]:
datas.data.shape, datas.data.ndim, len(datas.data.shape)

((150, 4), 2, 2)

In [24]:
datas.data[:2], datas.target[:2]

(array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2]]), array([0, 0]))

In [16]:
print( datas.DESCR, datas['DESCR'] )

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :