# Scikit-learn가 제공하는 샘플 데이타

* `sklearn.datasets`에서 제공하는 샘플 데이타 함수 
    * [sklearn.datasets](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets)
    * `make_` 로 시작하는 함수: 가짜 데이터를 랜덤하게 생성한다.
        * make_moons : 태극 문양 모양의 데이터 
    * `fetch_`로 시작하는 함수 : 함수를 호출하면 웹사이트에서 다운로드 받는다.
        *     'fetch_20newsgroups',
        * 'fetch_20newsgroups_vectorized' : 20개의 뉴스 그룹 데이터셋, 20개 주제에 대한 18,000개의 뉴스 그룹
        * 'fetch_california_housing',
        * 'fetch_covtype',
        * 'fetch_kddcup99',
        * 'fetch_lfw_pairs',
        * 'fetch_lfw_people',
        * 'fetch_mldata' : http://mldata.org 로 부터 원하는 이름의 데이타를 다운로드
            * 예) `mnist = fetch_mldata('MNIST original')`
        * 'fetch_olivetti_faces' : 40개의 서로 다른 주제와 관련된 10개 이미지 셋
        * 'fetch_openml',
        * 'fetch_rcv1',
        * 'fetch_species_distributions',
    * `load_`로 시작함수 : 모듈에 이미 들어 있다.
        * 'load_boston' : 보스턴 지역 주택가격
        * 'load_breast_cancer',
        * 'load_diabetes' : 당뇨병 환자 데이터 셋
        * 'load_digits' : MNIST  손글씨 숫자 데이타 셋
        * 'load_files',
        * 'load_iris' : 붓꽃 품종 데이타
            * 클래스 :3 x 50 = 150
            * 특성 : sepal(꽃받침) length, sepal width, petal(꽃잎) length, petal width
        * 'load_linnerud' : 피트니스 클럽 20명 중년 남성의 생릭학 변수와 운동 관련 변수
        * 'load_mlcomp',
        * 'load_sample_image',
        * 'load_sample_images',
        * 'load_svmlight_file',
        * 'load_svmlight_files',
        * 'load_wine',
* Bunch : 샘플 데이타 저장 객체
    * 데이타는 key-value 쌍으로 구성된 Buch 객체이 들어 있다. 파이썬 딕셔너리와 유사하다.
    * keys() : key name list
    * 공통 keys 
        * 'data' : 샘플 X 데이타, NumPy ndarray
        * 'target' : 레이블 y 데이타(클래스), NumPy ndarray
        * 'target_names' : 레이블의 클래스 이름과 의미, list(string)
        * 'feature_names' : X 데이타의 특성 이름들, list(string)
        * 'DESCR' : 데이타 셋의 전체 설명, list(string)
        * 'filename' : csv 파일 위치, str
    * data['key'] 또는 data.key 로 접근 가능

In [12]:
from sklearn import datasets
iris_bunch = datasets.load_iris()

In [13]:
print(type(iris_bunch))

<class 'sklearn.utils.Bunch'>


In [14]:

iris_bunch.keys()


dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [15]:
iris_bunch.DESCR



In [16]:
iris_bunch.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [17]:
iris_bunch.target_names


array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [20]:
iris_bunch.data[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [22]:
iris_bunch.data.shape

(150, 4)

In [24]:
iris_bunch.target


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [23]:
iris_bunch.target.shape

(150,)

# sklearn의 데이타 나누기 
* 참조 : https://medium.com/@julie.yin/understanding-the-data-splitting-functions-in-scikit-learn-9ae4046fbd26
* `model_selection.train_test_split()`
    * 같은 크기의 NumPy array를 순차적으로 전달하면 지정된 비율로 나눠서 반환
    * test_zise=0.25 : 0.0 ~ 1.0 사이 값을 전달하면 테스트 데이타셋 비율로 나눠 준다.
    * train-size=None : 0.0~1.0 사이 값을 전달하면 훈련 데이타셋 비율로 나눠준다.
    * random_state : 정수 값을 전달하면 난수 발생의 시드 값으로 사용한다.
    * suffle : boolean 값을 전달해서 섞을지 말지 결정
    * stratify : class label로 사용한 것을 지정
* `cross_validataion.train_test_split()` : 제거됨.

In [25]:
import numpy as np
import sklearn.model_selection as model_selection

X = np.arange(10)
y = X * X
print(X, y)

X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, random_state=0, test_size=0.2)
print("X_train", X_train)
print("y_train", y_train)
print("X_test", X_test)
print("y_test", y_test)

[0 1 2 3 4 5 6 7 8 9] [ 0  1  4  9 16 25 36 49 64 81]
X_train [4 9 1 6 7 3 0 5]
y_train [16 81  1 36 49  9  0 25]
X_test [2 8]
y_test [ 4 64]


# scikit-learn model 공통 함수
## LinearRegression 예시
* model.fit()
* model.predict()
* model.score()
* Accuracy score
    * sklearn.metrics.accuracy_score(y_test, y_pred)
* predict_proba()

In [27]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train.reshape(-1,1), y_train)
X_new = np.array([[8]])
prediction = model.predict(X_new)
print("prediction for %d: %d"%(X_new, prediction))
print("Accuacy:%.2f"%(model.score(X_test.reshape(-1,1), y_test)))

prediction for 8: 58
Accuacy:0.98
