# Scikit-Learn


### Scikit-Learn
![image.png](https://i.imgur.com/RCPhBZh.png)
* https://scikit-learn.org
* 데이타 마이닝과 분석 도구
* NumPy, SciPy, MatplotLib 기반 설계
* 통일된 인터페이스로 일관성 있는 사용성 제공
* 정제된 데이터 셋 접근성 제공
* 다양한 머신러닝 알고리즘 구현
    * 분류 : SVM, 최근접 이웃, Random Forest
    * 회귀 : SVR, Linear Regress, Ridge, Lasso 
    * 군집 : k-Means, Spectral Clustering
    * 차원 감소 : PCA, Feature Selection
    * 모델 선택 : 그리드 서치, 교차 검증, 메트릭스
    * 전처리 


### 데이타 셋
* sklearn.datasets 패키지
* 가상 데이타 생성 : make_XXX()
    * 필요에 따라 랜덤한 숫자로 원하는 분포의 가상 데이타 생성
    * make_moons() : 태극 문양 분포의 데이타 생성
* 빌트인 데이타 셋 : load_XXX()
    * 이미 설치된 데이타 셋
    * load_boston() : 보스턴 지역 주택가격
    * load_diabetes() : 당뇨병 환자 데이터 셋
    * load_digits() : 손글씨 숫자 데이타 셋
    * load_iris() : 붓꽃 품종 데이타
    * load_linnerud() : 피트니스 클럽 20명 중년 남성 생리학 변수
* mldata.org 데이타 셋 : fetch_XXX()
    * 온라인에서 정제된 데이타 셋 다운로드
    * fetch_mldata() : mldata.org 에서 다운로드
        * mnist : fetch_mldata('MNIST original')
    * fetch_openml() : openml.org에서 다운로드
    * fetch_20newsgroups() : 20개의 뉴스 그룹 데이타셋




### 데이타 셋
* sklearn.utils.Bunch 
* 데이타셋을 보관하는 자료구조
* key-value 쌍, 파이썬 딕셔너리와 유사
* keys() : 키 목록 반환
* 공통 key 
    * 'data' : 샘플 데이타, NumPy 배열
    * 'target' : 레이블 데이타, NumPy 배열
    * 'target_names' : 레이블 클래스 이름과 의미
    * 'feature_names' : 샘플 데이타 특성 이름, 컬럼 이름
    * 'DESCR' : 데이타 셋에 대한 전체 설명
    * 'filename' : 데이타 저장 파일 위치, csv
* value 접근
    * obj['key'] 또는 obj.key

### Scikit-learn가 제공하는 샘플 데이타
* `sklearn.datasets`에서 제공하는 샘플 데이타 함수 
    * [sklearn.datasets](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets)
    * `make_` 로 시작하는 함수: 가짜 데이터를 랜덤하게 생성한다.
        * make_moons : 태극 문양 모양의 데이터 
    * `fetch_`로 시작하는 함수 : 함수를 호출하면 웹사이트에서 다운로드 받는다.
        *     'fetch_20newsgroups',
        * 'fetch_20newsgroups_vectorized' : 20개의 뉴스 그룹 데이터셋, 20개 주제에 대한 18,000개의 뉴스 그룹
        * 'fetch_california_housing',
        * 'fetch_covtype',
        * 'fetch_kddcup99',
        * 'fetch_lfw_pairs',
        * 'fetch_lfw_people',
        * 'fetch_mldata' : http://mldata.org 로 부터 원하는 이름의 데이타를 다운로드
            * 예) `mnist = fetch_mldata('MNIST original')`
        * 'fetch_olivetti_faces' : 40개의 서로 다른 주제와 관련된 10개 이미지 셋
        * 'fetch_openml',
        * 'fetch_rcv1',
        * 'fetch_species_distributions',
    * `load_`로 시작함수 : 모듈에 이미 들어 있다.
        * 'load_boston' : 보스턴 지역 주택가격
        * 'load_breast_cancer',
        * 'load_diabetes' : 당뇨병 환자 데이터 셋
        * 'load_digits' : MNIST  손글씨 숫자 데이타 셋
        * 'load_files',
        * 'load_iris' : 붓꽃 품종 데이타
            * 클래스 :3 x 50 = 150
            * 특성 : sepal(꽃받침) length, sepal width, petal(꽃잎) length, petal width
        * 'load_linnerud' : 피트니스 클럽 20명 중년 남성의 생릭학 변수와 운동 관련 변수
        * 'load_mlcomp',
        * 'load_sample_image',
        * 'load_sample_images',
        * 'load_svmlight_file',
        * 'load_svmlight_files',
        * 'load_wine',

### Bunch
* Bunch : 샘플 데이타 저장 객체
    * 데이타는 key-value 쌍으로 구성된 Buch 객체이 들어 있다. 파이썬 딕셔너리와 유사하다.
    * keys() : key name list
    * 공통 keys 
        * 'data' : 샘플 X 데이타, NumPy ndarray
        * 'target' : 레이블 y 데이타(클래스), NumPy ndarray
        * 'target_names' : 레이블의 클래스 이름과 의미, list(string)
        * 'feature_names' : X 데이타의 특성 이름들, list(string)
        * 'DESCR' : 데이타 셋의 전체 설명, list(string)
        * 'filename' : csv 파일 위치, str
    * data['key'] 또는 data.key 로 접근 가능

### Iris 데이타셋 예시

In [None]:
from sklearn import datasets
iris_bunch = datasets.load_iris()

In [None]:
print(type(iris_bunch))

In [None]:
iris_bunch.keys()

In [None]:
iris_bunch.DESCR

In [None]:
iris_bunch.feature_names

In [None]:
iris_bunch.target_names

In [None]:
iris_bunch.data[:5]

In [None]:
iris_bunch.data.shape

In [None]:
iris_bunch.target

In [None]:
iris_bunch.target.shape

### 데이타 나누기
* sklearn.model_selection
* X_train, X_test, y_train, y_test = train_test_split(sample, label, test_size, train-size, random_state, suffle, stratify)
    * 훈련데이타, 테스트 데이타 분할
    * 같은 크기의 NumPy 배열 2개를 지정된 비율로 나눠서 반환
    *  test_zise=0.25 : 0.0 ~ 1.0 사이 값을 전달하면 테스트 데이타셋 비율로 나눠 준다.
    *  train-size=None : 0.0~1.0 사이 값을 전달하면 훈련 데이타셋 비율로 나눠준다.
    * random_state : 정수 값을 전달하면 난수 발생의 시드 값으로 사용한다.
    * suffle : boolean 값을 전달해서 섞을지 말지 결정
    * stratify : class label로 사용한 것을 지정
* cross_validataion.train_test_split()
    * 동일한 기능, deprecated


### 데이타 나누기 예제

In [None]:
import numpy as np
import sklearn.model_selection as model_selection

X = np.arange(10)
y = X * X
print(X, y)

X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, random_state=0, test_size=0.2)
print("X_train", X_train)
print("y_train", y_train)
print("X_test", X_test)
print("y_test", y_test)

### 머신 러닝 모델
* sklearn.base.BaseEstimator : 모델의 기반 클래스
    * 모든 모신러닝 모델(Estimator)은 반드시 상속 구현
    * 학습/훈련, 예측 , 평가/검정 방법 인터페이스 일관성 제공
    * 구현 클래스는 개별 알고리즘으로 구현 제공
    * set_params(**params)
    * get_params(deep=True)
    * fit(X_train, y_train)
        * 모델 학습/훈련
    * predict(X_new)
        * 예측 값 반환
    * score(X_test, y_test)
        * 정확도 계산

#### LinearRegression 예시

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train.reshape(-1,1), y_train)
X_new = np.array([[8]])
prediction = model.predict(X_new)
print("prediction for %d: %d"%(X_new, prediction))
print("Accuacy:%.2f"%(model.score(X_test.reshape(-1,1), y_test)))