# Core API

### Scitkit-learn의 기본 API는 공통적으로 무료의 3가지 interface 구성되어 있다.  

​


• estimator interface: 모델을 설계하고 추정한다. (building & fitting model) 

• predictor interface: 예측작업을 수행한다 (making predictions)

• transformer interface: 데이터를 변환한다 (transformer interface for converting data)

In [60]:
##Sckit-Learn설치
#!pip install sklearn
import sklearn
sklearn.__version__

'0.21.3'

## 1. Data Representation

​
대부분 머신러닝에서, data는 변수들의 집합으로 구성된다. 예를들어 지도학습의 경우, 목표는 입력 변수(feature,특성이라 부르기도 함) X1, ...Xp를 출력변수 Y로 매핑(mapping)하는 것이다. 

Input, X = [X1, X2, X3.....Xp] 

Output, Y = [y]

​

널리 쓰이는 dataset의 표현방법은 어떤 샘플들의 집합 즉 "행렬"로 표현한다. 각각의 행은 하나의 sample 데이터셋에 대응되고 각각의 열은 문제 하나의 변수에 대응할 수 있다.  scikit-learn에서 우리는 dataset의 행렬 표현 방법을 선택 할 수 있다. 

​

 - NumPy의 다차원 배열 (multidimensional arrays) (NumPy - Dense array)

 - SciPy의 희소 행렬(sparse matrices) for sparse data (SciPy - sparse matrices)

​

물론 이러한 방법은 객체 지향적 방법과는 다소 거리가 있음에도 불구하고, NumPy와 SciPy를 이용한 벡터연산은 코드를 간단하고 쓰기 편하게 한다. 이러한 설계방법은 다른 많은 과학/수학 관련 Python 패키지를 쉽고 친숙하게 사용할 수 있다는 점에서 역시 장점이 된다. 

​

In [56]:
#Data Representation Example

In [40]:
import numpy as np
r = np.random.RandomState()
x_train = 3 * r.rand(20)
y_train = 2 * x_train - 1 + r.randn(20)

In [41]:
X_train = x_train[:, np.newaxis]
X_train.shape

(20, 1)

In [78]:
y_train.shape

(20,)

## 2. Estimator

### 1) Build a model

```
from sklearn.linear_model import LinearRegression
clf = LinearRegression(fit_intercept=True)
```

### 2) fitting a model

```
clf.fit(X_train, y_train)
```

데이터셋을 기반으로 일련의 모델 파라미터들을 추정하는 객체. </br>
추정 자체는 fit()메서드에 의해 수행되고 하나의 매개변수로 하나의 데이터셋만 전달합니다. (지도 학습 알고리즘에서는 매개변수가 두 개로, 두 번째 데이터셋은 레이블을 담고 있다.) 추정 과정에서 필요한 다른 매개변수들은 모두 하이퍼파라미터로 간주되고 (예른 들면 imputer객체의 strategy매개변수), 인스턴스 변수로 저장됩니다. (보통 생성자의 매개변수로 전달한다)

In [63]:
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
#Build a model
#모델 객체를 instance화 시킨다.
#예제 코드에서는 LinearModel의 LinearRegression모델을 예로 들었다.
clf = LinearRegression(fit_intercept=True)
clf 

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [67]:
#fit a model
clf.fit(X_train,y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

## 3. Predictor

일부 추정기는 주어진 데이터셋에 대해 예측을 만들 수 있다. 예측기의 predict()메서드는 새로운 데이터셋을 받아 이에 상응하는 예측값을 반환 한다.

In [87]:
x_test = 3 * x_train - 1 + r.randn(20)
x_test = x_test[:, np.newaxis]

clf.predict(x_test)

array([10.96531423,  9.63915163,  3.51498974,  0.12750045,  4.83572863,
       11.1223257 , -2.58785094,  4.52432473,  9.82459699, 10.11686226,
        0.63593789,  4.52155435,  4.8405336 ,  9.98102723, -0.21749139,
        3.39486323, -5.35633892,  5.36102983,  6.33236992,  3.00765065])


### 4. 기본 철학



​
∙일관성(Consistency) : 모든 객체가 일관되고 단순한 인터페이스를 공유한다.

​

∙검사기능(Inspection) : 모든 추정기(estimator)의 하이퍼파라미터는 공개 인스턴스 변수로 직접 접근할 수 있고, 모든 추정기의 학습된 모델 파라미터도 접미사로 밑줄을 붙여서 공개 인스턴스 변수로 제공된다.

​

∙클래스 남용 방지(Non-proliferation of classes) : 데이터셋을 별도의 클래스가 아니라 넘파이 배열이나 사이파이 희소(sparse)행렬로 표현한다. 하이퍼파라미터는 보통의 파이썬 문자열이나 숫자이다. 

​

∙검사기능(Inspection) : 모든 추정기(estimator)의 하이퍼파라미터는 공개 인스턴스 변수로 직접 접근할 수 있고, 모든 추정기의 학습된 모델 파라미터도 접미사로 밑줄을 붙여서 공개 인스턴스 변수로 제공된다.

​

∙조합성(Composition) : 기존의 구성요소를 최대한 재사용한다. 여러 개의 변환기(transformer)를 연결한 다음 마지막에 추정기 하나를 배치한 Pipeline추정기를 쉽게 만들 수 있다.

​

∙합리적인 기본값(Sensible defaults) : 합리적인 기본값