# 사이킷런
각종 유명한 머신러닝 기법들을 구현해 놓은 **라이브러리**
* 라이브러리(library)란? 도구
* 프레임워크(framework)?
  - 축구장에서는 축구를 하고요.
  - 농구장에선 농구를 하고요
  - 야구장에서는 야구를 할거에요
  - 딥러닝 프레임워크에서는? 딥러닝을 하겠지

## 훈련하기 - fit
* `fit(X, y)`
  * `X` : `feature`
  * `y` : `label`


In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression

## LinearRegression 간단 소개
데이터 `X`가 들어왔을 때 `y`를 예측 하기 위한 기울기와 편향을 학습

$$
y = WX + b
$$

위의 식에서 `W` : 기울기, `b`: 편향이라고 한다. 즉 LineareRegression은 `y`의 오차를 줄이는 `W`와 `b`를 학습한다.

|`x`|`y`|
|:--:|:--|
|`1`|`3`|
|`2`|`5`|
|`3`|`7`|
|`5`|`11`|

`x`가 `4`일 때 `y`의 값은? `9`

`x`에 `2`를 곱하고 `1`을 더하면 `y`가 나와요. $y=2x+1$

In [None]:
X = np.array([1,2,3,5])
y = np.array([3,5,7,11])

In [None]:
model = LinearRegression()
model.fit(X, y)

ValueError: ignored

### fit 할 때 feature는 무조건 2차원 배열

In [None]:
X.shape

(4,)

In [None]:
X = X[..., np.newaxis] # X.reshape(-1, 1)
X.shape

(4, 1)

In [None]:
X # 1차원 배열을 2차원 열벡터로 표현해야 fit을 수행 할 수 있다.

array([[1],
       [2],
       [3],
       [5]])

In [None]:
model.fit(X, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

## 예측하기 - predict
`predict`로 예측을 할 때는 반드시 훈련 시에 사용했던 데이터의 스칼라 개수가 맞아야 한다.

In [None]:
for_predict = np.array([[4],
                        [6]])

for_predict.shape

(2, 1)

In [None]:
model.predict(for_predict)

array([ 9., 13.])

# [번외] LinearRegression 모델은 무엇을 어떻게 학습했나?
`W`와 `b`를 학습했다.

In [None]:
# W : coef_
# b : intercept_

model.coef_

array([2.])

In [None]:
model.intercept_

1.0

## 섭씨 - 화씨 변환 모델 만들기 ( 화씨 예측 모델 만들기 )

In [None]:
c = np.arange(1, 20)
f = c * 1.8 + 32

In [None]:
model = LinearRegression()
model.fit(c.reshape(-1, 1), f)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [None]:
model.predict(np.array([[30]])) # 섭씨가 30 일 때 화씨는?

array([86.])

In [None]:
model.coef_

array([1.8])

In [None]:
model.intercept_

32.0