<a href="https://colab.research.google.com/github/GNuSeekK/ICTCOG/blob/main/3_04_%5B%EC%A7%80%EB%8F%84%ED%95%99%EC%8A%B5%5D_%EC%82%AC%EC%9D%B4%ED%82%B7%EB%9F%B0_%EA%B0%9C%EC%9A%94.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 사이킷런
각종 유명한 머신러닝 알고리즘 기법들을 구현해 놓은 **라이브러리**
* 라이브러리란? 도구
* 프레임워크
    * 개발에 필요한 환경들을 미리 세팅해서 개발자들에게 편안한 개별환경을 제공

# 훈련하기 (데이터 대입)
* **fit(X,y)**
    * X : Feature
    * Y : label

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression

## LinearRegression 간단 소개
데이터 `X`가 들어왔을 때 `y`를 예측 하기 위한 기울기와 편향을 학습
$$
y = WX + b
$$

* 위의 식에서 $W$ : 기울기(가중치), $b$ : 편향이라고 한다.
*LinearRegression의 목적은 정답($y$ 또는 $t$)과 예측값($\hat{y}$ 또는 $y$)와의 오차를 줄이는 $W$와 $b$를 학습

|`x`|`y`|
|:--:|:--|
|`1`|`3`|
|`2`|`5`|
|`3`|`7`|
|`5`|`11`|

* $x$가 4일 때의 $y$값은? 9
* $y$를 구하기 위해서 $x$에 2를 곱하고 1을 더하면 된다. $y=2x+1$

In [None]:
X = np.array([1., 2., 3., 5.]).reshape(-1, 1)
y = np.array([3., 5., 7., 11.])

X, y

(array([[1.],
        [2.],
        [3.],
        [5.]]), array([ 3.,  5.,  7., 11.]))

In [None]:
X.shape, y.shape

((4, 1), (4,))

**모델만들고 훈련**

In [None]:
model = LinearRegression()
model.fit(X, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

# 예측하기 - predict
`predict`로 예측을 할 때는 훈련 데이터의 **종류**의 개수와 예측할 데이터의 **종류**의 개수가 똑같아야 한다.

In [None]:
for_predict = np.array([[4.],
                        [6.]])

X.shape, for_predict.shape

((4, 1), (2, 1))

* `x=4`라면 예측 결과물은? 9
* `x=6`이라면 예측 결과물은? 13

In [None]:
model.predict(for_predict)

array([ 9., 13.])

## [번회] LinearRegression 모델은 무엇을 어떻게 학습했는가?
* `W`와 `b`를 학습함!
  * $w$는 2가 될 것이다.
  * $b$는 1이 될 것이다.

In [None]:
# W : coef_
# b : intercept_

print("학습한 기울기(가중치 W) : {}".format(model.coef_))
print("학습한 절편(편향 b) : {}".format(model.intercept_))

학습한 기울기(가중치 W) : [2.]
학습한 절편(편향 b) : 1.0


# 섭씨 - 화씨 변환 모델 만들기 (화씨 예측 모델 만들기)

In [None]:
# 섭씨 데이터 만들기
c = np.arange(1, 20) # 섭씨 데이터를 1~20도

# 섭씨-화씨 변환 공식을 이용해 화씨 데이터를 생성
f = c * (9/5) + 32

In [None]:
c.shape

(19,)

In [None]:
# 19개의 데이터가 1종류가 있다는 식으로 표현해야 훈련할 때 오류가 안나요! - (19, 1)
c = c.reshape(-1, 1)
c.shape

(19, 1)

In [None]:
model = LinearRegression()
model.fit(c, f)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [None]:
predict_data = np.array([[30],
                         [50]])

predict_data.shape

(2, 1)

In [None]:
model.predict(predict_data)

array([ 86., 122.])

In [None]:
model.coef_

array([1.8])

In [None]:
model.intercept_

32.0