# 제6장. 머신러닝 - 지도학습
## 제1절. 단순 선형 회귀(Simple Linear Regression Model)
### 1. 개념
- 선형 회귀는 입력 특성에 대한 선형함수를 만들어 예측을 하는 알고리즘이다.
- 독립변수가 하나인 경우 특성 직선을 학습하는 것이다.
- 선형 회귀 모델을 잘 학습시키려면 MSE 값을 최소화하는 파라미터를 찾아야 한다.
- 통계적 방식의 회귀분석과 머신러닝 모델은 MSE 값을 최소화 하는 파라미터를 찾는다는 목표가 같지만, 문제해결을 위한 접근방식이 다르다.
  - 통계적 방식의 회귀분석은 정규방정식을 사용해 문제를 해결하지만, 머신러닝 모델은 경사하강법을 사용해 문제를 해결한다.

### 2. 정규방정식
- 정규방적식을 사용하면 MSE 값을 최소로 하는 파라미터를 바로 얻을 수 있다.
- 최소 자승법(Least Squared Method)을 코드로 구현할 수도 있고, scikit-learn 패키지에서 선형 회귀 함수를 import 해도 된다.

**1. scikit-learn의 LinearRegression**
- scikit-learn 패키지로 선형 회귀 모델을 학습할 수 있다.
- scikit-learn의 linear_model의 여러 회귀함수 중, LinearRegression은 최소 자승법을 사용한 OLS(Ordinary Least Squares) 방식으로 선형 회귀 모델을 구현한다.
- 즉, LinearRegression은 계수 $w$를 사용해 선형 모델을 피팅하여 데이터세트에서 관찰된 대상과 선형 근사에 의해 예측된 대상 간의 잔차제곱합을 최소화한다.
```
sklearn.linear_model.LinearRegression(
  *,
  fit_intercept=True,
  normalize='deprecated',
  copy_X=True,
  n_jobs=None,
  positive=False
)
```
1. 매개변수
    - fit_intercept
      - bool(default=True)
      - 선형 회귀 모델에 대한 절편을 계산할지 여부를 결정한다.
      - False로 설정하면 절편을 사용하지 않는 모델로 계산한다.
    - normalize
      - bool(default=False)
      - True인 경우 X는 평균을 빼고 L2-norm으로 나누어 회귀 전에 정규화된다.
      - False인 경우 해당 정규화를 하지 않는다.
        - 표준화를 진행하고 싶으면, normalize=False로 설정한 뒤 fit()을 호출하기 전에 StandarScaler()를 사용하면 된다.
    - copy_X
      - bool(default=True)
      - True이면 X가 복사된다.
      - False이면 덮어쓴다.
    - n_jobs
      - int(default=None)
      - 계산 작업 횟수이다.
    - positive
      - bool(default=False)
      - True로 하면 계수가 양수가 된다.
2. 속성
    - coef_
    - rank_
    - singular_
    - intercept_
3. 메서드
    - fit(X, y[, sample_weight])
    - get_params([deep])
    - predict(X)
    - score(X, y[, sample_weight])
4. 코드 구현
    - 캐글의 insurance 데이터를 사용해 선형 회귀 모델을 구현해보자.
    - 먼저 캐글에 접속해 데이터를 다운받고 read한다(www.kaggle.com/mirichoi0218/insurance).