# Introduction to Linear Regression

||continuous|categorical|
|---|---|---|
|**supervised**|**regression**|classification|
|**unsupervised**|dimension reduction|clustering|

## Motivation

linear regression 학습 이유?
- 널리 사용됨
- 빠른 연산 속도
- 사용하기 쉬움(일반적으로 튜닝 과정 불필요)
- 재사용성 높음
- 다른 방법들의 이론적 토대

## 사용 라이브러리

-   [Statsmodels](http://statsmodels.sourceforge.net/)
-   [scikit-learn](http://scikit-learn.org/stable/)

In [None]:
# 노트북에서 그래프가 출력되도록 함
%matplotlib inline

# 라이브러리 import
import pandas as pd
import matplotlib.pyplot as plt

## 실습: 광고 데이터

- 광고데이터에 linear regression을 적용해보기

In [None]:
# 데이터 불러오기
data = pd.read_csv('http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv', index_col=0)
data.head()

**features**?
- TV: TV 광고 지출 금액 (in thousands of dollars)
- Radio: 라디오 광고 지출 금액
- Newspaper: 신문 광고 지출 금액

**response**?
- Sales: 판매량 (in thousands of widgets)

In [None]:
# 차원 확인
data.shape

There are 200 **observations**, and thus 200 markets in the dataset.

In [None]:
# feature간의 상관관계 시각화
fig, axs = plt.subplots(1, 3, sharey=True)
data.plot(kind='scatter', x='TV', y='Sales', ax=axs[0], figsize=(16, 8))
data.plot(kind='scatter', x='Radio', y='Sales', ax=axs[1])
data.plot(kind='scatter', x='Newspaper', y='Sales', ax=axs[2])

## 질문

위 데이터를 기반으로, 앞으로 광고 예산을 어떻게 사용해야 하는가?

위 질문은 아래의 세부 질문으로 나눠질 수 있다:
1. 광고와 판매량 사이 상관관계가 있는가?
2. 상관관계는 얼마나 강한가?
3. 어떤 광고가 판매량에 영향을 미치는가?
4. 각 광고들은 어떤 영향을 미치는가?
5. 예상 광고비 지출액이 주어진다면, 판매량을 예측할 수 있는가?


## Simple Linear Regression

$y = \beta_0 + \beta_1x$

각 기호의 의미?
- $y$ is the response
- $x$ is the feature
- $\beta_0$ is the intercept
- $\beta_1$ is the coefficient for x

$x$와 $y$가 주어지면, $\beta_0$ 와 $\beta_1$ 를 학습한다. $\beta_0$ 와 $\beta_1$ 를 학습하면 특정 $x$에 대해 $y$를 예측할 수 있습니다.

## Model Coefficients 학습

일반적으로 계수는 ** 최소 제곱 기준 **을 사용하여 추정됩니다. 즉, ** 잔차 제곱의 합 ** (또는 "제곱 오차 합계")을 최소화하는 선 (수학적으로)을 찾습니다.

<img src="08_estimating_coefficients.png">

그림 각 요소들의 의미
- 검은 점은 x와 y의 ** 관측 값 **입니다.
- 파란색 선은 ** 최소 제곱 선 **입니다.
- 빨간색 선은 ** 잔차(residuals) **이며 관측 값과 최소 자승선 사이의 거리입니다.

모델 계수는 최소 자승선과 어떤 관련이 있습니까?
- $\beta_0$ is the **intercept** (the value of $y$ when $x$=0)
- $\beta_1$ 는 **기울기** 입니다 ($y$ 변화량을 $x$ 변화량으로 나눈 값)

다음은 이러한 계산을 시각환 한 것입니다.


- $\beta_0$은 ** y절편 ** ($ x $ = 0 일 때 $ y $의 값)입니다.
- $\beta_1$는 ** 기울기 ** ($ y $의 변화를 $ x $의 변화로 나눈 값)입니다.

다음은 이러한 계산을 그래픽으로 나타낸 것입니다.

<img src="08_slope_intercept.png">

**Statsmodels**을 이용하여 Linear regression을 해보겠습니다.

In [None]:
import statsmodels.formula.api as smf

# 모델 생성&피팅
lm = smf.ols(formula='Sales ~ TV', data=data).fit()

# 계수
lm.params

## 모델 계수 해석


모델에서 TV의 계수 ($\beta_1$)는 어떻게 해석해야 할까?
- TV 광고금액의 1 단위 증가는 판매량이 0.047537 만큼 증가한 것과 **연관이 있습니다.**  
- 또는 더 명확하게: TV 광고에 추가로 1,000 달러를 지출하면 ** 47.533 ** 단위의 판매량이 증가합니다.

감소의 상관관계가 있다면,  $\beta_1$ 는 **음수**가 되어야 합니다.

## 예측모델 사용

만약 TV 광고에 **$50,000**을 사용했다면, 판매량은 얼마가 될까?

$$y = \beta_0 + \beta_1x$$
$$y = 7.032594 + 0.047537 \times 50$$

In [None]:
# 수동으로 계산
7.032594 + 0.047537*50

**9,409 단위**의 판매량을 예측할 수 있습니다.

위 방식 말고도, Statsmodels의 Predict 기능을 사용하면 편하게 예측값을 구할 수 있습니다:

In [None]:
# Statsmodels formula의 input은 DataFrame으로 해야 합니다.
X_new = pd.DataFrame({'TV': [50]})
X_new.head()

In [None]:
# 모델을 사용하여 예측
lm.predict(X_new)

## 최소 제곱 선 그리기

** x 의 가장 작은 관측 값과 가장 큰 관측 값**에 대한 예측을 한 다음, 예측 된 값을 사용하여 최소 제곱 선을 그립니다.

In [None]:
# TV광고 금액의 최소값과 최대값으로 DataFrame 생성
X_new = pd.DataFrame({'TV': [data.TV.min(), data.TV.max()]})
X_new.head()

In [None]:
# 모델을 사용하여 예측
preds = lm.predict(X_new)
preds

In [None]:
# 첫번째로, 관측된 데이터를 그리고
data.plot(kind='scatter', x='TV', y='Sales')

# 다음으로, 최소 제곱선을 그립니다
plt.plot(X_new, preds, c='red', linewidth=2)

## 가설 검정 및 p-values
일반적으로 p-value가 0.05 이하일 경우 상관관계가 있다고 판단합니다.

> Intercept에 대한 p-value는 무시합니다.

In [None]:
lm.pvalues

## 모델이 데이터를 얼마나 잘 맞추는지?: R-squared

R-squared는 0과 1 사이의 값이며, 클수록 모델이 데이터를 잘 맞춘다고 설명됩니다. 다음은 R-squared가 "어떻게 생겼는지"의 예입니다.

<img src="08_r_squared.png">

**파란 선**: R-squared = 0.54

**녹색 선**: R-squared = 0.64

**빨간 선**: R-squared = 0.66

어떤 선이 데이터를 가장 잘 맞출수 있을까요?

In [None]:
# print the R-squared value for the model
lm.rsquared

이 R-squared 값은 충분히 좋은 값인가요? 쉽게 판단할순 없ㅅ브니다. 각 도메인별로 받아들여지는 R-squared값은 크게 다릅니다. 따라서 R-squared는 그 자체로서의 값보단 여러 ** 다른 모델을 비교하기위한 도구 **로 가장 유용합니다.

## Multiple Linear Regression

Simple Linear Regression에서 변수가 많아지면 **multiple linear regression** 입니다:

$y = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

각 $x$ 는 다른 feature를 나타내며, 각 feature마다 고유의 계수가 있습니다. 지금 다루는 데이터는 아래와 같이 나타낼 수 있습니다.

$y = \beta_0 + \beta_1 \times TV + \beta_2 \times Radio + \beta_3 \times Newspaper$

In [None]:
# 세개의 feature 모두 사용하여 모델 생성&피팅
lm = smf.ols(formula='Sales ~ TV + Radio + Newspaper', data=data).fit()

# 계수 출력
lm.params

양의 상관관계: TV, Radio
음의 상관관계: Newspaper

In [None]:
# 모델 요약 정보 출력
lm.summary()

이 결과로부터 우리가 배울 수 있는 것.

- TV와 라디오는 의미있는 **P-value**를 보여주지만 신문은 그렇지 않습니다.
- TV와 라디오 광고 지출 모두 **판매량과 양의 상관관계가 있으며** 신문 광고 지출은 **판매량과 약간의 음의 상관관계가 있습니다**.(그러나 신문에 대한 P-value가 의미있는 값이 아니기에 무의미한 상관관계입니다.)
- 이번에 한 Multiple linear regression이 이전에 한 Simple linear regression보다 **R-squared**(0.897)가 높습니다. 즉, 이 이 모델은 TV 광고 지출만 고려한 모델보다 더 데이터를 잘 예측합니다.

## Linear Regression in scikit-learn

Statsmodels이 아닌 scikit-learn사용:

In [None]:
# X,y 설정
feature_cols = ['TV', 'Radio', 'Newspaper']
X = data[feature_cols]
y = data.Sales

# 모델 생성&피팅. sklearn에서는 아래와 같은 형태가 일반적
from sklearn.linear_model import LinearRegression
lm = LinearRegression()
lm.fit(X, y)

# y절편과 계수 출력
print(lm.intercept_)
print(lm.coef_)

In [None]:
# features와 각각의 계수  출력
print(feature_cols, lm.coef_)

In [None]:
# 새로운 데이터를 넣고 예측
lm.predict([100, 25, 25])

In [None]:
# R-squared 계산
lm.score(X, y)