# 다중 회귀 분석
앞의 단순선형회귀에 추가적인 데이터를 사용해서 모델의 성능을 높여보자. \
시간(분) = $\alpha$ + ${\beta}_1 친구수$ + ${\beta}_2 근무시간$ + ${\beta}_3 박사 학위 취득 여부$ + $\epsilon$ \
박사 학위 취득 여부는 숫자 데이터가 아니다. 하지만 앞서 11장 '기계학습'에서 다룬 바와 같이 **가변수(dummy variable)** 를 만들어서 박사 학위를 가진 사람을 1, 그렇지 않은 사람을 0으로 표기하면 숫자로 표기할 수 있다.

## 15.1 모델
14장. ' 단순 회귀 분석' 에서는 아래와 같은 형태의 모델을 다뤘다. \
$y_i = \alpha + \beta x_i + \epsilon_i$ \
각 입력값 $x_i$는 숫자 하나가 아니라 k개의 숫자인 $x_i1, ..., x_ik$ 라고 한다면 다중 회귀(multiple regression)모델은 다음과 같은 형태를 띈다. \
$y_i = \alpha + \beta_1 x_i + ... + \beta_k x_ik + \epsilon_i$ \
다중 회귀 분석에서는 보통 파라미터 벡터를 $\beta$라고 부른다. 여기에 상수항까지 포함시키기 위해 데이터의 앞부분에 1로 구성된 열을 덧붙이면 된다. \
beta = [alpha, beta_1, ..., beta_k] \
그리고 각 데이터는 다음과 같다. \
x_i = [1, x_i1, ..., x_ik] \
이렇게 하면 모델을 다음과 같이 나타낼 수 있다.

In [2]:
from typing import Tuple, List
import math

Vector = List[float]

def dot(v: Vector, w: Vector) -> float:
    """v_1 * w_1 + ... + v_n * w_n"""
    assert len(v) == len(w),  "vectors must be same length"
    
    return sum(v_i * w_i for v_i, w_i in zip(v,w))

In [3]:
def predict(x: Vector, beta: Vector) -> float:
    """각 x_i의 첫 번째 항목은 1이라고 가정"""
    return dot(x, beta)

In [5]:
# 이 경우 독립 변수 x는 각각 다음과 같은 벡터들의 열로 표현할 수 있다.
[1, # 상수항
49, # 친구의 수
4, # 하루 근무 시간
0] # 박사 학위 없음


[1, 49, 4, 0]

## 15.2 최소자승법에 대한 몇 가지 추정 가정
이 모델(그리고 답)이 의미가 있으려면 몇 가지 추가적인 가정이 필요하다. \
첫번째로 x의 열은 서로 **선형독립(linear independence)** 해야 한다. 