In [2]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression, SGDRegressor
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.family']='Malgun Gothic'
matplotlib.rcParams['axes.unicode_minus'] = False

# 선형 모델(Linear Models)

* 선형 모델은 과거 부터 지금 까지 널리 사용되고 연구 되고 있는 기계학습 방법
* 선형 모델은 입력 데이터에 대한 선형 함수를 만들어 예측 수행

* 회귀 분석을 위한 선형 모델은 다음과 같이 정의
\begin{equation}
\hat{y}(w,x) = b + w x
\end{equation}
\begin{equation}
\hat{y}(w,x) = b + w_1 x_1 + ... + w_p x_p
\end{equation}

  + $x$: 입력 데이터
  + $w$: 모델이 학습할 파라미터
  + $b$: 편향
  + $w_1$~$w_p$: 가중치

## 선형 회귀(Linear Regression)

* **선형 회귀(Linear Regression)**또는 **최소제곱법(Ordinary Least Squares)**은 가장 간단한 회귀 분석을 위한 선형 모델
* 선형 회귀는 모델의 예측과 정답 사이의 **평균제곱오차(Mean Squared Error)**를 최소화 하는 학습 파라미터 $w$를 찾음
* 평균제곱오차는 아래와 같이 정의

\begin{equation}
MSE = \frac{1}{N} \sum_{i=1}^{N}(y_i - \hat{y}_i)^2
\end{equation}

  + $y$: 정답
  + $\hat{y}$: 예측 값을 의미

* 선형 회귀 모델에서 사용하는 다양한 오류 측정 방법
  + MAE(Mean Absoulte Error)
  + MAPE(Mean Absolute Percentage Error)
  + MSE(Mean Squared Error)
  + MPE(Mean Percentage Error)

In [7]:
df = pd.read_csv( 'data/data-01.csv', header=None)
df.columns = ['q1','q2','midterm','final']
df

Unnamed: 0,q1,q2,midterm,final
0,73,80,75,152
1,93,88,93,185
2,89,91,90,180
3,96,98,100,196
4,73,66,70,142
5,53,46,55,101
6,69,74,77,149
7,47,56,60,115
8,87,79,90,175
9,79,70,88,164


In [8]:
x_data = df[['q1','q2','midterm']]  # df.iloc[:, :-1]
x_data

Unnamed: 0,q1,q2,midterm
0,73,80,75
1,93,88,93
2,89,91,90
3,96,98,100
4,73,66,70
5,53,46,55
6,69,74,77
7,47,56,60
8,87,79,90
9,79,70,88


In [11]:
y_data = df[['final']]# df.iloc[:, [-1]]
y_data

Unnamed: 0,final
0,152
1,185
2,180
3,196
4,142
5,101
6,149
7,115
8,175
9,164


In [12]:
model_lr = LinearRegression()
model_lr.fit(x_data,y_data)

LinearRegression()

In [13]:
model_lr.coef_

array([[0.35593822, 0.54251876, 1.16744422]])

In [14]:
model_lr.intercept_

array([-4.3361024])

In [15]:
# q1:70점 q2:75점 midterm:75 점인 경우 예측값
# w1xx1+w2*x2+w3*x3 + b
70*0.35593822 + 75*0.54251876 + 75*1.16744422 + (-4.3361024)

148.8267965

In [17]:
model_lr.predict( [[70,75,75]])

array([[148.82679595]])