In [1]:
import matplotlib as mpl
import matplotlib.pyplot as plt
from jupyterthemes import jtplot
jtplot.style(theme = "chesterish")
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname = "C:\Windows\Fonts\malgun.ttf").get_name()
rc('font', family=font_name)
mpl.rcParams['axes.unicode_minus'] = False
%matplotlib inline

In [2]:
from sklearn import linear_model # scikit learn 패키지에서 linear_model이라는 모듈을 불러들임
import numpy as np
import pandas as pd

# matplotlib에는 사전에 정의한 많은 스타일이 있다.
# ggplot도 그 중 하나임
# R에서 사용하는 ggplot을 흉내내는 스타일을 사용하겠다고 선언
mpl.style.use('ggplot')

In [3]:
# 2차원 배열을 만들어 'data'라는 변수에 할당
data = {'x1' : [13, 18, 17, 20, 22, 21],
        'x2' : [9, 7, 17, 11, 8, 10],
        'y' : [20, 22, 30, 27, 35, 32]}
data = pd.DataFrame(data)
data

Unnamed: 0,x1,x2,y
0,13,9,20
1,18,7,22
2,17,17,30
3,20,11,27
4,22,8,35
5,21,10,32


In [4]:
X = data[['x1','x2']]
y = data['y']

In [5]:
# linear_model 모듈이 포함하고 있는 Linearregression() 함수를 'linear_regression'이라고 하는 변수에 할당
linear_regression = linear_model.LinearRegression()

# Linearregression()의 fit()이라는 함수를 이용하여 선형회귀 모델 훈련 실행
# 이 때 독립변수는 x, 종속변수는 y
linear_regression.fit(X = pd.DataFrame(X), y = y)

# 선형 회귀식의 세로축 절편 'linear_regression.intercept_'를 구하여 출력한다.
# 선형 회귀식의 기울기 'linear_regression.coef_'를 구하여 출력한다.
print('a value =', linear_regression.intercept_)
print('b value =', linear_regression.coef_)

a value = -7.359201773835938
b value = [1.5443459  0.62472284]


In [6]:
# 위에서 만들어진 선형회귀 모델을 적용하여 선형회귀 값을 구해본다.
# 그 값을 prediction에 할당한다.
prediction = linear_regression.predict(X = pd.DataFrame(X))

# 실제 y값과 예측한 y값을 비교하여 잔차(residuals)를 구한다.
residuals = y - prediction
print(residuals)

# 변수의 갯수(6개), 잔차의 평균값, 잔차의 표준편차, 최소값, 25% 값, 50% 값, 75% 값, 최대값을 출력한다.
residuals.describe()

0    1.660200
1   -2.812084
2    0.485033
3   -3.399667
4    3.385809
5    0.680710
Name: y, dtype: float64


count    6.000000e+00
mean     2.368476e-15
std      2.622371e+00
min     -3.399667e+00
25%     -1.987805e+00
50%      5.828714e-01
75%      1.415327e+00
max      3.385809e+00
Name: y, dtype: float64

In [7]:
# 잔차를 제곱하여 전체를 합침. 결과값을 SSE라는 변수에 할당
SSE = (residuals**2).sum()
print("SSE =", SSE)

# y값의 표준편차를 제곱한 것을 모두 합침. 그 결과값을 SST라는 변수에 할당
SST = ((y-y.mean())**2).sum()
print("SST =", SST)

# 결정계수 R을 구함
R_squared = 1 - (SSE/SST)
print("R_squared =", R_squared)

SSE = 34.38414634146345
SST = 169.33333333333331
R_squared = 0.796944017668523


In [8]:
# sklearn.metrics라는 패키지로부터 mean_squared_error 모듈을 불러들임
from sklearn.metrics import mean_squared_error

# 결정계수 R값을 구함
print('score =', linear_regression.score(X = pd.DataFrame(X), y = y))

# 실제값(data[y])과 회귀식 값(prediction)의 차이의 제곱을 구함
print('Mean_Squared_Error =', mean_squared_error(prediction, y))

# Mean squared error의 제곱근 값을 구함
print('RMSE =', mean_squared_error(prediction, y)**0.5)

score = 0.796944017668523
Mean_Squared_Error = 5.730691056910575
RMSE = 2.3938861829482567
