In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 회귀모델: 수학 공식을 이용한 해설 모델
from sklearn.linear_model import LinearRegression
# 가설검정을 통해서 찾는 회귀 모델: 경사하강법(w,b를 최적화)이 적용된 모델
from sklearn.linear_model import SGDRegressor

In [5]:
data = pd.DataFrame({'시간':[2,4,8,9],'성적':[20,40,80,90]}, index=['지영','종민','재호','하영'])
data

Unnamed: 0,시간,성적
지영,2,20
종민,4,40
재호,8,80
하영,9,90


In [15]:
import warnings
warnings.filterwarnings(action='ignore')

In [17]:
# y=wx+b
# y=10x+0

linear_model = LinearRegression()
# fit_intercept=True * intercept: bias, 편향
# --연산된 결과를 그대로 따를 수 밖에 없음, 과적합 제어가 어려운 모델
# --데이터 측면에서 추가,수정,삭제하는 과정이 복잡하게 들어갈 수 있음: 특성공학
X = data[['시간']] # 문제 데이터는 2차원으로 넣어줘야 함 : train
y = data['성적']   # 답 데이터는 1차원으로 넣는 것이 일반 : test
print(X.shape, y.shape)

linear_model.fit(X,y)
linear_model.predict([[3]])  # 예측 및 평가

(4, 1) (4,)


array([30.])

In [19]:
# 모델 가중치 coefficient: 계수
linear_model.coef_

array([10.])

In [21]:
# intercept : y절편
linear_model.intercept_

7.105427357601002e-15

- 7.105e-1 >> 0.7105
- 값이 클 경우, 매우 작은 경우 지수표기법으로 변환하여 기억
- linear_model: y=10x+0
- -- 수학적 공식에 의해서 최적 w,b값을 찾아준 것

### 2. 여러번 선형함수를(가설을) 세워서 오차를 계산하고, 최적의 w,b를 찾아 모델을 완성하는 방법
- SGDRegressor

In [33]:
# 객체 생성
# loss(손실함수) == cost(비용함수) : 모델이 오차가 적게 발생하는지 크게 발생하는지 계산 공식
# 오차가 적게 발생해야 좋음. 오차를 계산하고 좋은(최적의) 모델이라고 판단
# 오차가 적게 발생하는 w,b를 잘 찾았는가?
# 최초로 랜덤하게 pc가 설정함 > w,b 갱신(초기화): 경사하강법(반복적) > 최종적으로 오차가 적어졌을때 학습 중단되며 마무리
# 반복횟수는 사람이 설정
sgd_model = SGDRegressor(max_iter=5000, # 가중치를 업데이트 하는 반복 수
                         eta0=0.01, verbose=1)     # eta0: w,b를 갱신하는 폭/크기(학습률), verbose:학습과정 출력 1/0
# 학습
sgd_model.fit(X,y)
# 500번까지 학습하지 않음 > 어느정도 실행하면서 최적의 w,b를 찾으면 학습 중단

-- Epoch 1
Norm: 8.14, NNZs: 1, Bias: 1.288074, T: 4, Avg. loss: 922.469066
Total training time: 0.00 seconds.
-- Epoch 2
Norm: 9.36, NNZs: 1, Bias: 1.466498, T: 8, Avg. loss: 32.132024
Total training time: 0.00 seconds.
-- Epoch 3
Norm: 9.67, NNZs: 1, Bias: 1.504681, T: 12, Avg. loss: 2.538161
Total training time: 0.00 seconds.
-- Epoch 4
Norm: 9.76, NNZs: 1, Bias: 1.511720, T: 16, Avg. loss: 0.451507
Total training time: 0.00 seconds.
-- Epoch 5
Norm: 9.79, NNZs: 1, Bias: 1.510157, T: 20, Avg. loss: 0.260669
Total training time: 0.00 seconds.
-- Epoch 6
Norm: 9.80, NNZs: 1, Bias: 1.506090, T: 24, Avg. loss: 0.240301
Total training time: 0.00 seconds.
-- Epoch 7
Norm: 9.80, NNZs: 1, Bias: 1.501249, T: 28, Avg. loss: 0.238401
Total training time: 0.00 seconds.
-- Epoch 8
Norm: 9.81, NNZs: 1, Bias: 1.496290, T: 32, Avg. loss: 0.236426
Total training time: 0.00 seconds.
-- Epoch 9
Norm: 9.81, NNZs: 1, Bias: 1.491340, T: 36, Avg. loss: 0.235276
Total training time: 0.00 seconds.
-- Epoch 

In [46]:
# 예측 및 평가
print(sgd_model.predict([[3]]))
# 약간의 오차는 허용암
# w,b를 잘 생성했는가? 현재 sgd를 통해서 만들어진 선형의 모양은?
# y=wx+b
print(sgd_model.coef_)
print(sgd_model.intercept_)

[30.80230062]
[9.82170043]
[1.33719934]


- 일반화 모델을 찾는 것이 목표