### 선형회귀
- 공부시간에 따른 성적데이터를 기반으로 선형회귀를 이해
- 경사하강법의 이해와 사용

In [None]:
# 성적 데이터 생성을 위한 라이브러리
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# 성적데이터 생성
data = pd.DataFrame([[2,20], [4,40], [8,80], [9,90]],
             index=['자영', '다이', '준용', '예진'],
             columns=['공부한시간', '성적'])
data

### 평균제곱오차가 최소가 되는 최적화
1. 수학 공식을 이용한 해석적 모델
2. 경사하강법을 이용한 모델

#### 1. 수학공식

In [None]:
# 모델 라이브러리
from sklearn.linear_model import LinearRegression

In [None]:
# 모델 객체 생성
# 별도의 하이퍼파라미터 없음
liner_model = LinearRegression()

In [None]:
# 모델 학습
# 모델명.fit(문제데이터, 답데이터)
# 문제, 답 데이터는 2차원이여야 함
liner_model.fit(data[['공부한시간']], data[['성적']])

#### 가중치와 절편 값 구하기
- y = wx + b (1개의 문제)

In [None]:
# 모델이 예측한 가중치(w), 절편(b) 확인
# y=wx+b

# w: 가중치, 기울기
display(f'기울기: {liner_model.coef_}')

# b: 절편
display(f'절편: {liner_model.intercept_}')

In [None]:
# 2차원으로 바꿔서 변환
liner_model.predict([[7]])

#### 2. 경사하강법
- 선형모델 MSE가 최소가 되는 w(가중치), b(절편)을 찾는 방법
- 점진적으로 오차가 적은 선형함수를 찾아가는 방법
- 찾고자하는 값(w,b)에 변화에 따른 비용함수(cost)값의 변환 그래프를 출력

#### 가중치 변화에 따른 MSE 변화 그래프 확인

In [None]:
def h(w, x):
    return w*x + 0

In [None]:
# 비용함수 정의
# 오차 == (예측값 - 실제값)

def cost(data, target, weight):
    # 예측
    y_pre = h(weight, data)
    # 평균제곱오차(MSE) == (오차 ** 2).mean()
    return ((y_pre - target)**2).mean()

In [None]:
# 가중치에 따른 오차값 확인
# 예측한 가중치가 10일 경우
# y = 10*X + 0
cost(data['공부한시간'], data['성적'], 10)

In [None]:
# 예측한 가중치가 5일 경우
cost(data['공부한시간'], data['성적'], 5)

In [None]:
# 예측한가중치가 15일 경우
cost(data['공부한시간'], data['성적'], 15)

In [None]:
# 가중치 변환에 따른 비용함수(MSE)의 변화를 그려보기
cost_list=[]
for i in range(-100,125,1):
    cost_list.append(cost(data['공부한시간'], data['성적'], i))

print(cost_list)

In [None]:
# 비용함수 그려보기
plt.plot(range(-100,125), cost_list)

### 확률적 경사하강법
- 사이킷런에서 구성해놓은 경사하강법을 활용한 선형회귀모델
- 경사하강법을 이용하는 모델

In [None]:
from sklearn.linear_model import SGDRegressor

In [None]:
# 1. 모델 정의
sgd_model = SGDRegressor(eta0=0.001,   # Learing rate(학습률)
                         max_iter=500, # 가중치(w, b) 업데이트 반복횟수(에포크)
                         verbose=1)    
sgd_model

In [None]:
# 2. 모델학습
sgd_model.fit(data[['공부한시간']], data['성적'])

In [None]:
# 3. 모델 예측
sgd_model.predict([[7]])

In [None]:
print('w: ', sgd_model.coef_)
print('b: ', sgd_model.intercept_)

In [None]:
sgd_model.score(data[['공부한시간']], data['성적'])