## 1. Simple Linear Regression w/ Python

1) Linear Regression을 실행하기 위한 package 불러오기

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression
#선형 및 다항 회귀 수행, 예측하는 데 사용

2) Data 정의
 - X, y를 수동으로 정의하여 데이터 생성
 - numpy는 각 값이 배열을 이루어 데이터를 형성하도록 하기 위한 library임

In [None]:
x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
# ex)reshape((-1,n)), -1은 n이라는 정수개의 열차원에 따라 행을 가변적으로 가져가도록 할 수 있음
y = np.array([5, 20, 14, 32, 22, 38])

In [None]:
print(y)

In [None]:
print(x)

3) 선형회귀모델 만들기

In [None]:
# model이라는 인스턴스에 선형 회귀모델을 정의 
model = LinearRegression()

In [None]:
#x, y 데이터를 선형회귀모델에 적합시킴
model.fit(x, y)

In [None]:
# 위 두 줄 코드를 하나로 표현
model = LinearRegression().fit(x, y)

4) 모델 학습의 정도 확인
 - 모델이 해당 data에 fitting이 잘 되었는지 확인 필요
 - R^2 값을 확인
 - y = b0 + b1x 선형 방정식의 결정 계수를 찾아냄 

In [None]:
#R square 
r_sq = model.score(x, y)
print('coefficient of determination:', r_sq)

#scalar bo
print('intercept:', model.intercept_)

#x 계수 b1
print('slope:', model.coef_)

 - 각 x데이터에 대응하는 y 결과 값 예측

In [None]:
print('actual value:', y, sep='\n')

In [None]:
y_pred1 = model.predict(x)
print('predicted response:', y_pred1, sep='\n')

<b>y = 5.63333 + 0.54*x</b>

In [None]:
y_pred2 = model.intercept_ + model.coef_ * x
print('predicted response:', y_pred2, sep='\n')

In [None]:
import matplotlib.pyplot as plt

plt.scatter(y,y_pred1)
plt.xlabel('Actual values')
plt.ylabel('Predicted values')

plt.plot(np.unique(y), np.poly1d(np.polyfit(y, y_pred1, 1))(np.unique(y)), '--r')

plt.text(0.6, 0.5, 'R-squared = %0.2f' % r_sq)
plt.show()

 -- 학습된 예측모델과 실제 값 plot

5) 새로운 input x에 대한 y 값 예측

In [None]:
#새로운 x데이터 생성
#x = np.array([a, b, c, d, e]).reshape((-1, 1))
x_new = np.arange(5).reshape((-1, 1))
print(x_new)

In [None]:
#y_pred_new = x_new에 대한 예측 값
y_pred_new = model.predict(x_new)
print(y_pred_new)

### ▷ 아래 제시된 데이터를 이용하여 예측모델을 생성하고 <b>1)학습 모델의 R_square</b>, <b>2)회귀 모델의 함수식</b>, <b>3)test_data의 예측값 pred_y_2</b>를 도출 해보세요.<br>(※ 데이터는 각각 X, Y에 numpy를 사용하여 수동입력) 

In [None]:
import pandas as pd

raw_data = {'height': [156, 210, 188, 162, 148, 176, 120],
            'foot_size': [230, 300, 280, 235, 225, 260, 205]}
data = pd.DataFrame(raw_data)
data

In [None]:
test_raw = {'height': [135, 208, 177, 160, 172, 185, 190]}
test_data = pd.DataFrame(test_raw)
test_data

# 2. scikit-learn을 사용한 다중 선형 회귀

1) package 및 데이터 가져오기

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression

In [None]:
# 두개의 변수를 input으로 1개의 값을 output으로 하는 선형회귀모델을 학습한다.
# 예: input(키, 몸무게), output(발사이즈)
x = [[0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]]
y = [4, 5, 20, 14, 32, 22, 38, 43]
x, y = np.array(x), np.array(y)

In [None]:
data2 = {'x1': [0, 5, 15, 25, 35, 45, 55, 60],
         'x2': [1,  1,  2,  5, 11, 15, 34, 35],
            'y': [4, 5, 20, 14, 32, 22, 38, 43]}
data2 = pd.DataFrame(data2)
data2

2) 다중 선형회귀모델 fitting

In [None]:
model = LinearRegression().fit(x, y)

3) 모델 학습의 정도 확인

In [None]:
r_sq = model.score(x, y)
print("'y = b0 + b1x1 + b2x2'")
print('coefficient of determination:', r_sq)
print('intercept: b0 =', model.intercept_)
print('slope: b1, b2 =', model.coef_)

 - 각 x데이터에 대응하는 y 결과 값 예측

In [None]:
y_pred = model.predict(x)
print('predicted response:', y_pred, sep='\n')

In [None]:
y_pred = model.intercept_ + np.sum(model.coef_ * x, axis=1)
print('predicted response:', y_pred, sep='\n')

4) 새로운 input x에 대한 y 값 예측

In [None]:
x_new = np.arange(10).reshape((-1, 2))
print(x_new)

In [None]:
y_pred_new = model.predict(x_new)
print(y_pred_new)

# Linear Regression w/ OLS 

1) package 및 데이터 가져오기

In [None]:
# 실행 전 statsmodels installation_ pip install statsmodels
# Anaconda : conda install -c conda-forge statsmodels
import numpy as np
import statsmodels.api as sm

In [None]:
#statsmodels은 Python에서 다양한 통계분석 기능을 제공. 
#본 단원에서 OLS(Ordinary Least Square)를 실행하기 위한 lib 

In [None]:
x = [[0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]]
y = [4, 5, 20, 14, 32, 22, 38, 43]

In [None]:
x = np.array(x)
y = np.array(y)

In [None]:
# 입력변수 x에 대해 b0 상수 생성
#x = sm.add_constant(x)

2) Ordinary Least Square를 이용해 y = b0 + b1x1 + b2x2를 가장 잘 설명하는 회귀계수(b0, b1, b2)를 알아보자.
 - constant 미 생성시  

In [None]:
model = sm.OLS(y, x)
result = model.fit()

In [None]:
print(result.summary())

y_pred = result.predict(x)

 - 귀무가설 : 모회귀계수는 0이다. <br>
 - 대립가설 : 모회귀계수는 0이 아니다.<br>
   회귀계수가 유의하면 " 독립변수의 값이 한 단위 변화할 때마다 종속변수의 값은 평균적으로 회귀계수만큼 변화한다 "고 해석

 - Adj. R-squared

  독립변수가 여러 개인 다중회귀분석에서 사용<br>
  독립변수의 개수와 표본의 크기를 고려하여 R-squared를 보정<br>
  서로 다른 모형을 비교할 때는 이 지표가 높은 쪽은 선택<br>
  
 - Coef는 데이터로부터 얻은 계수의 추정치

 - constant 생성 후 OLS 회귀계수 결과

In [None]:
# 입력변수 x에 대해 b0 상수 생성
x = sm.add_constant(x)

In [None]:
model_cons = sm.OLS(y, x)
result_cons = model_cons.fit()

In [None]:
print(result_cons.summary())

3) 모델의 설명력이 만족스러운 경우 새로운 x데이터를 이용하여 예측 실행

In [None]:
x_new = [[3, 7], [8, 5], [10, 9], [42, 10], [55, 16], [61, 21], [77, 30], [88, 40]]

In [None]:
x_new = sm.add_constant(x_new)

In [None]:
y_pred = result_cons.predict(x_new)
y_pred

In [None]:
x = [[0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]]
y = [4, 5, 20, 14, 32, 22, 38, 43]

In [None]:
model_LR = LinearRegression().fit(x, y)

In [None]:
x_new = [[3, 7], [8, 5], [10, 9], [42, 10], [55, 16], [61, 21], [77, 30], [88, 40]]

In [None]:
y_pred_LR = model_LR.predict(x_new)
y_pred_LR