In [None]:
import matplotlib as mpl
mpl.use("Agg")
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression

import elice_utils
eu = elice_utils.EliceUtils()

def loss(x, y, beta_0, beta_1):
    N = len(x)
    loss = 0
    '''
    이전 실습에서 구현한 loss function을 여기에 붙여넣습니다.
    '''
    for i in range(N):
        loss += (y[i] - (beta_0 * x[i] + beta_1))**2
    return loss
    
X = [8.70153760, 3.90825773, 1.89362433, 3.28730045, 7.39333004, 2.98984649, 2.25757240, 9.84450732, 9.94589513, 5.48321616]
Y = [5.64413093, 3.75876583, 3.87233310, 4.40990425, 6.43845020, 4.02827829, 2.26105955, 7.15768995, 6.29097441, 5.19692852]

train_X = np.array(X).reshape(-1, 1) # 길이 10인 1차원 리스트 X 를 10×1 형태의 np.array로 변경
train_Y = np.array(Y) # 종속변수 Y는 독립변수 X에 대한 값이므로 reshape(-1, 1)을 할 필요가 없다.

'''
여기에서 모델을 트레이닝합니다.
'''
lrmodel = LinearRegression()
lrmodel.fit(train_X, train_Y)

'''
loss가 최소가 되는 직선의 기울기와 절편을 계산함
'''
beta_0 = lrmodel.coef_[0]   # lrmodel로 구한 직선의 기울기
beta_1 = lrmodel.intercept_ # lrmodel로 구한 직선의 y절편

print("beta_0: %f" % beta_0)
print("beta_1: %f" % beta_1)
print("Loss: %f" % loss(X, Y, beta_0, beta_1))

plt.scatter(X, Y) # (x, y) 점을 그립니다.
plt.plot([0, 10], [beta_1, 10 * beta_0 + beta_1], c='r') # y = beta_0 * x + beta_1 에 해당하는 선을 그립니다.

plt.xlim(0, 10) # 그래프의 X축을 설정합니다.
plt.ylim(0, 10) # 그래프의 Y축을 설정합니다.
plt.savefig("test.png") # 저장
eu.send_image("test.png")

### 다중회귀분석

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# ./data/Advertising.csv 에 위치한 파일로부터 데이터를 읽어 X와 Y를 만듭니다.
import csv
csvreader = csv.reader(open("data/Advertising.csv"))


# X는 (200, 3) shape을 가진 2차원 np.array로 , TV, Newspaper Column에 해당하는 데이터를 저장합니다. 
# Y는 (200,) 의 shape을 가진 1차원 np.array로 Sales Column에 해당하는 데이터를 저장합니다.
x = []
y = []

next(csvreader)
for line in csvreader :
    x_i = [ float(line[1]), float(line[2]), float(line[3]) ] # 'FB', 'TV', 'Newspaper'
    y_i = float(line[4]) # Sales
    x.append(x_i)
    y.append(y_i)

X = np.array(x)
Y = np.array(y)

print(X.shape)
print(Y.shape)

# Scikit-learn 라이브러리를 이용해 다중 선형 회귀 분석을 진행
lrmodel = LinearRegression()
lrmodel.fit(X, Y)

beta_0 = lrmodel.coef_[0] # 0번째 변수에 대한 계수 (페이스북), 기울기
beta_1 = lrmodel.coef_[1] # 1번째 변수에 대한 계수 (TV), 기울기
beta_2 = lrmodel.coef_[2] # 2번째 변수에 대한 계수 (신문), 기울기
beta_3 = lrmodel.intercept_ # y절편 (기본 판매량)

print("beta_0: %f" % beta_0)
print("beta_1: %f" % beta_1)
print("beta_2: %f" % beta_2)
print("beta_3: %f" % beta_3)


def expected_sales(fb, tv, newspaper, beta_0, beta_1, beta_2, beta_3):
    '''
    학습된 모델을 이용해 FB, TV, Newspaper의 값에 따라 예상되는 Sales 값을 expected_sales 에 작성
    FB에 fb만큼, TV에 tv만큼, Newspaper에 newspaper 만큼의 광고비를 사용했고,
    트레이닝된 모델의 weight 들이 beta_0, beta_1, beta_2, beta_3 일 때
    예상되는 Sales 의 양을 출력
    '''
    sales = beta_0 * fb + beta_1 * tv + beta_2 * newspaper + beta_3
    return sales

print("예상 판매량: %f" % expected_sales(10, 12, 3, beta_0, beta_1, beta_2, beta_3))

## 숙제 - 다항식 회귀분석

#### [⏩ 영상 바로가기](#video-00:30:55-00:35:52)

다항식 회귀분석(Polynomial Linear Regression)은 다항식 회귀분석과 원리가 같습니다. 
다만 데이터에 전처리를 함으로써 새로운 변수 간의 조합을 만들어낸 뒤 회귀분석을 진행하는 것이 차이입니다.

다항식 회귀분석을 통해 MSE(Mean Squared Error) 값을 원하는 수준까지 맞춰보겠습니다. 

### Overfitting

데이터는 크게 트레이닝(training)과 테스트(Test) 세트로 나누어집니다. 트레이닝 데이터는 모델을 학습할 때, 테스트 데이터는 학습한 모델을 평가할 때 사용됩니다.

모델을 복잡하게 만들면 트레이닝 데이터에서 정확도를 높힐 수 있지만 동일한 모델을 테스트 데이터에 적용하면 과적합(Overfitting) 현상이 일어나게 됩니다.
## 숙제 시작하기

1. [[실습 4]](https://academy.elice.io/courses/257/lectures/1898/materials/2)와 동일한 방법으로 데이터를 불러오세요.

1. 주어진 코드를 살펴보세요. 스켈레톤 코드는 다음 모델을 구현한 것입니다.

    $Sales = \beta_0 X_1^2 + \beta_1 X_2 + \beta_2 X_2 X_3 + \beta_3 X_3 + \beta_4$

1. 주어진 모델에서 변수의 조합을 더하거나 빼면서 MSE의 값을 최대한 낮춰보세요.

1. 테스트 데이터에서의 MSE를 1 미만으로 만들어보세요. 모델을 복잡하게 만들 경우 과적합이 일어나는 점을 주의하세요. 

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
import csv
csvreader = csv.reader(open("data/Advertising.csv"))

next(csvreader)

X = []
Y = []

for line in csvreader :
    x_i = [ float(line[1]), float(line[2]), float(line[3]) ]
    y_i = float(line[4])
    X.append(x_i)



    Y.append(y_i)
    
X = np.array(X)
Y = np.array(Y)




X_poly = []
for x_i in X:	    # X_poly 변수를 구성하는 부분으로서, 구성하는 방법은 자유임.
    X_poly.append([
        x_i[0] ** 3,
        x_i[1] ** 3,
        x_i[2] ** 3,
        x_i[0] ** 2,
        x_i[1] ** 2,
        x_i[2] ** 2,
        x_i[0] * x_i[1],
        x_i[1] * x_i[2],
        x_i[2] * x_i[0],
        x_i[0],
        x_i[1],
        x_i[2]
    ])

x_train, x_test, y_train, y_test = train_test_split(X_poly, Y, test_size=0.2,random_state=420)

lrmodel = LinearRegression()
lrmodel.fit(x_train, y_train)

predicted_y_train = lrmodel.predict(x_train)
mse_train = mean_squared_error(y_train, predicted_y_train)
print("MSE on train data: {}".format(mse_train))

predicted_y_test = lrmodel.predict(x_test)
mse_test = mean_squared_error(y_test, predicted_y_test)
print("MSE on test data: {}".format(mse_test))