### 회귀분석

#### 단순선형회귀분석(simple linear regression)

데이터를 가장 잘 설명하는 어떤 선을 찾는다.

ex) 광고 분석과 판매량<br>
광고에 얼마를 투자하면 상품이 얼마나 팔릴까?

N : 데이터의 개수 <br> 
X : input; 데이터/feature, "광고료"<br>
Y : output; 해답/응답, "판매량"<br>
(x^i,y^i) : i번째 데이터

#### 문제 정의

데이터 : N개의 FB 광고 예산(x)과 판매량(y)<br>
목표 : 광고에 얼마를 투자했을 때 얼마나 팔릴까?


광고 예산 -> **학습된 모델** -> 판매량

**가정** : TV 광고 예산과 판매량은 **선형적** 관계를 가진다

**$Y = \beta_0X + \beta_1$**

In [2]:
# 라이브러리
import matplotlib as mpl
mpl.use("Agg")
import matplotlib.pyplot as plt
import numpy as np

# 데이터
X = [8.70153760, 3.90825773, 1.89362433, 3.28730045, 7.39333004, 2.98984649, 2.25757240, 9.84450732, 9.94589513, 5.48321616]
Y = [5.64413093, 3.75876583, 3.87233310, 4.40990425, 6.43845020, 4.02827829, 2.26105955, 7.15768995, 6.29097441, 5.19692852]

'''
beta_0과 beta_1 을 변경하면서 그래프에 표시되는 선을 확인해 봅니다.
기울기와 절편의 의미를 이해합니다.
'''

beta_0 = 1   # 기울기값 
beta_1 = 0.5 # 절편 값

plt.scatter(X, Y) # (x, y) 점을 그립니다.
plt.plot([0, 10], [beta_1, 10 * beta_0 + beta_1], c='r') # y = beta_0 * x + beta_1 에 해당하는 선을 그립니다.

plt.xlim(0, 10) # 그래프의 X축을 설정합니다.
plt.ylim(0, 10) # 그래프의 Y축을 설정합니다.


plt.savefig("test.png")

### 모델의 학습 목표

$Y = \beta_0X + \beta_1$

**아이디어** : 완벽한 예측은 불가능하다.<br>
각 데이터(X^i,Y^i)의 실제 값과 모델이 예측하는 값을 최소한으로 하자.

회귀선과 실제 데이터의 차이를 축소해야한다.

i번째 데이터 $(x^i,y^i))$에 대해 :

실제 값 : $y^i$<br>
예측 값 : $\beta_0x^i + \beta_1$<br>



### loss Function

In [17]:
import matplotlib as mpl
mpl.use("Agg")
import matplotlib.pyplot as plt
import numpy as np

# x : 실제 데이터의 x값
# y : 실제 데이터의 y값
# beta_0, beta_1 : 기울기, 절편
def loss(x, y, beta_0, beta_1):
    # 데이터의 개수 : x의 길이와 y의 길이가 동일해야 한다.
    N = len(x)

    total_loss = 0
    # 최소제곱법 구현
    for i in range(N) :
        y_i = y[i] # 현재 y(i)
        x_i = x[i] # 현재 x(i)
        # 예측값 
        y_predicted = beta_0 * x_i + beta_1
        diff = (y_i - y_predicted) ** 2
        total_loss += diff 
    return total_loss
    # numpy를 사용해서 loss_function을 만들수도 있다.
    #x = np.array(x)
    #y = np.array(y)
    #y_predicted = beta_0 * x + beta_1
    #total_loss = np.sum((y - y_predicted)**2)
    #
    '''
    x, y, beta_0, beta_1 을 이용해 loss값을 계산한 뒤 리턴합니다.
    '''
    
    return 0

X = [8.70153760, 3.90825773, 1.89362433, 3.28730045, 7.39333004, 2.98984649, 2.25757240, 9.84450732, 9.94589513, 5.48321616]
Y = [5.64413093, 3.75876583, 3.87233310, 4.40990425, 6.43845020, 4.02827829, 2.26105955, 7.15768995, 6.29097441, 5.19692852]


beta_0 = 1 # 기울기
beta_1 = 0.5 # 절편

print("Loss: %f" % loss(X, Y, beta_0, beta_1))

plt.scatter(X, Y) # (x, y) 점을 그립니다.
plt.plot([0, 10], [beta_1, 10 * beta_0 + beta_1], c='r') # y = beta_0 * x + beta_1 에 해당하는 선을 그립니다.

plt.xlim(0, 10) # 그래프의 X축을 설정합니다.
plt.ylim(0, 10) # 그래프의 Y축을 설정합니다.

Loss: 46.341726


(0, 10)