### 회귀분석

#### 단순선형회귀분석(simple linear regression)

데이터를 가장 잘 설명하는 어떤 선을 찾는다.

ex) 광고 분석과 판매량<br>
광고에 얼마를 투자하면 상품이 얼마나 팔릴까?

|fb(x1)|판매량(y)|
|-----|----|
|10.4|22.1|
|....|...|

N : 데이터의 개수 <br> 
X : input; 데이터/feature, "광고료"<br>
Y : output; 해답/응답, "판매량"<br>
(x^i,y^i) : i번째 데이터

#### 문제 정의

데이터 : N개의 FB 광고 예산(x)과 판매량(y)<br>
목표 : 광고에 얼마를 투자했을 때 얼마나 팔릴까?


광고 예산 -> **학습된 모델** -> 판매량

**가정** : TV 광고 예산과 판매량은 **선형적** 관계를 가진다

**$Y = \beta_0X + \beta_1$**

In [2]:
# 라이브러리
import matplotlib as mpl
mpl.use("Agg")
import matplotlib.pyplot as plt
import numpy as np

# 데이터
X = [8.70153760, 3.90825773, 1.89362433, 3.28730045, 7.39333004, 2.98984649, 2.25757240, 9.84450732, 9.94589513, 5.48321616]
Y = [5.64413093, 3.75876583, 3.87233310, 4.40990425, 6.43845020, 4.02827829, 2.26105955, 7.15768995, 6.29097441, 5.19692852]

'''
beta_0과 beta_1 을 변경하면서 그래프에 표시되는 선을 확인해 봅니다.
기울기와 절편의 의미를 이해합니다.
'''

beta_0 = 1   # 기울기값 
beta_1 = 0.5 # 절편 값

plt.scatter(X, Y) # (x, y) 점을 그립니다.
plt.plot([0, 10], [beta_1, 10 * beta_0 + beta_1], c='r') # y = beta_0 * x + beta_1 에 해당하는 선을 그립니다.

plt.xlim(0, 10) # 그래프의 X축을 설정합니다.
plt.ylim(0, 10) # 그래프의 Y축을 설정합니다.


plt.savefig("test.png")

### 모델의 학습 목표

$Y = \beta_0X + \beta_1$

**아이디어** : 완벽한 예측은 불가능하다.<br>
각 데이터(X^i,Y^i)의 실제 값과 모델이 예측하는 값을 최소한으로 하자.

회귀선과 실제 데이터의 차이를 축소해야한다.

i번째 데이터 $(x^i,y^i))$에 대해 :

실제 값 : $y^i$<br>
예측 값 : $\beta_0x^i + \beta_1$<br>



### loss Function 

In [17]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

# x : 실제 데이터의 x값
# y : 실제 데이터의 y값
# beta_0, beta_1 : 기울기, 절편
def loss(x, y, beta_0, beta_1):
    # 데이터의 개수 : x의 길이와 y의 길이가 동일해야 한다.
    N = len(x)

    total_loss = 0
    # loss_function 구현
    for i in range(N) :
        y_i = y[i] # 현재 y(i)
        x_i = x[i] # 현재 x(i)
        # 예측값 
        y_predicted = beta_0 * x_i + beta_1
        diff = (y_i - y_predicted) ** 2
        total_loss += diff 
    return total_loss
    # numpy를 사용해서 loss_function을 만들수도 있다.
    #x = np.array(x)
    #y = np.array(y)
    #y_predicted = beta_0 * x + beta_1
    #total_loss = np.sum((y - y_predicted)**2)
    #
    '''
    x, y, beta_0, beta_1 을 이용해 loss값을 계산한 뒤 리턴합니다.
    '''
    
    return 0

X = [8.70153760, 3.90825773, 1.89362433, 3.28730045, 7.39333004, 2.98984649, 2.25757240, 9.84450732, 9.94589513, 5.48321616]
Y = [5.64413093, 3.75876583, 3.87233310, 4.40990425, 6.43845020, 4.02827829, 2.26105955, 7.15768995, 6.29097441, 5.19692852]


beta_0 = 1 # 기울기
beta_1 = 0.5 # 절편

print("Loss: %f" % loss(X, Y, beta_0, beta_1))

plt.scatter(X, Y) # (x, y) 점을 그립니다.
plt.plot([0, 10], [beta_1, 10 * beta_0 + beta_1], c='r') # y = beta_0 * x + beta_1 에 해당하는 선을 그립니다.

plt.xlim(0, 10) # 그래프의 X축을 설정합니다.
plt.ylim(0, 10) # 그래프의 Y축을 설정합니다.

Loss: 46.341726


(0, 10)

**loss function** : 가중치에 따라 오차가 얼마나 커지거나 작아지는지를 평가한다.

In [4]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression



def loss(x, y, beta_0, beta_1):
    N = len(x)
    total_loss = 0
    # loss_function 구현
    for i in range(N) :
        y_i = y[i] # 현재 y(i)
        x_i = x[i] # 현재 x(i)
        # 예측값 
        y_predicted = beta_0 * x_i + beta_1
        diff = (y_i - y_predicted) ** 2
        total_loss += diff 
    return total_loss
    '''
    이전 실습에서 구현한 loss function을 여기에 붙여넣습니다.
    '''
    
    return 0
    
X = [8.70153760, 3.90825773, 1.89362433, 3.28730045, 7.39333004, 2.98984649, 2.25757240, 9.84450732, 9.94589513, 5.48321616]
Y = [5.64413093, 3.75876583, 3.87233310, 4.40990425, 6.43845020, 4.02827829, 2.26105955, 7.15768995, 6.29097441, 5.19692852]

# -1을 reshape에 넣을 시 "남은 차원으로부터 ~~하게 추정된다" 라는 의미로 사용된다.
# X는 하나의 종속변수 Y에 대한 여러 값을 가지므로 reshape(-1,1)을 적용하여 열벡터로 만든다.
train_X = np.array(X).reshape(-1,1)

# Y는 독립변수 x에 관한 값이므로 array형식으로 바꿔주기만 한다.
train_Y = np.array(Y)


'''
여기에서 모델을 트레이닝합니다.
'''
lrmodel = LinearRegression()
lrmodel.fit(train_X, train_Y)

'''
loss가 최소가 되는 직선의 기울기와 절편을 계산함
'''
beta_0 = lrmodel.coef_[0]   # lrmodel로 구한 직선의 기울기
beta_1 = lrmodel.intercept_ # lrmodel로 구한 직선의 y절편

print("beta_0: %f" % beta_0)
print("beta_1: %f" % beta_1)
print("Loss: %f" % loss(X, Y, beta_0, beta_1))

plt.scatter(X, Y) # (x, y) 점을 그립니다.
plt.plot([0, 10], [beta_1, 10 * beta_0 + beta_1], c='r') # y = beta_0 * x + beta_1 에 해당하는 선을 그립니다.

plt.xlim(0, 10) # 그래프의 X축을 설정합니다.
plt.ylim(0, 10) # 그래프의 Y축을 설정합니다.
plt.savefig("test.png")


beta_0: 0.430781
beta_1: 2.506181
Loss: 3.721640


### 다중선형회귀

facebook 광고뿐만 아니라 TV및 신문 광고도 하기로 결정했다.<br>
각 매체가 얼마나 효율적인지 알아내야 한다.


|fb(x1)|tv(x2)|신문(x3)|판매량(Y)|
|--|--|--|--|
|230.1|37.8|69.2|22.1|
|44.5|39.3|45.1|10.4|
|...|...|...|...|

fb에 44.5만원, tv에 39.3만원 신문에 45.1만원을 집행했을 때 10,400건의 판매를 기록했다.

문제 : fb에 30만원, tv에 100만원, 신문에 50만원을 광고비에 집행했을 때 예상 판매량은 얼마인가?

N : 데이터의 개수<Br>
X : "Input"데이터/ Feature(광고료)<Br>
- $X_1$ : FB광고료 <br>
- $X_2$ : TV광고료 <br>
- $X_3$ : 신문 광고료<br>

Y : "OUTPUT"해답/응답(판매량)

데이터 : N개의 FB,TV,신문 광고 예산과 판매량

목표 : FB,TV,신문에 각각 얼마씩을 투자했을 때 얼마나 팔릴까

가정 : 판매량은 FB,TV,신문 광고료와 선형적 관계

$Y = \beta_0X_1+\beta_1X_2+\beta_2X_3+\beta_3$

**loss funcion** =  (실제값 - 모델이 예측한값)^2을 모두 더한 값<br>
->이 차이를 최소로 하는 $\beta_0+\beta_1+\beta_2+\beta_3$을 구하자

In [18]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

'''
./data/Advertising.csv 에서 데이터를 읽어, X와 Y를 만듭니다.

X는 (200, 3) 의 shape을 가진 2차원 np.array,
Y는 (200,) 의 shape을 가진 1차원 np.array여야 합니다.

X는 FB, TV, Newspaper column 에 해당하는 데이터를 저장해야 합니다.
Y는 Sales column 에 해당하는 데이터를 저장해야 합니다.
'''

# csv 파일 읽어올때 사용.
import csv
# 파일 불러오기
csvreader = csv.reader(open("D:\Portfolio\AI College\chapter 5\Advertising.csv"))
print(csvreader)
# x와 y를 초기화
x = []
y = []

# header 건너뛰기
next(csvreader)

# x와 y의 변수 추가
for line in csvreader :
    x_i = [ float(line[1]), float(line[2]), float(line[3]) ]
    y_i = float(line[4])
    x.append(x_i)
    y.append(y_i)

# X는 3개의 컬럼을 가진 array가 생성됨.
X = np.array(x)
Y = np.array(y)

# 모델 설정
lrmodel = LinearRegression()
lrmodel.fit(X, Y)

beta_0 = lrmodel.coef_[0] # 0번째 변수에 대한 계수 = 기울기 (페이스북)
beta_1 = lrmodel.coef_[1] # 1번째 변수에 대한 계수 = 기울기 (TV)
beta_2 = lrmodel.coef_[2] # 2번째 변수에 대한 계수 = 기울기 (신문)
beta_3 = lrmodel.intercept_ # y절편 (기본 판매량)

print("beta_0: %f" % beta_0)
print("beta_1: %f" % beta_1)
print("beta_2: %f" % beta_2)
print("beta_3: %f" % beta_3)

def expected_sales(fb, tv, newspaper, beta_0, beta_1, beta_2, beta_3):
    '''
    FB에 fb만큼, TV에 tv만큼, Newspaper에 newspaper 만큼의 광고비를 사용했고,
    트레이닝된 모델의 weight 들이 beta_0, beta_1, beta_2, beta_3 일 때
    예상되는 Sales 의 양을 출력합니다.
    '''
    sales = beta_0 * fb + beta_1* tv + beta_2 * newspaper + beta_3
    
    return sales

print("예상 판매량: %f" % expected_sales(12, 100, 3, beta_0, beta_1, beta_2, beta_3))

<_csv.reader object at 0x000001F7C1C146C8>
beta_0: 0.045765
beta_1: 0.188530
beta_2: -0.001037
beta_3: 2.938889
예상 판매량: 22.337954


beta_0: 0.045765<br>
beta_1: 0.188530<br>
beta_2: -0.001037<br>
beta_3: 2.938889

일 경우 광고 비를 1만큼 썼을때 FB는 0.045만큼 늘어나고 tv는 0.188만큼, 신문 광고는 -0.001이 줄어든다.

기본 적으로 먹고가는 판매량은 2.93이다.

### 다항식 회귀분석

단순한 선형회귀법은 데이터를 잘 설명하지 못한다.



In [106]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

'''
./data/Advertising.csv 에서 데이터를 읽어, X와 Y를 만듭니다.

X는 (200, 3) 의 shape을 가진 2차원 np.array,
Y는 (200,) 의 shape을 가진 1차원 np.array여야 합니다.

X는 FB, TV, Newspaper column 에 해당하는 데이터를 저장해야 합니다.
Y는 Sales column 에 해당하는 데이터를 저장해야 합니다.

'''
import csv
# 파일 불러오기
csvreader = csv.reader(open("D:\Portfolio\AI College\chapter 5\Advertising.csv"))
print(csvreader)
# x와 y를 초기화
x = []
y = []

# header 건너뛰기
next(csvreader)

for line in csvreader :
    x_i = [ float(line[1]), float(line[2]), float(line[3]) ]
    y_i = float(line[4])
    x.append(x_i)
    y.append(y_i)

# X는 3개의 컬럼을 가진 array가 생성됨.
X = np.array(x)
Y = np.array(y)


# 다항식 회귀분석을 진행하기 위해 변수들을 조합합니다.
X_poly = []
for x_i in X:
    X_poly.append([
        x_i[0] ** 2, # X_1^2
        x_i[1], # X_2
        x_i[1] * x_i[2], # X_2 * X_3
        x_i[2] # X_3
    ])
    
    
X = np.array(X_poly)




# X, Y를 80:20으로 나눕니다. 80%는 트레이닝 데이터, 20%는 테스트 데이터입니다.
x_train, x_test, y_train, y_test = train_test_split(X_poly, Y, test_size=0.2, random_state=0)

# x_train, y_train에 대해 다항식 회귀분석을 진행합니다.
lrmodel = LinearRegression()
lrmodel.fit(x_train, y_train)

#x_train에 대해, 만든 회귀모델의 예측값을 구하고, 이 값과 y_train 의 차이를 이용해 MSE를 구합니다.
predicted_y_train = lrmodel.predict(x_train)
mse_train = mean_squared_error(y_train, predicted_y_train)
print("MSE on train data: {}".format(mse_train))

# x_test에 대해, 만든 회귀모델의 예측값을 구하고, 이 값과 y_test 의 차이를 이용해 MSE를 구합니다. 이 값이 1 미만이 되도록 모델을 구성해 봅니다.
predicted_y_test = lrmodel.predict(x_test)
mse_test = mean_squared_error(y_test, predicted_y_test)
print("MSE on test data: {}".format(mse_test))

<_csv.reader object at 0x000001F7C3EF8A08>
MSE on train data: 4.589288715884171
MSE on test data: 7.356365735074993
