## 다중 회귀 분석

### Advertising dataset

* Sales=β 
0
​
 X 
1
​
 +β 
1
​
 X 
2
​
 +β 
2
​
 X 
3
​
 +β 
3
​
*  X1 
​
  은 페이스북, X2​
  는 TV, X3
​
  은 신문 광고를 의미

In [2]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
'''
X는 (200, 3) 의 shape을 가진 2차원 np.array,
Y는 (200,) 의 shape을 가진 1차원 np.array여야 한다.

X는 FB, TV, Newspaper column 에 해당하는 데이터를 저장해야 한다.
Y는 Sales column 에 해당하는 데이터를 저장해야 한다.
'''

import csv
csvreader = csv.reader(open("Advertising.csv"))

x = []
y = []

# 헤더 건너뛰기
next(csvreader)
for line in csvreader :
    x_i = [ float(line[1]), float(line[2]), float(line[3]) ]
    y_i = float(line[4])
    x.append(x_i)
    y.append(y_i)

X = np.array(x)
Y = np.array(y)

# print(X)
# print(X.shape)
# print(Y)

lrmodel = LinearRegression()
lrmodel.fit(X, Y)

# coef (기울기)
beta_0 = lrmodel.coef_[0] # 0번째 변수에 대한 계수 (페이스북)
beta_1 = lrmodel.coef_[1] # 1번째 변수에 대한 계수 (TV)
beta_2 = lrmodel.coef_[2] # 2번째 변수에 대한 계수 (신문)
beta_3 = lrmodel.intercept_ # y절편 (기본 판매량)

print("beta_0: %f" % beta_0)
print("beta_1: %f" % beta_1)
print("beta_2: %f" % beta_2)
print("beta_3: %f" % beta_3)

def expected_sales(fb, tv, newspaper, beta_0, beta_1, beta_2, beta_3):
    '''
    FB에 fb만큼, TV에 tv만큼, Newspaper에 newspaper 만큼의 광고비를 사용했고,
    트레이닝된 모델의 weight 들이 beta_0, beta_1, beta_2, beta_3 일 때
    예상되는 Sales 의 양을 출력한다.
    '''
    sales = beta_0 * fb + beta_1 * tv + beta_2 * newspaper + beta_3

    return sales

print("예상 판매량: %f" % expected_sales(10, 12, 3, beta_0, beta_1, beta_2, beta_3))

beta_0: 0.045765
beta_1: 0.188530
beta_2: -0.001037
beta_3: 2.938889
예상 판매량: 5.655784


### boston_dataset

In [4]:
import matplotlib.pyplot as plt

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# boston 데이터를 위한 모듈을 불러옵니다. 
from sklearn.datasets import load_boston

"""
1. boston 데이터를 불러오기
   동일한 결과 확인을 위하여 random_state를 100으로 설정
"""
def load_data():
    
    X, y  = load_boston(return_X_y = True)
     
    print("데이터의 입력값(X)의 개수 :", X.shape[1])
    
    train_X, test_X, train_y, test_y =  train_test_split(X, y, test_size=0.2, random_state=100)
    
    return train_X, test_X, train_y, test_y
    
"""
2. 다중 선형회귀 모델
"""
def Multi_Regression(train_X,train_y):
    
    multilinear = LinearRegression()
    
    multilinear.fit(train_X,train_y)
    
    return multilinear
    
"""
3. 모델 학습 및 예측 결과 확인
"""
def main():
    
    train_X, test_X, train_y, test_y = load_data()
    
    multilinear = Multi_Regression(train_X,train_y)
    
    predicted = multilinear.predict(test_X)
    
    model_score = multilinear.score(test_X, test_y)
    
    '''
    simplelinear = regression_model(train_X, train_y)
    
    predicted = simplelinear.predict(test_X)
    
    model_score = simplelinear.score(test_X, test_y)
    
    beta_0 = simplelinear.intercept_
    beta_1 = simplelinear.coef_
    
    '''
    
    print("\n> 모델 평가 점수 :", model_score)
     
    beta_0 = multilinear.intercept_
    beta_i_list = multilinear.coef_
    
    print("\n> beta_0 : ",beta_0)
    print("> beta_i_list : ",beta_i_list)
    
    return predicted, beta_0, beta_i_list, model_score
    
if __name__ == "__main__":
    main()

데이터의 입력값(X)의 개수 : 13

> 모델 평가 점수 : 0.7555033086871306

> beta_0 :  36.33377028550794
> beta_i_list :  [-8.14896492e-02  4.80407782e-02 -5.47150249e-03  3.06260576e+00
 -1.61368815e+01  3.67245067e+00 -8.51525259e-03 -1.51740854e+00
  2.87271007e-01 -1.21207598e-02 -9.24160757e-01  9.53460812e-03
 -4.85895548e-01]
