## 다중회귀


In [1]:
import pandas as pd
df = pd.read_csv('https://bit.ly/perch_csv_data')
perch_full = df.to_numpy()
print(perch_full)

[[ 8.4   2.11  1.41]
 [13.7   3.53  2.  ]
 [15.    3.82  2.43]
 [16.2   4.59  2.63]
 [17.4   4.59  2.94]
 [18.    5.22  3.32]
 [18.7   5.2   3.12]
 [19.    5.64  3.05]
 [19.6   5.14  3.04]
 [20.    5.08  2.77]
 [21.    5.69  3.56]
 [21.    5.92  3.31]
 [21.    5.69  3.67]
 [21.3   6.38  3.53]
 [22.    6.11  3.41]
 [22.    5.64  3.52]
 [22.    6.11  3.52]
 [22.    5.88  3.52]
 [22.    5.52  4.  ]
 [22.5   5.86  3.62]
 [22.5   6.79  3.62]
 [22.7   5.95  3.63]
 [23.    5.22  3.63]
 [23.5   6.28  3.72]
 [24.    7.29  3.72]
 [24.    6.38  3.82]
 [24.6   6.73  4.17]
 [25.    6.44  3.68]
 [25.6   6.56  4.24]
 [26.5   7.17  4.14]
 [27.3   8.32  5.14]
 [27.5   7.17  4.34]
 [27.5   7.05  4.34]
 [27.5   7.28  4.57]
 [28.    7.82  4.2 ]
 [28.7   7.59  4.64]
 [30.    7.62  4.77]
 [32.8  10.03  6.02]
 [34.5  10.26  6.39]
 [35.   11.49  7.8 ]
 [36.5  10.88  6.86]
 [36.   10.61  6.74]
 [37.   10.84  6.26]
 [37.   10.57  6.37]
 [39.   11.14  7.49]
 [39.   11.14  6.  ]
 [39.   12.43  7.35]
 [40.   11.93

In [2]:
import numpy as np
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

In [23]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, test_size=0.3, random_state=42)

In [31]:
train_input.shape

(39, 3)

In [30]:
test_input.shape

(17, 3)

## Transformer
사이킷런은 특성을 만들거나 전처리하기 위한 transformer라고 부른다.
transformer는 fit(), transform() 메서드를 제공한다.
```python
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures()
# 훈련을 해야 transform이 가능하다. 두 메서드를 붙인 fit_transform도 있다.
poly.fit([[2, 3]])
poly.transform([[2, 3]])
```

In [7]:
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures()
poly.fit([[2, 3]])
poly.transform([[2, 3]])

array([[1., 2., 3., 4., 6., 9.]])

In [5]:
# include_bias=False로 지정하지 않아도 자동으로 특성에 추가된 절편 항을 무시한다.
poly = PolynomialFeatures(include_bias=False)
poly.fit([[2, 3]])
print(poly.transform([[2, 3]]))

[[2. 3. 4. 6. 9.]]


In [24]:
poly = PolynomialFeatures(include_bias=False)
poly.fit(train_input)
train_poly = poly.transform(train_input)
print(train_poly.shape)

(39, 9)


In [25]:
poly.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

In [26]:
test_poly = poly.transform(test_input)

In [27]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(train_poly, train_target)

In [28]:
lr.score(train_poly, train_target)

0.9898271546307027

In [29]:
lr.score(test_poly, test_target)

0.9713771600629659

In [21]:
test_poly.shape

(21, 6)

In [32]:
# degree로 차수를 지정할 수 있음
# 5제곱으로 하면 특성이 55개나 만들어짐
poly = PolynomialFeatures(degree=5, include_bias=False)
poly.fit(train_input)
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)
print(train_poly.shape)

(39, 55)


In [34]:
lr.fit(train_poly, train_target)
lr.score(train_poly, train_target)

0.9999999999999992

In [35]:
# 특성의 개수를 늘리면 선형 모델이 과대적합됨
lr.score(test_poly, test_target)

-20.19503857729437

## 다중 회귀 분석

- 다중 회귀 분석(Multiple Linear Regression)은 데이터의 여러 변수(features) X를 이용해 결과Y를 예측하는 모델

$Sales=β_0X_1 + β_1X_2 + β_3X_3 + β_3$

In [9]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# ./data/Advertising.csv 에 위치한 파일로부터 데이터를 읽어 X와 Y를 만듭니다.
import csv
csvreader = csv.reader(open("data_Advertising.csv"))

# X는 (200, 3) shape을 가진 2차원 np.array로 , TV, Newspaper Column에 해당하는 데이터를 저장합니다. 
# Y는 (200,) 의 shape을 가진 1차원 np.array로 Sales Column에 해당하는 데이터를 저장합니다.
x = []
y = []

next(csvreader)
for line in csvreader :
    x_i = [ float(line[1]), float(line[2]), float(line[3]) ] # 'FB', 'TV', 'Newspaper'
    y_i = float(line[4]) # Sales
    x.append(x_i)
    y.append(y_i)

X = np.array(x)
Y = np.array(y)

print(X.shape)
print(Y.shape)

# Scikit-learn 라이브러리를 이용해 다중 선형 회귀 분석을 진행
lrmodel = LinearRegression()
lrmodel.fit(X, Y)

beta_0 = lrmodel.coef_[0] # 0번째 변수에 대한 계수 (페이스북), 기울기
beta_1 = lrmodel.coef_[1] # 1번째 변수에 대한 계수 (TV), 기울기
beta_2 = lrmodel.coef_[2] # 2번째 변수에 대한 계수 (신문), 기울기
beta_3 = lrmodel.intercept_ # y절편 (기본 판매량)

print("beta_0: %f" % beta_0)
print("beta_1: %f" % beta_1)
print("beta_2: %f" % beta_2)
print("beta_3: %f" % beta_3)


def expected_sales(fb, tv, newspaper, beta_0, beta_1, beta_2, beta_3):
    '''
    학습된 모델을 이용해 FB, TV, Newspaper의 값에 따라 예상되는 Sales 값을 expected_sales 에 작성
    FB에 fb만큼, TV에 tv만큼, Newspaper에 newspaper 만큼의 광고비를 사용했고,
    트레이닝된 모델의 weight 들이 beta_0, beta_1, beta_2, beta_3 일 때
    예상되는 Sales 의 양을 출력
    '''
    sales = beta_0 * fb + beta_1 * tv + beta_2 * newspaper + beta_3
    return sales

print("예상 판매량: %f" % expected_sales(10, 12, 3, beta_0, beta_1, beta_2, beta_3))

(200, 3)
(200,)
beta_0: 0.045765
beta_1: 0.188530
beta_2: -0.001037
beta_3: 2.938889
예상 판매량: 5.655784
