### **다중 회귀(Multiple Regression)**  
> 특성이 한 개가 아닌 여러 개의 특성을 사용할 때 잘 나타낼 수 있는 선형회귀이다.  
1개의 특성을 사용했을 때 선형회귀 모델이 학습하는 것은 직선이지만,  
2개의 특성을 사용하게 되면 평면을 학습하게 된다.
- 타겟 = a * 특성1 + b * 특성2 + 절편

![image.png](attachment:image.png)

### **특성공학(Feature engineering)**  
> 기존의 특성을 사용하여 새로운 특성을 만들어내는 작업이다.  
예를 들어, 농어의 길이, 농어의 높이를 서로 곱하여 새로운 특성을 만들어낼 수 있다.  
직접 특성끼리 곱하여 새로운 특성을 만들 수 있지만, 사이킷런에서 이러한 특성공학 도구를 제공한다.

### **판다스**
> 데이터 분석 라이브러리로서, 데이터프레임(dataframe)이라는 데이터 구조를 가지고 있다.  
데이터프레임은 넘파이 배열과 비슷하지만 더 많은 기능을 제공하며, 넘파이 배열로도 변경이 가능하다.

### **CSV 파일을 파이썬 코드로 가져오기**
> CSV파일 : 여러 데이터를 종류별로 콤마를 구분하여 작성된 텍스트 파일  
CSV파일 --> read_csv() --> to_numpy()

In [1]:
import pandas as pd
df = pd.read_csv('https://bit.ly/perch_csv_data')
perch_full = df.to_numpy()
print(perch_full)
#length, height, width

[[ 8.4   2.11  1.41]
 [13.7   3.53  2.  ]
 [15.    3.82  2.43]
 [16.2   4.59  2.63]
 [17.4   4.59  2.94]
 [18.    5.22  3.32]
 [18.7   5.2   3.12]
 [19.    5.64  3.05]
 [19.6   5.14  3.04]
 [20.    5.08  2.77]
 [21.    5.69  3.56]
 [21.    5.92  3.31]
 [21.    5.69  3.67]
 [21.3   6.38  3.53]
 [22.    6.11  3.41]
 [22.    5.64  3.52]
 [22.    6.11  3.52]
 [22.    5.88  3.52]
 [22.    5.52  4.  ]
 [22.5   5.86  3.62]
 [22.5   6.79  3.62]
 [22.7   5.95  3.63]
 [23.    5.22  3.63]
 [23.5   6.28  3.72]
 [24.    7.29  3.72]
 [24.    6.38  3.82]
 [24.6   6.73  4.17]
 [25.    6.44  3.68]
 [25.6   6.56  4.24]
 [26.5   7.17  4.14]
 [27.3   8.32  5.14]
 [27.5   7.17  4.34]
 [27.5   7.05  4.34]
 [27.5   7.28  4.57]
 [28.    7.82  4.2 ]
 [28.7   7.59  4.64]
 [30.    7.62  4.77]
 [32.8  10.03  6.02]
 [34.5  10.26  6.39]
 [35.   11.49  7.8 ]
 [36.5  10.88  6.86]
 [36.   10.61  6.74]
 [37.   10.84  6.26]
 [37.   10.57  6.37]
 [39.   11.14  7.49]
 [39.   11.14  6.  ]
 [39.   12.43  7.35]
 [40.   11.93

In [2]:
import numpy as np

perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

In [3]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state=42)

### **사이킷런의 변환기(Transformer)**
> 특성을 만들거나 전처리하기 위한 다양한 클래스이다.  
각 특성을 제곱한 항을 추가하고 특성끼리 서로 곱한 항을 추가한다.  
LinearRegression과 같은 사이킷런의 모델 클래스는 추정기(estimator)라고 부른다.  

In [4]:
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures()
poly.fit([[2, 3]]) #훈련을 해야 변환이 가능하며, 입력 데이터만 전달한다.
print(poly.transform([[2, 3]])) # 2개의 특성을 가진 샘플 데이터가 6개의 특성을 가진 샘플 데이터로 변환되었다.

#1이 추가된 이유
#[[길이, 높이, 두께]]를 전달하게 되면
#무게 = a*길이 + b*높이 + c*두께 + d*1
#과 같이 마지막 절편에 항상 *1이 되므로
#[[길이, 높이, 두께, 1]] 총 4개의 특성으로 인식된다.

[[1. 2. 3. 4. 6. 9.]]


In [5]:
poly = PolynomialFeatures(include_bias=False) #선형 모델은 자동으로 절편을 추가하므로 1을 추가하지 않는다.
poly.fit(train_input)
train_poly = poly.transform(train_input)
print(train_poly.shape)

(42, 9)


### **get_feature_names()**
* 각 특성이 만들어진 수식 확인

In [6]:
poly.get_feature_names()
# x0 : 첫번째 특성
# x1 : 두번째 특성
# x2 : 세번째 특성

['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2', 'x2^2']

### **테스트 세트 변환**

In [8]:
test_poly = poly.transform(test_input)
print(test_poly.shape)

(14, 9)


### **다중 회귀 모델 훈련**

In [9]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))
print(lr.score(test_poly, test_target))

#특성이 늘어나면 선형 회귀의 능력이 강력해진다.

0.9903183436982124
0.9714559911594155


### **특성을 더 많이 추가해보기**

In [10]:
poly = PolynomialFeatures(degree=5, include_bias=False) #5제곱까지 특성 만들기
poly.fit(train_input)
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)
print(train_poly.shape)

(42, 55)


### **특성과 학습률의 관계**
> 한 개의 특성으로 42개의 샘플을 학습시키면 맞출 수 있는 가능성이 떨어지지만,  
55개의 특성으로 42개의 샘플을 훈련하면 거의 모든 샘플을 맞출 수 있게 된다.  
하지만 너무 과도하게 학습했기 때문에 다른 데이터에 대해서는 보편성이 떨어지게 된다.

In [11]:
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))
print(lr.score(test_poly, test_target))

#특성의 개수를 늘리면 그 만큼 훈련 세트에 대해 거의 완벽하게 학습할 수 있지만,
#테스트 세트에 대해서는 아주 낮은 점수로 평가된다.
#과대적합

0.9999999999938144
-144.40744532797535
