### 다중회귀모델(Multiple Regression)

#### 다중회귀모델
#### <span style = 'color:red'>(용도) 기존 컬럼의 특성을 파악하고 신규 컬럼을 생성하여 복잡도를 높여 성능을 높이고자 함</span>
#### - 여러개의 특성(컬럼)을 사용한 선형회귀모델을 의미함
#### - 특성이 많을수록 복잡도를 높일수 있음

#### 다중회귀모델의 공식
####  y = ax1 + bx2 + cx3 .....n + 절편

### 데이터 가져오기


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [5]:
df = pd.read_csv('./data/03_농어의_길이_높이_두께_데이터.csv')
df.info()
df.head(3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56 entries, 0 to 55
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   length   56 non-null     float64
 1    height  56 non-null     float64
 2    width   56 non-null     float64
dtypes: float64(3)
memory usage: 1.4 KB


Unnamed: 0,length,height,width
0,8.4,2.11,1.41
1,13.7,3.53,2.0
2,15.0,3.82,2.43


In [6]:
perch_weight = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
     )

#### 독립변수(df) : 농어의 길이, 높이, 두께
#### 종속변수(perch_weight) : 농어의 무게

In [7]:
# 데이터프레임을 2차원 배열로 변환
perch_full = np.array(df)

In [12]:
# 데이터프레임을 2차원 배열로 변환
perch_full2 = df.to_numpy()

### 데이터 분할

In [13]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, test_size=0.3, random_state=42)

In [14]:
train_input.shape, test_input.shape, train_target.shape, test_target.shape

((39, 3), (17, 3), (39,), (17,))

### 특성(컬럼)의 개수를 라이브러리가 제공하는 패턴으로 늘리기
#### - 기존의 특성을 사용해서 -> 새로운 특성(컬럼)을 만들어내는 작업을 "특성공학"이라 함
#### - (이유) 모델 정확도를 높이기 위함

### 특성을 만드는 방법 : 사이킷런의 변환기 사용
#### - 사이킷런은 특성을 만들거나 전처리하기 위한 다양한 클래스 또는 함수가 제공됨
#### - 이중 특성을 만들어내는 클래스들이 있으며, 이를 "변환기"라고 함

###  [ 특성 생성 라이브러리]
#### - 사용되는 라이브러리 : sklearn.preprocessing
#### - 변환기 클래스 : PolynomialFeatures
#### - 자동변환함수 : fit(), transform(), fit_tranform()
#### - fit() : 특성을 분석
#### - transform(), fit_tranform() : 분석한 결과를 이용해 특성데이터 생성

### 특성 생성시 사용되는 데이터
#### - 훈련 및 테스트의 독립변수(train_input, test_input)
#### - target 데이터는 그대로 유지

In [15]:
from sklearn.preprocessing import PolynomialFeatures

In [16]:
# 변환기 생성
poly = PolynomialFeatures()

In [17]:
# 임의 데이터로 변환테스트
temp_data = [[2,3]]

In [21]:
# fit()함수를 이용해 특성 파악하여 패턴찾기
# - 별도의 garget 데이터는 필요하지 않음
poly.fit(temp_data)

### [특성 변환 생성값의 규칙]
#### - 첫번째 값 : 1
#### - 선형방정식의 y절편값으로 기본값 1이 항상 추가됨
#### - 사용하지 않아도 되는 값임
------
#### - 두번째, 세번째 값 : 2, 3
#### - 원래값이 순서대로 들어감
-----
#### - 네번째 값 : 4
#### - 두번째 원래값의 제곱승 : 2 ^ 2
-----
#### - 다섯번째 값 : 6
#### - 원래값 끼리 곱한 값 : 2 *3
-----
#### - 여섯번째 값 : 9
#### - 세번째 원래값의 제곱승 : 3^2

In [23]:
# 스스로 찾은 패턴으로 값 변환
temp_data = [[2, 3, 4]]
poly.fit(temp_data)
temp_data_poly = poly.transform(temp_data)
temp_data_poly

array([[ 1.,  2.,  3.,  4.,  4.,  6.,  8.,  9., 12., 16.]])

### y절편값을 없애고 특성 생성하기


In [25]:
temp_data = [[55, 12.49, 7.6]]
# 절편 없애기 : include_bias = False
poly = PolynomialFeatures(include_bias = False)
poly.fit(temp_data)
temp_data_poly = poly.transform(temp_data)
temp_data_poly

array([[  55.    ,   12.49  ,    7.6   , 3025.    ,  686.95  ,  418.    ,
         156.0001,   94.924 ,   57.76  ]])

In [27]:
temp_data_poly.shape

(1, 9)