### 다중회귀모델(Multiple Regression)

In [1]:
### 다중회귀모델
# - 독립변수에 여러개의 특성(컬럼)을 사용한 선형회귀모델을 의미함
# - 특성이 많을수록, 복잡도를 높일 수 있음

### 다중회귀모델의 공식
# y = a * x1 + b * x2 + c * x3 ..... n * xn + 절편

In [2]:
### 데이터 읽어 들이기
# - data 폴더내에 csv 파일 읽어 들이기
# - 데이터프레임 변수명 : df
import pandas as pd

df = pd.read_csv("./data/03_농어의_길이_높이_두께_데이터.csv", sep=",")  # sep="," 를 쓰지 않으면 디폴트가 콤마임

df.info()
df.head(2)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56 entries, 0 to 55
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   length   56 non-null     float64
 1    height  56 non-null     float64
 2    width   56 non-null     float64
dtypes: float64(3)
memory usage: 1.4 KB


Unnamed: 0,length,height,width
0,8.4,2.11,1.41
1,13.7,3.53,2.0


In [3]:
import numpy as np

### 농어의 무게 데이터 (농속변수 : target data)
perch_weight = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
     )

In [4]:
### 독립변수 : 농어의 길이, 높이, 두께
### 종속변수 : 농어의 무게

In [5]:
### 데이터프레임 타입을 2차원 배열 형태로 변형하기
perch_full = df.to_numpy()
print(perch_full.shape)

(56, 3)


In [6]:
perch_full

array([[ 8.4 ,  2.11,  1.41],
       [13.7 ,  3.53,  2.  ],
       [15.  ,  3.82,  2.43],
       [16.2 ,  4.59,  2.63],
       [17.4 ,  4.59,  2.94],
       [18.  ,  5.22,  3.32],
       [18.7 ,  5.2 ,  3.12],
       [19.  ,  5.64,  3.05],
       [19.6 ,  5.14,  3.04],
       [20.  ,  5.08,  2.77],
       [21.  ,  5.69,  3.56],
       [21.  ,  5.92,  3.31],
       [21.  ,  5.69,  3.67],
       [21.3 ,  6.38,  3.53],
       [22.  ,  6.11,  3.41],
       [22.  ,  5.64,  3.52],
       [22.  ,  6.11,  3.52],
       [22.  ,  5.88,  3.52],
       [22.  ,  5.52,  4.  ],
       [22.5 ,  5.86,  3.62],
       [22.5 ,  6.79,  3.62],
       [22.7 ,  5.95,  3.63],
       [23.  ,  5.22,  3.63],
       [23.5 ,  6.28,  3.72],
       [24.  ,  7.29,  3.72],
       [24.  ,  6.38,  3.82],
       [24.6 ,  6.73,  4.17],
       [25.  ,  6.44,  3.68],
       [25.6 ,  6.56,  4.24],
       [26.5 ,  7.17,  4.14],
       [27.3 ,  8.32,  5.14],
       [27.5 ,  7.17,  4.34],
       [27.5 ,  7.05,  4.34],
       [27

In [7]:
### 훈련데이터와 테스트데이터로 분류하기
# - 70:30 으로 분류하기
# - 변수명 : 기존 사용하는 이름 그대로
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = \
              train_test_split(perch_full, perch_weight,  
                               test_size=0.3, random_state=42)

In [8]:
print(train_input.shape, train_target.shape)
print(test_input.shape, test_target.shape)

(39, 3) (39,)
(17, 3) (17,)


### 특성공학

In [9]:
### 특성의 갯수를 라이브러리가 제공하는 패턴으로 늘리기
# - 기존의 특성을 사용해서 -> 새로운 특성을 만들어내는 작업을 "특성공학" 이라함

##### 특성 만들기 : 사이킷런의 변환기 사용

In [10]:
# 사이킷런은 특성을 만들거나 전처리하기 위한 다양한 클래스 또는 함수가 제공됨
# - 이중 특성ㅇ르 만들어내는 클래스들이 있으며, 이를 "변환기"하고 칭합니다.

### < 특성 생성 라이브러리 >
# - 사용되는 패키지(전처리) : sklearn.preprocessing
# - 변환기 클래스 :  PolynomialFeatures
# - 자동변환 함수 : fit(), transform(), fit_transform()


### 특성 생성시 사용되는 데이터
# - 훈련 및 테스트의 독립변수 ( train_input, test_input )
# - target 데이터는 그대로 유지합니다.

### 특성 생성 예제

In [11]:
### 라이브러리 불러들이기
from sklearn.preprocessing import PolynomialFeatures

In [12]:
### 변환기 객체 생성하기
poly = PolynomialFeatures()

In [13]:
### 임의 데이터 사용
temp_data = [[2, 3]]

In [14]:
### 새롭게 생성할 <특성 조합>을 스스로 찾기
# - 변환기 클래스에서 사용하는 fit() 함수는 훈련(학습)을 위한 것이 아니며,
# - 별도의 target 데이터는 필요하지 않습니다.
poly.fit(temp_data)

In [15]:
### 스스로 찾은 특성 조합으로 값을 변환 생성하기
# - 특성 생성하기
temp_data_poly = poly.transform(temp_data)
temp_data_poly

array([[1., 2., 3., 4., 6., 9.]])

In [16]:
### <특성 조합 생성 규칙 >

### 첫번째 값 1
# - 선형반정식의 y 절편값으로 기본값 1 이 항상 추가됩니다.
# - 사용하지 않아도 되는 값 입니다. (이후에 제외 시킬겁니다.)

### 두번째, 세번째 값 2, 3
# - 원래 값이 순서대로 들어감

### 네번째 값 4
# - 첫번쩨 원래값의 제곱승 : 2^2

### 다섯번째 값 6
# - 원래값끼리 곱한 값 : 2 * 3

### 여섯번째 값 9
# - 세번째 원래값의 제곱승 : 3^2

### y절편값 없애고 특성 생성하기

In [17]:
temp_data = [[55, 12.49, 7.6]]
### 절편 없애기 : include_bias=False
poly = PolynomialFeatures(include_bias=False)
poly.fit(temp_data)
temp_data_poly = poly.transform(temp_data)
temp_data_poly

array([[  55.    ,   12.49  ,    7.6   , 3025.    ,  686.95  ,  418.    ,
         156.0001,   94.924 ,   57.76  ]])