# 특성 공학과 규제

## 농어 데이터 준비

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

* 농어 Feature 데이터

In [2]:
df = pd.read_csv('perch_data.csv')

![image.png](attachment:image.png)

In [3]:
df.head(5)

Unnamed: 0,length,height,width
0,8.4,2.11,1.41
1,13.7,3.53,2.0
2,15.0,3.82,2.43
3,16.2,4.59,2.63
4,17.4,4.59,2.94


![image.png](attachment:3dd5be51-7150-46a5-a2fd-fbd72c3647a2.png)

In [4]:
df.shape

(56, 3)

In [5]:
perch_full = df.to_numpy()
len(perch_full)

56

In [6]:
perch_full[:10]

array([[ 8.4 ,  2.11,  1.41],
       [13.7 ,  3.53,  2.  ],
       [15.  ,  3.82,  2.43],
       [16.2 ,  4.59,  2.63],
       [17.4 ,  4.59,  2.94],
       [18.  ,  5.22,  3.32],
       [18.7 ,  5.2 ,  3.12],
       [19.  ,  5.64,  3.05],
       [19.6 ,  5.14,  3.04],
       [20.  ,  5.08,  2.77]])

* 농어 Label 데이터

In [7]:
import numpy as np

perch_weight = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
     )

In [8]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state=42)

In [9]:
len(train_input)

42

## 사이킷런의 변환기

In [10]:
from sklearn.preprocessing import PolynomialFeatures

### 농어 데이터 2차 방정식 3개 특성값 예제

In [11]:
train_input.shape

(42, 3)

In [12]:
poly = PolynomialFeatures()

poly.fit(train_input)
train_poly = poly.transform(train_input)

In [13]:
test_poly = poly.transform(test_input)

## 다중 회귀 모델 훈련하기

In [14]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

0.9903183436982125


In [15]:
print(lr.score(test_poly, test_target))

0.9714559911594094


## N차원 방정식으로 더 많은 추가 특성 만들기

In [16]:
poly = PolynomialFeatures(degree=5)

poly.fit(train_input)
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)

In [17]:
print(train_poly.shape)

(42, 56)


#### 극도로 과대적합된 결과

In [18]:
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

0.9999999999999053


* R스퀘어 값은 0~1 사이의 값이고 1에 가까울 수록 완벽에 가까운 예측이 되며 0에 가까울수록 예측력이 떨어진다.
* 음수가 나오는 경우는 예측값을 신뢰할 수 없음을 의미한다.

In [19]:
print(lr.score(test_poly, test_target))

-144.4057350921404


## 규제 (Regularization / 정규화)
![image.png](attachment:image.png)

### sklearn.linear_model.LinearRegression 모델의 단점

* 규제가 없는 선형 회귀 모델
* 정교한 선형회귀 모델을 만든다면 훈련데이터셋의 성능은 R 스퀘어 기준 1에 가까운 성능을 보일 수 있다.
* 그렇지만 이 결과는 훈련데이터셋에서 국한된다.
* 시험데이터셋의 선형데이터의 성능을 높이기 위해서 모델에 적절한 규제가 필요하다.