In [7]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import seaborn as sns
from matplotlib import font_manager, rc
import platform

# seaborn 설정 리셋
sns.reset_defaults()

# 폰트설정
if platform.system() == 'Windows' :
    path = 'c:/Windows/Fonts/malgun.ttf'
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
elif platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
else :
    print('Check your OS System')
    
# 그래프에 마이너스 표시
matplotlib.rcParams['axes.unicode_minus'] = False

## 다중회귀모델(Multiple Regression Model)
- 여러개의 특성(독립변수 = 항목 = 컬럼 = 변수 = 퓨처)을 사용한 선형회귀
- 특성이 많을수록, 복잡도가 높아진다
- 1개의 특성 : 선형회귀모델 = '직선' (x, y)
- 2개이상의 특성 : 선형회귀모델 = '평면' (x, y, z)
<br>

## 다중회귀모델 공식(방정식)
- y = a * 특성1 + b * 특성2 + c * 특성3... + y절편

In [8]:
# 데이터 준비
df = pd.read_csv('./data/03_농어의_길이_높이_두께_데이터.csv')

In [9]:
df.head(5)

Unnamed: 0,length,height,width
0,8.4,2.11,1.41
1,13.7,3.53,2.0
2,15.0,3.82,2.43
3,16.2,4.59,2.63
4,17.4,4.59,2.94


In [10]:
# 사용할 데이터
    # - input데이터(독립변수) : 길이(length), 높이(height), 두께(width)
    # - target데이터(종속변수) : 무게(weight)
    # - 새로 추가할 데이터 : 면적(길이 * 높이)
    # 모든 작업은 sklearn에서 제공하는 함수 이용

### 특성공학
- 기존의 특성을 이용 > 새로운 특성(항목) 을 만들어내는 작업

In [11]:
# 데이터프레임 2차원으로 변경
# to_numpy()
perch = df.to_numpy()
print(perch)

[[ 8.4   2.11  1.41]
 [13.7   3.53  2.  ]
 [15.    3.82  2.43]
 [16.2   4.59  2.63]
 [17.4   4.59  2.94]
 [18.    5.22  3.32]
 [18.7   5.2   3.12]
 [19.    5.64  3.05]
 [19.6   5.14  3.04]
 [20.    5.08  2.77]
 [21.    5.69  3.56]
 [21.    5.92  3.31]
 [21.    5.69  3.67]
 [21.3   6.38  3.53]
 [22.    6.11  3.41]
 [22.    5.64  3.52]
 [22.    6.11  3.52]
 [22.    5.88  3.52]
 [22.    5.52  4.  ]
 [22.5   5.86  3.62]
 [22.5   6.79  3.62]
 [22.7   5.95  3.63]
 [23.    5.22  3.63]
 [23.5   6.28  3.72]
 [24.    7.29  3.72]
 [24.    6.38  3.82]
 [24.6   6.73  4.17]
 [25.    6.44  3.68]
 [25.6   6.56  4.24]
 [26.5   7.17  4.14]
 [27.3   8.32  5.14]
 [27.5   7.17  4.34]
 [27.5   7.05  4.34]
 [27.5   7.28  4.57]
 [28.    7.82  4.2 ]
 [28.7   7.59  4.64]
 [30.    7.62  4.77]
 [32.8  10.03  6.02]
 [34.5  10.26  6.39]
 [35.   11.49  7.8 ]
 [36.5  10.88  6.86]
 [36.   10.61  6.74]
 [37.   10.84  6.26]
 [37.   10.57  6.37]
 [39.   11.14  7.49]
 [39.   11.14  6.  ]
 [39.   12.43  7.35]
 [40.   11.93

In [12]:
perch_weight = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
     )

In [13]:
print(len(perch))
print(len(perch_weight))

56
56


In [14]:
# 훈련데이터, 테스트데이터 설정
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = \
    train_test_split(perch, perch_weight, random_state=42)

In [15]:
print('<훈련데이터>------------------------------------------------------------------')
print(train_input)
print('------------------------------------------------------------------------------')
print(train_target)
print()
print('<테스트데이터>----------------------------------------------------------------')
print(test_input)
print('------------------------------------------------------------------------------')
print(test_target)

<훈련데이터>------------------------------------------------------------------
[[19.6   5.14  3.04]
 [22.    5.88  3.52]
 [18.7   5.2   3.12]
 [17.4   4.59  2.94]
 [36.   10.61  6.74]
 [25.    6.44  3.68]
 [40.   11.93  7.11]
 [39.   12.43  7.35]
 [43.   11.93  7.28]
 [22.    5.64  3.52]
 [20.    5.08  2.77]
 [22.    6.11  3.52]
 [24.    7.29  3.72]
 [27.5   7.17  4.34]
 [43.   12.51  7.42]
 [40.   11.73  7.22]
 [24.    6.38  3.82]
 [21.    5.92  3.31]
 [27.5   7.05  4.34]
 [40.   12.38  7.46]
 [32.8  10.03  6.02]
 [26.5   7.17  4.14]
 [36.5  10.88  6.86]
 [13.7   3.53  2.  ]
 [22.7   5.95  3.63]
 [15.    3.82  2.43]
 [37.   10.57  6.37]
 [35.   11.49  7.8 ]
 [28.7   7.59  4.64]
 [23.5   6.28  3.72]
 [39.   11.14  6.  ]
 [21.    5.69  3.56]
 [23.    5.22  3.63]
 [22.    5.52  4.  ]
 [44.   12.49  7.6 ]
 [22.5   6.79  3.62]
 [19.    5.64  3.05]
 [37.   10.84  6.26]
 [22.    6.11  3.41]
 [25.6   6.56  4.24]
 [42.   12.8   6.87]
 [34.5  10.26  6.39]]
-------------------------------------------

In [34]:
# sklearn 변환기 클래스
from sklearn.preprocessing import PolynomialFeatures

In [39]:
poly = PolynomialFeatures(include_bias=False)

# 임의값 사용
temp_data =[[2,3]]

# 훈련시키키 : 새롭게 만들 특성 조합 스스로 찾기
poly.fit(temp_data)

# 찾은 특성 조합으로 데이터 변환하기
print(poly.transform(temp_data))

[[2. 3. 4. 6. 9.]]


In [38]:
# <변환기 특성조합 생성규칙>
# 첫번째 값 : 1, y절편 값(무조건 첫번째는 1)
# 두번째 값 : 2, 기존 첫번째 값(2)
# 세번째 값 : 3, 기존 두번째 값(3)
# 네번째 값 : 4, 기존 첫번째 값(2)의 제곱
# 다섯번째 값: 6, 기존 첫번째 값(2) * 기존 두번째값(3)
# 여섯번째 값: 9, 기존 두번째 값(3)의 제곱

# y절편의 1값은 PolynoialFeatures 클래스에서 기본적으로 특성에 추가된 절편값을 무시
    # - 추가된 y절편 1은 무시 가능
    # - PolynoialFeatures 클래스 생상시 제외시키는 속성 사용
    # - include_bias = False옵션 사용시 y절편값 제외

### 특성 만들기 : sklearn 변환기
- sklearn은 특성을 만들거나 전처리 하기 위해 다양한 객체를 제공
- sklearn에서 제공하는 이런 클래스들을 '변환기'라고 부릅니다.

### 특성 생성패키지
- 사용되는 패키지 : sklearn.preprocessing
- 사용되는 클래스 : PolynomialFeatures
- 사용되는 함수 : fit(), transform(), fit_transforms()
- 사용되는 데이터 : train_input, test_input
- 훈련에 영향을 미치는 특성(항목)을 스스로 찾아서 생성 -> target 해당사항없음

In [50]:
from sklearn.preprocessing import PolynomialFeatures

In [77]:
poly = PolynomialFeatures(include_bias=False)

# 훈련은 훈련데이터로 1번만
poly.fit(train_input)

train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)

In [78]:
train_poly.shape

(42, 9)

In [79]:
test_poly.shape

(14, 9)

In [81]:
#훈련모델이 사용된 조합의 패턴 출력하기
poly.get_feature_names()
poly.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

In [82]:
from sklearn.linear_model import LinearRegression

In [85]:
lr = LinearRegression()
lr.fit(train_poly, train_target)

LinearRegression()

In [127]:
print('  훈련 데이터 :',lr.score(train_poly, train_target))
print('테스트 데이터 :',lr.score(test_poly, test_target))

  훈련 데이터 : 0.9903183436982125
테스트 데이터 : 0.9714559911594155


In [128]:
# 객체(모델)생성
poly = PolynomialFeatures(degree=5, include_bias=False)

# 훈련은 훈련데이터로 1번만
poly.fit(train_input)

#훈련데이터, 테스트데이터 변환
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)

In [131]:
train_poly.shape

(42, 55)

In [136]:
test_poly.shape

(14, 55)

In [137]:
poly.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2', 'x0^3', 'x0^2 x1', 'x0^2 x2', 'x0 x1^2', 'x0 x1 x2',
       'x0 x2^2', 'x1^3', 'x1^2 x2', 'x1 x2^2', 'x2^3', 'x0^4', 'x0^3 x1',
       'x0^3 x2', 'x0^2 x1^2', 'x0^2 x1 x2', 'x0^2 x2^2', 'x0 x1^3',
       'x0 x1^2 x2', 'x0 x1 x2^2', 'x0 x2^3', 'x1^4', 'x1^3 x2',
       'x1^2 x2^2', 'x1 x2^3', 'x2^4', 'x0^5', 'x0^4 x1', 'x0^4 x2',
       'x0^3 x1^2', 'x0^3 x1 x2', 'x0^3 x2^2', 'x0^2 x1^3',
       'x0^2 x1^2 x2', 'x0^2 x1 x2^2', 'x0^2 x2^3', 'x0 x1^4',
       'x0 x1^3 x2', 'x0 x1^2 x2^2', 'x0 x1 x2^3', 'x0 x2^4', 'x1^5',
       'x1^4 x2', 'x1^3 x2^2', 'x1^2 x2^3', 'x1 x2^4', 'x2^5'],
      dtype=object)

In [138]:
lr = LinearRegression()
lr.fit(train_poly, train_target)
print('  훈련 데이터 :',lr.score(train_poly, train_target))
print('테스트 데이터 :',lr.score(test_poly, test_target))

LinearRegression()

In [140]:
# <해석>
# 훈련데이터 결정계수는 매우 좋음
# 테스트데이터 결정계수는 음수값 발생
# 훈련결과가 좋을수록 테스트 결과가 좋지않게 나옴
# 과대적합

In [88]:
perch

array([[ 8.4 ,  2.11,  1.41],
       [13.7 ,  3.53,  2.  ],
       [15.  ,  3.82,  2.43],
       [16.2 ,  4.59,  2.63],
       [17.4 ,  4.59,  2.94],
       [18.  ,  5.22,  3.32],
       [18.7 ,  5.2 ,  3.12],
       [19.  ,  5.64,  3.05],
       [19.6 ,  5.14,  3.04],
       [20.  ,  5.08,  2.77],
       [21.  ,  5.69,  3.56],
       [21.  ,  5.92,  3.31],
       [21.  ,  5.69,  3.67],
       [21.3 ,  6.38,  3.53],
       [22.  ,  6.11,  3.41],
       [22.  ,  5.64,  3.52],
       [22.  ,  6.11,  3.52],
       [22.  ,  5.88,  3.52],
       [22.  ,  5.52,  4.  ],
       [22.5 ,  5.86,  3.62],
       [22.5 ,  6.79,  3.62],
       [22.7 ,  5.95,  3.63],
       [23.  ,  5.22,  3.63],
       [23.5 ,  6.28,  3.72],
       [24.  ,  7.29,  3.72],
       [24.  ,  6.38,  3.82],
       [24.6 ,  6.73,  4.17],
       [25.  ,  6.44,  3.68],
       [25.6 ,  6.56,  4.24],
       [26.5 ,  7.17,  4.14],
       [27.3 ,  8.32,  5.14],
       [27.5 ,  7.17,  4.34],
       [27.5 ,  7.05,  4.34],
       [27

In [116]:
some_perch = [[50,16.49,10.6]]
some_perch

[[50, 16.49, 10.6]]

In [145]:
def perch_linear(train_x,train_y,test_x):
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import PolynomialFeatures
    from sklearn.preprocessing import StandardScaler
    from sklearn.linear_model import LinearRegression

    train_input, test_input, train_target, test_target = \
        train_test_split(train_x, train_y, random_state=42)

    poly = PolynomialFeatures(include_bias=False)

    # 훈련은 훈련데이터로 1번만
    poly.fit(train_input)
    
    train_poly = poly.transform(train_input)
    test_poly = poly.transform(test_input)
    predict_poly = poly.transform(test_x)
    
    # 정규화
    ss = StandardScaler()
    ss.fit(train_poly, train_target)
    
    train_scaled = ss.transform(train_poly)
    test_scaled = ss.transform(test_poly)
    predict_scaled = ss.transform(predict_poly)
    
    lr = LinearRegression()
    lr.fit(train_scaled, train_target)
    
    return print('훈련 데이터 결정계수 :',lr.score(train_scaled, train_target),'\n'
                 '테스트 데이터 결정계수 :',lr.score(test_scaled, test_target),'\n'
                 '예측 결과 :',lr.predict(predict_scaled))

In [146]:
perch_linear(perch, perch_weight, some_perch)

훈련 데이터 결정계수 : 0.9903183436982124 
테스트 데이터 결정계수 : 0.9714559911594136 
예측 결과 : [2099.00590297]


In [141]:
def perch_ridge(train_x,train_y,test_x, degree=2):
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import PolynomialFeatures
    from sklearn.preprocessing import StandardScaler
    from sklearn.linear_model import Ridge

    train_input, test_input, train_target, test_target = \
        train_test_split(train_x, train_y, random_state=42)
    
    #복잡도 주기
    poly = PolynomialFeatures(degree= degree, include_bias=False)

    # 훈련은 훈련데이터로 1번만
    poly.fit(train_input)

    train_poly = poly.transform(train_input)
    test_poly = poly.transform(test_input)
    predict_poly = poly.transform(test_x)
    
    # 정규화
    ss = StandardScaler()
    ss.fit(train_poly, train_target)
    
    train_scaled = ss.transform(train_poly)
    test_scaled = ss.transform(test_poly)
    predict_scaled = ss.transform(predict_poly)
    
    ridge = Ridge()
    ridge.fit(train_scaled, train_target)
    
    return print('훈련 데이터 결정계수 :',ridge.score(train_scaled, train_target),'\n'
                 '테스트 데이터 결정계수 :',ridge.score(test_scaled, test_target),'\n'
                 '예측 결과 :',ridge.predict(predict_scaled))

In [147]:
perch_ridge(perch, perch_weight, some_perch, 5)

훈련 데이터 결정계수 : 0.9896101671037343 
테스트 데이터 결정계수 : 0.9790693977615386 
예측 결과 : [2365.94632465]


In [157]:
def perch_lasso(train_x,train_y,test_x,degree=2):
    from sklearn.model_selection import train_test_split
    from sklearn.preprocessing import PolynomialFeatures
    from sklearn.preprocessing import StandardScaler
    from sklearn.linear_model import Lasso

    train_input, test_input, train_target, test_target = \
        train_test_split(train_x, train_y, random_state=42)
    
    # 복잠도 주기
    poly = PolynomialFeatures(degree=degree, include_bias=False)
    
    poly.fit(train_input) # 훈련은 훈련데이터로 1번만

    train_poly = poly.transform(train_input)
    test_poly = poly.transform(test_input)
    predict_poly = poly.transform(test_x)
    
    # 정규화
    ss = StandardScaler()
    ss.fit(train_poly, train_target)
    
    train_scaled = ss.transform(train_poly)
    test_scaled = ss.transform(test_poly)
    predict_scaled = ss.transform(predict_poly)
    
#     if alpha == alpha
#         lasso = Lasso(alpha=alpha)
    
#     else :
#         lasso = Lasso()
    lasso = Lasso()    
    lasso.fit(train_scaled, train_target)
    
    return print('훈련 데이터 결정계수 :',lasso.score(train_scaled, train_target),'\n'
                 '테스트 데이터 결정계수 :',lasso.score(test_scaled, test_target),'\n'
                 '예측 결과 :',lasso.predict(predict_scaled))

In [159]:
perch_lasso(perch, perch_weight, some_perch)

훈련 데이터 결정계수 : 0.986591255464559 
테스트 데이터 결정계수 : 0.9846056618190413 
예측 결과 : [1815.27724062]
