In [1]:
"""
<다중회귀모델(Multiple Regression)>
- 여러 개의 특성을 사용한 회귀모델
- 특성이 많을 수록 집중력과 복잡도가 높아짐
    (단, 훈련 시간이 오래 걸릴 수 있음, 시스템 성능에 따라 처리 시간이 결정됨)
- 다중회귀모델 : y = a*x1 + b*x2 + c*x3 + ... n*xn + y절편
"""

'\n<다중회귀모델(Multiple Regression)>\n- 여러 개의 특성을 사용한 회귀모델\n- 특성이 많을 수록 집중력과 복잡도가 높아짐\n    (단, 훈련 시간이 오래 걸릴 수 있음, 시스템 성능에 따라 처리 시간이 결정됨)\n- 다중회귀모델 : y = a*x1 + b*x2 + c*x3 + ... n*xn + y절편\n'

In [2]:
### 데이터처리 라이브러리
import pandas as pd

In [3]:
### 01_농어의_길이_높이_두께_데이터.csv 파일 읽어 들이기
# 데이터 프레임 변수 이름 : df
file_path = "./data/01_농어의_길이_높이_두께_데이터.csv"
df = pd.read_csv(file_path)

### 간단히 결측치 확인하기
df.info()

### 간단히 이상치 확인하기 : 기초통계 함수
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56 entries, 0 to 55
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   length  56 non-null     float64
 1   height  56 non-null     float64
 2   width   56 non-null     float64
dtypes: float64(3)
memory usage: 1.4 KB


Unnamed: 0,length,height,width
count,56.0,56.0,56.0
mean,27.892857,7.862143,4.745536
std,9.021668,2.878343,1.775006
min,8.4,2.11,1.41
25%,21.825,5.69,3.52
50%,25.3,6.92,4.155
75%,36.625,10.85,6.45
max,44.0,12.8,8.14


In [4]:
### 분석 주제 : 농어의 길이, 두께, 너비를 이용하여 -> 무게 예측하기
# 독립변수 : 길이, 두께, 너비
# 종속변수 : 무게

In [5]:
### 데이터 프레임 타입의 독립변수를 2차원의 numpy 배열로 변환하기
# Why : 모델 훈련 시 2차원 배열 또는 리스트를 사용하기 때문에
perch_full = df.to_numpy()
perch_full
perch_full.shape

(56, 3)

In [6]:
### 종속변수 만들기
# 농어 무게
import numpy as np

perch_weight = np.array( 
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
)
perch_weight
perch_weight.shape

(56,)

In [7]:
### 훈련:테스트 = 7:3으로 분류하기
# 사용변수 : train_input, test_input, train_target, test_target

from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, test_size = 0.3, random_state = 42)

train_input.shape, train_target.shape, test_input.shape, test_target.shape

((39, 3), (39,), (17, 3), (17,))

In [8]:
### 훈련 모델 생성
from sklearn.linear_model import LinearRegression
ln = LinearRegression()
ln

In [9]:
### 훈련 시키기
ln.fit(train_input, train_target)

In [10]:
### 훈련 및 테스트 정확도 확인하기
train_score = ln.score(train_input, train_target)
test_score = ln.score(test_input, test_target)

train_score, test_score, train_score - test_score

### 과적합 여부 해석
# 과대/과소, 즉 과적합이 발생하지 않은 일반화된 모델로 판단함

(0.9537065271284176, 0.886342083634778, 0.06736444349363968)

In [11]:
### 테스트 데이터로 예측하기
pred = ln.predict(test_input)
pred

array([-328.54944233,   48.99648009,  328.530777  ,  168.01071374,
        147.28466932,  790.89418753,  383.33837613,  247.89949679,
        814.06695812,  123.2000108 ,  981.8543067 ,  -37.63667416,
        356.2229673 ,  419.56345249,   48.15564696,  140.06819759,
         46.70641917])

In [12]:
### 평균절대오차(MAE) 확인하기
from sklearn.metrics import mean_absolute_error
mea = mean_absolute_error(test_target, pred)
mea

### 해석
# 해당 모델로 예측하였을 때 기본적으로 +- 68.57 정도의 오차가 발생할 수 있는 모델로 판단

68.56651514640545

In [13]:
### 좋은 모델임에도 불구하고 성능향상을 더 할 수 있는 방법을 적용해 봅니다.
# 특성 공학을 적용하여 특성을 증가 시킵니다.(특성, 즉 컬럼을 추가 합니다.)
# 집중력(복잡도)를 강하게 하는 방법
"""
<특성을 생성하는 라이브러리>
- 사용패키지 : sklearn.preprocessing
- 사용모델(클래스) : 특성을 생성하는 모델(훈련 모델은 아님), PolynomialFeatures()
                  : "변환기"라고 칭합니다.
- 사용함수 : fit() -> 훈련 독립변수를 이용하여 특성의 패턴을 찾습니다.
           : transform() -> 찾은 특성의 패턴을 이용하여 특성을 생성합니다.
- 종속변수는 절대 사용하시거나, 변경하시면 안됩니다, 독립변수만 사용됩니다.
"""

'\n<특성을 생성하는 라이브러리>\n- 사용패키지 : sklearn.preprocessing\n- 사용모델(클래스) : 특성을 생성하는 모델(훈련 모델은 아님), PolynomialFeatures()\n                  : "변환기"라고 칭합니다.\n- 사용함수 : fit() -> 훈련 독립변수를 이용하여 특성의 패턴을 찾습니다.\n           : transform() -> 찾은 특성의 패턴을 이용하여 특성을 생성합니다.\n- 종속변수는 절대 사용하시거나, 변경하시면 안됩니다, 독립변수만 사용됩니다.\n'

In [14]:
### 변환기 클래스 라이브러리 불러들이기
from sklearn.preprocessing import PolynomialFeatures

In [15]:
### 클래스 생성하기
# include_bias : 해당 클래스가 특성을 추가 시킬 때 y절편값도 생성을 하기 때문에 우리는 특선만 필요합니다.
#              : 따라서 y절편은 제외한다라는 의미로 include_bias 값을 False로 설정합니다.(y절편 생성 여부 설정 속성)
poly = PolynomialFeatures(include_bias=False)
poly

In [16]:
### 예제 데이터로 작동 방식 확인하기
temp_data = [[2, 3, 4]]
temp_data

[[2, 3, 4]]

In [17]:
### 독립변수의 특성들을 이용해서 패턴 찾기
poly.fit(temp_data)

In [18]:
### 찾은 패턴으로 특성 추가시키기
poly.transform(temp_data)

### 특성 패턴
# 1. 사용된 독립변수가 첨에 그대로 제시됨(3개 특성 제시)
# 2. 첫번째 값을 제곱승한 값
# 3. 첫번째 값과 두번째 값을 곱한값
# 4. 첫번째 값과 세번째 값을 곱한값
# 5. 두번째 값을 제곱승한 값
# 6. 두번째 값과 세번째 값을 곱한값
# 7. 세번째 값을 제곱승한 값

array([[ 2.,  3.,  4.,  4.,  6.,  8.,  9., 12., 16.]])

In [28]:
### 차원을 이용하여 패턴 만들어서 특성 추가하기
poly = PolynomialFeatures(degree=3, include_bias=False)
poly

In [29]:
### 독립변수의 특성들을 이용해서 패턴 찾기
poly.fit(temp_data)

In [30]:
### 찾은 패턴으로 특성 추가시키기
poly.transform(temp_data)

array([[ 2.,  3.,  4.,  4.,  6.,  8.,  9., 12., 16.,  8., 12., 16., 18.,
        24., 32., 27., 36., 48., 64.]])

In [31]:
### 패턴 확인하는 함수 사용하기
poly.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2', 'x0^3', 'x0^2 x1', 'x0^2 x2', 'x0 x1^2', 'x0 x1 x2',
       'x0 x2^2', 'x1^3', 'x1^2 x2', 'x1 x2^2', 'x2^3'], dtype=object)

In [23]:
### -----------------------------------------
### 실제 독립변수를 이용해서 특성 생성하기

In [32]:
### 기존의 특성의 패턴을 찾아서 새로운 특성을 만들어내는 클래스(변환기라는 이름을 붙임)
poly = PolynomialFeatures(degree=2, include_bias=False)
poly

In [33]:
### 패턴찾기
# 패턴을 찾을 때는 항상 훈련독립변수만 사용합니다.
# 테스트 데이터는 사용하지 않습니다.
poly.fit(train_input)

In [34]:
### 새로운 특성 생성하기
### 특성을 생성할 때는 훈련 및 테스트 독립변수 모두 적용합니다.

# 훈련 독립변수에 특성 생성하기
train_poly = poly.transform(train_input)

# 테스트 독립변수에 특성 생성하기
test_poly = poly.transform(test_input)

train_poly.shape, test_poly.shape

((39, 9), (17, 9))

In [37]:
### 특성 생성에 사용된 패턴 확인하기
poly.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

In [44]:
### 모델 생성하기
lr = LinearRegression()
lr

In [45]:
### 모델 훈련시키기
lr.fit(train_poly, train_target)

In [58]:
### 훈련 및 테스트 정확도 확인하기
train_score = lr.score(train_poly, train_target)

test_score = lr.score(test_poly, test_target)

train_score, test_score, train_score-test_score

### 과소/과대 적합 여부 해석하기 
# 과소/과대 적합이 있다면 > 모델 튜닝 > 모델 훈련 > 정확도 확인을 반복하면서
# 가장 일단화된 모델이 되는 시점을 찾아야함
# 일반화된 모델을 찾은 후 아래 예측으로 넘어감
# 우리는 전체 예제 수행을 위해 그대로 진행함

### 해석
# 과소적합이 발생하지 않았으며, 과대적합 또한 발생하지 않았음
# 훈련정확도 0.989로 매우 훌륭한 성능을 지닌 모델로 판단됨
# 따라서 일반화된 모델로 예측에 사용가능함

(0.9898271546307026, 0.9713771600629592, 0.018449994567743433)

In [60]:
### 테스트 데이터로 예측하기
test_pred = lr.predict(test_poly)
test_pred

array([  22.92877835,   31.10777487,  250.98436388,  111.59208216,
        128.85787135,  779.24558158,  304.72417951,  176.31471164,
        916.8961555 ,   98.7200446 , 1180.23592257,   34.86148711,
        288.45880297,  272.52503942,   85.71366627,  120.24574045,
         59.93605383])

In [61]:
### 모델 오차 확인하기(평균절대오차(MAE))
mea = mean_absolute_error(test_target, test_pred)
mea

### 해석
# 특성공학을 적용하지 않았을 때의 다중회귀모델보다, 특성공학을 적용한 모델이 성능이 행상되었음
# 본 모델은 degree 2를 적용한 모델로, 약 30.2 정도의 예측 오차를 발생하는 것으로 보임

30.216889590346643

In [None]:
"""
<좀 더 성능을 높일 수 있는 방법을 찾아봅니다.>
- 정규화(표준화) 진행해보기
- 규제가 적용된 모델로 훈련시켜보기
- 단, 성능을 높이는 방법을 적용하였다고해서 성능이 무조건 높아지는 것은 아닙니다.
      오히려 낮아질 수도 있습니다.(이런 경우에는 지금까지 수행한 모델 처리 방법 중 가장 좋은 모델을 사용하면 됩니다.)

<규제>
- 훈련 시에 좀 더 복잡도를 추가하여 집중력을 강화시키는 방법으로,
  모델이 훈련할 때 복잡도를 증가/감소 함으로써 과대/과소 적합을 조정하는 방식입니다.
- 과대 또는 과소 적합이 발생 하였을 때 주로 사용되는 방식입니다.
- 훈련의 정확도가 다소 낮아지는 경향이 있으나, 검증(테스트) 정확도를 높이는 효과가 있음
- 훈련 모델을 일반화하는데 주로 사용되는 방법임
- 규제 개념을 적용한 향상된 모델 : 릿지(Ridge) 모델과 라쏘(Lasso) 모델이 있습니다.
"""

In [69]:
poly = PolynomialFeatures(degree=2, include_bias=False)

poly.fit(train_input)

train_poly = poly.transform(train_input)

test_poly = poly.transform(test_input)

train_poly.shape, test_poly.shape

poly.get_feature_names_out()

lr = LinearRegression()

lr.fit(train_poly, train_target)

train_score = lr.score(train_poly, train_target)

test_score = lr.score(test_poly, test_target)

train_score, test_score, train_score-test_score

test_pred = lr.predict(test_poly)
test_pred

mea = mean_absolute_error(test_target, test_pred)
mea

30.216889590346643

In [71]:
### 정규화를 위한 라이브러리 불러오기
from sklearn.preprocessing import StandardScaler

In [None]:
"""
<정규화(표준화) 순서>
1. 정규화(표준화) 클래스 생성하기
2. fit() : 정규화 패턴 찾기(훈련 독립변수만 사용합니다.)
3.  transform() : 찾은 패턴으로 데이터 변환하기(정규화(표준화))
                : 훈련 및 테스트 독립변수 모두 변환합니다.
"""

In [72]:
### 정규화 클래스 생성하기
ss = StandardScaler()
ss

In [73]:
### 정규화 패턴 찾기(훈련독립변수 사용)
ss.fit(train_poly)

In [74]:
### 찾은 패턴으로 훈련 및 테스트 독립변수 데이터 변환하기

train_scaled = ss.transform(train_poly)
test_scaled = ss.transform(test_poly)

train_scaled, test_scaled
train_scaled.shape, test_scaled.shape

((39, 9), (17, 9))

In [78]:
### 기존 모델을 이용해서 다시한번 훈련시켜보기
lr.fit(train_scaled, train_target)

train_score = lr.score(train_scaled, train_target)
test_score = lr.score(test_scaled, test_target)

train_score, test_score, train_score-test_score

### 해석
# 기존 특성공학(degree=2 적용)을 적용한 모델과 정규화 처리한 모델과의 정확도는 동일한 것으로 보임

(0.9898271546307025, 0.9713771600629609, 0.018449994567741546)

In [None]:
### 릿지(Ridge) 모델 확용하기
# 사용패키지 : sklearn.linear_model
# 사용모델명 ; Ridge

In [81]:
### 라이브러리
from sklearn.linear_model import Ridge

In [100]:
### 훈련 모델 생성하기
rg = Ridge()
rg

In [101]:
### 훈련시키기
rg.fit(train_scaled, train_target)

In [102]:
### 훈련 및 테스트 정확도 확인하기
train_score = rg.score(train_scaled, train_target)
test_score = rg.score(test_scaled, test_target)

train_score, test_score, train_score-test_score

### 해석
# 기존 모델보다 릿지모델의 훈련정확도는 다소 낮아 졌으나, 테스트 정확도는 높아졌음
# 훈련과 테스트의 차이가 매우 줄어든 일반화된 모델로 판단됨
# 기존 모델보다 일반화는 잘 되었다고 판단됨(다만 훈련 정확도는 다소 낮아졌음)

(0.9849041294689239, 0.9845173591615218, 0.0003867703074020845)

In [87]:
### 예측하기
test_pred = rg.predict(test_scaled)
test_pred

array([ -61.93263901,   69.38828574,  279.34790525,  140.45052142,
        137.16491873,  796.87105093,  335.18396118,  207.78335133,
        836.88122091,  118.54861871, 1083.37235419,   26.09003783,
        294.35909149,  347.40000282,   74.06227077,  130.15404326,
         70.08272221])

In [88]:
### 평균절대오차 값 확인하기
mea = mean_absolute_error(test_target, test_pred)
mea

29.25391147401819

In [None]:
### 해석
### 기존 모델을 선택한다면
# 훈련확도가 좀 더 높은 일반화된 모델을 선정하였음
### 릿지 모델을 선택환다면
# 기존모델보다 훈련 정확도는 낮아졌지만, 예측 정확도가 높고, 오차가 1g 줄어든 모델로
# 일반화가 매우 우수한 릿지 모델을 선정하였음

In [None]:
### 라쏘(Lasso) 모델 사용하기

In [90]:
from sklearn.linear_model import Lasso
ls = Lasso()
ls

In [91]:
ls.fit(train_scaled, train_target)

In [93]:
train_score = ls.score(train_scaled, train_target)
test_score = ls.score(test_scaled, test_target)

train_score, test_score, train_score - test_score

### 해석
# 기존 릿지 정확도 = (0.9849041294689239, 0.9845173591615218, 0.0003867703074020845)
# 릿지모델에 비하여 훈련정확도는 높아졌으며, 테스트 정확도 또한 높아졌으나, 미세하게 과소적합을 보이고 있음
# 매우 경미한 과소적합의 경우에는 사용은 가능하지만, 이를 해소하지 않고서 사용하기에는 미흡할 것으로 여겨짐

(0.9861305259897015, 0.98632202810554, -0.0001915021158385155)

In [95]:
test_pred = ls.predict(test_scaled)
test_pred

array([ -43.70669743,   70.41454264,  274.03291416,  138.14023972,
        136.1833532 ,  795.22130424,  328.60470097,  204.24315928,
        822.62808732,  118.11124527, 1075.40813513,   28.64520876,
        292.98922415,  341.90442243,   75.48401454,  129.1560788 ,
         71.01982925])

In [96]:
mea = mean_absolute_error(test_target, test_pred)
mea

26.8783844501734

In [None]:
### 릿지와 라쏘 모델에 규제 적용하기

In [None]:
"""
<릿지(Ridge) 모델에 규제 적용하기>
- 규제를 하이퍼파라메터라고 합니다.
- 규제 속성(변수)명 : alpha
- 규제 적용 시점 : 모델(클래스) 생성시에 속성값으로 넣어줍니다.
- alpha(규제)의 기본(defalue)값 = 1 입니다.
- alpha 값의 범위 : 0.001 ~ 100 사이의 값 중 1개를 사용합니다.
- 규제 해석
    alpha 값이 작을 수록 : 훈련 정확도는 낮아지면서, 과적합에 도움을 줄 수 있음
    alpha 값이 커질 수록 : 훈련 정확도는 높아지면서, 과적합에는 도움이 안될 수 있음
"""

In [120]:
### 모델생성 시 규제값 적용하기
rg = Ridge(alpha=0.1)
rg

In [121]:
rg.fit(train_scaled, train_target)

In [122]:
### 정확도 확인하기
train_score = rg.score(train_scaled, train_target)
test_score = rg.score(test_scaled, test_target)

train_score, test_score, train_score - test_score  

### alpha = 1일 때 정확도   : (0.9849041294689239, 0.9845173591615218, 0.0003867703074020845)
### alpha = 0.1일 때 정확도 : (0.988278016139003, 0.9868237771849515, 0.001454238954051501)

(0.988278016139003, 0.9868237771849515, 0.001454238954051501)

In [123]:
test_pred = rg.predict(test_scaled)

mea = mean_absolute_error(test_target, test_pred)
mea

20.233828045889485

In [None]:
### 해석
# 기존 alpha값 1을 사용했을 때보다 훈련의 성능은 높아졌으나, 일반화는 다소 낮아졌음 
# 다만, 그차이는 매우 경미하기에 예측에 따른 MAE를 확인한 결과
# alpha값 1을 사용했을 때보다 0.1을 사용했을 떄의 모델이 매우 월등하게 오차를 줄일 수 있는 모델로 여겨짐
# 따라서, 본 데이터를 이용한 예측 모델론믄 특성 공학을 적용한 degree값 2와, 정규화를 거친, alpha값 0.1의
#        Ridge 모델을 선정하는 것이 타당하다고 판단

In [None]:
### 라쏘(Lasso) 모델에 alpha 0.1 적용하여 정확도 확인하기

In [125]:
ls = Lasso(alpha=0.1)
ls.fit(train_scaled, train_target)
train_score = ls.score(train_scaled, train_target)
test_score = ls.score(test_scaled, test_target)
print(train_score, test_score, train_score-test_score)

test_pred = ls.predict(test_scaled)
mea = mean_absolute_error(test_target, test_pred)
mea

### 릿지 -> alpha = 0.1 일때 정확도 : (0.988278016139003, 0.9868237771849515, 0.001454238954051501) / 20.2338

0.9883448062768178 0.9857016019582314 0.002643204318586334


  model = cd_fast.enet_coordinate_descent(


21.295562116910883