### 1. 회귀 기반 모델링 – 회귀 (예측)

auto mpg 데이터셋으로 연비예측.

1. LinearRegression
2. PolynominalRegression
3. Ridge
4. Lasso
각 모델들의 성능을 비교


### 2. 회귀 기반 모델링 – 분류 타겟 변경 필요
LogisticRegression



### *columns 이름
mpg: 연비 (종속 변수)

cylinders: 실린더 수

displacement: 배기량

horsepower: 출력

weight: 차량 무게

acceleration: 가속도

model year: 출시 년도

origin: 제조국 (1: 미국, 2: 유럽, 3: 일본)

car name: 차량 이름

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score, mean_squared_error

In [3]:

# 데이터셋 불러오기
df = pd.read_csv('./data/auto-mpg.csv')

In [4]:
# 데이터 확인
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,car name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86,2790,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52,2130,24.6,82,2,vw pickup
395,32.0,4,135.0,84,2295,11.6,82,1,dodge rampage
396,28.0,4,120.0,79,2625,18.6,82,1,ford ranger


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   car name      398 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 28.1+ KB


In [6]:
#결측치 확인
df.isnull().sum()

mpg             0
cylinders       0
displacement    0
horsepower      0
weight          0
acceleration    0
model year      0
origin          0
car name        0
dtype: int64

In [7]:
df["horsepower"].unique()

array(['130', '165', '150', '140', '198', '220', '215', '225', '190',
       '170', '160', '95', '97', '85', '88', '46', '87', '90', '113',
       '200', '210', '193', '?', '100', '105', '175', '153', '180', '110',
       '72', '86', '70', '76', '65', '69', '60', '80', '54', '208', '155',
       '112', '92', '145', '137', '158', '167', '94', '107', '230', '49',
       '75', '91', '122', '67', '83', '78', '52', '61', '93', '148',
       '129', '96', '71', '98', '115', '53', '81', '79', '120', '152',
       '102', '108', '68', '58', '149', '89', '63', '48', '66', '139',
       '103', '125', '133', '138', '135', '142', '77', '62', '132', '84',
       '64', '74', '116', '82'], dtype=object)

In [8]:
# '?' 문자열을 결측치로 대체하기
df.replace('?', np.nan, inplace=True)

In [9]:
# 결측치가 있는 행 제거하기
df.dropna(inplace=True)

In [10]:
# 정규화
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaled_data = scaler.fit_transform(df[['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year']])

In [11]:
from sklearn.model_selection import train_test_split

# 데이터셋 분할
X = scaled_data
y = df['mpg']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [12]:
X_train

array([[ 0.30996673,  0.29267898,  0.14386888,  0.75728144,  1.14638126,
         0.54916798],
       [-0.86401356, -0.52063686, -0.32436858, -0.47810369, -0.23275743,
         0.00554715],
       [ 0.30996673, -0.22401579, -0.19430262,  0.00756298, -0.37792992,
        -0.26626326],
       ...,
       [-0.86401356, -0.41538422, -0.50646093, -0.14450256,  0.7471569 ,
         0.54916798],
       [-0.86401356, -0.92251057, -1.02672478, -0.7044338 ,  1.87224372,
         1.36459922],
       [ 1.48394702,  1.96715277,  1.18439658,  2.38049264, -0.55939554,
        -0.80988409]])

In [13]:
X_test

array([[-8.64013555e-01, -9.41647417e-01, -9.22672014e-01,
        -9.29585095e-01,  8.92329393e-01, -1.08169451e+00],
       [-8.64013555e-01, -7.02436875e-01,  2.73934844e-01,
        -2.15230712e-01,  5.75875579e-02,  5.49167980e-01],
       [-8.64013555e-01, -9.89489525e-01, -1.15679075e+00,
        -1.38813931e+00,  3.11639421e-01,  5.49167980e-01],
       [-8.64013555e-01, -9.89489525e-01, -8.96658822e-01,
        -1.20542491e+00,  1.79965748e+00, -1.35350492e+00],
       [-8.64013555e-01, -5.20636863e-01, -4.80447740e-01,
        -2.21124726e-01,  2.12944346e-02,  1.63640964e+00],
       [-8.64013555e-01, -9.32078995e-01, -7.66592859e-01,
        -9.69664384e-01,  3.11639421e-01,  5.54715131e-03],
       [ 1.48394702e+00,  1.96715277e+00,  1.70466044e+00,
         2.08461318e+00, -1.28525800e+00, -1.35350492e+00],
       [-8.64013555e-01, -9.32078995e-01, -7.66592859e-01,
        -8.39996096e-01,  9.64915640e-01,  2.77357566e-01],
       [ 3.09966735e-01,  2.92678980e-01, -2.463

In [14]:
y_train

260    18.6
184    25.0
174    18.0
64     15.0
344    39.0
       ... 
72     15.0
107    18.0
272    23.8
352    29.9
103    11.0
Name: mpg, Length: 313, dtype: float64

In [15]:
y_test

79     26.0
276    21.6
248    36.1
56     26.0
393    27.0
       ... 
366    17.6
83     28.0
115    15.0
3      16.0
18     27.0
Name: mpg, Length: 79, dtype: float64

### Linear Regression

In [16]:
# LinearRegression 모델 학습
lr = LinearRegression()
lr.fit(X_train, y_train)

# 예측
y_pred = lr.predict(X_test)

# 평가
lr_r2 = r2_score(y_test, y_pred)
lr_rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print("Linear Regression R2 Score:", lr_r2)
print("Linear Regression RMSE:", lr_rmse)

Linear Regression R2 Score: 0.794234907542859
Linear Regression RMSE: 3.240736078334258


### Polynominal Regression

In [29]:
# Polynominal Regression는 다항회귀를 말한다고함. 
# 다항회귀는 PolynomialFeatures를 사용함. 
# 이를 위한 전처리
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# 전처리를 하고나서 LinearRegression으로 모델 학습
poly = LinearRegression()
poly.fit(X_train_poly, y_train)

# 예측
y_pred = poly.predict(X_test_poly)

# 평가
poly_r2 = r2_score(y_test, y_pred)
poly_rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print("Polynomial Regression R2 Score:", poly_r2)
print("Polynomial Regression RMSE:", poly_rmse)

Polynomial Regression R2 Score: 0.7554139494160395
Polynomial Regression RMSE: 3.626364864538202


In [18]:
# ridge 모델 학습
ridge = Ridge(alpha=0.5)
ridge.fit(X_train, y_train)

# 예측
y_pred = ridge.predict(X_test)

# 평가
ridge_r2 = r2_score(y_test, y_pred)
ridge_rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print("Ridge Regression R2 Score:", ridge_r2)
print("Ridge Regression RMSE:", ridge_rmse)

Ridge Regression R2 Score: 0.7938879367688432
Ridge Regression RMSE: 3.2434672682316776


In [19]:
# lasso 모델 학습
lasso = Lasso(alpha=0.5)
lasso.fit(X_train, y_train)

# 예측
y_pred = lasso.predict(X_test)

# 평가
lasso_r2 = r2_score(y_test, y_pred)
lasso_rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print("Lasso Regression R2 Score:", lasso_r2)
print("Lasso Regression RMSE:", lasso_rmse)

Lasso Regression R2 Score: 0.8045109077858248
Lasso Regression RMSE: 3.1587778148586736


### 결과 비교

스코어가 높으면 좋은 성능을 가지고 있다고 할 수 있고

RMSE가 낮을 수록 좋은 성능을 가지고 있다고 할 수 있음.

따라서, PolynomialFeatures > Lasso > LinearRegression > ridge 순.


- 4개의 모델을 비교해 보면, PolynomialFeatures 모델이 가장 높은 R2 Score와 가장 낮은 RMSE를 가지며 가장 성능이 좋은 것으로 나타남.

- Lasso Regression 모델이 그 다음으로 좋은 성능을 보여주고 있음.

- LinearRegression모델과 Ridge Regression 모델은 비슷한 성능을 보이나,

그래도 Ridge Regression 모델이 나머지 모델에 비해 R2 Score이 제일 낮고,
RMSE가 제일 높게 나타나 성능이 가장 나쁜 것으로 나타남.

### 2. 회귀 기반 모델링 – 분류 타겟 변경 필요
LogisticRegression

In [20]:
# 데이터셋 불러오기
df = pd.read_csv("./data/auto-mpg.csv")

In [21]:
# mpg와 weight 열만 추출
df = df[["mpg", "weight"]]

In [22]:
# 결측값 또는 이상치 처리
df = df.dropna() # 결측값 제거
df = df[df["mpg"] > 0] # mpg가 0보다 작은 값 제거

In [23]:
from sklearn.model_selection import train_test_split

# 독립 변수와 종속 변수 분리
X = df.drop("mpg", axis=1)
y = df["mpg"]

In [24]:
# 학습 데이터셋과 테스트 데이터셋 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [25]:
from sklearn.linear_model import LogisticRegression

# 로지스틱 회귀 모델 학습
model = LogisticRegression()
model.fit(X_train, y_train)

ValueError: Unknown label type: 'continuous'

그냥 돌리니 무슨 에러가 뜨는데

타겟변수 y를 이산형으로 바꾸면 해결될거라 함

In [None]:
# 문턱값?을 25로 설정하고 25이상이면 좋음 : 1,  미만이면 나쁨 : 0 으로 분류해주는 코드
threshold = 25
y = np.where(df['mpg'] >= threshold, 1, 0)

In [None]:
# 학습 데이터셋과 테스트 데이터셋 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
from sklearn.linear_model import LogisticRegression

# 로지스틱 회귀 모델 학습
model = LogisticRegression()
model.fit(X_train, y_train)

LogisticRegression()

In [None]:
y_pred = model.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1-score:", f1_score(y_test, y_pred))

Accuracy: 0.85
Precision: 0.7837837837837838
Recall: 0.8787878787878788
F1-score: 0.8285714285714285


- Accuracy (정확도): 전체 예측 중 실제값과 일치한 비율을 의미.

여기서는 0.85로, 전체 예측 중 85%가 올바른 예측을 한 것을 나타냄.



- Precision (정밀도): 모델이 True로 예측한 데이터 중 실제 True인 데이터의 비율을 의미함.

여기서는 0.7838로, 모델이 True로 예측한 데이터 중 78.38%만이 실제로 True인 것을 나타냄.



- Recall (재현율): 실제 True인 데이터 중 모델이 True로 예측한 데이터의 비율을 의미.

여기서는 0.8788로, 실제 True인 데이터 중 87.88%가 모델에 의해 True로 예측된 것을 나타냄.



- F1-score: 정밀도와 재현율의 조화평균으로 계산된 지표로, 모델의 예측 성능을 종합적으로 나타냄.

여기서는 0.8286으로, 정밀도와 재현율이 모두 균형있게 나타나고 있음을 나타냄.