### 지도학습 - 회귀모델 학습 추가 문제
- Diamonds Dataset을 이용한 가격 예측 모델 구현

- 회귀 알고리즘에서 정규화 → 정규화 기법을 통해서 과적합 문제를 방지
- 회귀알고리즘에서 변수 선택: → 과적합을 방지하기 위해 독립변수(특성, 피처)를 선택하거나, 불필요한 특성을 제거하는것



In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder

In [5]:
#파일 가져오기
df = pd.read_csv('diamonds.csv')
#데이터 크기 확인
print(df.shape)

#carat 열 IQR
Q1 = df['carat'].quantile(0.25)

Q3 = df['carat'].quantile(0.75)

IQR = Q3 - Q1

print(IQR)

#이상치 범위 정의
lower_carat = Q1 - 1.5 * IQR

upper_carat = Q3 + 1.5 * IQR

#이상치 확인
print('이상치의 범위: ',f'{lower_carat}보다 작거나, {upper_carat}보다 큰 값')

#이상치 대상 확인
outliers = df[(df['carat']< lower_carat) | (df['carat'] > upper_carat)]
print('이상치: ',outliers.shape)
# 크기: 1889 * 11

#이상치 제거
df_del = df[(df['carat'] >= lower_carat) & (df['carat'] <= upper_carat)]
print('제거 후 크기: ',df_del.shape)
#제거 후 데이터 크기 확인( 52051 * 11)

(53940, 11)
0.64
이상치의 범위:  -0.5599999999999999보다 작거나, 2.0보다 큰 값
이상치:  (1889, 11)
제거 후 크기:  (52051, 11)


In [6]:
df.columns

Index(['Unnamed: 0', 'carat', 'cut', 'color', 'clarity', 'depth', 'table',
       'price', 'x', 'y', 'z'],
      dtype='object')

In [7]:
#라벨 인코딩
columns = ['cut', 'color', 'clarity']

label_encoding = LabelEncoder()

for col in columns:
    df[col] = label_encoding.fit_transform(df[col])


In [8]:
#타겟: 가걱(price)
X = df.drop(columns=['price'])
y = df['price']

In [9]:
#데이터 분리
X_train, X_test, y_train, y_test = train_test_split(
    X, 
    y, 
    test_size=0.2, 
    random_state=42)

In [10]:
#사용할 회귀 모델들 정의(딕셔너리)
models = {
    "Linear": LinearRegression(),
    "Ridge": Ridge(alpha=1.0),
    "Lasso": Lasso(alpha=0.1),
    "Decision Tree": DecisionTreeRegressor(max_depth=3),
    "Random Forest": RandomForestRegressor(n_estimators=100),
    "SVR": SVR()
}

In [1]:
#학습 및 예측 결과 저장
results = []

# plt.figure(figsize=(12, 8))
# plt.scatter(X_test['carat'], y_test, color='gray', alpha=0.5, label="Actual")

for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    results.append({
        'Model': name,
        'MSE': mse,
        'R2': r2
    })

print(results)


NameError: name 'models' is not defined

In [2]:
#모델 성능 비교 출력
df_results = pd.DataFrame(results).sort_values(by='R2', ascending=False)
print(df_results)

NameError: name 'pd' is not defined