In [None]:
from catboost import CatBoostRegressor
import pandas as pd

# 예제 데이터
data = pd.DataFrame({
    'category': ['과일', '야채', '과일', '음료'],
    'price': [1000, 2000, 1500, 1800],
    'param_a': [0.1, 0.3, 0.2, 0.4],
    'param_b': [1.5, 2.0, 1.6, 2.2]  # 예측하려는 값
})

# 특성과 타겟 분리
X = data[['category', 'price', 'param_a']]
y = data['param_b']

# CatBoost 모델 생성
model = CatBoostRegressor(verbose=0)

# 범주형 컬럼 이름 알려주기
model.fit(X, y, cat_features=['category'])

# 예측하기
y_pred = model.predict(X)
print(y_pred)


[1.56803954 1.99942541 1.60150526 2.19493465]


In [1]:
from catboost import CatBoostRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import pandas as pd
import numpy as np

# 랜덤 시드 고정
np.random.seed(42)

# 카테고리 생성
categories = ['과일', '야채', '음료', '과자', '유제품', '육류', '해산물', '곡물', '냉동식품', '조미료']

# 데이터 생성
data = pd.DataFrame({
    'category': np.random.choice(categories, size=1000),
    'price': np.random.randint(1000, 100001, size=1000),
    'param_a': np.random.uniform(0.1, 200.0, size=1000)
})

# ✅ param_b에 예측 가능한 구조를 추가
data['param_b'] = (
    0.00001 * data['price'] +     # price 영향
    0.002 * data['param_a'] +     # param_a 영향
    np.random.normal(0, 0.05, size=1000)  # 약간의 노이즈
)

# 특성과 타겟 분리
X = data[['category', 'price', 'param_a']]
y = data['param_b']

# 훈련/테스트 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# 모델 생성 및 훈련
model = CatBoostRegressor(verbose=0)
model.fit(X_train, y_train, cat_features=['category'])

# 예측
y_pred = model.predict(X_test)

# 성능 평가
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# 출력
print("📊 CatBoost 회귀 모델 성능 (개선된 데이터):")
print(f"MAE  (Mean Absolute Error)     : {mae:.4f}")
print(f"MSE  (Mean Squared Error)      : {mse:.4f}")
print(f"RMSE (Root Mean Squared Error) : {rmse:.4f}")
print(f"R²   (R-squared)                : {r2:.4f}")

# 샘플 10개 출력
sample_df = pd.DataFrame({
    '예측값': y_pred[:10],
    '실제값': y_test.values[:10]
})
print("\n📌 샘플 10개 예측 vs 실제값:")
print(sample_df)


📊 CatBoost 회귀 모델 성능 (개선된 데이터):
MAE  (Mean Absolute Error)     : 0.0426
MSE  (Mean Squared Error)      : 0.0027
RMSE (Root Mean Squared Error) : 0.0524
R²   (R-squared)                : 0.9727

📌 샘플 10개 예측 vs 실제값:
        예측값       실제값
0  0.103682  0.125849
1  0.892821  0.894863
2  0.778655  0.792062
3  0.247803  0.339545
4  0.410762  0.379329
5  0.891521  0.923113
6  0.288612  0.381173
7  1.037189  1.070816
8  1.262851  1.221880
9  0.576163  0.618873


## Catboost 학습 데이터 저장 (catboost_model.cbm)

In [10]:
from catboost import CatBoostRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import pandas as pd
import numpy as np

# 랜덤 시드 고정
np.random.seed(42)

# 데이터 생성
categories = ['과일', '야채', '음료', '과자', '유제품', '육류', '해산물', '곡물', '냉동식품', '조미료']
data = pd.DataFrame({
    'category': np.random.choice(categories, size=1000),
    'price': np.random.randint(1000, 100001, size=1000),
    'param_a': np.random.uniform(0.1, 200.0, size=1000)
})
data['param_b'] = (
    0.00001 * data['price'] +
    0.002 * data['param_a'] +
    np.random.normal(0, 0.05, size=1000)
)

# 데이터 분리
X = data[['category', 'price', 'param_a']]
y = data['param_b']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# CatBoost 모델 학습
model = CatBoostRegressor(verbose=0)
model.fit(X_train, y_train, cat_features=['category'])

# 모델 저장
model.save_model("catboost_model.cbm")
print("✅ 모델이 'catboost_model.cbm' 파일로 저장되었습니다.")


✅ 모델이 'catboost_model.cbm' 파일로 저장되었습니다.


## 저장된 Catboost 모델을 불러와 예측 실행

In [11]:
from catboost import CatBoostRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import pandas as pd
import numpy as np

# 동일한 데이터 생성 (훈련은 안 함, 단지 테스트셋 필요)
np.random.seed(42)
categories = ['과일', '야채', '음료', '과자', '유제품', '육류', '해산물', '곡물', '냉동식품', '조미료']
data = pd.DataFrame({
    'category': np.random.choice(categories, size=1000),
    'price': np.random.randint(1000, 100001, size=1000),
    'param_a': np.random.uniform(0.1, 200.0, size=1000)
})
data['param_b'] = (
    0.00001 * data['price'] +
    0.002 * data['param_a'] +
    np.random.normal(0, 0.05, size=1000)
)

X = data[['category', 'price', 'param_a']]
y = data['param_b']
_, X_test, _, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# 저장된 모델 불러오기
model = CatBoostRegressor()
model.load_model("catboost_model.cbm")
print("✅ 저장된 모델을 불러왔습니다.")

# 예측 수행
y_pred = model.predict(X_test)

# 성능 평가
mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print("📊 저장된 모델 예측 결과:")
print(f"MAE  : {mae:.4f}")
print(f"RMSE : {rmse:.4f}")
print(f"R²   : {r2:.4f}")


✅ 저장된 모델을 불러왔습니다.
📊 저장된 모델 예측 결과:
MAE  : 0.0426
RMSE : 0.0524
R²   : 0.9727
