# CatBoost

CatBoostは、Yandexの研究者とエンジニアによって開発された勾配ブースティングアルゴリズムを利用した決定木のためのライブラリです​​。このライブラリは2017年にリリースされ、ロシアの検索エンジン企業であるYandex社の検索アルゴリズムにも利用されています​​。CatBoostは、特にカテゴリカルデータの処理に優れ、高速なGPUトレーニング、およびモデルおよび特徴分析のための視覚化ツールも提供されている。

<a href="https://colab.research.google.com/github/fuyu-quant/data-science-wiki/blob/develop/tabledata/regression/CatBoost.ipynb" target="_blank" rel="noopener noreferrer"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
%%capture
!pip install catboost

In [10]:
from catboost import CatBoost, Pool

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.datasets import fetch_california_housing

### データの用意

In [5]:
california = fetch_california_housing()
df = pd.DataFrame(california.data, columns=california.feature_names)
df['target'] = pd.Series(california.target, name='MedHouseVal')
df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


In [7]:
x = df.drop('target', axis = 1)
y = df['target']


X_train,X_valid,y_train,y_valid = train_test_split(x,y,test_size = 0.2, random_state=4)

### CatBoostの学習

In [8]:
train_pool = Pool(X_train, y_train)
test_pool = Pool(X_valid, y_valid)

# モデルを作成し訓練
model = CatBoost({'iterations': 500, 'learning_rate': 0.1, 'depth': 6, 'loss_function': 'RMSE', 'verbose': 200})
model.fit(train_pool)

0:	learn: 1.0932339	total: 57.9ms	remaining: 28.9s
200:	learn: 0.4364923	total: 366ms	remaining: 544ms
400:	learn: 0.3834765	total: 673ms	remaining: 166ms
499:	learn: 0.3656107	total: 824ms	remaining: 0us


<catboost.core.CatBoost at 0x17fc296d0>

### 予測

In [9]:
y_pred = model.predict(test_pool)

In [11]:
# 平均二乗誤差を計算します
mse = mean_squared_error(y_valid, y_pred)
print(f'Mean Squared Error: {mse}')

Mean Squared Error: 0.19669896983157387
