# 編碼

## 常見的編碼

* 獨熱編碼（One-Hot Encoding）：將每個類別轉換為一個二元的特徵，每個特徵代表一個類別，其中一個為1（存在）而其他都為0。這種方法常用於具有少量類別的特徵。
* 標籤編碼（Label Encoding）：將每個類別映射到一個整數，這樣可以保持數值順序關係。這種方法適用於具有類別之間自然排序的特徵。
* 目標編碼（Target Encoding）：將每個類別的平均目標值（Y 值）作為特徵的數值，這對二元分類或多分類問題有用。



In [None]:
# 匯入所需的套件
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.metrics import mean_squared_error

# 創建示例 DataFrame（請根據你的實際資料替換這部分）
data = {
    'Feature1': [1.0, 2.0, 3.0, 4.0, 5.0],
    'Feature2': [10, 20, 30, 40, 50],
    'Feature3': ['A', 'B', 'C', 'A', 'B'],
    'Target': [12.5, 25.0, 35.0, 47.5, 55.0]
}

df = pd.DataFrame(data)

# 將類別特徵進行編碼（例如使用 one-hot 編碼）
df = pd.get_dummies(df, columns=['Feature3'])

# 分割資料為訓練集和測試集
X = df.drop(columns=['Target'])
y = df['Target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 訓練 XGBoost 模型
xgb_model = xgb.XGBRegressor(objective='reg:squarederror', n_estimators=100, random_state=42)
xgb_model.fit(X_train, y_train)

# 預測
xgb_predictions = xgb_model.predict(X_test)

# 計算模型性能（例如均方誤差）
xgb_rmse = np.sqrt(mean_squared_error(y_test, xgb_predictions))

print(f'XGBoost 模型 RMSE: {xgb_rmse}')
