# 蘑菇分类模型的训练和保存

本笔记本演示了在 Mushroom 数据集上训练 RandomForest 模型、在测试集上验证模型以及将训练好的模型保存到 `data` 目录的过程。

In [7]:
# 加载必要的库
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## 阶段 1: 加载数据集
在这一阶段，我们将加载训练数据集和测试数据集，并显示它们的基本信息。

In [8]:
print("加载数据集...")
df_train = pd.read_csv("data/mushrooms.csv")
df_test = pd.read_csv("data/mushrooms_test.csv")
print("训练数据集样本数量:", len(df_train))
print("测试数据集样本数量:", len(df_test))

# 显示加载的数据
df_train.head(), df_test.head()

加载数据集...
训练数据集样本数量: 8000
测试数据集样本数量: 124


(  class cap-shape cap-surface cap-color bruises odor gill-attachment  \
 0     p         x           s         w       f    c               f   
 1     p         x           s         e       f    s               f   
 2     p         k           s         e       f    y               f   
 3     p         f           f         g       f    f               f   
 4     e         f           f         n       f    n               f   
 
   gill-spacing gill-size gill-color  ... stalk-surface-below-ring  \
 0            c         n          p  ...                        s   
 1            c         n          b  ...                        k   
 2            c         n          b  ...                        s   
 3            c         b          p  ...                        k   
 4            w         b          h  ...                        s   
 
   stalk-color-above-ring stalk-color-below-ring veil-type veil-color  \
 0                      w                      w         p       

## 阶段 2: 特征处理
在这一阶段，我们将对训练数据和测试数据进行独热编码，并确保测试集的特征与训练集一致。

In [9]:
print("\n特征处理...")
X_train = pd.get_dummies(df_train.iloc[:, 1:])  # 读取特征并独热编码
y_train = df_train['class']  # 目标值
X_test = pd.get_dummies(df_test.iloc[:, 1:])  # 测试特征处理并独热编码
y_test = df_test['class']  # 测试目标值

# 确保测试集的特征与训练集一致
X_test = X_test.reindex(columns=X_train.columns, fill_value=0)
print("训练集特征维度:", X_train.shape)
print("测试集特征维度:", X_test.shape)


特征处理...
训练集特征维度: (8000, 117)
测试集特征维度: (124, 117)


## 阶段 3: 模型训练
在这一阶段，我们将训练一个随机森林模型，并使用交叉验证评估模型的性能。

In [10]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

print("\n训练模型...")
model = RandomForestClassifier()
cross_val_score_result = cross_val_score(model, X_train, y_train, cv=5).mean()
print("交叉验证结果:", cross_val_score_result)

model.fit(X_train, y_train)
print("模型训练完成。")


训练模型...
交叉验证结果: 1.0
模型训练完成。


## 阶段 4: 模型验证
在这一阶段，我们将使用测试数据集评估模型的准确性。

In [11]:
from sklearn.metrics import accuracy_score

print("\n验证模型...")
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("测试集上的准确率:", accuracy)


验证模型...
测试集上的准确率: 1.0


## 阶段 5: 保存模型
在这一阶段，我们将训练好的模型保存到 `data` 目录下，以便后续使用。

In [12]:
import joblib

print("\n保存模型和特征列...")
joblib.dump(model, "data/mushrooms.pkl")
X_train_columns = X_train.columns.to_list()
joblib.dump(X_train_columns, "data/feature_columns.pkl")
print("模型和特征列已保存到 'data' 目录。")


保存模型和特征列...
模型和特征列已保存到 'data' 目录。
