## 划分训练集和测试集

### 1.随机抽样

In [None]:
from sklearn.model_selection import train_test_split

train_set, test_set = train_test_split( data, test_size=0.2, random_state=42)

test_size: 测试集大小  
random_state: 随机种子

### 2.分层抽样

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(data, data["income_cat"]):
    strat_train_set = data.loc[train_index]
    strat_test_set = data.loc[test_index]

n_splits是将训练数据分成train/test对的组数，可根据需要进行设置，默认为10(此处n_splits=1)

## 数据清洗

缺失特征数据的处理:  
1.剔除缺失该特征的样本  
2.剔除整个特征  
3.用特定值填充缺失的特征数据(0,平均数,中位数等)

In [None]:
from sklearn.preprocessing import Imputer

imputer = Imputer(strategy="median")

创建Imputer的实例,可以用于向缺失数据填充特定值, 其中中位数只能计算于数值型特征

In [None]:
imputer.fit(data_num)
X = imputer.transform(data_num)

利用fit()方法对数据进行适应  
利用transform()方法对数据进行转换

In [None]:
imputer.strategy

获取imputer实例中超参数strategy的值(不带下划线)

In [None]:
imputer.statistics_

获取imputer实例中参数statistics的值(带下划线)  
使用fit()方法后获得的参数

## 处理文本分类特征

In [None]:
data_encoded, data_categories = Series.factorize()

将文本分类的Series数据转化为数字分类  
factorize()返回2个对象:  
第一个对象为数字分类的列表  
第二个对象为数字分类对应的标签

In [None]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()
data_cat_1hot = encoder.fit_transform(data_encoded.reshape(-1,1))

将之前的数字分类,转换为one-hot向量  
默认的输出形式为Scipy的稀疏(sparse)矩阵

In [None]:
data_cat_1hot.toarray()

通过toarray()方法将稀疏矩阵转化为稠密(dense)矩阵

## 验证模型

### 交叉验证(Cross-Validation)

In [None]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(model, data_prepared, data_labels,
                         scoring="neg_mean_squared_error", cv=10)
rmse_scores = np.sqrt(-scores)

交叉验证要求的是效用函数(越大越好),而非损失函数  
因此,得分函数实际上是均方误差(MSE)的负数,在计算均方根误差(RMSE)时,要对其乘以-1

In [None]:
rmse_scores.mean()  #求cv个得分的平均数

In [None]:
rmse_scores.std()   #求cv个得分的标准差

然而,交叉验证需要多次训练模型,这在实际应用中并不总是可行

## 保存模型

In [None]:
from sklearn.externals import joblib
joblib.dump(my_model, "my_model.pkl") # 保存模型
#之后
my_model_loaded = joblib.load("my_model.pkl") # 导入模型