In [2]:
import pandas as pd

In [3]:
# 读取路径
melbourne_file_path = "D:\code\skill\Machine_Learning\melb_data.csv"
# 读取文件
melbourne_data = pd.read_csv(melbourne_file_path)

In [4]:
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

墨尔本数据有一些缺失值（一些房屋的一些变量没有记录。）
我们将在后面的教程中学习处理缺失值。
您的爱荷华州数据在您使用的列中没有缺失值。
所以我们现在将采取最简单的选择，从我们的数据中删除房屋。
现在不用担心这么多，尽管代码是：
dropna 删除缺失值（将 na 视为“不可用”）

In [5]:

melbourne_data = melbourne_data.dropna(axis=0) # axis=0处理的为列

In [6]:
# 我们将使用点符号来选择我们想要预测的列，这称为预测目标。
# 按照惯例，预测目标称为 y。
# 所以我们需要保存墨尔本数据中的房价的代码是
y = melbourne_data.Price

In [7]:
# 选择输入模型内的特征(除目标列之外的所有列都可以成为特征)
melbourne_features = ["Rooms", "Bathroom", "Landsize", "Lattitude", "Longtitude"]

# 按照惯例，该数据称为 X
X = melbourne_data[melbourne_features]

In [8]:
# 让我们快速回顾一下我们将使用describe 方法和head 方法来预测房价的数据，该方法显示了前几行
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


In [9]:
# 导入决策树模型
from sklearn.tree import DecisionTreeRegressor
#构建和使用模型的步骤是：
# 定义：它将是什么类型的模型？决策树？其他类型的模型？还指定了模型类型的一些其他参数。
# 拟合：从提供的数据中捕获模式。这是建模的核心。
# 预测：正如听起来的那样
# 评估：确定模型预测的准确性。

# 定义模型。为 random_state 指定一个数字以确保每次运行结果相同
melbourne_model = DecisionTreeRegressor(random_state=1)

# 拟合模型
melbourne_model.fit(X, y)

In [10]:
# 在实践中，您需要对市场上即将上市的新房屋进行预测，而不是对我们已经有价格的房屋进行预测。但我们将对训练数据的前几行进行预测，以了解预测函数的工作原理。
print("Making predictions for the following 5 houses:")
X.head()

Making predictions for the following 5 houses:


Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


In [11]:
print("The predictions are")
melbourne_model.predict(X.head())

The predictions are


array([1035000., 1465000., 1600000., 1876000., 1636000.])

In [12]:
# 一旦我们有了模型，我们就可以计算平均绝对误差
from sklearn.metrics import mean_absolute_error

# 定义预测价格
predicted_home_prices = melbourne_model.predict(X)

# 计算预测值和真实值之间的绝对误差的平均值来衡量模型的表现。
mean_absolute_error(y, predicted_home_prices)
print(mean_absolute_error(y, predicted_home_prices))
"""使用训练数据进行模型评估容易出现过拟合(在训练数据表现好，在新数据表现差)"""

1115.7467183128902


'使用训练数据进行模型评估容易出现过拟合(在训练数据表现好，在新数据表现差)'

In [13]:
# scikit-learn 库有一个函数 train_test_split 将数据分成两部分。
# 我们将使用其中一些数据作为训练数据来拟合模型，并使用其他数据作为验证数据来计算mean_absolute_error。
from sklearn.model_selection import train_test_split

# 将数据分为训练数据和验证数据，分别用于特征和目标
# 分割基于随机数生成器。提供一个数值
# random_state 参数保证我们每次都会得到相同的分割
# 运行这个脚本。

train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)
"""
train_X: 使用分割好的训练特征(跟价格有关的指标)进行拟合模型
val_X: 将该验证训练特征放入训练好的模型得到预测值
train_y: 使用分割好的预测值(价格)进行拟合模型
val_y: 使用该验证预测值(价格)和预测结果值进行计算误差
"""
# 定义模型
melbourne_model = DecisionTreeRegressor()
# 拟合模型
melbourne_model.fit(train_X, train_y)

# 获取验证数据的预测价格
val_predictions = melbourne_model.predict(val_X)
mean_absolute_error(val_y, val_predictions)

"""在上述代码中使用分割数据方法，让训练数据只用于训练，模型评估使用未出现的验证数据，提高泛化能力"""

'在上述代码中使用分割数据方法，让训练数据只用于训练，模型评估使用未出现的验证数据，提高泛化能力'

In [14]:
mean_absolute_error(val_y, val_predictions)

np.float64(275811.92123950936)

我们可以使用实用函数来帮助比较 max_leaf_nodes 不同值的 MAE 分数

In [15]:
from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

def get_mat(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)

    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)

    return mae

我们可以使用 for 循环来比较使用不同 max_leaf_nodes 值构建的模型的准确性。

In [16]:
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mat(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print(f"max leaf node: {max_leaf_nodes}, mae: {my_mae}")

max leaf node: 5, mae: 385696.54278937966
max leaf node: 50, mae: 279794.61143891385
max leaf node: 500, mae: 261718.1134423186
max leaf node: 5000, mae: 271320.97310092533


过拟合：训练过多，导致对训练数据预测精确对新数据预测表现差
欠拟合：训练过少，导致未捕捉到特征从而预测结果表现差

通过上述所得到的最佳节点，使用全部数据进行训练，得到预测值

In [17]:
best_node = 500
best_node_model = DecisionTreeRegressor(max_leaf_nodes=500, random_state=0)
best_node_model.fit(X, y)
predicted_best = best_node_model.predict(X)
mean_absolute_error(y, predicted_best)

np.float64(126642.40540214001)

我们构建一个随机森林模型，类似于在 scikit-learn 中构建决策树的方式 - 这次使用 RandomForestRegressor 类而不是 DecisionTreeRegressor。

In [18]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# 建立模型
forest_model = RandomForestRegressor(random_state=0)
# 拟合
forest_model.fit(train_X, train_y)
# 预测
melb_preds = forest_model.predict(val_X)
mae = mean_absolute_error(val_y, melb_preds)
mae

np.float64(206868.39967967046)

# 处理缺失值(null)

In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 导入数据
data = pd.read_csv("D:\code\skill\Machine_Learning\melb_data.csv")

# 选择目标
y = data.Price

# 为了简单起见，我们将仅使用数值预测变量
melb_predictors = data.drop(["Price"], axis="columns")
# melb_predictors
# 即排除非数值型数据，object 类型通常是字符串或类别型数据
X = melb_predictors.select_dtypes(exclude=["object"])
# 将除了价格外全部的例作为特征

# 划分训练集和测试集
train_X, val_X, train_y, val_y = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

In [20]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# 比较不同方法的函数
def score_dataset(train_X, val_X, train_y, val_y):
    model = RandomForestRegressor(n_estimators=10, random_state=0)
    model.fit(train_X, train_y)
    preds = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds)

    return mae

## 法1：删除缺失值的列

In [21]:
# 找出包含缺失值的列
# .isnull()：检查某列中的每个值是否为空，返回布尔值（True 或 False）。
# .any()：检查是否有至少一个 True，即该列是否存在缺失值。
cols_with_missing = [col for col in X.columns
                     if train_X[col].isnull().any()]
# cols_with_missing

# 删除有缺失行的列
reduced_train_X = train_X.drop(cols_with_missing, axis="columns")
reduced_val_X = val_X.drop(cols_with_missing, axis="columns")

# 输出误差值
print(f"删除缺失值:\nmae={score_dataset(reduced_train_X, reduced_val_X, train_y, val_y)}")

删除缺失值:
mae=183550.22137772635


# 法2：简单插补

In [22]:
# 导入填充数据包
from sklearn.impute import SimpleImputer

# 填充
my_imputer = SimpleImputer()
# fit()：学习数据中的统计信息（例如每一列的均值、众数、中位数等，取决于填充策略），并将这些统计信息存储起来，以后可以用这些规则填充缺失值。
# transform()：使用之前学到的规则，填充原数据中的缺失值。
imputed_train_X = pd.DataFrame(my_imputer.fit_transform(train_X))
imputed_val_X = pd.DataFrame(my_imputer.transform(val_X))

# 由于前面得到的DataFrame类型没有列名，因此需要加入原始数据的列名
imputed_train_X.columns = train_X.columns
imputed_val_X.columns = val_X.columns

print(f"插补缺失值:\nmae={score_dataset(imputed_train_X, imputed_val_X, train_y, val_y)}")

插补缺失值:
mae=178166.46269899711


# 法3：插补扩展法(法2的基础上加入了额外的特征列表明哪些列存在缺失值)
> 一开始特征列值为True或False，后面进行填充后变成了1或0

In [23]:
# 估算缺失值，同时还跟踪估算了哪些值
# 复制原始信息，防止原始数据被修改
train_X_plus = train_X.copy()
val_X_plus = val_X.copy()

# 创建新的列指定缺失值位置
for col in cols_with_missing:
    train_X_plus[col + "_was_missing"] = train_X_plus[col].isnull()
    val_X_plus[col + "_was_missing"] = val_X_plus[col].isnull()

# train_X_plus
# val_X_plus

# 填充
my_imputer = SimpleImputer()
imputed_train_X_plus = pd.DataFrame(my_imputer.fit_transform(train_X_plus))
imputed_val_X_plus = pd.DataFrame(my_imputer.transform(val_X_plus))

# imputed_train_X_plus
# 将填充的列加入列名
imputed_train_X_plus.columns = train_X_plus.columns
imputed_val_X_plus.columns = val_X_plus.columns
# imputed_train_X_plus

print(f"插补扩展法缺失值:\nmae={score_dataset(imputed_train_X_plus, imputed_val_X_plus, train_y, val_y)}")

插补扩展法缺失值:
mae=178927.503183954


# 分类变量(object)

In [24]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 导入文件
data = pd.read_csv("D:\code\skill\Machine_Learning\melb_data.csv")

# 选择特征和预测目标
X = data.drop(["Price"], axis="columns")
y = data.Price

# 划分训练集和验证集
train_X, val_X, train_y, val_y = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=0)

# 防止原始数据被修改
train_X_plus = train_X.copy()
val_X_plus = val_X.copy()

# 使用删除缺失值法
columns_missing = [col for col in train_X_plus.columns if train_X_plus[col].isnull().any()]
reduced_train_X = train_X_plus.drop(columns_missing, axis="columns")
reduced_val_X = val_X_plus.drop(columns_missing, axis="columns")

# “基数”表示列中唯一值的数量
# 选择基数相对较低的分类列（方便分类）
low_cardinality_cols = [col for col in reduced_train_X.columns
                        if reduced_train_X[col].nunique() < 10
                        and reduced_train_X[col].dtype == "object"]
# nunique(),输出该列唯一值的数量，即基数
# dtype == "object"，在pandas中，object类型表示str字符串类型

# 选择数值列
number_col = [col for col in reduced_train_X.columns
              if reduced_train_X[col].dtype in ["int64", "float64"]]

# 创建分类数据的训练集
new_cols = low_cardinality_cols + number_col
new_train_X = train_X[new_cols].copy()
new_val_X = val_X[new_cols].copy()


## 分类列

In [25]:
obj = (new_train_X.dtypes == "object")
# print(obj)
# print(obj[obj])
object_cols = list(obj[obj].index)
print(object_cols) # low_cardinality_cols

['Type', 'Method', 'Regionname']


定义衡量各种方法性能的函数

In [26]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

def score_dataset(train_X, val_X, train_y, val_y):
    model = RandomForestRegressor(random_state=0)
    model.fit(train_X, train_y)
    preds = model.predict(val_X)
    return mean_absolute_error(val_y, preds)

# 法1：删除分类列

In [27]:
drop_train_X = new_train_X.select_dtypes(exclude=["object"])
drop_val_X = new_val_X.select_dtypes(exclude=["object"])

print(f"删除分类列分类变量:\nmae={score_dataset(drop_train_X, drop_val_X, train_y, val_y)}")

删除分类列分类变量:
mae=175703.48185157913


# 法2：OrdinalEncoder(为每一个分类对象转换一个等级，等级越高值越高)

In [28]:
from sklearn.preprocessing import OrdinalEncoder

# 备份数据
ordinal_train_X = new_train_X.copy()
ordinal_val_X = new_val_X.copy()

# 对每一行的分类数据使用方法
ordinal_encoder = OrdinalEncoder()
# 对分类列定义等级
ordinal_train_X[object_cols] = ordinal_encoder.fit_transform(ordinal_train_X[object_cols])
ordinal_val_X[object_cols] = ordinal_encoder.transform(ordinal_val_X[object_cols])

print(f"OrdinalEncoder分类变量:\nmae={score_dataset(ordinal_train_X, ordinal_val_X, train_y, val_y)}")

OrdinalEncoder分类变量:
mae=165936.40548390493


# 法3：One-Hot Encoding(独热编码)最优
> 新建数据，列名为类别名称，列内容为1/0

In [51]:
from sklearn.preprocessing import OneHotEncoder

# 将独热编码运用于分类数据中
# 设置handle_unknown ='ignore'以避免当验证数据包含训练数据中未表示的类时出现错误
# sparse_output = False 确保编码列作为 numpy 数组（而不是稀疏矩阵）返回
OH_encoder = OneHotEncoder(handle_unknown="ignore", sparse_output=False)
OH_train_col = pd.DataFrame(OH_encoder.fit_transform(new_train_X[object_cols]))
OH_val_col= pd.DataFrame(OH_encoder.transform(new_val_X[object_cols]))

# 给OH_col加入原始索引值index，即最左边一列名称
OH_train_col.index = new_train_X.index
OH_val_col.index = new_val_X.index

# 新创建除了分类列的数据，加入OH_col中
train_X_OH = new_train_X.drop(object_cols, axis="columns")
val_X_OH = new_val_X.drop(object_cols, axis="columns")

# 将两组数据合并
OH_train_X = pd.concat([OH_train_col, train_X_OH], axis="columns")
OH_val_X = pd.concat([OH_val_col, val_X_OH], axis="columns")

# 确保每列列名为字符串类型
# TODO:处理数据都要确保列名类型为字符串类型
OH_train_X.columns = OH_train_X.columns.astype(str)
OH_val_X.columns = OH_val_X.columns.astype(str)

print(f"One-Hot Encoding分类变量:\nmae={score_dataset(OH_train_X, OH_val_X, train_y, val_y)}")

One-Hot Encoding分类变量:
mae=165699.58889227855
