In [None]:
import pandas as pd         # 导入pandas库，它就像一个超级强大的Excel工具，专门用来处理表格数据（DataFrame）。
import numpy as np          # 导入numpy库，它主要用于进行数值计算，尤其擅长处理数组和矩阵，是pandas的底层支持。
import matplotlib.pyplot as plt # 导入matplotlib.pyplot库，这个库主要用于数据可视化，可以画各种图表。
                                # 虽然在这个脚本中没有直接用到绘图，但它是数据分析常用的辅助工具。

# 加载数据集并显示数据集的前五行 1分
data = pd.read_csv('auto-mpg.csv') # 使用pandas的read_csv函数，读取名为 'auto-mpg.csv' 的CSV文件。
                                    # 将文件内容加载到一个名为 'data' 的DataFrame（可以理解为表格）中。
print("数据集的前五行:")            # 打印一个标题，说明接下来要显示什么。
print(data.head())                  # 使用DataFrame的 .head() 方法，显示数据的前5行。
                                    # 这能帮助我们快速查看数据的基本结构、列名和前几条记录，初步了解数据长什么样。

# 显示每一列的数据类型
print(data.dtypes)                  # 使用DataFrame的 .dtypes 属性，打印出每一列的名称及其对应的数据类型。
                                    # 了解数据类型很重要，因为它会影响我们如何处理和分析这些数据（例如，数字、文本、日期等）。

# 检查缺失值并删除缺失值所在的行  2分
print("\n检查缺失值:")              # 打印一个标题。
print(data.isnull().sum())          # data.isnull() 会创建一个与原DataFrame形状相同，但内容为True/False的DataFrame，
                                    # 其中True表示原始位置有缺失值（NaN）。
                                    # .sum() 会对这个True/False DataFrame进行求和，因为True被算作1，False被算作0，
                                    # 所以结果就是每一列缺失值的总数量。
data = data.dropna()                # 使用DataFrame的 .dropna() 方法，删除所有包含任何缺失值（NaN）的行。
                                    # 这样可以确保我们处理的数据是完整的，避免缺失值对后续分析造成影响。
                                    # 将处理后的结果重新赋值给 'data'，覆盖掉原始数据。

# 将 'horsepower' 列转换为数值类型，并（删除）处理转换中的异常值 1分
data['horsepower'] = pd.to_numeric(data['horsepower'], errors='coerce')
# data['horsepower']：选取 'horsepower'（马力）这一列。
# pd.to_numeric(...)：这是pandas的一个函数，专门用来将一列数据转换为数值类型。
# errors='coerce'：这个参数非常关键。它的意思是，如果在转换过程中遇到无法识别为数字的值（例如文本“?”），
# 那么就将这些无法转换的值强制（coerce）设为缺失值 NaN。
# 这样做的好处是，可以把非数值型的“脏数据”批量转换为统一的缺失值表示，方便后续处理。
data = data.dropna(subset=['horsepower'])
# data.dropna(subset=['horsepower'])：在转换完成后，'horsepower' 列中可能因为 'errors='coerce'' 产生了新的NaN值。
# 这一行就是专门针对 'horsepower' 列，删除那些在这一列中仍然存在缺失值的行。
# 'subset=['horsepower']' 确保只检查 'horsepower' 列的缺失值，而不是整个DataFrame。

# 显示每一列的数据类型
print(data.horsepower.dtypes)       # 再次打印 'horsepower' 列的数据类型，确认它已经成功转换为数值类型（例如float64）。

# 检查清洗后的缺失值
print("\n检查清洗后的缺失值:")      # 打印一个标题。
print(data.isnull().sum())          # 再次检查并打印所有列的缺失值数量，确认经过两次 `dropna()` 后，数据集中已无缺失值。

from sklearn.preprocessing import StandardScaler # 从scikit-learn库中导入StandardScaler，这是一个用于数据标准化的工具。

# 对数值型数据进行标准化处理 1分
numerical_features = ['displacement', 'horsepower', 'weight', 'acceleration']
# 定义一个列表，包含我们想要进行标准化处理的数值型特征（列名）。
scaler = StandardScaler()           # 创建一个StandardScaler的实例（一个“标准化工具”）。
data[numerical_features] = scaler.fit_transform(data[numerical_features])
# data[numerical_features]：选取DataFrame中所有需要标准化的列。
# scaler.fit_transform(...)：这是StandardScaler的核心方法。它做了两件事：
#   1. `fit`：计算选定列的平均值（mean）和标准差（std）。
#   2. `transform`：对选定列中的每个值进行标准化处理，具体公式是：(原始值 - 平均值) / 标准差。
# 经过标准化后，这些列的数据将服从标准正态分布（平均值为0，标准差为1），这有助于许多机器学习模型更好地工作。
# 将标准化后的结果重新赋值回 'data' 的相应列中。

from sklearn.model_selection import train_test_split # 从scikit-learn库中导入train_test_split，这是一个用于分割数据集的工具。

# 选择特征、自变量和目标变量 2分
selected_features = ['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin']
# 定义一个列表，包含我们希望用作模型输入的特征（自变量）列名。
X = data[selected_features]         # 将 'data' 中选定的特征列抽取出来，赋值给变量 'X'。
                                    # 'X' 通常代表机器学习中的特征矩阵（或输入数据）。
y = data['mpg']                     # 将 'data' 中的 'mpg'（每加仑里程数）列抽取出来，赋值给变量 'y'。
                                    # 'y' 通常代表机器学习中的目标变量（或因变量，我们希望预测的值）。

# 划分数据集为训练集和测试集（训练集占8成） 1分
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)
# train_test_split 是一个非常重要的函数，它将我们的数据集分割成四个部分：
#   X_train：用于训练模型的特征数据。
#   X_test：用于评估模型的特征数据（模型在训练中看不到）。
#   y_train：用于训练模型的目标变量。
#   y_test：用于评估模型的目标变量。
# test_size=0.2：指定测试集占总数据集的比例是20%（即0.2），那么训练集就占80%。
# random_state=42：这是一个随机种子。设置这个参数可以确保每次运行代码时，数据集的划分结果都是相同的，
# 这样保证了实验的可复现性。

# 将特征和目标变量合并到一个数据框中
cleaned_data = X.copy()             # 创建一个名为 'cleaned_data' 的新DataFrame，它是 'X'（特征数据）的一个副本。
                                    # 使用 .copy() 是为了避免直接修改 'X'。
cleaned_data['mpg'] = y             # 将目标变量 'y'（mpg）添加为 'cleaned_data' DataFrame 的新一列。
                                    # 这样，`cleaned_data` 就包含了所有经过清洗和处理后的特征以及对应的目标变量，是一个完整的“干净”数据集。

# 保存清洗和处理后的数据（不存储额外的索引号） 1分
cleaned_data.to_csv('2.1.1_cleaned_data.csv', index=False)
# to_csv(...)：这是pandas用来将DataFrame保存为CSV文件的方法。
# '2.1.1_cleaned_data.csv'：指定新保存的文件的名字。
# index=False：这个参数非常重要，它表示在保存CSV文件时，不要把DataFrame的索引（左边默认从0开始的数字序号）也写入到CSV文件中。
# 这样做可以避免文件中有额外且无用的列。

# 打印消息指示文件已保存
print("\n清洗后的数据已保存到 2.1.1_cleaned_data.csv") # 打印一条消息，告诉用户数据已经清洗完成并保存。
