In [134]:
import numpy as np

# 1. 读取原始数据（保留所有列的字符串格式，避免类型自动转换丢失信息）
file_path = r"C:\Users\77386\Downloads\Iris.csv"
raw_data = np.genfromtxt(file_path, delimiter=",", dtype=str)
# raw_data形状：(150, 6)，6列分别是：ID、SepalLengthCm、SepalWidthCm、PetalLengthCm、PetalWidthCm、Species

# 2. 分析每列的数据类型，判断是否为数值型特征列
feature_columns = []  # 存储特征列的索引
for col_idx in range(raw_data.shape[1]):
    title = raw_data[0,col_idx]
    index = np.array(["SepalLengthCm","SepalWidthCm","PetalLengthCm","PetalWidthCm"])
    for x in range(index.shape[0]):
        if title == index[x]:
            feature_columns.append(col_idx)
        else:
            pass

# 3. 提取特征列（此时feature_columns应为[1,2,3,4]，对应第2-5列）
X = raw_data[1:,feature_columns].astype(float)
print("自动筛选的特征列索引：", feature_columns)  # 输出 [1,2,3,4]
print("特征数组X形状：", X.shape)  # 输出 (150,4)，正确提取特征列

自动筛选的特征列索引： [1, 2, 3, 4]
特征数组X形状： (150, 4)


In [47]:
print(np.isnan(X).sum(axis=0))
median_col = np.nanmedian(X,axis=0)
X[np.isnan(X)] = median_col[np.where(np.isnan(X))[1]]
print(np.isnan(X).sum())

[0 0 0 0]
0


In [112]:
# 按列计算4个核心统计量
col_mean = np.mean(X, axis=0)
col_std = np.std(X, axis=0)
col_max = np.max(X, axis=0)
col_min = np.min(X, axis=0)

# 输出表格形式
print("\n特征列统计量汇总：")
print("-" * 60)
print(f"{'  特征':<16}{'均值':<7}{'标准差':<7}{'最大值':<7}{'最小值':<7}")
print("-" * 60)
features = ["花萼长度", "花萼宽度", "花瓣长度", "花瓣宽度"]
for i in range(4):
    print(f"{features[i]:<14}{col_mean[i]:<10.2f}{col_std[i]:<9.2f}{col_max[i]:<10.1f}{col_min[i]:<10.1f}")


特征列统计量汇总：
------------------------------------------------------------
  特征            均值     标准差    最大值    最小值    
------------------------------------------------------------
花萼长度          5.84      0.83     7.9       4.3       
花萼宽度          3.05      0.43     4.4       2.0       
花瓣长度          3.76      1.76     6.9       1.0       
花瓣宽度          1.20      0.76     2.5       0.1       


In [114]:
X_std = (X - col_mean) / col_std
# 验证标准化结果（均值≈0，标准差≈1）
std_mean = np.round(X_std.mean(axis=0), 2)
std_std = np.round(X_std.std(axis=0), 2)
print("\n标准化验证：")
print(f"各特征列均值： {std_mean}（应全为0.0）")
print(f"各特征列标准差：{std_std}（应全为1.0）")


标准化验证：
各特征列均值： [-0. -0.  0. -0.]（应全为0.0）
各特征列标准差：[1. 1. 1. 1.]（应全为1.0）


In [116]:
y = np.array(["Iris-setosa", "Iris-versicolor", "Iris-setosa", "Iris-virginica"])

# 1. 字符串匹配生成布尔索引
setosa_bool = (y == "Iris-setosa")
print("布尔索引：", setosa_bool)  # 输出 [ True False  True False]

# 2. 用布尔索引筛选样本
X = np.array([[1,2], [3,4], [5,6], [7,8]])  # 假设4个样本的特征
setosa_samples = X[setosa_bool]  # 筛选布尔索引为True的样本
print("筛选结果：\n", setosa_samples)  # 输出 [[1 2] [5 6]]（匹配的两个样本）

# 3. 筛选"Iris-setosa"或"Iris-virginica"的样本
multi_bool = (y == "Iris-setosa") | (y == "Iris-virginica")
print("多条件布尔索引：", multi_bool)  # 输出 [ True False  True  True]

布尔索引： [ True False  True False]
筛选结果：
 [[1 2]
 [5 6]]
多条件布尔索引： [ True False  True  True]


In [146]:
X_std = (X - col_mean) / col_std
setosa_bool = (Y == "Iris-setosa")
print(setosa_bool,"\n",setosa_bool.sum())
setosa_samples = X_std[setosa_bool,:]
print(setosa_samples.shape)

[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False] 
 50
(50, 4)
