# NumPy 与 Pandas 实践 - 参考答案

## 实验目标

本实验将使用经典的 **Iris（鸢尾花）数据集**来练习 NumPy 和 Pandas 的核心操作。

Iris 数据集包含 150 个样本，每个样本有 4 个特征：
- sepal length（萼片长度）
- sepal width（萼片宽度）
- petal length（花瓣长度）
- petal width（花瓣宽度）

共有 3 个品种：setosa、versicolor、virginica，每个品种 50 个样本。

## 实验内容

1. **数据加载与探索** - 使用 NumPy 和 Pandas 加载数据
2. **数据统计** - 计算各种统计量
3. **数据筛选** - 使用条件筛选和布尔索引
4. **数据分组** - 按品种分组统计
5. **数据合并** - 合并多个数据源

---
## Part 1: 数据加载与探索

In [None]:
# ===== 预填充代码 =====
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

# 加载 Iris 数据集
iris = load_iris()

# 查看数据集的基本信息
print("数据集特征名称:", iris.feature_names)
print("目标类别:", iris.target_names)
print("数据形状:", iris.data.shape)

**练习 1.1**：将 Iris 数据集转换为 Pandas DataFrame

In [None]:
# ===== 参考答案 =====

# 方法一：使用列表推导式
species_names = [iris.target_names[i] for i in iris.target]

iris_df = pd.DataFrame({
    'sepal_length': iris.data[:, 0],
    'sepal_width': iris.data[:, 1],
    'petal_length': iris.data[:, 2],
    'petal_width': iris.data[:, 3],
    'species': species_names
})

# 方法二：使用 np.select()
# conditions = [iris.target == 0, iris.target == 1, iris.target == 2]
# choices = iris.target_names
# species_names = np.select(conditions, choices)

print("DataFrame 形状:", iris_df.shape)
print("\n前 5 行:")
print(iris_df.head())

---
## Part 2: 数据统计

**练习 2.1**：手动实现统计函数

In [None]:
# ===== 参考答案 =====

def manual_mean(arr):
    """
    计算数组的平均值
    均值 = 所有元素之和 / 元素个数
    """
    return np.sum(arr) / len(arr)

def manual_std(arr):
    """
    计算数组的标准差
    标准差 = sqrt(sum((x - mean)^2) / n)
    """
    mean = manual_mean(arr)
    variance = np.sum((arr - mean) ** 2) / len(arr)
    return np.sqrt(variance)

def manual_median(arr):
    """
    计算数组的中位数
    中位数 = 排序后位于中间位置的值
    """
    sorted_arr = np.sort(arr)
    n = len(sorted_arr)
    if n % 2 == 0:
        # 偶数个元素，取中间两个的平均
        return (sorted_arr[n//2 - 1] + sorted_arr[n//2]) / 2
    else:
        # 奇数个元素，取中间值
        return sorted_arr[n//2]

# 测试函数
sepal_length = iris.data[:, 0]

print("萼片长度统计:")
print(f"  手动计算均值: {manual_mean(sepal_length):.4f}")
print(f"  NumPy 均值: {np.mean(sepal_length):.4f}")
print(f"  手动计算标准差: {manual_std(sepal_length):.4f}")
print(f"  NumPy 标准差: {np.std(sepal_length):.4f}")
print(f"  手动计算中位数: {manual_median(sepal_length):.4f}")
print(f"  NumPy 中位数: {np.median(sepal_length):.4f}")

**练习 2.2**：按品种统计各特征的平均值

In [None]:
# ===== 参考答案 =====

print("各品种各特征平均值:")
for i, name in enumerate(iris.target_names):
    # 使用布尔索引筛选出对应品种的数据
    species_data = iris.data[iris.target == i]
    # 按列计算均值（axis=0）
    means = np.mean(species_data, axis=0)
    print(f"{name}: {means}")

---
## Part 3: 数据筛选

**练习 3.1**：筛选满足条件的数据

In [None]:
# ===== 参考答案 =====

# 1. 筛选出萼片长度大于 6cm 的样本
long_sepal = iris_df[iris_df['sepal_length'] > 6]

# 2. 筛选出花瓣宽度小于 0.2cm 的 setosa 样本
small_petal_setosa = iris_df[(iris_df['species'] == 'setosa') & (iris_df['petal_width'] < 0.2)]

# 3. 筛选出萼片长度大于 6cm 且 花瓣长度大于 5cm 的样本
large_flowers = iris_df[(iris_df['sepal_length'] > 6) & (iris_df['petal_length'] > 5)]

# 4. 筛选出 species 为 setosa 或 virginica 的样本
specific_species = iris_df[iris_df['species'].isin(['setosa', 'virginica'])]

print("1. 萼片长度 > 6cm 的样本数:", len(long_sepal))
print("   前 5 行:")
print(long_sepal.head())

print("\n2. 花瓣宽度 < 0.2cm 的 setosa 样本数:", len(small_petal_setosa))

print("\n3. 萼片长度 > 6cm 且 花瓣长度 > 5cm 的样本数:", len(large_flowers))

print("\n4. setosa 或 virginica 的样本数:", len(specific_species))

**练习 3.2**：使用 loc 和 iloc 进行数据选择

In [None]:
# ===== 参考答案 =====

# 1. 使用 loc 选择前 10 行的 sepal_length 和 petal_length 列
result_loc = iris_df.loc[0:9, ['sepal_length', 'petal_length']]

# 2. 使用 iloc 选择第 50-59 行（索引）的第 0-2 列
result_iloc = iris_df.iloc[50:60, 0:3]

# 3. 使用 loc 选择 species 为 versicolor 且 petal_width > 1.5 的行
versicolor_wide = iris_df.loc[
    (iris_df['species'] == 'versicolor') & (iris_df['petal_width'] > 1.5), 
    :
]

print("1. loc 选择结果:")
print(result_loc)

print("\n2. iloc 选择结果:")
print(result_iloc)

print("\n3. versicolor 且花瓣宽 > 1.5 的样本数:", len(versicolor_wide))

---
## Part 4: 数据分组与聚合

**练习 4.1**：按品种分组统计

In [None]:
# ===== 参考答案 =====

# 1. 按品种分组，计算各特征的均值
species_mean = iris_df.groupby('species').mean(numeric_only=True)

# 2. 按品种分组，计算各特征的最大值
species_max = iris_df.groupby('species').max(numeric_only=True)

# 3. 按品种分组，计算各特征的标准差
species_std = iris_df.groupby('species').std(numeric_only=True)

print("1. 各品种各特征均值:")
print(species_mean)

print("\n2. 各品种各特征最大值:")
print(species_max)

print("\n3. 各品种各特征标准差:")
print(species_std)

**练习 4.2**：使用 agg 函数一次性计算多个统计量

In [None]:
# ===== 参考答案 =====

# 按品种分组，对每个特征计算多个统计量
species_stats = iris_df.groupby('species')[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']].agg(
    ['mean', 'median', 'std']
)

print("各品种详细统计:")
print(species_stats)

---
## Part 5: 数据合并

**练习 5.1**：合并两个数据集

In [None]:
# ===== 预填充代码 =====
# 创建一些额外的数据
flower_colors = pd.DataFrame({
    'species': ['setosa', 'versicolor', 'virginica'],
    'color': ['purple', 'blue', 'white'],
    'fragrance': ['mild', 'strong', 'very strong']
})

flower_origin = pd.DataFrame({
    'species': ['setosa', 'versicolor', 'virginica'],
    'origin': ['Europe', 'North America', 'North America'],
    'blooming_season': ['spring', 'summer', 'summer']
})

print("花卉颜色信息:")
print(flower_colors)
print("\n花卉原产地信息:")
print(flower_origin)

In [None]:
# ===== 参考答案 =====

# 1. 将 flower_colors 和 flower_origin 按 species 列合并
flower_info = pd.merge(flower_colors, flower_origin, on='species')

# 2. 将合并后的信息与 iris_df 合并
iris_with_info = pd.merge(iris_df, flower_info, on='species')

print("合并后的花卉信息:")
print(flower_info)

print("\n完整的 Iris 数据集（包含颜色和产地）:")
print(iris_with_info.head(10))

---
## Part 6: 数据转换与可视化准备

**练习 6.1**：特征标准化

In [None]:
# ===== 参考答案 =====

def zscore_normalize(X):
    """
    对数据进行 Z-score 标准化
    x' = (x - mean) / std
    """
    # 计算均值和标准差
    means = np.mean(X, axis=0)
    stds = np.std(X, axis=0)
    
    # 标准化
    X_normalized = (X - means) / stds
    
    return X_normalized, means, stds

# 对 Iris 数据进行标准化
X_normalized, means, stds = zscore_normalize(iris.data)

print("原始数据统计:")
print("均值:", np.mean(iris.data, axis=0))
print("标准差:", np.std(iris.data, axis=0))

print("\n标准化后数据统计:")
print("均值:", np.mean(X_normalized, axis=0))
print("标准差:", np.std(X_normalized, axis=0))

**练习 6.2**：创建特征交叉

In [None]:
# ===== 参考答案 =====

# 在 iris_df 中添加两列: sepal_area 和 petal_area
iris_df['sepal_area'] = iris_df['sepal_length'] * iris_df['sepal_width']
iris_df['petal_area'] = iris_df['petal_length'] * iris_df['petal_width']

print("添加面积特征后的数据:")
print(iris_df.head())

# 统计各品种的平均面积
area_by_species = iris_df.groupby('species')[['sepal_area', 'petal_area']].mean()

print("\n各品种平均面积:")
print(area_by_species)

---
## Part 7: 挑战练习

**挑战 7.1**：找出最具区分度的特征

In [None]:
# ===== 参考答案 =====

def discriminability(data1, data2):
    """
    计算两组数据的区分度
    使用 Cohen's d 效应量
    """
    mean1, mean2 = np.mean(data1), np.mean(data2)
    std1, std2 = np.std(data1), np.std(data2)
    
    # 合并标准差
    n1, n2 = len(data1), len(data2)
    pooled_std = np.sqrt(((n1-1)*std1**2 + (n2-1)*std2**2) / (n1+n2-2))
    
    return abs(mean1 - mean2) / pooled_std

# 计算 setosa 与其他品种在每个特征上的区分度
setosa_data = iris.data[iris.target == 0]
versicolor_data = iris.data[iris.target == 1]
virginica_data = iris.data[iris.target == 2]

feature_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']

print("setosa 与 versicolor 的区分度:")
for i, name in enumerate(feature_names):
    disc = discriminability(setosa_data[:, i], versicolor_data[:, i])
    print(f"  {name}: {disc:.4f}")

print("\nsetosa 与 virginica 的区分度:")
for i, name in enumerate(feature_names):
    disc = discriminability(setosa_data[:, i], virginica_data[:, i])
    print(f"  {name}: {disc:.4f}")

print("\n结论: petal_width 和 petal_length 对 setosa 的区分度最高")

**挑战 7.2**：实现一个简单的分类器

In [None]:
# ===== 参考答案 =====

def simple_classifier(petal_length, petal_width):
    """
    基于规则的简单分类器
    """
    # 确保 input 是数组形式
    petal_length = np.array(petal_length)
    petal_width = np.array(petal_width)
    
    predictions = np.zeros(len(petal_length))
    
    for i in range(len(petal_length)):
        if petal_width[i] < 0.6:
            predictions[i] = 0  # setosa
        elif petal_length[i] < 5 and petal_width[i] < 1.7:
            predictions[i] = 1  # versicolor
        else:
            predictions[i] = 2  # virginica
    
    return predictions.astype(int)

# 对整个数据集进行预测
predictions = simple_classifier(iris.data[:, 2], iris.data[:, 3])

# 计算准确率
accuracy = np.mean(predictions == iris.target)

print(f"简单分类器的准确率: {accuracy:.2%}")

# 计算混淆矩阵
def confusion_matrix(y_true, y_pred, num_classes=3):
    """计算混淆矩阵"""
    cm = np.zeros((num_classes, num_classes), dtype=int)
    for i in range(len(y_true)):
        cm[y_true[i], y_pred[i]] += 1
    return cm

cm = confusion_matrix(iris.target, predictions)
print("\n混淆矩阵:")
print(cm)
print("\n混淆矩阵说明: 行表示真实类别，列表示预测类别")

---
## 实验总结

恭喜你完成了 NumPy 与 Pandas 实践！通过本实验，你应该掌握了：

1. ✓ 使用 NumPy 进行数组操作和统计计算
2. ✓ 使用 Pandas 进行数据清洗和筛选
3. ✓ 使用 groupby 进行分组聚合分析
4. ✓ 使用 merge 合并多个数据源
5. ✓ 手动实现数据标准化和特征工程
6. ✓ 构建简单的规则分类器

这些技能是机器学习数据预处理的基础，在后续章节中我们将继续使用这些工具。