In [None]:
# 独热编码实践作业 - 泰坦尼克数据集
# 学习目标：在真实数据集上应用独热编码和标签编码
# 数据集：泰坦尼克号乘客存活预测数据

# 导入必要的库
import pandas as pd                              # 数据处理和分析
import numpy as np                               # 数值计算
from sklearn.compose import ColumnTransformer    # 列转换器
from sklearn.preprocessing import OneHotEncoder, LabelEncoder  # 编码器

print("=== 泰坦尼克数据集独热编码实践 ===")

In [None]:
# 步骤1：加载泰坦尼克数据集
print("=== 步骤1：数据加载与探索 ===")
df = pd.read_csv('datasets/titanic.csv')
print("泰坦尼克数据集基本信息：")
print(f"数据形状：{df.shape}")
print(f"列名：{list(df.columns)}")
print("\n前5行数据：")
print(df.head())

print("\n数据集详细信息：")
print("- PassengerId: 乘客ID")
print("- Survived: 是否存活 (0=死亡, 1=存活)")  
print("- Pclass: 票务等级 (1=一等, 2=二等, 3=三等)")
print("- Name: 乘客姓名")
print("- Sex: 性别 (male/female)")
print("- Age: 年龄")
print("- SibSp: 同行的兄弟姐妹/配偶数量")
print("- Parch: 同行的父母/子女数量") 
print("- Ticket: 票号")
print("- Fare: 票价")
print("- Cabin: 客舱号")
print("- Embarked: 登船港口 (C=Cherbourg, Q=Queenstown, S=Southampton)")

In [None]:
# 步骤2：识别和选择需要编码的分类特征
print("=== 步骤2：选择分类特征进行编码 ===")
categorical_features = ['Sex', 'Embarked', 'Pclass']
needEncodedMatrix = df[categorical_features]

print("需要进行独热编码的分类特征：")
print(f"特征列表：{categorical_features}")
print("\n选中的分类特征数据：")
print(needEncodedMatrix)

print("\n各分类特征的唯一值：")
for feature in categorical_features:
    unique_values = df[feature].unique()
    print(f"- {feature}: {unique_values} (共{len(unique_values)}个类别)")

print("\n为什么选择这些特征进行独热编码：")
print("- Sex: 名义分类变量，male/female无大小关系")
print("- Embarked: 名义分类变量，登船港口无大小关系") 
print("- Pclass: 虽然有序，但为了避免线性假设，使用独热编码")

In [None]:
# 步骤3：设置列转换器进行独热编码
print("=== 步骤3：配置独热编码器 ===")

# 创建列转换器
# 注意：这里直接使用特征名称而不是索引
ct = ColumnTransformer(
    transformers=[('encoder', OneHotEncoder(), categorical_features)],  # 对指定的分类特征进行编码
    remainder='passthrough'  # 其余特征保持不变
)

print("列转换器配置详情：")
print(f"- 编码特征: {categorical_features}")
print("- 编码方法: OneHotEncoder")
print("- 其余特征: 保持原样(passthrough)")

print("\n预期编码结果：")
print("- Sex: 2个类别 → 2列 (female, male)")
print("- Embarked: 3个类别 → 3列 (C, Q, S)")  
print("- Pclass: 3个类别 → 3列 (1, 2, 3)")
print("- 其余9个特征保持不变")
print("- 总特征数: 2+3+3+9 = 17列")

In [None]:
# 步骤4：应用独热编码转换
print("=== 步骤4：执行独热编码转换 ===")

# 对整个数据集应用转换
X = ct.fit_transform(df)

print("独热编码转换完成！")
print(f"原始特征数量: {df.shape[1]}")
print(f"编码后特征数量: {X.shape[1]}")
print(f"数据类型: {type(X)}")

print("\n编码后的特征矩阵 (前5行):")
print(X[:5])

print("\n特征列的顺序说明：")
print("前8列是编码后的分类特征：")
print("- 列 0-1: Sex编码 (female, male)")  
print("- 列 2-4: Embarked编码 (C, Q, S)")
print("- 列 5-7: Pclass编码 (1, 2, 3)")
print("后面的列是原始数值特征和其他未编码特征")

# 转换为NumPy数组（如果还不是的话）
X = np.array(X)
print(f"\n确保为NumPy数组格式: {type(X)}")

In [None]:
# 删除这个多余的单元格，因为上面已经处理了
# 这个单元格是重复的NumPy转换

In [None]:
# 步骤5：处理目标变量 - 使用标签编码
print("=== 步骤5：目标变量编码 ===")

# 对二分类目标变量使用标签编码
le = LabelEncoder()
y = le.fit_transform(df['Survived'])

print("目标变量编码详情：")
print("- 原始列名: 'Survived'") 
print("- 原始值: 0(死亡), 1(存活)")
print("- 编码方法: LabelEncoder")
print("- 编码后值: 保持不变 (因为已经是0/1)")

print(f"\n编码后的目标变量形状: {y.shape}")
print("目标变量前10个值:", y[:10])

In [None]:
# 步骤6：验证编码结果
print("=== 步骤6：编码结果验证 ===")
print("完整的目标变量 y:")
print(y)

print(f"\n数据统计:")
print(f"- 样本总数: {len(y)}")
print(f"- 存活人数 (1): {sum(y)}")  
print(f"- 死亡人数 (0): {len(y) - sum(y)}")
print(f"- 存活率: {sum(y)/len(y):.2%}")

print("\n=== 编码完成总结 ===")
print(f"✓ 特征矩阵 X: {X.shape} (样本数 x 特征数)")
print(f"✓ 目标变量 y: {y.shape} (样本数,)")
print("✓ 分类特征已成功转换为数值格式")
print("✓ 数据已准备好进行机器学习建模")

In [None]:
# 查看标签编码器的类别映射
print("=== 标签编码器详细信息 ===")
print("标签编码器的类别映射:")
print(f"类别: {le.classes_}")
print("说明: LabelEncoder将类别按字母顺序排序并分配数值")

print("\n=== 学习总结 ===") 
print("通过这个实践，我们学会了：")
print("1. 使用ColumnTransformer对多个分类特征进行独热编码")
print("2. 使用LabelEncoder对目标变量进行标签编码")
print("3. 处理真实世界数据集中的多种分类变量")
print("4. 验证编码结果的正确性")
print("\n独热编码 vs 标签编码的选择：")
print("- 独热编码：用于名义分类变量（无顺序关系）")  
print("- 标签编码：用于有序分类变量或二分类目标变量")