In [None]:
# 导入必要的库
import pandas as pd              # 数据处理和分析
import numpy as np               # 数值计算

print("=== 独热编码实践教程 ===")

In [None]:
# 步骤1：加载和检查数据
datasets = pd.read_csv('datasets/Data.csv')
print("=== 原始数据集 ===")
print(datasets)
print(f"\n数据形状: {datasets.shape}")
print(f"\n数据类型:")
print(datasets.dtypes)
print(f"\n分类变量'Country'的唯一值: {datasets['Country'].unique()}")

In [None]:
# 步骤2：分离特征和目标变量
print("=== 分离特征和目标变量 ===")
X = datasets.iloc[:, :-1].values # 特征矩阵：所有行，除最后一列
y = datasets.iloc[:, -1].values  # 目标变量：最后一列

print("特征矩阵 X (编码前):")
print(X)
print(f"特征矩阵形状: {X.shape}")
print("\n目标变量 y:")
print(y)

In [22]:
print (X)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


In [23]:
print(y)

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


# 独热编码（One-Hot Encoding）学习笔记
## 目标：学习如何处理分类变量，理解独热编码的原理和应用

在机器学习中，大多数算法都需要数值输入。当我们有分类变量（如国家、颜色等）时，需要将它们转换为数值形式。独热编码是处理名义分类变量的标准方法。

### 什么是独热编码？
- 将分类变量转换为二进制向量
- 每个类别对应一个二进制特征
- 只有对应的特征为1，其余为0

### 为什么需要独热编码？
- 避免算法错误解释分类变量的数值关系
- 防止虚拟变量陷阱（Dummy Variable Trap）

In [None]:
# 导入独热编码所需的库
from sklearn.compose import ColumnTransformer      # 列转换器
from sklearn.preprocessing import OneHotEncoder     # 独热编码器

print("=== 设置独热编码器 ===")
# 创建列转换器
# transformers: [('名称', 转换器, 列索引)]
# 'encoder': 转换器名称  
# OneHotEncoder(): 独热编码器实例
# [0]: 要编码的列索引（第0列是Country）
# remainder='passthrough': 其他列保持不变
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')

print("列转换器配置:")
print("- 对第0列(Country)应用独热编码")
print("- 其余列(Age, Salary)保持不变")

In [None]:
# 步骤3：应用独热编码
print("=== 应用独热编码转换 ===")

# fit_transform: 拟合数据并应用转换
# np.array: 强制转换为NumPy数组格式
X_encoded = ct.fit_transform(X)
X = np.array(X_encoded)

print("独热编码后的特征矩阵 X:")
print(X)
print(f"编码后形状: {X.shape}")

print("\n=== 编码结果解释 ===")
print("原始Country列有3个类别:", datasets['Country'].unique())
print("编码后的前3列表示:")
print("- 列0: France   (1=是法国, 0=不是)")
print("- 列1: Germany  (1=是德国, 0=不是)")  
print("- 列2: Spain    (1=是西班牙, 0=不是)")
print("- 列3: Age      (原始年龄数据)")
print("- 列4: Salary   (原始薪资数据)")

print("\n注意：OneHotEncoder自动处理虚拟变量陷阱，保留所有编码列")