# 简介
pd.get_dummies 是 Pandas 库中的一个函数，用于将分类变量（categorical variable）转换为哑变量（dummy variables）。在机器学习中，特征通常包含多个类别，但大多数算法只能处理数值特征。因此，需要将分类特征转换为数值特征，而 pd.get_dummies 就是用来实现这一转换的工具。

```
函数名称：pd.get_dummies
函数功能：
    将分类变量转换为哑变量（one-hot 编码）
    如果 data 字段是数据变量，则不变
参数：
    data：DataFrame 或 Series，表示待转换的数据。
    columns：指定要转换的列名（可选），默认对所有分类变量进行转换。
    prefix：指定生成的哑变量列的前缀（可选）。
    prefix_sep：指定生成的哑变量列前缀与原始列名之间的分隔符（可选）。
    dummy_na：指定是否为缺失值创建哑变量（可选）。
返回值：
    DataFrame，表示转换后的数据。
```


In [1]:
import pandas as pd

# 创建一个包含分类变量的 DataFrame
data = {'category': ['A', 'B', 'A', 'C', 'B']}
df = pd.DataFrame(data)
print(df)

# 使用 get_dummies 函数进行独热编码
one_hot_encoded = pd.get_dummies(df['category'])

# 打印独热编码后的结果
print(one_hot_encoded)


  category
0        A
1        B
2        A
3        C
4        B
       A      B      C
0   True  False  False
1  False   True  False
2   True  False  False
3  False  False   True
4  False   True  False


In [5]:
import pandas as pd

# 创建一个包含多个分类变量的 DataFrame
data = {'category1': ['A', 'B', 'A', 'C', 'B'],
        'category2': [1,2,3,4,3]}
df = pd.DataFrame(data)
print(df)

# 使用 get_dummies 函数对多列进行独热编码
one_hot_encoded = pd.get_dummies(df[['category1']])
print(one_hot_encoded)

one_hot_encoded = pd.get_dummies(df[['category2']])
print(one_hot_encoded)

one_hot_encoded = pd.get_dummies(df)
print(one_hot_encoded)


  category1  category2
0         A          1
1         B          2
2         A          3
3         C          4
4         B          3
   category1_A  category1_B  category1_C
0         True        False        False
1        False         True        False
2         True        False        False
3        False        False         True
4        False         True        False
   category2
0          1
1          2
2          3
3          4
4          3
   category2  category1_A  category1_B  category1_C
0          1         True        False        False
1          2        False         True        False
2          3         True        False        False
3          4        False        False         True
4          3        False         True        False
