# Day2_01 Pandas 将性别信息转为哑变量

> 本文系参加《盖若 Python 训练营》的练习内容，训练营网址 https://www.gairuo.com/p/python-camp

在 Pandas 中，"哑变量"（也称为独热编码或一位有效编码）是一种将分类数据转换为二进制（0或1）格式的方法。哑变量的主要功能是将具有不同类别的分类特征转换为机器学习算法可以理解的数值特征，从而帮助模型更好地理解和处理这些特征。

以下为数据：

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame(data={
    "Name": ["Joe", "Mary", "Tina", "Bob", "Tony"],
    "Gender": ["M", "F", "F", "M", "M"]
})

df

Unnamed: 0,Name,Gender
0,Joe,M
1,Mary,F
2,Tina,F
3,Bob,M
4,Tony,M


将 Gender 列转为哑变量（虚拟变量），即 F 和 M 列，是当前值的为 1，否则为 0，效果如：

```
   Name  F  M
0   Joe  0  1
1  Mary  1  0
2  Tina  1  0
3   Bob  0  1
4  Tony  0  1
```

------

通过使用 pd.get_dummies() 函数来解决本问题

参考资料：
- [Pandas 官网 pd.get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)
- [数据离散化之 get_dummies](https://zhuanlan.zhihu.com/p/139144355)

> get_dummies 是 pandas 实现 one hot encode 的方式。
> 
> one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。

In [3]:
pd.get_dummies(data=df,
               prefix='',   # Prefix for column names
               prefix_sep='',   # Separator between prefix and column names
               columns=['Gender'],
               dtype=int,
               )

Unnamed: 0,Name,F,M
0,Joe,0,1
1,Mary,1,0
2,Tina,1,0
3,Bob,0,1
4,Tony,0,1
