P025 预估目标字段编码

In [1]:
import pandas as pd

In [2]:
data = {
    'size': ['XL', 'L', 'M', 'L', 'M'],
    'color': ['red', 'green', 'blue', 'green', 'red'],
    'gender': ['female', 'male', 'male', 'female', 'female'],
    'price': [199.0, 89.0, 99.0, 129.0, 79.0],
    'weight': [500, 450, 300, 380, 410],
    'bought': ['yes', 'no', 'yes', 'no', 'yes']
}
 
df = pd.DataFrame(data=data)

In [3]:
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500,yes
1,L,green,male,89.0,450,no
2,M,blue,male,99.0,300,yes
3,L,green,female,129.0,380,no
4,M,red,female,79.0,410,yes


In [4]:
from sklearn.preprocessing import LabelEncoder

In [5]:
labelEncoder = LabelEncoder()

In [6]:
df["bought"] = labelEncoder.fit_transform(df["bought"])

In [7]:
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500,1
1,L,green,male,89.0,450,0
2,M,blue,male,99.0,300,1
3,L,green,female,129.0,380,0
4,M,red,female,79.0,410,1


fit_transform方法首先拟合数据（找出数据中有多少不同的标签）。
然后将这些标签转换成数字。
最后，将转换后的数字值赋给原数据框中的"bought"列。
这种操作对于机器学习任务非常重要，因为大多数机器学习算法需要数值输入，而非文本或分类标签

In [8]:
labelEncoder.classes_

array(['no', 'yes'], dtype=object)

这一行代码用于查看 LabelEncoder 对象中保存的所有类别标签。
这表示 LabelEncoder 在拟合 bought 列时识别了两个类别标签：'no' 和 'yes'，并且它们分别被编码为 0 和 1。

In [10]:
labelEncoder.inverse_transform(df["bought"])

array(['yes', 'no', 'yes', 'no', 'yes'], dtype=object)

这一行代码用于将已经编码的标签（数字形式）转换回原始的类别标签
这表示将 df["bought"] 列中的编码值（0 和 1）转换回了原始的类别标签（'no' 和 'yes'）

P026 分类特征类型编码

In [11]:
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500,1
1,L,green,male,89.0,450,0
2,M,blue,male,99.0,300,1
3,L,green,female,129.0,380,0
4,M,red,female,79.0,410,1


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   size    5 non-null      object 
 1   color   5 non-null      object 
 2   gender  5 non-null      object 
 3   price   5 non-null      float64
 4   weight  5 non-null      int64  
 5   bought  5 non-null      int32  
dtypes: float64(1), int32(1), int64(1), object(3)
memory usage: 352.0+ bytes


In [13]:
from sklearn.preprocessing import OneHotEncoder

In [16]:
oneHotEncoder = OneHotEncoder(sparse_output=False)

这里创建了一个 OneHotEncoder 对象 oneHotEncoder，并设置参数 sparse_output=False。这个参数的作用是指定输出格式为稠密数组（dense array），
而不是稀疏矩阵（sparse matrix）。

In [17]:
oneHotEncoder.fit(df[["size"]])

In [None]:
这一行代码对数据框 df 中的 size 列进行拟合。fit 方法用于学习 size 列中的唯一值，并为每个唯一值生成一个独热编码。
对 size 列进行拟合。fit 方法会扫描 size 列中的所有唯一值，并为每个值生成一个独热编码向量。这一步并不会对数据进行转换，只是学习数据中的唯一值。

In [None]:
独热编码是一种将分类变量转换为二进制向量的方法。每个分类值将被转换为一个二进制向量，其中只有一个位置的值为1，其余位置的值为0。
例如，对于 size 列的值 ['XL', 'L', 'M']，独热编码的结果如下：
XL -> [1, 0, 0]
L -> [0, 1, 0]
M -> [0, 0, 1]

In [18]:
oneHotEncoder.transform(df[["size"]])

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.]])

In [19]:
oneHotEncoder.categories_

[array(['L', 'M', 'XL'], dtype=object)]

查看 OneHotEncoder 学习到的类别标签