In [19]:
import sklearn 
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
from sklearn.datasets import load_iris
data = load_iris()  
print(data.data.shape)

(150, 4)


<strong> 当前读取数据将会产生 5个属性<strong>
* data：特征数据（numpy 数组）
* target：标签数据（numpy 数组）
* feature_names：特征名称（列表）
* target_names：标签名称（列表）
* DESCR：数据集描述信息（字符串）

In [27]:
print(data.data[1]) # 每个特征包含的数据
print()
print(data.target) # 特征的标签类别int类型的
print()
print(data.feature_names) # 特征的实际名称
print()
print(data.target_names)

[4.9 3.  1.4 0.2]

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

['setosa' 'versicolor' 'virginica']


In [22]:
df = pd.DataFrame(data= data.data,columns=data.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [24]:
df["target"]= data.target
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


#### 完成target_names的构建
---

**问题描述**：

在下面的代码中，`target` 中保存的是 int 类型的类别数据，数据量为 150 个。需要为每个 int 数据匹配其对应的文本名称（即 `target_names` 的内容）。

遇到的问题：  
数据中属性 `data.target_names` 仅有 3 个数据，如何让这 3 个数据与 150 个 `target` 数据完成配对？

**关键设定**：  
该数据集的构建中，`target` 的类别与 `target_names` 中的文本类别索引存在严格对应关系：
- `data.target` 中的 0，本质上是 `data.target_names[0]` 的“数字代号”；
- `data.target` 中的 1，是 `data.target_names[1]` 的“数字代号”；
- 以此类推。
---
**后续解释**
#### 数字类别映射为文本类别的实现步骤

#### 1. 构建类别映射字典
通过 `enumerate()` 遍历目标类别名称列表，生成数字与文本类别的映射关系：
```python
# 生成 {数字标签: 文本类别} 的映射字典
target_mapping = {idx: name for idx, name in enumerate(data.target_names)}
示例输出：
python
{0: "类别1", 1: "类别2", 2: "类别3"}
2. 批量映射并添加到 DataFrame
利用 Series 的 map() 方法，将数字类别列转换为文本类别并新增到 DataFrame：
python
# 新增 target_names 列存储文本类别
df['target_names'] = df['target'].map(target_mapping)
原理：map() 会以 df['target'] 中的每个数字为键，在 target_mapping 中匹配对应值，生成新的文本类别 Series。
```
---

  
**original language** 

target每次需要寻找一个文本类别对应数字类别，通过emuerate(data.target_names)和字典推导式将target_name中的index个data给遍历出来然后由一个字典列表暂存着，将data.target_names中的数据全部遍历结束也就是得到了一个{0:"类别1",1:"类别2",2:"类别3"}数据然后。由于map算子是将每个数据遍历出来，恰好Series中map的特性是用 Series 中的每个元素作为 “键（key）”，去字典中匹配对应的 “值（value）”，最终得到一个新的 Series，其中每个元素都是匹配到的值。最后将每次匹配到的值去增加到df的一个target_names中  md格式优化


In [29]:
df['target_names'] = df['target'].map({i: name for i, name in enumerate(data.target_names)})
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target_names
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica
