# 实验 3.3 – 学员笔记本

## 概述

本实验不再讨论之前的医疗保健服务提供商场景，而是处理来自 [汽车数据集](https://archive.ics.uci.edu/ml/datasets/Automobile) 的数据。

在本实验中，您将：

- 对有序分类数据进行编码
- 对无序分类数据进行编码

## 关于该数据集

该数据集包含三种类型的实体： 

1.汽车的各种特性规格
2.其保险风险评级
3.与其他汽车相比，其在使用中的标准化损耗

第二个评级对应于汽车比其价格所指示风险高的程度。首先，为汽车分配与其价格相关的风险系数符号。然后，如果它的风险升高（或降低），则可以向上（或向下）移动评级进行调整。精算师将此过程称为*符号化*。值 *+3* 表示某辆汽车的风险高。值 *-3* 表示某辆汽车的风险较低。

第三个因素是每辆被保险车辆年度的相对平均赔付额。对于特定尺寸类别内的所有汽车（两门小型车、旅行车、跑车或特种车辆等），此值已标准化。它代表每年每辆汽车的平均损失。

**注意**：数据库中的几个属性可以用作*类*属性。

## 属性信息

属性：属性范围

1. symboling：-3、-2、-1、0、1、2、3。
2. normalized-losses：65 至 256。
3. fuel-type：柴油、汽油。
4. aspiration: std, turbo.
5. num-of-doors：4、2。
6. body-style：硬顶、旅行车、轿车、掀背车、敞篷车。
7. drive-wheels: 4wd, fwd, rwd.
8. engine-location：前置、后置。
9. wheel-base：86.6 到 120.9。
10. length：141.1 到 208.1。
11. width：60.3 到 72.3。
12. height：47.8 到 59.8。
13. curb-weight：1,488 到 4,066。
14. engine-type：dohc、dohcv、l、ohc、ohcf、ohcv、转子。
15. num-of-cylinders: 8、5、4、6、3、12、2。
16. engine-size：61 到 326。
17. fuel-system：1bbl、2bbl、4bbl、idi、mfi、mpfi、spdi、spfi。
18. bore：2.54 到 3.94。
19. stroke：2.07 到 4.17。
20. compression-ratio：7 到 23。
21. horsepower：48 到 288。
22. peak-rpm：4,150 到 6,600。
23. city-mpg：13 到 49。
24. highway-mpg：16 到 54。
25. price：5,118 到 45,400。

## 数据集属性

该数据集来自：
Dua, D. 和 Graff, C.（2019 年）。UCI 机器学习存储库 (http://archive.ics.uci.edu/ml)。加州尔湾市：加利福尼亚大学信息与计算机科学学院。

# 步骤 1：导入和浏览数据

首先，您将检查数据集中的数据。

为了充分利用本实验，在运行单元格中的内容之前，请阅读说明和代码。花点时间进行试验！


首先导入 pandas 程序包并设置一些默认显示选项。

In [1]:
import pandas as pd

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

接下来，将数据集加载到 pandas DataFrame 中。

数据不包含标题，因此您将在名为 `col_names` 的变量中为数据集描述中列出的属性定义列名称。



In [2]:
url = "imports-85.csv"
col_names=['symboling','normalized-losses','fuel-type','aspiration','num-of-doors','body-style','drive-wheels','engine-location','wheel-base',
                                    'length','width','height','curb-weight','engine-type','num-of-cylinders','engine-size',
                                    'fuel-system','bore','stroke','compression-ratio','horsepower','peak-rpm','city-mpg','highway-mpg','price']

df_car = pd.read_csv(url,sep=',',names = col_names ,na_values="?",  header=None)

首先，要查看行（实例）和列（特征）的数量，您将使用 `shape`。

In [3]:
df_car.shape

(205, 25)

接下来，使用 `head` 方法检查数据。


In [4]:
df_car.head(5)

Unnamed: 0,symboling,normalized-losses,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


共有 25 列。一些列具有数值，但其中许多列包含文本。

若要显示有关列的信息，请使用 `info` 方法。


In [5]:
df_car.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 25 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    float64
 2   fuel-type          205 non-null    object 
 3   aspiration         205 non-null    object 
 4   num-of-doors       203 non-null    object 
 5   body-style         205 non-null    object 
 6   drive-wheels       205 non-null    object 
 7   engine-location    205 non-null    object 
 8   wheel-base         205 non-null    float64
 9   length             205 non-null    float64
 10  width              205 non-null    float64
 11  height             205 non-null    float64
 12  curb-weight        205 non-null    int64  
 13  engine-type        205 non-null    object 
 14  num-of-cylinders   205 non-null    object 
 15  engine-size        205 non-null    int64  
 16  fuel-system        205 non

为了使您在开始编码时能够更方便地查看数据集，可删除不需要的列。


In [6]:
df_car.columns

Index(['symboling', 'normalized-losses', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price'], dtype='object')

In [7]:
# df_car = df_car[[ 'aspiration', 'num-of-doors',  'drive-wheels',  'num-of-cylinders']].copy()
df_car = df_car[[ 'aspiration', 'num-of-doors',  'drive-wheels',  'num-of-cylinders']]

现在有四列。这些列均包含文本值。


In [9]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders
0,std,two,rwd,four
1,std,two,rwd,four
2,std,two,rwd,six
3,std,four,fwd,four
4,std,four,4wd,five


大多数机器学习算法要求输入的是数值。

- **num-of-cylinders** 和 **num-of-doors** 特征具有序数值。您可以将这些特征的值转换为对应的数值。
- 但是，**aspiration** 和 **drive-wheels** 没有序数值。这些特征必须进行不同的转换。

您将首先探索序数特征。


# 步骤 2：对序数特征进行编码

在此步骤中，您将使用映射器函数将序数特征转换为有序的数值。

首先从 DataFrame 中获取新的列类型：


In [10]:
df_car.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   aspiration        205 non-null    object
 1   num-of-doors      203 non-null    object
 2   drive-wheels      205 non-null    object
 3   num-of-cylinders  205 non-null    object
dtypes: object(4)
memory usage: 6.5+ KB


首先，确定序数列包含哪些值。

从 **num-of-doors** 特征开始，您可以使用 `value_counts` 来发现值。

In [11]:
df_car['num-of-doors'].value_counts()

num-of-doors
four    114
two      89
Name: count, dtype: int64

此特征只有两个值：*four* 和 *two*。您可以创建一个包含字典的简单映射器：

In [12]:
door_mapper = {"two": 2,
              "four": 4}

然后，您可以使用 pandas 的 `replace` 方法基于 **num-of-doors** 列生成一个新的数值列。

In [13]:
df_car['doors'] = df_car["num-of-doors"].replace(door_mapper)

  df_car['doors'] = df_car["num-of-doors"].replace(door_mapper)


显示 DataFrame 时，您应该可以在右侧看到新的列。它包含门数量的数字表示。


In [14]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders,doors
0,std,two,rwd,four,2.0
1,std,two,rwd,four,2.0
2,std,two,rwd,six,2.0
3,std,four,fwd,four,4.0
4,std,four,4wd,five,4.0


对 **num-of-cylinders** 列重复该过程。

首先，获取值。

In [15]:
df_car['num-of-cylinders'].value_counts()

num-of-cylinders
four      159
six        24
five       11
eight       5
two         4
three       1
twelve      1
Name: count, dtype: int64

接下来，创建映射器。

In [16]:
cylinder_mapper = {"two":2,
                  "three":3,
                  "four":4,
                  "five":5,
                  "six":6,
                  "eight":8,
                  "twelve":12}

使用 `replace` 方法应用映射器。


In [17]:
df_car['cylinders'] = df_car['num-of-cylinders'].replace(cylinder_mapper)

  df_car['cylinders'] = df_car['num-of-cylinders'].replace(cylinder_mapper)


In [18]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,drive-wheels,num-of-cylinders,doors,cylinders
0,std,two,rwd,four,2.0,4
1,std,two,rwd,four,2.0,4
2,std,two,rwd,six,2.0,6
3,std,four,fwd,four,4.0,4
4,std,four,4wd,five,4.0,5


有关 `replace` 方法的更多信息，请参阅 pandas 文档中的 [pandas.DataFrame.replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html)。

# 步骤 3：对无序分类数据进行编码

在此步骤中，您将使用 pandas 的 `get_dummies` 方法对无序分类数据进行编码。

其余两个特征为无序特征。

根据属性描述，存在以下可能的值：

- aspiration: std, turbo.
- drive-wheels: 4wd, fwd, rwd.

您可能会认为正确的策略是将这些值转换为数值。以 **drive-wheels** 为例，您可以使用 *4wd = 1*、*fwd = 2* 和 *rwd = 3*。但是，*fwd* 并不小于 *rwd*。这些值没有顺序，但是您通过分配这些数值为它们引入了顺序。

正确的策略是将原始特征中的每个值转换为*二元特征*。这个过程在机器学习中通常被称为*独热编码*，而在统计学中则被称为*虚拟化*。

pandas 提供了一种 `get_dummies` 方法，该方法可将数据转换为二元特征。有关更多信息，请参阅 pandas 文档中的 [pandas.get_dummies](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html)。



根据属性描述，**drive-wheels** 具有三个可能的值。

In [19]:
df_car['drive-wheels'].value_counts()

drive-wheels
fwd    120
rwd     76
4wd      9
Name: count, dtype: int64

使用 `get_dummies` 方法向 DataFrame 添加新的二元特征。


In [20]:
df_car = pd.get_dummies(df_car,columns=['drive-wheels'])

In [21]:
df_car.head()

Unnamed: 0,aspiration,num-of-doors,num-of-cylinders,doors,cylinders,drive-wheels_4wd,drive-wheels_fwd,drive-wheels_rwd
0,std,two,four,2.0,4,False,False,True
1,std,two,four,2.0,4,False,False,True
2,std,two,six,2.0,6,False,False,True
3,std,four,four,4.0,4,False,True,False
4,std,four,five,4.0,5,True,False,False


检查数据集时，您应该可以在右侧看到三个新的列： 

- **drive-wheels_4wd**
- **drive-wheels_fwd**
- **drive-wheels_rwd**

编码很简单。如果 **drive-wheels** 列中的值为 *4wd*，则 * drive-wheels_4wd** 列中的值为 *1*。其他列的值则为 *0*。如果 **drive-wheels** 列中的值为 *fwd*，则 **drive-wheels_fwd** 列中的值为 *1*，依此类推。

借助这些二元特征，您能够以数字方式表示这些信息，无需考虑顺序。


检查您将编码的最后一列。

**aspiration* 列中的数据只有两个值：*std* 和 *turbo*。您可以将此列编码为两个二元特征。不过，您也可以忽略 *std* 值并记录是否为 *turbo*。为此，您仍将使用 `get_dummies` 方法，但这时将 `drop_first` 指定为 *True*。


In [22]:
df_car['aspiration'].value_counts()

aspiration
std      168
turbo     37
Name: count, dtype: int64

In [23]:
df_car = pd.get_dummies(df_car,columns=['aspiration'], drop_first=True)

In [24]:
df_car.head()

Unnamed: 0,num-of-doors,num-of-cylinders,doors,cylinders,drive-wheels_4wd,drive-wheels_fwd,drive-wheels_rwd,aspiration_turbo
0,two,four,2.0,4,False,False,True,False
1,two,four,2.0,4,False,False,True,False
2,two,six,2.0,6,False,False,True,False
3,four,four,4.0,4,False,True,False,False
4,four,five,4.0,5,True,False,False,False


**挑战任务**：返回本实验的开头，并将其他列添加到数据集。您将如何对每列的值进行编码？ 更新代码以引入一些其他特征。

# 恭喜！

您已经完成了本实验内容，现在可以按照实验指南中的说明结束本实验内容。