# 数据准备

[原始笔记本来源于 *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## 探索 `DataFrame` 信息

> **学习目标：** 在本小节结束时，您应该能够熟练地查找存储在 pandas DataFrame 中的数据的一般信息。

当您将数据加载到 pandas 中时，它很可能会以 `DataFrame` 的形式存在。然而，如果您的 `DataFrame` 数据集有 60,000 行和 400 列，您该如何开始了解您正在处理的数据呢？幸运的是，pandas 提供了一些方便的工具，可以快速查看 `DataFrame` 的整体信息，以及前几行和后几行数据。

为了探索这些功能，我们将导入 Python 的 scikit-learn 库，并使用一个每位数据科学家都见过无数次的经典数据集：英国生物学家 Ronald Fisher 在其 1936 年论文《多重测量在分类问题中的应用》中使用的 *Iris* 数据集：


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
我们已经将鸢尾花数据集加载到变量 `iris_df` 中。在深入分析数据之前，了解我们拥有的数据点数量以及数据集的整体规模是非常有价值的。查看我们正在处理的数据量是很有帮助的。


In [2]:
iris_df.shape

(150, 4)

我们正在处理包含150行和4列的数据。每一行代表一个数据点，每一列代表与数据框相关的一个特征。基本上，这里有150个数据点，每个数据点包含4个特征。

`shape` 是数据框的一个属性，而不是一个函数，这就是为什么它没有以一对括号结尾。


### `DataFrame.columns`
现在让我们来看数据的4列。每一列具体代表什么？`columns`属性将为我们提供数据框中列的名称。


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

正如我们所看到的，有四（4）列。`columns`属性告诉我们列的名称，基本上没有其他信息。当我们想要识别数据集包含的特征时，这个属性显得尤为重要。


### `DataFrame.info`
通过 `shape` 属性提供的数据量以及通过 `columns` 属性提供的特征或列名，可以让我们对数据集有一些了解。现在，我们希望更深入地探索数据集。`DataFrame.info()` 函数在这方面非常有用。


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


从这里，我们可以做出以下几点观察：
1. 每列的数据类型：在这个数据集中，所有数据都存储为64位浮点数。
2. 非空值的数量：处理空值是数据准备中的重要步骤。这将在后续的笔记本中处理。


### DataFrame.describe()
假设我们的数据集中有大量的数值数据。可以对每一列单独进行单变量统计计算，例如均值、中位数、四分位数等。`DataFrame.describe()`函数为我们提供了数据集中数值列的统计摘要。


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


上面的输出显示了每列的总数据点数、均值、标准差、最小值、下四分位数(25%)、中位数(50%)、上四分位数(75%)和最大值。


### `DataFrame.head`
通过以上所有函数和属性，我们已经对数据集有了一个总体的了解。我们知道数据点的数量、特征的数量、每个特征的数据类型以及每个特征的非空值数量。

现在是时候查看数据本身了。让我们看看我们的 `DataFrame` 的前几行（前几个数据点）是什么样子的：


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


在这里的输出中，我们可以看到数据集的五(5)条记录。如果查看左侧的索引，我们会发现这些是前五行。


### 练习：

从上面的例子可以看出，默认情况下，`DataFrame.head` 会返回 `DataFrame` 的前五行。在下面的代码单元中，你能找到一种方法来显示超过五行吗？


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
另一种查看数据的方法是从末尾开始（而不是开头）。`DataFrame.head` 的反面是 `DataFrame.tail`，它返回 `DataFrame` 的最后五行：


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


在实际操作中，能够轻松查看 `DataFrame` 的前几行或后几行非常有用，尤其是在检查有序数据集中的异常值时。

上面通过代码示例展示的所有函数和属性，都能帮助我们了解数据的整体情况。

> **要点:** 仅仅通过查看 `DataFrame` 的元数据或其中的前几行和后几行数据，就可以快速了解所处理数据的大小、形状和内容。


### 缺失数据
让我们深入了解缺失数据。缺失数据是指某些列中没有存储任何值。

举个例子：假设某人对自己的体重很在意，因此在调查中没有填写体重字段。那么，这个人的体重值就会缺失。

在现实世界的数据集中，缺失值是非常常见的。

**Pandas如何处理缺失数据**

Pandas处理缺失值有两种方式。第一种方式你在之前的章节中已经见过：`NaN`，即“非数字”（Not a Number）。这是一个特殊值，属于IEEE浮点数规范的一部分，仅用于表示缺失的浮点值。

对于非浮点类型的缺失值，Pandas使用Python的`None`对象。虽然遇到两种不同类型的值来表示同样的含义可能会让人感到困惑，但这种设计选择有其合理的编程原因。在实际应用中，这种方式使Pandas能够在绝大多数情况下提供一个良好的折中方案。尽管如此，`None`和`NaN`都存在一些限制，需要注意它们的使用方式。


### `None`：非浮点型缺失数据
由于 `None` 来源于 Python，它不能用于数据类型不是 `'object'` 的 NumPy 和 pandas 数组。请记住，NumPy 数组（以及 pandas 中的数据结构）只能包含一种数据类型。这赋予了它们在大规模数据和计算工作中的强大能力，但也限制了它们的灵活性。这类数组必须提升为“最低公分母”，即能够包含数组中所有内容的数据类型。当数组中包含 `None` 时，这意味着你正在处理 Python 对象。

为了更直观地理解这一点，请看以下示例数组（注意它的 `dtype`）：


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

数据类型向上转换的现实带来了两个副作用。首先，操作将在解释型 Python 代码的层面上进行，而不是编译型 NumPy 代码的层面上。基本上，这意味着任何涉及包含 `None` 的 `Series` 或 `DataFrame` 的操作都会变得更慢。虽然你可能不会注意到这种性能下降，但对于大型数据集来说，这可能会成为一个问题。

第二个副作用源于第一个副作用。由于 `None` 本质上将 `Series` 或 `DataFrame` 拉回到原生 Python 的世界，因此在包含 `None` 值的数组上使用 NumPy/pandas 的聚合函数（如 `sum()` 或 `min()`）通常会产生错误：


In [10]:
example1.sum()

TypeError: ignored

**关键点**：整数与`None`值之间的加法（以及其他操作）是未定义的，这可能会限制您对包含它们的数据集的操作。


### `NaN`：缺失的浮点值

与 `None` 不同，NumPy（因此也包括 pandas）支持 `NaN`，以便进行快速的矢量化操作和 ufuncs。坏消息是，任何对 `NaN` 进行的算术运算结果都会是 `NaN`。例如：


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

好消息：在包含 `NaN` 的数组上运行聚合不会出现错误。坏消息：结果并不总是有用：


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### 练习:


In [11]:
# What happens if you add np.nan and None together?


记住：`NaN`仅用于表示缺失的浮点值；整数、字符串或布尔值没有对应的`NaN`。


### `NaN` 和 `None`：pandas 中的空值

尽管 `NaN` 和 `None` 的行为可能略有不同，但 pandas 仍然能够将它们互换处理。为了更好地理解这一点，来看一个整数的 `Series`：


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### 练习:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


在将数据类型向上转换以实现 `Series` 和 `DataFrame` 数据同质化的过程中，pandas 会主动在 `None` 和 `NaN` 之间切换缺失值。由于这一设计特性，将 `None` 和 `NaN` 视为 pandas 中两种不同形式的“空值”是很有帮助的。事实上，pandas 中一些处理缺失值的核心方法名称也反映了这一点：

- `isnull()`：生成一个布尔掩码，用于标识缺失值
- `notnull()`：与 `isnull()` 相反
- `dropna()`：返回过滤后的数据版本
- `fillna()`：返回一个填充或插补缺失值后的数据副本

这些方法非常重要，掌握并熟悉它们是关键。接下来我们将逐一深入了解这些方法。


### 检测空值

既然我们已经了解了缺失值的重要性，那么在处理它们之前，我们需要在数据集中检测它们。  
`isnull()` 和 `notnull()` 是检测空数据的主要方法。两者都会返回数据的布尔掩码。


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

仔细观察输出结果，有什么让你感到意外吗？虽然 `0` 是一个算术上的空值，但它仍然是一个完全合法的整数，pandas 也将其视为整数。而 `''` 则稍微复杂一些。虽然我们在第 1 节中使用它来表示空字符串值，但它本质上仍然是一个字符串对象，而不是 pandas 所认为的空值。

现在，让我们换个角度，以更贴近实际使用的方法来应用这些方法。你可以直接将布尔掩码用作 ``Series`` 或 ``DataFrame`` 的索引，这在处理孤立的缺失值（或存在值）时非常有用。

如果我们想要统计缺失值的总数，只需对 `isnull()` 方法生成的掩码进行求和即可。


In [19]:
example3.isnull().sum()

2

### 练习:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**关键点**：当在数据框中使用 `isnull()` 和 `notnull()` 方法时，它们会产生类似的结果：显示结果及其索引，这将在处理数据时极大地帮助您。


### 处理缺失数据

> **学习目标：** 在本小节结束时，您应该了解如何以及何时替换或删除 DataFrame 中的空值。

机器学习模型本身无法处理缺失数据。因此，在将数据传入模型之前，我们需要处理这些缺失值。

处理缺失数据的方法会带来微妙的权衡，并可能影响您的最终分析结果以及实际应用效果。

处理缺失数据主要有两种方法：

1.   删除包含缺失值的行
2.   用其他值替换缺失值

我们将详细讨论这两种方法及其优缺点。


### 删除空值

我们传递给模型的数据量直接影响其性能。删除空值意味着减少数据点的数量，从而缩小数据集的规模。因此，当数据集较大时，建议删除包含空值的行。

另一种情况可能是某一行或列有大量缺失值。在这种情况下，可以删除这些行或列，因为它们的大部分数据都缺失，对我们的分析贡献不大。

除了识别缺失值之外，pandas 还提供了一种方便的方法来从 `Series` 和 `DataFrame` 中移除空值。为了更好地理解这一点，我们可以回到 `example3`。`DataFrame.dropna()` 函数可以帮助我们删除包含空值的行。


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

请注意，这应该看起来像您从 `example3[example3.notnull()]` 的输出。这里的区别在于，`dropna` 不仅仅是基于掩码值进行索引，而是从 `Series` `example3` 中移除了那些缺失值。

由于 DataFrame 是二维的，因此它提供了更多删除数据的选项。


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


（你是否注意到，为了容纳 `NaN` 值，pandas 将两列数据类型提升为浮点型？）

你无法从 `DataFrame` 中删除单个值，因此必须删除整行或整列。根据你的需求，你可能需要选择其中一种方式，因此 pandas 提供了两种选项。在数据科学中，列通常表示变量，行表示观测值，因此你更可能删除数据的行；`dropna()` 的默认设置是删除所有包含任何空值的行：


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


如果需要，您可以从列中删除NA值。使用`axis=1`来实现：


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


请注意，这可能会丢弃许多您可能希望保留的数据，尤其是在较小的数据集中。如果您只想删除包含多个甚至全部空值的行或列，该怎么办？您可以在 `dropna` 中通过 `how` 和 `thresh` 参数来指定这些设置。

默认情况下，`how='any'`（如果您想自己检查或查看该方法的其他参数，可以在代码单元中运行 `example4.dropna?`）。您也可以选择指定 `how='all'`，这样只会删除包含所有空值的行或列。让我们扩展示例 `DataFrame`，在接下来的练习中看看它的实际效果。


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> 关键要点：
1. 只有在数据集足够大的情况下，删除空值才是一个好主意。
2. 如果某行或某列的大部分数据缺失，可以直接删除整行或整列。
3. `DataFrame.dropna(axis=)` 方法可以用来删除空值。`axis` 参数表示是删除行还是列。
4. 还可以使用 `how` 参数。默认情况下，它设置为 `any`，因此只会删除包含任意空值的行或列。可以将其设置为 `all`，以指定仅删除所有值均为空的行或列。


### 练习:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` 参数为您提供了更细粒度的控制：您可以设置一行或一列需要具有的 *非空* 值的数量，以便保留该行或列：


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


这里，第一行和最后一行已被删除，因为它们仅包含两个非空值。


### 填充空值

有时，用可能有效的值填充缺失值是合理的。填充空值有几种方法。第一种是使用领域知识（即数据集所基于主题的知识）来近似缺失值。

你可以使用 `isnull` 来直接处理，但这可能会很繁琐，尤其是当你有很多值需要填充时。由于这是数据科学中非常常见的任务，pandas 提供了 `fillna` 方法，它会返回一个 `Series` 或 `DataFrame` 的副本，其中的缺失值被替换为你选择的值。让我们创建另一个示例 `Series` 来看看它在实际中的工作方式。


### 分类数据（非数值型）
首先让我们来看非数值型数据。在数据集中，我们会有一些包含分类数据的列。例如：性别、True 或 False 等。

在大多数情况下，我们会用该列的`众数`来替换缺失值。比如说，我们有100个数据点，其中90个是True，8个是False，还有2个未填写。那么我们可以将这2个未填写的值填充为True，基于整个列的情况。

当然，在这里我们也可以使用领域知识。让我们来看一个用众数填充的例子。


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


现在，让我们先找到众数，然后用众数填充 `None` 值。


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

所以，我们将用True替换None


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


正如我们所见，空值已被替换。不言而喻，我们本可以在 `'True'` 的位置写任何内容，它都会被替换。


### 数值数据
现在来说说数值数据。这里有两种常见的方法来替换缺失值：

1. 用行的中位数替换  
2. 用行的平均值替换  

当数据存在偏斜且有异常值时，我们使用中位数替换。这是因为中位数对异常值具有鲁棒性。

当数据是标准化的，我们可以使用平均值，因为在这种情况下，平均值和中位数会非常接近。

首先，让我们选取一个正态分布的列，并用该列的平均值填充缺失值。


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


列的平均值是


In [33]:
np.mean(fill_with_mean[0])

0.0

用均值填充


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


正如我们所见，缺失值已被其平均值替换。


现在让我们尝试另一个数据框，这次我们将用列的中位数替换None值。


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


第二列的中位数是


In [36]:
fill_with_median[1].median()

4.0

用中位数填充


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


正如我们所见，NaN值已被该列的中位数替换


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

您可以使用单个值（例如 `0`）填充所有空条目：


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> 关键要点：
1. 填补缺失值应在数据较少或有明确填补策略时进行。
2. 可以利用领域知识通过估算来填补缺失值。
3. 对于分类数据，通常用列的众数替代缺失值。
4. 对于数值型数据，缺失值通常用列的平均值（针对归一化数据集）或中位数填补。


### 练习:


In [40]:
# What happens if you try to fill null values with a string, like ''?


您可以使用**前向填充**空值，即使用最后一个有效值填充空值：


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

您还可以**回填**，将下一个有效值向后传播以填充空值：


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

正如您可能猜到的，这与DataFrame的操作方式相同，但您也可以指定一个`axis`来填充空值：


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


请注意，当没有可用于向前填充的先前值时，空值将保留。


### 练习:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


你可以创造性地使用 `fillna`。例如，让我们再次查看 `example4`，但这次我们用 `DataFrame` 中所有值的平均值来填充缺失值：


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


注意，第3列仍然没有值：默认方向是按行填充值。

> **要点：** 处理数据集中的缺失值有多种方法。具体采用哪种策略（删除、替换，甚至如何替换）应根据数据的具体情况来决定。随着你处理和接触更多的数据集，你会对如何处理缺失值有更好的理解。


### 编码分类数据

机器学习模型只能处理数字和任何形式的数值数据。它无法区分“是”和“否”，但可以区分0和1。因此，在填充缺失值之后，我们需要将分类数据编码为某种数值形式，以便模型能够理解。

编码可以通过两种方式完成。接下来我们将讨论这两种方法。


**标签编码**

标签编码基本上是将每个类别转换为一个数字。例如，假设我们有一个航空乘客的数据集，其中有一列包含他们的舱位类别，类别包括 ['商务舱', '经济舱', '头等舱']。如果对其进行标签编码，它将被转换为 [0,1,2]。让我们通过代码示例来看看。由于我们将在后续笔记本中学习 `scikit-learn`，这里不会使用它。


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


要对第一列进行标签编码，我们首先需要描述一个从每个类别到数字的映射，然后进行替换。


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


正如我们所见，输出与我们预期的结果一致。那么，我们什么时候使用标签编码呢？标签编码适用于以下一种或两种情况：  
1. 当类别数量较多时  
2. 当类别是有序的时  


**独热编码**

另一种编码方式是独热编码。在这种编码方式中，每个列的类别都会作为单独的列添加到数据集中，并且每个数据点根据是否包含该类别会被赋值为0或1。因此，如果有n个不同的类别，就会向数据框中添加n列。

例如，我们仍然使用飞机舱位的例子。类别是：['商务舱', '经济舱', '头等舱']。如果我们进行独热编码，数据集中将会添加以下三列：['class_business class', 'class_economy class', 'class_first class']。


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


让我们对第一列进行独热编码


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


每个独热编码列包含0或1，指定该数据点是否属于该类别。


我们什么时候使用独热编码？独热编码在以下一种或两种情况下使用：

1. 当类别数量和数据集规模较小时。
2. 当类别没有特定顺序时。


> 关键要点：
1. 编码用于将非数值数据转换为数值数据。
2. 编码分为两种类型：标签编码和独热编码，可根据数据集的需求进行选择。


## 删除重复数据

> **学习目标：** 在本小节结束时，您应该能够熟练识别并删除 DataFrame 中的重复值。

除了缺失数据之外，您在实际数据集中还会经常遇到重复数据。幸运的是，pandas 提供了一种简单的方法来检测和删除重复条目。


### 识别重复项：`duplicated`

您可以使用 pandas 中的 `duplicated` 方法轻松识别重复值。该方法返回一个布尔掩码，指示 `DataFrame` 中的某个条目是否是之前条目的重复项。让我们创建另一个示例 `DataFrame` 来实际查看这一功能。


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### 删除重复项：`drop_duplicates`
`drop_duplicates` 仅返回数据的副本，其中所有 `duplicated` 值均为 `False`：


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` 和 `drop_duplicates` 默认会考虑所有列，但您可以指定它们仅检查 `DataFrame` 中的部分列：


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **要点:** 删除重复数据是几乎每个数据科学项目的重要组成部分。重复数据可能会改变分析结果，并导致不准确的结论！


## 真实世界中的数据质量检查

> **学习目标：** 在本节结束时，您应该能够熟练检测和纠正常见的真实世界数据质量问题，包括不一致的分类值、异常的数值（离群值）以及具有变体的重复实体。

虽然缺失值和完全重复是常见问题，但真实世界的数据集通常还包含更为隐蔽的问题：

1. **不一致的分类值**：同一类别的拼写不同（例如，“USA”、“U.S.A”、“United States”）
2. **异常的数值**：极端的离群值，可能是数据录入错误（例如，年龄 = 999）
3. **近似重复的行**：表示同一实体但存在细微差异的记录

让我们来探讨检测和处理这些问题的技术。


### 创建一个示例“脏”数据集

首先，让我们创建一个包含我们在实际数据中常见问题类型的示例数据集：


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. 检测不一致的分类值

注意，`country` 列中同一个国家有多种表示方式。让我们来识别这些不一致之处：


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### 标准化分类值

我们可以创建一个映射来标准化这些值。一种简单的方法是将值转换为小写并创建一个映射字典：


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**替代方法：使用模糊匹配**

对于更复杂的情况，我们可以使用 `rapidfuzz` 库进行模糊字符串匹配，以自动检测相似的字符串：


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. 检测异常数值（离群值）

查看 `age` 列，我们发现一些可疑的值，比如 199 和 -5。让我们使用统计方法来检测这些离群值。


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### 使用 IQR（四分位距）方法

IQR 方法是一种稳健的统计技术，用于检测异常值，对极端值的敏感性较低：


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### 使用 Z-Score 方法

Z-Score 方法通过与平均值的标准差来识别异常值：


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### 处理异常值

一旦检测到异常值，可以通过以下几种方式处理：
1. **删除**：删除包含异常值的行（如果它们是错误数据）
2. **限制**：用边界值替换
3. **替换为 NaN**：将其视为缺失数据并使用插补技术处理
4. **保留**：如果它们是合法的极端值


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. 检测近似重复行

注意，我们的数据集中有多个“John Smith”的条目，且值略有不同。让我们根据名字相似性来识别潜在的重复项。


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### 使用模糊匹配查找近似重复项

为了进行更复杂的重复检测，我们可以使用模糊匹配来查找相似的名称：


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### 处理重复项

一旦识别出重复项，你需要决定如何处理：
1. **保留第一次出现**：使用 `drop_duplicates(keep='first')`
2. **保留最后一次出现**：使用 `drop_duplicates(keep='last')`
3. **汇总信息**：合并重复行中的信息
4. **人工审核**：标记以供人工审核


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### 总结：完整的数据清洗流程

让我们将所有内容整合成一个全面的清洗流程：


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 挑战练习

现在轮到你了！下面是一行包含多个质量问题的新数据。你能否：

1. 找出这行数据中的所有问题
2. 编写代码清理每个问题
3. 将清理后的数据添加到数据集中

以下是有问题的数据：


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### 关键要点

1. **类别不一致**在实际数据中很常见。务必检查唯一值，并通过映射或模糊匹配来标准化它们。

2. **异常值**会显著影响你的分析。结合领域知识和统计方法（IQR、Z分数）来检测它们。

3. **近似重复项**比完全重复项更难检测。可以考虑使用模糊匹配并规范化数据（如转换为小写、去除空格）来识别它们。

4. **数据清理是一个迭代过程**。可能需要应用多种技术并审查结果，才能最终确定清理后的数据集。

5. **记录你的决策**。记录你应用了哪些清理步骤以及原因，这对于可重复性和透明性非常重要。

> **最佳实践：**始终保留一份原始“脏”数据的副本。切勿覆盖源数据文件——创建清理后的版本，并使用清晰的命名规则，例如`data_cleaned.csv`。



---

**免责声明**：  
本文档使用AI翻译服务 [Co-op Translator](https://github.com/Azure/co-op-translator) 进行翻译。尽管我们努力确保翻译的准确性，但请注意，自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息，建议使用专业人工翻译。我们对因使用此翻译而产生的任何误解或误读不承担责任。
