使用 Pandas 处理现实世界数据
我们在第 7 周讨论了使用 Pandas 的一些基础知识。本周，我们将进一步探索处理现实世界数据的示例：处理缺失数据和处理基于文本的数据。

1. 处理缺失数据
你应该将以下三个数据集放在与此 Notebook 相同的文件夹中：

tag00034-2.csv
wfhuk_1.1_dec2015.csv
COSING_Ingredients-Fragrance Inventory_v2.csv
第一个数据集是来自欧盟的葡萄酒生产数据，可以从 这里下载。这个数据集包含一些缺失值。首先，注意当我们读取数据时会发生什么：

In [1]:
import pandas as pd
wine = pd.read_csv('tag00034-2.csv')
wine


Unnamed: 0,"prod_bal,bal_item,geo\time","B2200,12HL,AT","B2200,12HL,BE","B2200,12HL,BG","B2200,12HL,CY","B2200,12HL,CZ","B2200,12HL,DE","B2200,12HL,DK","B2200,12HL,EE","B2200,12HL,EL"
0,2005,2685.8,4.0,1961,328.943,580,10107,0,0,4282.0
1,2006,2225.3,3.0,1708,237.978,438,9256,0,0,3989.0
2,2007,2213.4,3.0,1757,183.0,434,9000,0,0,3874.3
3,2008,2578.1,3.0,1796,169.0,434,10363,:,:,3413.8
4,2009,2943.4,3.0,1617,146.75,840.3,10089,:,0,3869.1
5,2010,2313.7,3.0,1426,146.52,545,9320,:,0,3365.6
6,2011,1710.6,4.7,1224,117.6,385,6976,:,0,2950.0
7,2012,2783.1,5.4,1236,84.64,650,9223,:,0,2750.0
8,2013,2124.4,2.9,1442,111.83,487,9102,:,0,31.0
9,2014,2353.4,5.5,1913,108.1,0,8493,:,:,


数据中的缺失值会用 NaN 表示，代表“不是一个数字”（Not a Number）。如果你在 Excel 中打开数据文件，你会发现这些值确实对应缺失的数据。

然而，该数据集并不一致。有时，缺失值只是一个空单元格，Pandas 会自动正确处理；有时，缺失值会用 : 表示。这种情况经常发生在数据收集中（由于不同的人使用不同的约定，或者由于不熟练和不一致的数据收集方式）。

例如，当我们打印某些单元格的内容时，我们可以看到它实际上是一个冒号和空格。我们可以通过将所有这些值替换为 NaN 来解决这个问题，使缺失数据用 NaN 统一表示：

In [2]:
import numpy as np
print(f'The string is "{wine.loc[11, "B2200,12HL,DK"]}".')

# 用 NaN 替换所有 ': ' 值
wine = wine.replace(': ', np.nan)
wine


The string is ": ".


Unnamed: 0,"prod_bal,bal_item,geo\time","B2200,12HL,AT","B2200,12HL,BE","B2200,12HL,BG","B2200,12HL,CY","B2200,12HL,CZ","B2200,12HL,DE","B2200,12HL,DK","B2200,12HL,EE","B2200,12HL,EL"
0,2005,2685.8,4.0,1961,328.943,580.0,10107,0.0,0.0,4282.0
1,2006,2225.3,3.0,1708,237.978,438.0,9256,0.0,0.0,3989.0
2,2007,2213.4,3.0,1757,183.0,434.0,9000,0.0,0.0,3874.3
3,2008,2578.1,3.0,1796,169.0,434.0,10363,,,3413.8
4,2009,2943.4,3.0,1617,146.75,840.3,10089,,0.0,3869.1
5,2010,2313.7,3.0,1426,146.52,545.0,9320,,0.0,3365.6
6,2011,1710.6,4.7,1224,117.6,385.0,6976,,0.0,2950.0
7,2012,2783.1,5.4,1236,84.64,650.0,9223,,0.0,2750.0
8,2013,2124.4,2.9,1442,111.83,487.0,9102,,0.0,31.0
9,2014,2353.4,5.5,1913,108.1,0.0,8493,,,


许多函数在计算时会忽略 NaN 值。然而，有时我们需要清理数据，可以通过以下两种主要方式完成：

移除包含 NaN 值的行（或列）。
用特定数值替换这些 NaN 值。
下面是两种数据清理操作的示例：

In [3]:
# 移除包含 NaN 值的所有行
wine.dropna(how='any')

# 将所有 NaN 替换为给定值
wine.fillna(value=0)


Unnamed: 0,"prod_bal,bal_item,geo\time","B2200,12HL,AT","B2200,12HL,BE","B2200,12HL,BG","B2200,12HL,CY","B2200,12HL,CZ","B2200,12HL,DE","B2200,12HL,DK","B2200,12HL,EE","B2200,12HL,EL"
0,2005,2685.8,4.0,1961,328.943,580.0,10107,0,0,4282.0
1,2006,2225.3,3.0,1708,237.978,438.0,9256,0,0,3989.0
2,2007,2213.4,3.0,1757,183.0,434.0,9000,0,0,3874.3
3,2008,2578.1,3.0,1796,169.0,434.0,10363,0,0,3413.8
4,2009,2943.4,3.0,1617,146.75,840.3,10089,0,0,3869.1
5,2010,2313.7,3.0,1426,146.52,545.0,9320,0,0,3365.6
6,2011,1710.6,4.7,1224,117.6,385.0,6976,0,0,2950.0
7,2012,2783.1,5.4,1236,84.64,650.0,9223,0,0,2750.0
8,2013,2124.4,2.9,1442,111.83,487.0,9102,0,0,31.0
9,2014,2353.4,5.5,1913,108.1,0.0,8493,0,0,0.0


2. 处理基于文本的数据
这是另一个数据集，来自英国政府的废弃物数据，可以从 这里下载。

Python 代码：

waste = pd.read_csv('wfhuk_1.1_dec2015.csv')
waste
如果我们只想要“Recycled”行，可以通过在 Measure 列中查找包含 Recycled 的行来实现。这可以结合文本方法 .loc[] 和布尔索引来完成。

Python 代码：

# 获取 'Measure' 列中以 'Recycled' 开头的所有行
waste[waste['Measure'].str.startswith('Recycled')]
注意这里使用了 .str，表示“字符串方法”：这些操作可以应用于 Pandas 的单独列（例如，一个数据框的单列），无需遍历每个单独元素。str.startswith() 是可用的字符串方法之一。

2.1 正则表达式模式

我们也可以进行更复杂的模式匹配。这使用了一种称为正则表达式的方式来表达文本模式。这是一个非常大的主题，这里我们仅通过一些示例来展示其用法。

以下是使用正则表达式模式的快速示例，使用更大、更复杂的数据集：这是一个关于香料成分的欧盟数据集。

Python 代码：

# 指定编码选项，因为默认值与数据文件不匹配
frag = pd.read_csv('COSING_Ingredients-Fragrance Inventory_v2.csv', encoding='utf')

# 打印出 'Chem/IUPAC Name / Description' 列中匹配 'Chamomil...' 模式的行
frag.loc[frag['Chem/IUPAC Name / Description'].str.match(r'Chamomil[lea]+') == True]
正则表达式允许我们更灵活地搜索符合模式的内容。在上面的例子中，正则表达式 r'Chamomil[lea]+' 会匹配以 “Chamomil...” 开头，后面可以是任意数量的字母 l 或 e 或 a。



panda 第三部分 聚合数据（Aggregating data）
在分析数据时，通常需要针对某个变量进行聚合。一种常用的工作流被称为分组-应用-合并（split-apply-combine）。以下是该方法的一个示例流程图，摘自 VanDerPlas 的《The Python Data Science Handbook》：

流程概述

Split（分组）：按指定键值将数据分组。
Apply（应用）：对分组后的数据应用函数（例如求和、计数等）。
Combine（合并）：将处理后的结果合并为一个新的数据框。

使用 Pandas 的 .groupby() 方法
Pandas 提供 .groupby() 方法来实现分组-应用-合并。

以下是一个使用宇航员数据的示例，展示了如何按国籍对数据分组：

In [4]:
import pandas as pd

# 读取数据
astronauts = pd.read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-07-14/astronauts.csv')
astronauts = astronauts.fillna('')  # 填充空值

# 按国籍分组
astronauts.groupby('nationality')


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1460aa1d0>