使用Pandas&NumPy进行数据清洗的6大常用方法

主要内容如下：

删除 DataFrame 中的不必要 columns
改变 DataFrame 的 index
使用 .str() 方法来清洗 columns
使用 DataFrame.applymap() 函数按元素的清洗整个数据集
重命名 columns 为一组更易识别的标签
滤除 CSV文件中不必要的 rows

下面是要用到的数据集：

BL-Flickr-Images-Book.csv - 一份来自英国图书馆包含关于书籍信息的CSV文档
university_towns.txt - 一份包含美国各大洲大学城名称的text文档
olympics.csv - 一份总结了各国家参加夏季与冬季奥林匹克运动会情况的CSV文档

In [1]:
import pandas as pd
import numpy as np

# 删除DataFrame的列

你可能有一个关于学生信息的数据集，包含姓名，分数，标准，父母姓名，住址等具体信息，但是你只想分析学生的分数。

这个情况下，住址或者父母姓名信息对你来说就不是很重要。这些没有用的信息会占用不必要的空间，并会使运行时间减慢。

Pandas提供了一个非常便捷的方法drop()函数来移除一个DataFrame中不想要的行或列。让我们看一个简单的例子如何从DataFrame中移除列。

In [2]:
df = pd.read_csv('Datasets/BL-Flickr-Images-Book.csv')

In [3]:
df.head()

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


In [4]:
to_drop = ['Edition Statement',
           'Corporate Author',
           'Corporate Contributors',
           'Former owner',
           'Engraver',
           'Contributors',
           'Issuance type',
           'Shelfmarks']

In [5]:
df.drop(to_drop,inplace=True,axis=1)

In [6]:
df.head()

Unnamed: 0,Identifier,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
0,206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
1,216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
2,218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
3,472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
4,480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


In [7]:
df.drop(columns=to_drop,inplace=True)#也可以通过给columns参数赋值直接移除列

KeyError: "['Edition Statement' 'Corporate Author' 'Corporate Contributors'\n 'Former owner' 'Engraver' 'Contributors' 'Issuance type' 'Shelfmarks'] not found in axis"

# 改变DataFrame的索引

Pandas索引index扩展了Numpy数组的功能，以允许更多多样化的切分和标记。在很多情况下，使用唯一的值作为索引值识别数据字段是非常有帮助的。

例如，仍然使用上一节的数据集，**可以想象当一个图书管理员寻找一个记录，他们也许会输入一个唯一标识来定位一本书。

In [8]:
df['Identifier'].is_unique

True

**让我们用set_index把已经存在的索引改为这个列。

In [9]:
df = df.set_index('Identifier')

In [10]:
df.head()

Unnamed: 0_level_0,Place of Publication,Date of Publication,Publisher,Title,Author,Flickr URL
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
206,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,http://www.flickr.com/photos/britishlibrary/ta...
216,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
218,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.",http://www.flickr.com/photos/britishlibrary/ta...
472,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...
480,London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.",http://www.flickr.com/photos/britishlibrary/ta...


技术细节：不像在SQL中的主键一样，pandas的索引不保证唯一性，尽管如果是这样,许多索引和合并操作将会使运行时间变长。

可以用一个直接的方法**loc[]来获取每一条记录。尽管loc[]这个词可能看上去没有那么直观，但它允许我们使用基于标签的索引，这个索引是行的标签或者不考虑位置的记录。

In [11]:
df.loc[206]

Place of Publication                                               London
Date of Publication                                           1879 [1878]
Publisher                                                S. Tinsley & Co.
Title                                   Walter Forbes. [A novel.] By A. A
Author                                                              A. A.
Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
Name: 206, dtype: object

In [12]:
df.iloc[0]

Place of Publication                                               London
Date of Publication                                           1879 [1878]
Publisher                                                S. Tinsley & Co.
Title                                   Walter Forbes. [A novel.] By A. A
Author                                                              A. A.
Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
Name: 206, dtype: object

df = df.set_index(...)的返回变量重新给对象赋了值。这是因为，默认的情况下，这个方法返回一个被改变对象的拷贝，并且它不会直接对原对象做任何改变。我们可以通过设置参数inplace来避免这个问题。

In [32]:
df.set_index('Identifier', inplace=True)

KeyError: 'Identifier'

# 清洗数据字段

们移除了不必要的列并改变了我们的索引变得更有意义。这个部分，我们将清洗特殊的列，并使它们变成统一的格式，这样可以更好的理解数据集和加强连续性。特别的，我们将清洗Date of Publication和Place of Publication。
所有的数据类型都是现在的objectdtype类型，差不多类似于Python中的str。

In [33]:
df.get_dtype_counts()

object    6
dtype: int64

一个需要被改变为数值的的字段是the date of publication所以我们做如下操作：

In [34]:
df.loc[1905:, 'Date of Publication'].head(10)

Identifier
1905           1888
1929    1839, 38-54
2836           1897
2854           1865
2956        1860-63
2957           1873
3017           1866
3131           1899
4598           1814
4884           1820
Name: Date of Publication, dtype: object

一本书只能有一个出版日期data of publication。因此，我们需要做以下的一些事情：

移除在方括号内的额外日期，任何存在的：1879[1878]。
将日期范围转化为它们的起始日期，任何存在的：1860-63;1839,38-54。
完全移除我们不关心的日期，并用Numpy的NaN替换：[1879?]。
将字符串nan转化为Numpy的NaN值。

**考虑这些模式，我们可以用一个简单的正则表达式来提取出版日期：

In [35]:
regex = r'^(\d{4})'

上面正则表达式的意思**在字符串开头寻找任何四位数字，符合我们的情况。

\d代表任何数字，{4}重复这个规则四次。^符号匹配一个字符串最开始的部分，圆括号表示一个分组，提示pandas我们想要提取正则表达式的部分。

让我们看看运行这个正则在数据集上之后会发生什么。

In [36]:
extr = df['Date of Publication'].str.extract(r'^(\d{4})', expand=False)

In [37]:
extr.head()

Identifier
206    1879
216    1868
218    1869
472    1851
480    1857
Name: Date of Publication, dtype: object

其实这个列仍然是一个object类型，但是我们可以使用pd.to_numeric轻松的得到数字的版本：

In [38]:
df['Date of Publication'] = pd.to_numeric(extr)

In [39]:
df['Date of Publication'].dtype

dtype('float64')

In [40]:
df['Date of Publication'].head()

Identifier
206    1879.0
216    1868.0
218    1869.0
472    1851.0
480    1857.0
Name: Date of Publication, dtype: float64

这个结果中，10个值里大约有1个值缺失，这让我们付出了很小的代价来对剩余有效的值做计算。

In [41]:
df['Date of Publication'].isnull().sum() / len(df)

0.11717147339205986

# 结合str方法与Numpy清洗列