使用Pandas&NumPy进行数据清洗的6大常用方法

主要内容如下：

删除 DataFrame 中的不必要 columns
改变 DataFrame 的 index
使用 .str() 方法来清洗 columns
使用 DataFrame.applymap() 函数按元素的清洗整个数据集
重命名 columns 为一组更易识别的标签
滤除 CSV文件中不必要的 rows

下面是要用到的数据集：

BL-Flickr-Images-Book.csv - 一份来自英国图书馆包含关于书籍信息的CSV文档
university_towns.txt - 一份包含美国各大洲大学城名称的text文档
olympics.csv - 一份总结了各国家参加夏季与冬季奥林匹克运动会情况的CSV文档

In [2]:
import pandas as pd
import numpy as np

# 删除DataFrame的列

你可能有一个关于学生信息的数据集，包含姓名，分数，标准，父母姓名，住址等具体信息，但是你只想分析学生的分数。

这个情况下，住址或者父母姓名信息对你来说就不是很重要。这些没有用的信息会占用不必要的空间，并会使运行时间减慢。

Pandas提供了一个非常便捷的方法drop()函数来移除一个DataFrame中不想要的行或列。让我们看一个简单的例子如何从DataFrame中移除列。

In [3]:
df = pd.read_csv('Datasets/BL-Flickr-Images-Book.csv')

In [4]:
df.head()

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


In [4]:
to_drop = ['Edition Statement',
           'Corporate Author',
           'Corporate Contributors',
           'Former owner',
           'Engraver',
           'Contributors',
           'Issuance type',
           'Shelfmarks']

In [5]:
df.drop(to_drop,inplace=True,axis=1)

NameError: name 'to_drop' is not defined

In [6]:
df.head()

Unnamed: 0,Identifier,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks
0,206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.
1,216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.
2,218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.
3,472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.
4,480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.


In [7]:
df.drop(columns=to_drop,inplace=True)#也可以通过给columns参数赋值直接移除列

KeyError: "['Edition Statement' 'Corporate Author' 'Corporate Contributors'\n 'Former owner' 'Engraver' 'Contributors' 'Issuance type' 'Shelfmarks'] not found in axis"

# 改变DataFrame的索引

Pandas索引index扩展了Numpy数组的功能，以允许更多多样化的切分和标记。在很多情况下，使用唯一的值作为索引值识别数据字段是非常有帮助的。

例如，仍然使用上一节的数据集，**可以想象当一个图书管理员寻找一个记录，他们也许会输入一个唯一标识来定位一本书。

In [8]:
df['Identifier'].is_unique

True

**让我们用set_index把已经存在的索引改为这个列。

In [27]:
df = df.set_index('Identifier')

In [28]:
df.head()

Unnamed: 0_level_0,Edition Statement,Place of Publication,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks,place of Publication
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
206,,London,1879 [1878],S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.,London
216,,London; Virtue & Yorston,1868,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.,London
218,,London,1869,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.,London
472,,London,1851,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.,London
480,"A new edition, revised, etc.",London,1857,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.,London


技术细节：不像在SQL中的主键一样，pandas的索引不保证唯一性，尽管如果是这样,许多索引和合并操作将会使运行时间变长。

可以用一个直接的方法**loc[]来获取每一条记录。尽管loc[]这个词可能看上去没有那么直观，但它允许我们使用基于标签的索引，这个索引是行的标签或者不考虑位置的记录。

In [29]:
df.loc[206]

Edition Statement                                                       NaN
Place of Publication                                                 London
Date of Publication                                             1879 [1878]
Publisher                                                  S. Tinsley & Co.
Title                                     Walter Forbes. [A novel.] By A. A
Author                                                                A. A.
Contributors                                                FORBES, Walter.
Corporate Author                                                        NaN
Corporate Contributors                                                  NaN
Former owner                                                            NaN
Engraver                                                                NaN
Issuance type                                                   monographic
Flickr URL                http://www.flickr.com/photos/britishlibrary/ta...
Shelfmarks  

In [30]:
df.iloc[0]

Edition Statement                                                       NaN
Place of Publication                                                 London
Date of Publication                                             1879 [1878]
Publisher                                                  S. Tinsley & Co.
Title                                     Walter Forbes. [A novel.] By A. A
Author                                                                A. A.
Contributors                                                FORBES, Walter.
Corporate Author                                                        NaN
Corporate Contributors                                                  NaN
Former owner                                                            NaN
Engraver                                                                NaN
Issuance type                                                   monographic
Flickr URL                http://www.flickr.com/photos/britishlibrary/ta...
Shelfmarks  

df = df.set_index(...)的返回变量重新给对象赋了值。这是因为，默认的情况下，这个方法返回一个被改变对象的拷贝，并且它不会直接对原对象做任何改变。我们可以通过设置参数inplace来避免这个问题。

In [31]:
df.set_index('Identifier', inplace=True)

KeyError: 'Identifier'

# 清洗数据字段

们移除了不必要的列并改变了我们的索引变得更有意义。这个部分，我们将清洗特殊的列，并使它们变成统一的格式，这样可以更好的理解数据集和加强连续性。特别的，我们将清洗Date of Publication和Place of Publication。
所有的数据类型都是现在的objectdtype类型，差不多类似于Python中的str。

In [32]:
df.get_dtype_counts()

float64     3
object     12
dtype: int64

一个需要被改变为数值的的字段是the date of publication所以我们做如下操作：

In [33]:
df.loc[1905:, 'Date of Publication'].head(10)

Identifier
1905           1888
1929    1839, 38-54
2836           1897
2854           1865
2956        1860-63
2957           1873
3017           1866
3131           1899
4598           1814
4884           1820
Name: Date of Publication, dtype: object

一本书只能有一个出版日期data of publication。因此，我们需要做以下的一些事情：

移除在方括号内的额外日期，任何存在的：1879[1878]。
将日期范围转化为它们的起始日期，任何存在的：1860-63;1839,38-54。
完全移除我们不关心的日期，并用Numpy的NaN替换：[1879?]。
将字符串nan转化为Numpy的NaN值。

**考虑这些模式，我们可以用一个简单的正则表达式来提取出版日期：

In [34]:
regex = r'^(\d{4})'

上面正则表达式的意思**在字符串开头寻找任何四位数字，符合我们的情况。

\d代表任何数字，{4}重复这个规则四次。^符号匹配一个字符串最开始的部分，圆括号表示一个分组，提示pandas我们想要提取正则表达式的部分。

让我们看看运行这个正则在数据集上之后会发生什么。

In [35]:
extr = df['Date of Publication'].str.extract(r'^(\d{4})', expand=False)

In [36]:
extr.head()

Identifier
206    1879
216    1868
218    1869
472    1851
480    1857
Name: Date of Publication, dtype: object

其实这个列仍然是一个object类型，但是我们可以使用pd.to_numeric轻松的得到数字的版本：

In [37]:
df['Date of Publication'] = pd.to_numeric(extr)

In [38]:
df['Date of Publication'].dtype

dtype('float64')

In [39]:
df['Date of Publication'].head()

Identifier
206    1879.0
216    1868.0
218    1869.0
472    1851.0
480    1857.0
Name: Date of Publication, dtype: float64

这个结果中，10个值里大约有1个值缺失，这让我们付出了很小的代价来对剩余有效的值做计算。

In [41]:
df['Date of Publication'].isnull().sum() / len(df)

0.11717147339205986

# 结合str方法与Numpy清洗列

上面，你可以观察到df['Date of Publication'].str. 的使用。这个属性是pandas里的一种提升字符串操作速度的方法，并有大量的Python字符串或编译的正则表达式上的小操作，例如.split(),.replace(),和.capitalize()。
为了清洗Place of Publication字段，我们可以结合pandas的str方法和numpy的np.where函数配合完成。

In [7]:
np.where(condition, then, else)

SyntaxError: invalid syntax (<ipython-input-7-2c93b82900ec>, line 1)

condition可以是一个类数组的对象，也可以是一个布尔表达。如果condition值为真，那么then将被使用，否则使用else。
它也可以组网使用，允许我们基于多个条件进行计算。

np.where(condition1, x1, 
        np.where(condition2, x2, 
            np.where(condition3, x3, ...)))

In [40]:
df['Place of Publication'].head(10)

Identifier
206                                  London
216                London; Virtue & Yorston
218                                  London
472                                  London
480                                  London
481                                  London
519                                  London
667     pp. 40. G. Bryan & Co: Oxford, 1898
874                                 London]
1143                                 London
Name: Place of Publication, dtype: object

In [41]:
df.loc[4157862]

Edition Statement                                                       NaN
Place of Publication                                    Newcastle-upon-Tyne
Date of Publication                                                    1867
Publisher                                                        T. Fordyce
Title                     Local Records; or, Historical Register of rema...
Author                        FORDYCE, T. - Printer, of Newcastle-upon-Tyne
Contributors               SYKES, John - Bookseller, of Newcastle-upon-Tyne
Corporate Author                                                        NaN
Corporate Contributors                                                  NaN
Former owner                                                            NaN
Engraver                                                                NaN
Issuance type                                                   monographic
Flickr URL                http://www.flickr.com/photos/britishlibrary/ta...
Shelfmarks  

为了一次性清洗这个列，我们使用str.contains()来获取一个布尔值。

In [42]:
pub = df['Place of Publication']

In [43]:
london = pub.str.contains('London')

In [44]:
london[:10]

Identifier
206      True
216      True
218      True
472      True
480      True
481      True
519      True
667     False
874      True
1143     True
Name: Place of Publication, dtype: bool

In [49]:
oxford = pub.str.contains('Oxford')

In [50]:
oxford[:10]

Identifier
206     False
216     False
218     False
472     False
480     False
481     False
519     False
667      True
874     False
1143    False
Name: Place of Publication, dtype: bool

In [53]:
df['Place of Publication'] = np.where(london,'London',
                                      np.where(oxford,'Oxford',
                                               pub.str.replace('-',' ')))

In [101]:
df['Place of Publication'].head(10)

KeyError: 'Place of Publication'

这里，np.where方程在一个嵌套的结构中被调用，condition是一个通过str.contains()得到的布尔的Series。contains()方法与Python内建的in关键字一样，用于发现一个个体是否发生在一个迭代器中。

使用的替代物是一个代表我们期望的出版社地址字符串。我们也使用str.replace()将连字符替换为空格，然后给DataFrame中的列重新赋值。

In [74]:
df.head()

Unnamed: 0_level_0,Edition Statement,Date of Publication,Publisher,Title,Author,Contributors,Corporate Author,Corporate Contributors,Former owner,Engraver,Issuance type,Flickr URL,Shelfmarks,place of Publication
Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
206,,1879.0,S. Tinsley & Co.,Walter Forbes. [A novel.] By A. A,A. A.,"FORBES, Walter.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12641.b.30.,London
216,,1868.0,Virtue & Co.,All for Greed. [A novel. The dedication signed...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12626.cc.2.,London
218,,1869.0,"Bradbury, Evans & Co.",Love the Avenger. By the author of “All for Gr...,"A., A. A.","BLAZE DE BURY, Marie Pauline Rose - Baroness",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 12625.dd.1.,London
472,,1851.0,James Darling,"Welsh Sketches, chiefly ecclesiastical, to the...","A., E. S.","Appleyard, Ernest Silvanus.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 10369.bbb.15.,London
480,"A new edition, revised, etc.",1857.0,Wertheim & Macintosh,"[The World in which I live, and my place in it...","A., E. S.","BROOME, John Henry.",,,,,monographic,http://www.flickr.com/photos/britishlibrary/ta...,British Library HMNTS 9007.d.28.,London


# 使用applymap方法清洗整个数据集

在一定的情况下，你将看到并不是仅仅有一条列不干净，而是更多的。

在一些实例中，使用一个定制的函数到DataFrame的每一个元素将会是很有帮助的。pandas的applymap()方法与内建的map()函数相似，并且简单的应用到一个DataFrame中的所有元素上。

让我们看一个例子。我们将基于"university_towns.txt"文件创建一个DataFrame。

每个state后边都有一些在那个state的大学城：StateA TownA1 TownA2 StateB TownB1 TownB2...。如果我们仔细观察state名字的写法，我们会发现它们都有"[edit]"的字符串。

我们可以利用这个特征创建一个含有(state,city)元组的列表，并将这个列表嵌入到dataFrame中，

In [68]:
university_towns = []

In [75]:
with open('Datasets/university_towns.txt') as file:
    for line in file:
        if '[edit]' in line:
            state = line
        else:
            university_towns.append((state,line))

In [87]:
university_towns[:10]

[('Alabama[edit]\n', 'Auburn (Auburn University)[1]\n'),
 ('Alabama[edit]\n', 'Florence (University of North Alabama)\n'),
 ('Alabama[edit]\n', 'Jacksonville (Jacksonville State University)[2]\n'),
 ('Alabama[edit]\n', 'Livingston (University of West Alabama)[2]\n'),
 ('Alabama[edit]\n', 'Montevallo (University of Montevallo)[2]\n'),
 ('Alabama[edit]\n', 'Troy (Troy University)[2]\n'),
 ('Alabama[edit]\n',
  'Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4]\n'),
 ('Alabama[edit]\n', 'Tuskegee (Tuskegee University)[5]\n'),
 ('Alaska[edit]\n', 'Fairbanks (University of Alaska Fairbanks)[2]\n'),
 ('Arizona[edit]\n', 'Flagstaff (Northern Arizona University)[6]\n')]

我们可以在DataFrame中包装这个列表，并设列名为"State"和"RegionName"。pandas将会使用列表中的每个元素，然后设置State到左边的列，RegionName到右边的列。

In [77]:
towns_df = pd.DataFrame(university_towns,
                        columns=['State', 'RegionName'])

In [78]:
towns_df.head()

Unnamed: 0,State,RegionName
0,Alabama[edit]\n,Auburn (Auburn University)[1]\n
1,Alabama[edit]\n,Florence (University of North Alabama)\n
2,Alabama[edit]\n,Jacksonville (Jacksonville State University)[2]\n
3,Alabama[edit]\n,Livingston (University of West Alabama)[2]\n
4,Alabama[edit]\n,Montevallo (University of Montevallo)[2]\n


In [82]:
towns_df.dtypes

State         object
RegionName    object
dtype: object

In [83]:
towns_df.size

1034

可以像上面使用for loop来进行清洗，但是pandas提供了更简单的办法。我们只需要state name和town name，然后就可以移除其他的了。这里我们可以再次使用pandas的.str()方法，同时我们也可以使用applymap()将一个python callable映射到DataFrame中的每个元素上。

In [84]:
def get_citystate(item):
    if ' (' in item:
        return item[:item.find(' (')]
    elif '[' in item:
        return item[:item.find('[')]
    else:
        return item

In [85]:
towns_df = towns_df.applymap(get_citystate)

首先，我们定义一个函数，它将从DataFrame中获取每一个元素作为自己的参数。在这个函数中，检验元素中是否有一个(或[
基于上面的检查，函数返回相应的值。最后，applymap()函数被用在我们的对象上。现在DataFrame就看起来更干静了。

In [86]:
towns_df.head()

Unnamed: 0,State,RegionName
0,Alabama,Auburn
1,Alabama,Florence
2,Alabama,Jacksonville
3,Alabama,Livingston
4,Alabama,Montevallo


applymap()方法从DataFrame中提取每个元素，传递到函数中，然后覆盖原来的值。就是这么简单！

技术细节：虽然.applymap是一个方便和灵活的方法，但是对于大的数据集它将会花费很长时间运行，因为它需要将python callable应用到每个元素上。一些情况中，使用Cython或者NumPY的向量化的操作会更高效。

# 重命名列和移除行

你处理的数据集会有让你不太容易理解的列名，或者在头几行或最后几行有一些不重要的信息，例如术语定义，或是附注。

这种情况下，我们想重新命名列和移除一定的行以让我们只留下正确和有意义的信息。

In [88]:
olympics_df = pd.read_csv('Datasets/olympics.csv')

In [94]:
olympics_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,,? Summer,01 !,02 !,03 !,Total,? Winter,01 !,02 !,03 !,Total,? Games,01 !,02 !,03 !,Combined total
1,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
2,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
3,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
4,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12


这的确有点乱！列名是以整数的字符串形式索引的，以0开始。本应该是列名的行却处在olympics_df.iloc[0]。发生这个是因为CSV文件以0, 1, 2, …, 15起始的。

同样，如果我们去数据集的源文件观察，上面的NaN真的应该是像"Country"这样的，? Summer应该代表"Summer Games", 而01 !应该是"Gold"之类的。

**因此，我们需要做两件事：

移除第一行并设置header为第一行
重新命名列

当我们读CSV文件的时候，可以通过传递一些参数到read_csv函数来移除行和设置列名称。

**这个函数有很多可选桉树，但是这里我们只需要header
来移除第0行：

In [95]:
olympics_df = pd.read_csv('Datasets/olympics.csv', header=1)

In [96]:
olympics_df.head()

Unnamed: 0.1,Unnamed: 0,? Summer,01 !,02 !,03 !,Total,? Winter,01 !.1,02 !.1,03 !.1,Total.1,? Games,01 !.2,02 !.2,03 !.2,Combined total
0,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
1,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
2,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
3,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
4,Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


为了重命名列，我们将使用DataFrame的rename()方法，允许你以一个映射（这里是一个字典）重新标记一个轴。

让我们开始定义一个字典来将现在的列名称（键）映射到更多的可用列名称（字典的值）。

In [97]:
new_names =  {'Unnamed: 0': 'Country',
              '? Summer': 'Summer Olympics',
              '01 !': 'Gold',
              '02 !': 'Silver',
              '03 !': 'Bronze',
              '? Winter': 'Winter Olympics',
              '01 !.1': 'Gold.1',
              '02 !.1': 'Silver.1',
              '03 !.1': 'Bronze.1',
              '? Games': '# Games',
              '01 !.2': 'Gold.2',
              '02 !.2': 'Silver.2',
              '03 !.2': 'Bronze.2'}

In [98]:
olympics_df.rename(columns=new_names, inplace=True)

In [99]:
olympics_df.head()

Unnamed: 0,Country,Summer Olympics,Gold,Silver,Bronze,Total,Winter Olympics,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
0,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
1,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
2,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
3,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
4,Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


# Python数据清洗：回顾

## 1,从数据集中如何使用drop()函数去除不必要的信息，也学会了如何为数据集设置索引，以让items可以被容易的找到。
## 2,使用.str()清洗对象字段，以及如何使用applymap对整个数据集清洗。最后，我们探索了如何移除CSV文件的行，并且使用rename()方法重命名列。