## 十分钟上手 Pandas

pandas 是一个 Python Data Analysis Library。

### 导入Pandas

In [26]:
import pandas as pd
import numpy as np

### Pandas 中的数据类型

Pandas 基于两种数据类型，series 和 dataframe。

series 是一种一维的数据类型，其中的每个元素都有各自的标签。如果你之前看过这个系列关于 Numpy 的推文，你可以把它当作一个由带标签的元素组成的 numpy 数组。标签可以是数字或者字符。

dataframe 是一个二维的、表格型的数据结构。Pandas 的 dataframe 可以储存许多不同类型的数据，并且每个轴都有标签。你可以把它当作一个 series 的字典。

In [27]:
df = pd.read_csv('uk_rain_2014.csv', header=0)

### 准备好要进行探索和分析的数据

查看前5行的数据

In [28]:
df.head(5)

Unnamed: 0,Water Year,Rain (mm) Oct-Sep,Outflow (m3/s) Oct-Sep,Rain (mm) Dec-Feb,Outflow (m3/s) Dec-Feb,Rain (mm) Jun-Aug,Outflow (m3/s) Jun-Aug
0,1980/81,1182,5408,292,7248,174,2212
1,1981/82,1098,5112,257,7316,242,1936
2,1982/83,1156,5701,330,8567,124,1802
3,1983/84,993,4265,391,8905,141,1078
4,1984/85,1182,5364,217,5813,343,4313


查看最后5行的数据,

注意，tail 它并不是从最后一行倒着显示的，而是按照数据原来的顺序显示。

In [29]:
df.tail(5)

Unnamed: 0,Water Year,Rain (mm) Oct-Sep,Outflow (m3/s) Oct-Sep,Rain (mm) Dec-Feb,Outflow (m3/s) Dec-Feb,Rain (mm) Jun-Aug,Outflow (m3/s) Jun-Aug
28,2008/09,1139,4941,268,6690,323,3189
29,2009/10,1103,4738,255,6435,244,1958
30,2010/11,1053,4521,265,6593,267,2885
31,2011/12,1285,5500,339,7630,379,5261
32,2012/13,1090,5329,350,9615,187,1797


为列重命名

In [30]:
df.columns = ['water_year','rain_octsep', 'outflow_octsep','rain_decfeb', 'outflow_decfeb', 'rain_junaug', 'outflow_junaug']

df.head(5)

Unnamed: 0,water_year,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug
0,1980/81,1182,5408,292,7248,174,2212
1,1981/82,1098,5112,257,7316,242,1936
2,1982/83,1156,5701,330,8567,124,1802
3,1983/84,993,4265,391,8905,141,1078
4,1984/85,1182,5364,217,5813,343,4313


输出这个数据集的记录数

In [31]:
len(df)

33

你可能还想知道数据集的一些基本的统计数据

In [32]:
pd.options.display.float_format = '{:,.3f}'.format

df.describe()

Unnamed: 0,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug
count,33.0,33.0,33.0,33.0,33.0,33.0
mean,1129.0,5019.182,325.364,7926.545,237.485,2439.758
std,101.9,658.588,69.995,1692.8,66.168,1025.914
min,856.0,3479.0,206.0,4578.0,103.0,1078.0
25%,1053.0,4506.0,268.0,6690.0,193.0,1797.0
50%,1139.0,5112.0,309.0,7630.0,229.0,2142.0
75%,1182.0,5497.0,360.0,8905.0,280.0,2959.0
max,1387.0,6391.0,484.0,11486.0,379.0,5261.0


其中有诸如总数、最大值、最小值、均值、标准差之类的统计数据

### 过滤

* 提取某一列的数据，直接使用某一列的标签即可提取

In [33]:
df['rain_octsep']

0     1182
1     1098
2     1156
3      993
4     1182
5     1027
6     1151
7     1210
8      976
9     1130
10    1022
11    1151
12    1130
13    1162
14    1110
15     856
16    1047
17    1169
18    1268
19    1204
20    1239
21    1185
22    1021
23    1165
24    1095
25    1046
26    1387
27    1225
28    1139
29    1103
30    1053
31    1285
32    1090
Name: rain_octsep, dtype: int64

注意，当我们提取列的时候，会得到一个series而不是dataframe。我们可以把dataframe看作是一个series的字典，所有在抽取列操作的时候，我们会得到一个series。

* 我们也可以像访问对象属性一样访问数据集的列——只用一个点号，注意：此处要求列明一定不能包含空格或破折号等。

In [34]:
df.rain_octsep

0     1182
1     1098
2     1156
3      993
4     1182
5     1027
6     1151
7     1210
8      976
9     1130
10    1022
11    1151
12    1130
13    1162
14    1110
15     856
16    1047
17    1169
18    1268
19    1204
20    1239
21    1185
22    1021
23    1165
24    1095
25    1046
26    1387
27    1225
28    1139
29    1103
30    1053
31    1285
32    1090
Name: rain_octsep, dtype: int64

可以通过在一个数组上运行条件来得到一个布林数组，下面的代码将会返回一个由布尔值构成的 dataframe。True 表示在十月-九月降雨量小于 1000 mm，False 表示大于等于 1000 mm。

In [35]:
df.rain_octsep < 1000

0     False
1     False
2     False
3      True
4     False
5     False
6     False
7     False
8      True
9     False
10    False
11    False
12    False
13    False
14    False
15     True
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
Name: rain_octsep, dtype: bool

可以用这些条件表达式来过滤现有的 dataframe，这条代码只返回十月-九月降雨量小于 1000 mm 的记录

In [36]:
df[df.rain_octsep < 1000]

Unnamed: 0,water_year,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug
3,1983/84,993,4265,391,8905,141,1078
8,1988/89,976,4330,309,6465,200,1440
15,1995/96,856,3479,245,5515,172,1439


也可以使用复合条件进行过滤

In [37]:
df[(df.rain_octsep < 1000) & (df.outflow_octsep < 4000)]

Unnamed: 0,water_year,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug
15,1995/96,856,3479,245,5515,172,1439


如果你的数据中有字符串，你也可以使用字符串方法来进行过滤

In [38]:
df[df.water_year.str.startswith('199')]

Unnamed: 0,water_year,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug
10,1990/91,1022,4418,305,7120,216,1923
11,1991/92,1151,4506,246,5493,280,2118
12,1992/93,1130,5246,308,8751,219,2551
13,1993/94,1162,5583,422,10109,193,1638
14,1994/95,1110,5370,484,11486,103,1231
15,1995/96,856,3479,245,5515,172,1439
16,1996/97,1047,4019,258,5770,256,2102
17,1997/98,1169,4953,341,7747,285,3206
18,1998/99,1268,5824,360,8771,225,2240
19,1999/00,1204,5665,417,10021,197,2166


注意，必须使用.str.[string method]，而不能直接在字符串上调用字符方法

### 索引

行标签可以是基于数字的或者是标签，而且获取行数据的方法也根据标签的类型各有不同。

如果你的行标签是数字型的，你可以通过 iloc 来引用

In [39]:
df.iloc[30]

water_year        2010/11
rain_octsep          1053
outflow_octsep       4521
rain_decfeb           265
outflow_decfeb       6593
rain_junaug           267
outflow_junaug       2885
Name: 30, dtype: object

iloc 只对数字型的标签有用。它会返回给定行的 series，行中的每一列都是返回 series 的一个元素。

也可以通过年龄或年份来进行选择

In [40]:
df = df.set_index(['water_year'])
df.head(5)

Unnamed: 0_level_0,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug
water_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1980/81,1182,5408,292,7248,174,2212
1981/82,1098,5112,257,7316,242,1936
1982/83,1156,5701,330,8567,124,1802
1983/84,993,4265,391,8905,141,1078
1984/85,1182,5364,217,5813,343,4313


In [41]:
# Getting a row via a label-based index
df.loc['2000/01']

rain_octsep       1239
outflow_octsep    6092
rain_decfeb        328
outflow_decfeb    9347
rain_junaug        236
outflow_junaug    2142
Name: 2000/01, dtype: int64

loc 会返回你引用的列，唯一一点不同就是此时你使用的是基于字符串的引用，而不是基于数字的。

loc 是基于标签的，而 iloc 是基于数字的,ix 是基于标签的查询方法，但它同时也支持数字型索引作为备选。

In [42]:
df.ix['1999/00']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


rain_octsep        1204
outflow_octsep     5665
rain_decfeb         417
outflow_decfeb    10021
rain_junaug         197
outflow_junaug     2166
Name: 1999/00, dtype: int64

如果 ix 可以同时起到 loc 和 iloc 的作用，那为什么还要用后两个？一大原因就是 ix 具有轻微的不可预测性。还记得我说过它所支持的数字型索引只是备选吗？这一特性可能会导致 ix 产生一些奇怪的结果，比如讲一个数字解释为一个位置。而使用 iloc 和 loc 会很安全、可预测并且让人放心。但是我要指出的是，ix 比 iloc 和 loc 要快一些。

In [43]:
df.sort_index(ascending=False).head(5) #inplace=True to apple the sorting in place

Unnamed: 0_level_0,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug
water_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2012/13,1090,5329,350,9615,187,1797
2011/12,1285,5500,339,7630,379,5261
2010/11,1053,4521,265,6593,267,2885
2009/10,1103,4738,255,6435,244,1958
2008/09,1139,4941,268,6690,323,3189


当你将一列设置为索引的时候，它就不再是数据的一部分了。如果你想将索引恢复为数据，调用 set_index 相反的方法 reset_index 即可：

In [44]:
df = df.reset_index('water_year')
df.head(5)

Unnamed: 0,water_year,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug
0,1980/81,1182,5408,292,7248,174,2212
1,1981/82,1098,5112,257,7316,242,1936
2,1982/83,1156,5701,330,8567,124,1802
3,1983/84,993,4265,391,8905,141,1078
4,1984/85,1182,5364,217,5813,343,4313


### 对数据集应用函数

有时你想对数据集中的数据进行改变或者某种操作。比方说，你有一列年份的数据，你需要新的一列来表示这些年份对应的年代。Pandas 中有两个非常有用的函数，apply 和 applymap。

In [46]:
def base_year(year):
    base_year = year[:4]
    base_year= pd.to_datetime(base_year).year
    return base_year

df['year'] = df.water_year.apply(base_year)
df.head(5)

Unnamed: 0,water_year,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug,year
0,1980/81,1182,5408,292,7248,174,2212,1980
1,1981/82,1098,5112,257,7316,242,1936,1981
2,1982/83,1156,5701,330,8567,124,1802,1982
3,1983/84,993,4265,391,8905,141,1078,1983
4,1984/85,1182,5364,217,5813,343,4313,1984


上面的代码创建了一个叫做 year 的列，它只将 water_year 列中的年提取了出来。这就是 apply 的用法，即对一列数据应用函数。如果你想对整个数据集应用函数，就要使用 applymap 。

### 操作数据集的结构

另一常见的做法是重新建立数据结构，使得数据集呈现出一种更方便并且（或者）有用的形式。

掌握这些转换最简单的方法就是观察转换的过程。比起这篇文章的其他部分，接下来的操作需要你跟着练习以便能掌握它们。

首先是 groupby

In [47]:
# Grouby
df.groupby(df.year // 10 *10).max()

Unnamed: 0_level_0,water_year,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug,year
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1980,1989/90,1210,5701,470,10520,343,4313,1989
1990,1999/00,1268,5824,484,11486,285,3206,1999
2000,2009/10,1387,6391,437,10926,357,5168,2009
2010,2012/13,1285,5500,350,9615,379,5261,2012


上例是按照年代分组。不过仅仅这样做并没有什么用，我们必须对其调用函数，比如 max 、 min 、mean 等等。例中，我们可以得到 90 年代的均值。

In [48]:
# Grouping by multiple columns
decade_rain = df.groupby([df.year // 10 * 10, df.rain_octsep // 1000 * 1000])[['outflow_octsep', 'outflow_decfeb', 'outflow_junaug']].mean()
decade_rain

Unnamed: 0_level_0,Unnamed: 1_level_0,outflow_octsep,outflow_decfeb,outflow_junaug
year,rain_octsep,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1980,0,4297.5,7685.0,1259.0
1980,1000,5289.625,7933.0,2572.25
1990,0,3479.0,5515.0,1439.0
1990,1000,5064.889,8363.111,2130.556
2000,1000,5030.8,7812.1,2685.9
2010,1000,5116.667,7946.0,3314.333


unstack 函数，它可以将一列数据设置为列标签。

In [49]:
# Unstacking
decade_rain.unstack(0)

Unnamed: 0_level_0,outflow_octsep,outflow_octsep,outflow_octsep,outflow_octsep,outflow_decfeb,outflow_decfeb,outflow_decfeb,outflow_decfeb,outflow_junaug,outflow_junaug,outflow_junaug,outflow_junaug
year,1980,1990,2000,2010,1980,1990,2000,2010,1980,1990,2000,2010
rain_octsep,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
0,4297.5,3479.0,,,7685.0,5515.0,,,1259.0,1439.0,,
1000,5289.625,5064.889,5030.8,5116.667,7933.0,8363.111,7812.1,7946.0,2572.25,2130.556,2685.9,3314.333


这条语句将上例中的 dataframe 转换为下面的形式。它将第 0 列，也就是 year 列设置为列的标签。

同样我们也可以使用第一列，如下：

In [50]:
# Unstacking
decade_rain.unstack(1)

Unnamed: 0_level_0,outflow_octsep,outflow_octsep,outflow_decfeb,outflow_decfeb,outflow_junaug,outflow_junaug
rain_octsep,0,1000,0,1000,0,1000
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1980,4297.5,5289.625,7685.0,7933.0,1259.0,2572.25
1990,3479.0,5064.889,5515.0,8363.111,1439.0,2130.556
2000,,5030.8,,7812.1,,2685.9
2010,,5116.667,,7946.0,,3314.333


In [51]:
high_rain = df[df.rain_octsep > 1250]
high_rain

Unnamed: 0,water_year,rain_octsep,outflow_octsep,rain_decfeb,outflow_decfeb,rain_junaug,outflow_junaug,year
18,1998/99,1268,5824,360,8771,225,2240,1998
26,2006/07,1387,6391,437,10926,357,5168,2006
31,2011/12,1285,5500,339,7630,379,5261,2011


上面的代码将会产生如下的 dataframe ，我们将会在上面演示轴向旋转（pivoting）

轴旋转其实就是我们之前已经看到的那些操作的一个集合。首先，它会设置一个新的索引（set_index()），然后对索引排序（sort_index()），最后调用 unstack 。以上的步骤合在一起就是 pivot 。接下来看看你能不能搞清楚下面的代码在干什么：

In [52]:
#Pivoting
#does set_index, sort_index and unstack in a row
high_rain.pivot('year', 'rain_octsep')[['outflow_octsep', 'outflow_decfeb', 'outflow_junaug']].fillna('')

Unnamed: 0_level_0,outflow_octsep,outflow_octsep,outflow_octsep,outflow_decfeb,outflow_decfeb,outflow_decfeb,outflow_junaug,outflow_junaug,outflow_junaug
rain_octsep,1268,1285,1387,1268,1285,1387,1268,1285,1387
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
1998,5824.0,,,8771.0,,,2240.0,,
2006,,,6391.0,,,10926.0,,,5168.0
2011,,5500.0,,,7630.0,,,5261.0,


上面的 dataframe 展示了所有降雨超过 1250 的 outflow

注意，最后有一个 .fillna('') 。pivot 产生了很多空的记录，也就是值为 NaN 的记录。我个人觉得数据集里面有很多 NaN 会很烦，所以使用了 fillna('') 。你也可以用别的别的东西，比方说 0 。我们也可以使用 dropna(how = 'any') 来删除有 NaN 的行，不过这样就把所有的数据都删掉了，所以不这样做

### 合并数据集

有时你有两个相关联的数据集，你想将它们放在一起比较或者合并它们。

In [None]:
# Merging two datasets together
rain_jpn = pd.read_csv('jpn_rain.csv')
rain_jpn.columns = ['year', 'jpn_rainfall']

uk_jpn_rain = df.merge(rain_jpn, on='year')
uk_jpn_rain.head(5)

### 使用 Pandas 快速作图

In [55]:
# Using pandas to quickly plot graphs
uk_jpn_rain.plot(x='year', y=['rain_octsep', 'jpn_rainfall'])

NameError: name 'uk_jpn_rain' is not defined

### 保存数据

In [None]:
# Saving your data to a csv
df.to_csv('uk_rain.csv')