# Pandas 介绍

## 一、Pandas 基本介绍

### 1.1 Series
Series是一种类似于一维数组的对象， 它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引） 组成

In [427]:
from pandas import Series, DataFrame
import pandas as pd
obj = Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [428]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [429]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [430]:
# 指定索引
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [431]:
# 通过字典初始化
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)

In [432]:
# 通过字典指定索引
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [433]:
# pandas的isnull和notnull函数可用于检测缺失数据

In [434]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [435]:
# 或使用Series的方法
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [436]:
# Series最重要的一个功能是： 它在算术运算中会自动对齐不同索引的数据
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [437]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [438]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [439]:
# Series对象本身及其索引都有一个name属性
obj4.name = 'population'
obj4.index.name = 'state'

In [440]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [441]:
# 修改索引
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

### 1.2 DataFrame
DataFrame是一个表格型的数据结构， 它含有一组有序的列， 每列可以是不同的值类型（数值、 字符串、 布尔值等） 。
DataFrame既有行索引也有列索引， 它可以被看做由Series组成的字典（共用同一个索引） 。

DataFrame中的数据是以一个或多个二维块存放的
虽然DataFrame是以二维结构保存数据的， 但你仍然可以轻松地将其表示为更高维度的数据（层次化索引的表格型结构，高级数据处理功能的关键要素

#### 1.2.1 构造方法

In [442]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [443]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [444]:
# 外层字典的键作为列， 内层键则作为行索引
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [445]:
# 由Series 创建
pdata = {'Ohio': frame3['Ohio'][:-1], 'Nevada': frame3['Nevada'][:2]}
frame4 = DataFrame(pdata)
frame4

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


#### 1.2.2 DataFrame 操作

In [446]:
# 获取列
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [447]:
# 获取某列
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [448]:
#或
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [449]:
# 获取某行 根据索引名称
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [450]:
# 获取某行 根据索引
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [451]:
# 修改某列数据
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [452]:
import numpy as np
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


In [453]:
# 以Series修改某列数据
# 赋值的是一个Series， 就会精确匹配DataFrame的索引， 所有的空位都将被填上缺失值
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [454]:
# 创建新列
# 为不存在的列赋值，则创建新列
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [455]:
# 删除某列
# 通过索引方式返回的列只是相应数据的视图而已， 并不是副本。 
# 因此， 对返回的Series所做的任何就地修改全都会反映到源DataFrame上。 通过Series的copy方法即可显式地复制列
del frame2['eastern']

In [456]:
# 转置
frame2.T

Unnamed: 0,one,two,three,four,five
year,2000,2001,2002,2001,2002
state,Ohio,Ohio,Ohio,Nevada,Nevada
pop,1.5,1.7,3.6,2.4,2.9
debt,,-1.2,,-1.5,-1.7


In [457]:
# 设置DataFrame的name属性
# 如果设置了DataFrame的index和columns的name属性， 则这些信息也会被显示出来
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [458]:
# 如果DataFrame各列的数据类型不同， 则值数组的数据类型就会选用能兼容所有列的数据类型

### 1.3 索引对象
pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等） 。
构建Series或DataFrame时， 所用到的任何数组或其他序列的标签都会被转换成一个Index。

In [459]:
index = obj.index
index

Index(['Bob', 'Steve', 'Jeff', 'Ryan'], dtype='object')

Index对象是不可修改的（immutable） ， 因此用户不能对其进行修改。
不可修改性非常重要， 因为这样才能使Index对象在多个数据结构之间安全共享。

In [460]:
2002 in frame3.index

True

Index也可以看做是一个集合，可以进行Append、diff计算差集、intersection计算交集、union计算并集、isin获取bool数组、is_unique、unique等

## 二、操作介绍

### 2.1 功能介绍
#### 2.1.1 基本功能

1、重新索引

In [461]:
obj = Series([4.5, 7.2], index=[ 'a', 'c'])
obj

a    4.5
c    7.2
dtype: float64

In [462]:
obj2 = obj.reindex(['a', 'b', 'c'])
obj2

a    4.5
b    NaN
c    7.2
dtype: float64

In [463]:
obj2.reindex(['a', 'b', 'c', 'd'], fill_value=0)

a    4.5
b    NaN
c    7.2
d    0.0
dtype: float64

In [464]:
# 对于时间序列这样的有序数据， 重新索引时可能需要做一些插值处理。method选项即可达到此目的， 例如， 使用ffill可以实现前向值填充：
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

ffill或pad 向前填充； bfill或backfill 向后填充

对于DataFrame， reindex可以修改（行） 索引、 列， 或两个都修改。 如果仅传入一个序列， 则会重新索引行

In [465]:
frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [466]:
# 针对行重建索引
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [467]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [468]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [469]:
# 可以同时对行和列进行重新索引，而插值则只能按行应用（即轴0） 
states = [ 'California','Texas', 'Utah']
frame.reindex(['a', 'b', 'c', 'b'], columns=states).ffill()

Unnamed: 0,California,Texas,Utah
a,2.0,1.0,
b,2.0,1.0,
c,5.0,4.0,
b,5.0,4.0,


In [470]:
frame.loc[['a', 'b', 'c', 'd'], states]

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  """Entry point for launching an IPython kernel.


Unnamed: 0,California,Texas,Utah
a,2.0,1.0,
b,,,
c,5.0,4.0,
d,8.0,7.0,


index函数中，limit参数，对于向前或向后填充时的最大填充量；level在Multiindex的指定级别上匹配简单索引，否则选取其子集；copy默认为True，无论如何都复制；如果为False，则新旧相当时就不复制

2、删除指定行或列

In [471]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [472]:
obj.drop('c').drop(['a', 'd'])

b    1.0
e    4.0
dtype: float64

In [473]:
# 对于DataFrame ，删除列或行
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])


In [474]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [475]:
data.drop(['Colorado', 'Ohio']).drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Utah,8,10
New York,12,14


DataFrame默认删除行，需要删除列，指定axis=1

3、索引、 选取和过滤

In [476]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [477]:
obj['b']

1.0

In [478]:
# 或
obj[1]

1.0

In [479]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [480]:
obj[['a', 'd']]

a    0.0
d    3.0
dtype: float64

In [481]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [482]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [483]:
# 利用标签的切片运算与普通的Python切片运算不同，是左闭右闭 其末端是包含的
obj['b':'c']

b    1.0
c    2.0
dtype: float64

对DataFrame进行索引其实就是获取一个或多个列

In [484]:
data = DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [485]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [486]:
# 通过切片或布尔型数组选取行
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [487]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [488]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [489]:
# 你可以通过NumPy式的标记法以及轴标签从DataFrame中选取行和列的子集
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [490]:
data.loc[['Colorado', 'Utah'],['two', 'three'] ]

Unnamed: 0,two,three
Colorado,5,6
Utah,9,10


In [491]:
data.iloc[:2,:2]

Unnamed: 0,one,two
Ohio,0,0
Colorado,0,5


In [492]:
data.loc[['Colorado', 'Utah']].iloc[:, [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [493]:
data.iat[2,2]

10

In [494]:
data.at['Colorado','three']

6

4、算术运算和数据对齐

In [495]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [496]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [497]:
# 把它们相加后将会返回一个新的DataFrame， 其索引和列为原来那两个DataFrame的并集
# 没有重叠的位置就会产生NA值
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [498]:
# 使用df1的add方法， 传入df2以及一个fill_value参数
# 当列不存在，且行也不存在是，则为空
df1.add(df2, fill_value=0)

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


In [499]:
1/df1

Unnamed: 0,b,c,d
Ohio,inf,1.0,0.5
Texas,0.333333,0.25,0.2
Colorado,0.166667,0.142857,0.125


In [500]:
df1.rdiv(1)

Unnamed: 0,b,c,d
Ohio,inf,1.0,0.5
Texas,0.333333,0.25,0.2
Colorado,0.166667,0.142857,0.125


类似，还有add(radd,+)、sub(rsub,-)、div(rdiv,/)、floordiv(rfloordiv,//)、mul(rmul，*)、pow（rpow，**）

5、DataFrame和Series之间的运算

In [501]:
frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [502]:
series = frame.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [503]:
# 默认情况下， DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame的列， 然后沿着行一直向下广播
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [504]:
# 如果某个索引值在DataFrame的列或Series的索引中找不到， 则参与运算的两个对象就会被重新索引以形成并集
series2 = Series(range(3), index=['b', 'e', 'f'])
series2

b    0
e    1
f    2
dtype: int64

In [505]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [506]:
# 如果你希望匹配行且在列上广播， 则必须使用算术运算方法
series3= frame['d']
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [507]:
# 传入的轴号就是希望匹配的轴。 
frame.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


6、函数应用和映射

In [508]:
# 将函数应用到由各列或行所形成的一维数组上。DataFrame的apply方法即可实现此功能
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,1.007189,-1.296221,0.274992
Ohio,0.228913,1.352917,0.886429
Texas,-2.001637,-0.371843,1.669025
Oregon,-0.43857,-0.539741,0.476985


In [509]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    3.008827
d    2.649138
e    1.394034
dtype: float64

In [510]:
frame.apply(f, axis=1)

Utah      2.303410
Ohio      1.124004
Texas     3.670663
Oregon    1.016726
dtype: float64

In [511]:
frame.apply(f, axis='columns')

Utah      2.303410
Ohio      1.124004
Texas     3.670663
Oregon    1.016726
dtype: float64

In [512]:
# 传递给apply的函数还可以返回由多个值组成的Series, apply可以返回多个值
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-2.001637,-1.296221,0.274992
max,1.007189,1.352917,1.669025


In [513]:
# 假如你想得到frame中各个浮点值的格式化字符串， 使用applymap即可
format = lambda x: '%.3f' % x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,1.007,-1.296,0.275
Ohio,0.229,1.353,0.886
Texas,-2.002,-0.372,1.669
Oregon,-0.439,-0.54,0.477


之所以叫做applymap， 是因为Series有一个用于应用元素级函数的map方法

7、排序和排名

根据条件对数据集排序（sorting） 也是一种重要的内置运算。 
要对行或列索引进行排序（按字典顺序），可使用sort_index方法，它将返回一个已排序的新对象。

In [514]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [515]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [516]:
# 若要按值对Series进行排序， 可使用其order方法
# 在排序时， 任何缺失值默认都会被放到Series的末尾
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [517]:
obj.sort_values(ascending=False)

2    7.0
0    4.0
5    2.0
4   -3.0
1    NaN
3    NaN
dtype: float64

对于DataFrame， 则可以根据任意一个轴上的索引进行排序

In [518]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [519]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [520]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [521]:
# 数据默认是按升序排序的， 但也可以降序排序
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [522]:
# 根据指定列进行排序
# DataFrame上， 你可能希望根据一个或多个列中的值进行排序。 将一个或多个列的名字传递给by选项即可达到该目的

frame.sort_values(by=['b','c'],ascending=False)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [523]:
# rank排名。默认情况下， rank是通过“为各组分配一个平均排名”的方式破坏平级关系的
obj = Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [524]:
# 也可以根据值在原数据中出现的顺序给出排名
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [525]:
# 按降序进行排名
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [526]:
# DataFrame 的排序
frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [527]:
# 在列上排序
frame.rank(axis=0)

Unnamed: 0,b,a,c
0,3.0,1.5,2.0
1,4.0,3.5,3.0
2,1.0,1.5,4.0
3,2.0,3.5,1.0


In [528]:
# 在行上排序
frame.rank(axis=1)

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


8、带有重复值的轴索引

虽然许多pandas函数（如reindex） 都要求标签唯一， 但这并不是强制性的。 

In [529]:
obj = Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [530]:
obj.index.is_unique

False

In [531]:
obj.unique()

array([0, 1, 2, 3, 4], dtype=int64)

In [532]:
obj['a']

a    0
a    1
dtype: int64

DataFrame类似

#### 2.1.2 汇总和计算描述统计

pandas对象拥有一组常用的数学和统计方法。 
它们大部分都属于约简和汇总统计， 用于从Series中提取单个值（如sum或mean） 或从DataFrame的行或列中提取一个Series。 
基于没有缺失数据的假设而构建的

NA值会自动被排除， 除非整个切片（这里指的是行或列） 都是NA。 通过skipna选项可以禁用该功能

In [533]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


1、基本统计函数

In [534]:
# 传入axis=1将会按行进行求和运算
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [535]:
df.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [536]:
# 间接统计（比如达到最小值或最大值的索引）
df.idxmax()

one    b
two    d
dtype: object

In [537]:
# 累计型
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [538]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [539]:
# 对于非数值型的数据，describe会产生另外一种汇总统计
obj = Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

所有与描述统计相关的方法

|  办法    | 说明 |
| ----     | ---- |
|  count    |  非NA值的数量    |
| describe  |   针对Series或DataFrame列技术汇总统计 |
| min、max  |  计算最小值和最大值      |
| argmin、argmax | 计算能够获取到最小值和最大值的索引位置(整数)|
| idxmin、idxmax | 计算能够获取到最小值和最大值的索引值|
| quantile | 计算样本的分位数(0到1)|
| sum、mean、median | 值的总数、平均数、算术中位数(50%分位数)|
| mad | 根据平均值计算平均绝对离差|
| var、std | 样本值的方差、标准差|
| skew、kurt| 样本值的偏度（三阶距）、（四阶距）|
| cumsum、cummin、cummax、cumprod| 样本值的累计和、累计最大值和累计最小值、累计积|
|diff | 计算一阶差分(对时间序列很有用)|
|pct_change | 计算百分数变化 |


In [540]:
df1 = DataFrame([[1,2],[3,5],[5,8],[7,11]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])
df1

Unnamed: 0,one,two
a,1,2
b,3,5
c,5,8
d,7,11


In [541]:
df1.diff()

Unnamed: 0,one,two
a,,
b,2.0,3.0
c,2.0,3.0
d,2.0,3.0


In [542]:
df1.pct_change()

Unnamed: 0,one,two
a,,
b,2.0,1.5
c,0.666667,0.6
d,0.4,0.375


2、相关系数与协方差

In [543]:
all_data={"IBM":[100,101,99,99.8],"Google":[200,212,213,199],"Apple":[199,198,200,205]}
df1 = DataFrame(all_data, index=["04-1","04-2","04-3","04-5"])
df1

Unnamed: 0,IBM,Google,Apple
04-1,100.0,200,199
04-2,101.0,212,198
04-3,99.0,213,200
04-5,99.8,199,205


In [544]:
returns = df1.pct_change()
returns

Unnamed: 0,IBM,Google,Apple
04-1,,,
04-2,0.01,0.06,-0.005025
04-3,-0.019802,0.004717,0.010101
04-5,0.008081,-0.065728,0.025


In [545]:
returns.tail(1)

Unnamed: 0,IBM,Google,Apple
04-5,0.008081,-0.065728,0.025


In [546]:
# Series的corr方法用于计算两个Series中重叠的、 非NA的、 按索引对齐的值的相关系数。 与此类似， cov用于计算协方差
returns.IBM.corr(returns.Apple)

-0.0618904191204437

In [547]:
returns.IBM.cov(returns.Apple)

-1.549789917150603e-05

In [548]:
# DataFrame的corr和cov方法将以DataFrame的形式返回完整的相关系数或协方差矩阵
returns.corr()

Unnamed: 0,IBM,Google,Apple
IBM,1.0,-0.011949,-0.06189
Google,-0.011949,1.0,-0.997272
Apple,-0.06189,-0.997272,1.0


In [549]:
returns.cov()

Unnamed: 0,IBM,Google,Apple
IBM,0.000278,-1.3e-05,-1.5e-05
Google,-1.3e-05,0.003971,-0.000943
Apple,-1.5e-05,-0.000943,0.000225


In [550]:
Series([np.NAN,1.1,0.9,1.2])

0    NaN
1    1.1
2    0.9
3    1.2
dtype: float64

In [551]:
# 利用DataFrame的corrwith方法， 你可以计算其列或行跟另一个Series或DataFrame之间的相关系数。 
# 传入一个Series将会返回一个相关系数值Series（针对各列进行计算）
returns.corrwith(returns.Apple)

IBM      -0.061890
Google   -0.997272
Apple     1.000000
dtype: float64

传入一个DataFrame则会计算按列名配对的相关系数

传入axis=1即可按行进行计算。 无论如何， 在计算相关系数之前， 所有的数据项都会按标签对齐

3、唯一值、 值计数以及成员资格

In [552]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [553]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [554]:
# value_counts用于计算一个Series中各值出现的频率
obj.value_counts().sort_values()

d    1
b    2
c    3
a    3
dtype: int64

In [555]:
pd.value_counts(obj.values, sort=True)

c    3
a    3
b    2
d    1
dtype: int64

In [556]:
# isin， 它用于判断矢量化集合的成员资格， 可用于选取Series中或DataFrame列中数据的子集

obj.isin(['b', 'c'])

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [557]:
#Index.get_indexer方法，可以给一个索引数组，从可能包含重复值的数组到另一个不同值的数组
to_match = pd.Series(["c",'a','b','b','c','a'])
unique_vals = pd.Series(['c','b','a'])
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2], dtype=int64)

In [558]:
pd.Index(unique_vals)

Index(['c', 'b', 'a'], dtype='object')

In [559]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [560]:
# 计算多个相关列的柱状图
data.apply(pd.value_counts).fillna(0)

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


行标签是所有列的唯一值。后面的频率值，是每个列中这些值的相应计数

#### 2.1.3 层次化索引

层次化索引（hierarchical indexing） 是pandas的一项重要功能，它使你能在一个轴上拥有多个（两个以上)索引级别。

抽象点说，它使你能以低维度形式处理高维度数据。

1、层次化索引基本操作

In [561]:
data = Series(np.random.randn(10),
              index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'd', 'd'],
                     [1, 2, 3, 1, 2, 3, 1, 2, 2, 3]])
data

a  1    3.248944
   2   -1.021228
   3   -0.577087
b  1    0.124121
   2    0.302614
   3    0.523772
c  1    0.000940
   2    1.343810
d  2   -0.713544
   3   -0.831154
dtype: float64

In [562]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]])

In [563]:
# 选取子集
data['b']

1    0.124121
2    0.302614
3    0.523772
dtype: float64

In [564]:
data['b':'c']

b  1    0.124121
   2    0.302614
   3    0.523772
c  1    0.000940
   2    1.343810
dtype: float64

In [565]:
data.loc[['b', 'd']]

b  1    0.124121
   2    0.302614
   3    0.523772
d  2   -0.713544
   3   -0.831154
dtype: float64

In [566]:
data[:, 2]

a   -1.021228
b    0.302614
c    1.343810
d   -0.713544
dtype: float64

层次化索引在数据重塑和基于分组的操作（如透视表生成）中扮演着重要的角色。 
比如说，这段数据可以通过其unstack方法被重新安排到一个DataFrame中

In [567]:
data.unstack()

Unnamed: 0,1,2,3
a,3.248944,-1.021228,-0.577087
b,0.124121,0.302614,0.523772
c,0.00094,1.34381,
d,,-0.713544,-0.831154


In [568]:
data.unstack().stack()

a  1    3.248944
   2   -1.021228
   3   -0.577087
b  1    0.124121
   2    0.302614
   3    0.523772
c  1    0.000940
   2    1.343810
d  2   -0.713544
   3   -0.831154
dtype: float64

DataFrame的分层索引。对于一个DataFrame， 每条轴都可以有分层索引

In [569]:
frame = DataFrame(np.arange(12).reshape((4, 3)), 
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], 
                  columns=[['Ohio', 'Ohio', 'Colorado'],['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [570]:
frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [571]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [572]:
frame['Ohio']['Green']

key1  key2
a     1       0
      2       3
b     1       6
      2       9
Name: Green, dtype: int32

In [573]:
frame.loc["a"]

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,0,1,2
2,3,4,5


2、重排分级索引（层级化索引）

你需要重新调整某条轴上各级别的顺序， 或根据指定级别上的值对数据进行排序。 

In [574]:
# swaplevel接受两个级别编号或名称， 并返回一个互换了级别的新对象（但数据不会发生变化） 
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [575]:
# sortlevel则根据单个级别中的值对数据进行排序（稳定的）。交换级别时，常常也会用到sortlevel， 这样最终结果就是有序的了
frame.sort_index(level=1)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [576]:
frame.swaplevel(0, 1).sort_index(level=0)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


在层次化索引的对象上， 如果索引是按字典方式从外到内排序（即调用sortlevel(0)或sort_index()的结果） ， 数据选取操作的性能要好很多

3、根据级别汇总统计

In [577]:
frame.sum(level='key2')

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [578]:
frame.sum(level='color', axis=1)

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


4、将列变为索引

In [579]:
frame = DataFrame({'a': range(7), 'b': range(7, 0, -1), 
                   'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
                   'd': [0, 1, 2, 0, 1, 2, 3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [580]:
# DataFrame的set_index函数会将其一个或多个列转换为行索引， 并创建一个新的DataFrame
frame2 = frame.set_index(['c', 'd'])
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [581]:
# 保留指定为索引的列
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [582]:
# reset_index的功能跟set_index刚好相反， 层次化索引的级别会被转移到列里
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


### 2.2 数据清洗和准备

#### 2.2.1 处理缺失数据

缺失数据（missing data） 在大部分数据分析应用中都很常见。 
pandas的设计目标之一就是让缺失数据的处理任务尽量轻松。 例如， pandas对象上的所有描述统计都排除了缺失数据

pandas使用浮点值NaN（Not a Number） 表示浮点和非浮点数组中的缺失数据。 它只是一个便于被检测出来的标记而已

Python内置的None值也会被当做NA处理

|方法|说明|
|---|---|
|dropna| 根据各标签的值中是否存在缺失数据对轴标签进行过滤，可以通过阈值调节对缺失值的容忍度|
|fillna| 用指定值或差值法填充缺失值|
|isnull|返回含有布尔值的对象，表示是否缺失值NA|
|notnull|isnull 否定式|

1、过滤缺失数据

In [583]:
# 对于一个Series， dropna返回一个仅含非空数据和索引值的Series
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [584]:
# 可以通过布尔型索引达到这个目的
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

DataFrame对象，可能希望丢弃全NA或含有NA的行或列。 dropna默认丢弃任何含有缺失值的行

In [585]:
data = DataFrame([[1., 6.5, 3.], [1., NA, NA],[NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [586]:
data.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [587]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [588]:
# 要用这种方式丢弃列， 只需传入axis=1即可
data[4] = NA
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [589]:
# 另一个滤除DataFrame行的问题涉及时间序列数据。 假设你只想留下一部分观测数据， 可以用thresh参数实现此目的
df = DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA; df.iloc[:2, 2] = NA;
df

Unnamed: 0,0,1,2
0,-2.370232,,
1,0.560145,,
2,-1.063512,,-2.359419
3,-0.199543,,-0.970736
4,-1.30703,0.28635,0.377984
5,-0.753887,0.331286,1.349742
6,0.069877,0.246674,-0.011862


In [590]:
df.dropna(thresh=3)

Unnamed: 0,0,1,2
4,-1.30703,0.28635,0.377984
5,-0.753887,0.331286,1.349742
6,0.069877,0.246674,-0.011862


2、填充缺失值

In [591]:
# 对于大多数情况而言， fillna方法是最主要的函数。通过一个常数调用fillna就会将缺失值替换为那个常数值
df.fillna(0)

Unnamed: 0,0,1,2
0,-2.370232,0.0,0.0
1,0.560145,0.0,0.0
2,-1.063512,0.0,-2.359419
3,-0.199543,0.0,-0.970736
4,-1.30703,0.28635,0.377984
5,-0.753887,0.331286,1.349742
6,0.069877,0.246674,-0.011862


In [592]:
# 若是通过一个字典调用fillna， 就可以实现对不同的列填充不同的值
df.fillna({1: 0.5, 2: -1})

Unnamed: 0,0,1,2
0,-2.370232,0.5,-1.0
1,0.560145,0.5,-1.0
2,-1.063512,0.5,-2.359419
3,-0.199543,0.5,-0.970736
4,-1.30703,0.28635,0.377984
5,-0.753887,0.331286,1.349742
6,0.069877,0.246674,-0.011862


In [593]:
# fillna默认会返回新对象， 但也可以对现有对象进行就地修改
_ = df.fillna(0, inplace=True)
df

Unnamed: 0,0,1,2
0,-2.370232,0.0,0.0
1,0.560145,0.0,0.0
2,-1.063512,0.0,-2.359419
3,-0.199543,0.0,-0.970736
4,-1.30703,0.28635,0.377984
5,-0.753887,0.331286,1.349742
6,0.069877,0.246674,-0.011862


In [594]:
df = DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = NA; df.iloc[4:, 2] = NA
df

Unnamed: 0,0,1,2
0,1.004812,1.327195,-0.919262
1,-1.549106,0.022185,0.758363
2,-0.660524,,-0.010032
3,0.050009,,0.852965
4,-0.955869,,
5,-0.652469,,


In [595]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,1.004812,1.327195,-0.919262
1,-1.549106,0.022185,0.758363
2,-0.660524,0.022185,-0.010032
3,0.050009,0.022185,0.852965
4,-0.955869,,0.852965
5,-0.652469,,0.852965


In [596]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,1.004812,1.327195,-0.919262
1,-1.549106,0.022185,0.758363
2,-0.660524,0.022185,-0.010032
3,0.050009,0.022185,0.852965
4,-0.955869,0.022185,0.852965
5,-0.652469,0.022185,0.852965


In [597]:
# 你可以传入Series的平均值或中位数
df

Unnamed: 0,0,1,2
0,1.004812,1.327195,-0.919262
1,-1.549106,0.022185,0.758363
2,-0.660524,,-0.010032
3,0.050009,,0.852965
4,-0.955869,,
5,-0.652469,,


In [598]:
df[1].fillna(df[1].mean())

0    1.327195
1    0.022185
2    0.674690
3    0.674690
4    0.674690
5    0.674690
Name: 1, dtype: float64

#### 2.2.2 数据转换

另一类重要操作则是过滤、清理以及其他的转换工作

1、移除重复数据（去重）

In [599]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [600]:
# DataFrame的duplicated方法返回一个布尔型Series，表示各行是否是重复行（前面出现过的行）
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [601]:
# 一个与此相关的drop_duplicates方法，它会返回一个DataFrame，重复的数组会标为False
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


In [602]:
# 默认会判断全部列，你也可以指定部分列进行重复项判断
data['v1'] = range(7)
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [603]:
data.drop_duplicates(['k1'],keep='last')

Unnamed: 0,k1,k2,v1
4,one,3,4
6,two,4,6


2、利用函数或映射进行数据转换

In [604]:
num_to_level = {
1: 'first_second',
2: 'first_second',
3: 'third_forth',
4: 'third_forth',
}
data["level"] = data['k2'].map(num_to_level)
data

Unnamed: 0,k1,k2,v1,level
0,one,1,0,first_second
1,two,1,1,first_second
2,one,2,2,first_second
3,two,3,3,third_forth
4,one,3,4,third_forth
5,two,4,5,third_forth
6,two,4,6,third_forth


使用map是一种实现元素级转换以及其他数据清理工作的便捷方式

3、替换数据

replace则提供了一种实现该功能的更简单、更灵活的修改数据的方式

In [605]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [606]:
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [607]:
data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [608]:
data.replace({-999: np.nan, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

data.replace方法与data.str.replace不同，后者做的是字符串的元素级替换

4、重命名轴索引

轴标签也可以通过函数或映射进行转换，从而得到一个新的不同标签的对象。轴还可以被就地修改，而无需新建一个数据结构。

In [609]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)), 
                    index=['Ohio', 'Colorado', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [610]:
transform = lambda x: x[:4].upper()
data.index = data.index.map(transform)
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [611]:
data.rename(index=str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


In [612]:
data.rename(index={'OHIO': 'INDIANA'}, columns={'three': 'peekaboo'})

Unnamed: 0,one,two,peekaboo,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


5、离散化和面元划分

为了便于分析，连续数据常常被离散化或拆分为“面元”（bin） 。假设有一组人员数据，而你希望将它们划分为不同的年龄组

In [613]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

结果展示了pandas.cut划分的面元。你可以将其看做一组表示面元名称的字符串。

它的底层含有一个表示不同分类名称的类型数组，以及一个codes属性中的年龄数据的标签

In [614]:
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [615]:
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]]
              closed='right',
              dtype='interval[int64]')

In [616]:
pd.value_counts(cats)

(18, 25]     5
(35, 60]     3
(25, 35]     3
(60, 100]    1
dtype: int64

In [617]:
# 哪边是闭端可以通过right=False进行修改
pd.cut(ages, [18, 26, 36, 61, 100], right=False)

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [618]:
# 通过传递一个列表或数组到labels，设置自己的面元名称
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, bins, labels=group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

In [619]:
# 如果向cut传入的是面元的数量而不是确切的面元边界，则它会根据数据的最小值和最大值计算等长面元。
# 指定切分个数（将均匀分布的切成四份）
data = np.random.rand(20)
pd.cut(data, 4, precision=2)

[(0.72, 0.95], (0.72, 0.95], (0.72, 0.95], (0.72, 0.95], (0.042, 0.27], ..., (0.5, 0.72], (0.5, 0.72], (0.72, 0.95], (0.5, 0.72], (0.5, 0.72]]
Length: 20
Categories (4, interval[float64]): [(0.042, 0.27] < (0.27, 0.5] < (0.5, 0.72] < (0.72, 0.95]]

qcut是一个非常类似于cut的函数，它可以根据样本分位数对数据进行面元划分。
根据数据的分布情况，cut可能无法使各个面元中含有相同数量的数据点。
而qcut由于使用的是样本分位数，因此可以得到大小基本相等的面元

In [620]:
cats = pd.qcut(data, 4)
cats

[(0.637, 0.833], (0.637, 0.833], (0.833, 0.95], (0.833, 0.95], (0.0417, 0.27], ..., (0.27, 0.637], (0.637, 0.833], (0.833, 0.95], (0.637, 0.833], (0.27, 0.637]]
Length: 20
Categories (4, interval[float64]): [(0.0417, 0.27] < (0.27, 0.637] < (0.637, 0.833] < (0.833, 0.95]]

In [621]:
pd.value_counts(cats)

(0.833, 0.95]     5
(0.637, 0.833]    5
(0.27, 0.637]     5
(0.0417, 0.27]    5
dtype: int64

In [622]:
# 与cut类似，你也可以传递自定义的分位数（0到1之间的数值，包含端点）
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])

[(0.637, 0.899], (0.637, 0.899], (0.637, 0.899], (0.899, 0.95], (0.105, 0.637], ..., (0.105, 0.637], (0.637, 0.899], (0.637, 0.899], (0.637, 0.899], (0.105, 0.637]]
Length: 20
Categories (4, interval[float64]): [(0.0417, 0.105] < (0.105, 0.637] < (0.637, 0.899] < (0.899, 0.95]]

In [623]:
pd.value_counts(pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.]))

(0.637, 0.899]     8
(0.105, 0.637]     8
(0.899, 0.95]      2
(0.0417, 0.105]    2
dtype: int64

6、检测和过滤异常值

过滤或变换异常值（outlier） 在很大程度上就是运用数组运算。来看一个含有正态分布数据的DataFrame

In [624]:
data = pd.DataFrame(np.random.randn(1000, 4))
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.071794,0.012701,0.005905,-0.050015
std,0.99063,1.004084,0.999672,0.994244
min,-3.548824,-3.184377,-3.745356,-3.428254
25%,-0.586793,-0.648915,-0.633771,-0.75897
50%,0.094503,-0.013609,-0.012007,-0.107958
75%,0.780282,0.671128,0.666145,0.632025
max,2.653656,3.260383,3.927528,3.366626


In [625]:
col = data[2]
col[np.abs(col) > 3]

76     3.927528
284   -3.399312
379   -3.745356
Name: 2, dtype: float64

In [626]:
# 要选出全部含有“超过3或－3的值”的行，你可以在布尔型DataFrame中使用any方法
data[(np.abs(data) > 3).any(1)]

Unnamed: 0,0,1,2,3
76,0.552936,0.106061,3.927528,-0.255126
81,-0.56523,3.176873,0.959533,-0.97534
284,0.457246,-0.025907,-3.399312,-0.974657
303,1.951312,3.260383,0.963301,1.201206
379,0.508391,-0.196713,-3.745356,-1.520113
478,-0.242459,-3.05699,1.918403,-0.578828
501,0.682841,0.326045,0.425384,-3.428254
565,1.179227,-3.184377,1.369891,-1.074833
787,-3.548824,1.553205,-2.186301,1.277104
878,-0.578093,0.193299,1.397822,3.366626


In [627]:
np.sign(data).head()

Unnamed: 0,0,1,2,3
0,1.0,-1.0,1.0,-1.0
1,1.0,1.0,1.0,-1.0
2,1.0,1.0,1.0,1.0
3,-1.0,1.0,1.0,-1.0
4,-1.0,-1.0,-1.0,-1.0


7、排列和随机采样

利用numpy.random.permutation函数可以轻松实现对Series或DataFrame的列的排列工作（permuting，随机重排序） 。
通过需要排列的轴的长度调用permutation，可产生一个表示新顺序的整数数组

In [628]:
df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [629]:
sampler = np.random.permutation(5)
sampler

array([0, 1, 3, 4, 2])

In [630]:
df.take(sampler)

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
3,12,13,14,15
4,16,17,18,19
2,8,9,10,11


In [631]:
# 如果不想用替换的方式选取随机子集，可以在Series和DataFrame上使用sample方法
df.sample(n=3)

Unnamed: 0,0,1,2,3
1,4,5,6,7
4,16,17,18,19
2,8,9,10,11


In [632]:
# 要通过替换的方式产生样本（允许重复选择） ，可以传递replace=True到sample
df.sample(n=7, replace=True)

Unnamed: 0,0,1,2,3
3,12,13,14,15
4,16,17,18,19
4,16,17,18,19
4,16,17,18,19
0,0,1,2,3
2,8,9,10,11
2,8,9,10,11


8、计算指标/哑变量

另一种常用于统计建模或机器学习的转换方式是：将分类变量（categoricalvariable） 转换为“哑变量”或“指标矩阵”。

如果DataFrame的某一列中含有k个不同的值，则可以派生出一个k列矩阵或DataFrame（其值全为1和0） 。

In [633]:
# pandas有一个get_dummies函数可以实现该功能
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)})
df 

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [634]:
pd.get_dummies(df['key'])

Unnamed: 0,a,b,c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


In [635]:
# get_dummies的prefix参数，可以给指标DataFrame的列加上一个前缀
dummies = pd.get_dummies(df['key'], prefix='key')
df_with_dummy = df[['data1']].join(dummies)
df_with_dummy

Unnamed: 0,data1,key_a,key_b,key_c
0,0,0,1,0
1,1,0,1,0
2,2,1,0,0
3,3,0,0,1
4,4,1,0,0
5,5,0,1,0


对于很大的数据，用这种方式构建多成员指标变量就会变得非常慢。最好使用更低级的函数，将其写入NumPy数组，然后结果包装在DataFrame中。

In [636]:
# 结合get_dummies和诸如cut之类的离散化函数
np.random.seed(12345)
values = np.random.rand(10)
bins = [0, 0.2, 0.4, 0.6, 0.8, 1]
pd.get_dummies(pd.cut(values, bins))

Unnamed: 0,"(0.0, 0.2]","(0.2, 0.4]","(0.4, 0.6]","(0.6, 0.8]","(0.8, 1.0]"
0,0,0,0,0,1
1,0,1,0,0,0
2,1,0,0,0,0
3,0,1,0,0,0
4,0,0,1,0,0
5,0,0,1,0,0
6,0,0,0,0,1
7,0,0,0,1,0
8,0,0,0,1,0
9,0,0,0,1,0


#### 2.2.3 字符串操作

大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作，则可能需要用到正则表达式。
pandas对此进行了加强，它使你能够对整组数据应用字符串表达式和正则表达式，而且能处理烦人的缺失数据

1、 内置函数

注意find和index的区别：如果找不到字符串，index将会引发一个异常（而不是返回－1）

In [637]:
val = 'a,b, guido'
val.count(',')

2

In [638]:
'a' in val

True

In [639]:
val.replace(',', '::')

'a::b:: guido'

In [640]:
# casefold 将字符转换为小写，并将任何特定区域的变量字符组合转换成一个通用的可比较形式
val.casefold()

'a,b, guido'

2、正则表达式

re模块的函数可以分为三个大类：模式匹配、替换以及拆分。当然，它们之间是相辅相成的。
一个regex描述了需要在文本中定位的一个模式，它可以用于许多目的。

In [641]:
import re
text = "foo bar\t baz \tqux"
re.split('\s+', text)

['foo', 'bar', 'baz', 'qux']

In [642]:
# 你可以用re.compile自己编译regex以得到一个可重用的regex对象
regex = re.compile('\s+')
regex.split(text)

['foo', 'bar', 'baz', 'qux']

In [643]:
# 如果只希望得到匹配regex的所有模式，则可以使用findall方法
regex.findall(text)

[' ', '\t ', ' \t']

如果想避免正则表达式中不需要的转义（\） ，则可以使用原始字符串字面量如r'C:\x'（也可以编写其等价式'C:\x'）

如果打算对许多字符串应用同一条正则表达式，强烈建议通过re.compile创建regex对象。这样将可以节省大量的CPU时间

In [644]:
# match和search跟findall功能类似。findall返回的是字符串中所有的匹配项，而search则只返回第一个匹配项。match更加严格，它只匹配字符串的首部。
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'
# re.IGNORECASE makes the regex case-insensitive
regex = re.compile(pattern, flags=re.IGNORECASE)

regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [645]:
# search返回的是文本中第一个电子邮件地址（以特殊的匹配项对象形式返回） 。
# 对于上面那个regex，匹配项对象只能告诉我们模式在原字符串中的起始和结束位置
m = regex.search(text)
m

<_sre.SRE_Match object; span=(5, 20), match='dave@google.com'>

In [646]:
text[m.start():m.end()]

'dave@google.com'

In [647]:
# regex.match则将返回None，因为它只匹配出现在字符串开头的模式
print(regex.match(text))

None


In [648]:
# sub方法可以将匹配到的模式替换为指定字符串，并返回所得到的新字符串
print(regex.sub('REDACTED', text))

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED



In [649]:
# 你不仅想要找出电子邮件地址，还想将各个地址分成3个部分：用户名、域名以及域后缀。
# 要实现此功能，只需将待分段的模式的各部分用圆括号包起来即可
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

m = regex.match('wesm@bright.net')
m.groups()

('wesm', 'bright', 'net')

In [650]:
# 对于带有分组功能的模式，findall会返回一个元组列表
regex.findall(text)

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

In [651]:
# sub还能通过诸如\1、\2之类的特殊符号访问各匹配项中的分组。符号\1对应第一个匹配的组，\2对应第二个匹配的组，以此类推
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))

Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com



3、pandas的矢量化字符串函数

In [652]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com', 'Rob': 'rob@gmail.com', 'Wes': np.nan}
data = pd.Series(data)
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

如果存在NA（null） 就会报错。为了解决这个问题，Series有一些能够跳过NA值的面向数组方法，进行字符串操作。通过Series的str属性即可访问这些方法。

In [653]:
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [654]:
# 也可以使用正则表达式，还可以加上任意re选项（如IGNORECASE）
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
data.str.findall(pattern, flags=re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object

In [655]:
data.str.extract(pattern, flags=re.IGNORECASE)

Unnamed: 0,0,1,2
Dave,dave,google,com
Steve,steve,gmail,com
Rob,rob,gmail,com
Wes,,,


In [656]:
data.str.extract(pattern, flags=re.IGNORECASE)[0].str.join('-')

Dave       d-a-v-e
Steve    s-t-e-v-e
Rob          r-o-b
Wes            NaN
Name: 0, dtype: object

In [657]:
data.str.extract(pattern, flags=re.IGNORECASE)[0].str.cat()

'davesteverob'

除了cat（实现元素级的字符串连接操作，可指定分隔符）、count（返回表示字符串是否含有指定模式的布尔型数组）、
extract（使用带分组的正则表达式从字符串Series提取一个或多个字符串，结果是一个DataFrame，每组一列）、endswith、startwith、
findall、get（获取各元素的第I个字符串）、isalnum、isalpha、isdecimal、isdisgit、islower、isnumeric、isupper、
join、len、lower、upper、match（根据指定的正则表达式对各元素执行re.match，返回匹配的组为列表）、
pad（字符串左边、右边或两边添加空白符）、center（相当于pad(side='both')）、
repeat、replace（用指定字符串替换找到的模式）、slice（对Series中的各字符串进行字串截取）、split、strip、lstrip、rstrip

### 2.3 数据规整：聚合、合并和重塑

数据可能分散在许多文件或数据库中，存储的形式也不利于分析。

本章关注可以聚合、合并、重塑数据的方法

#### 2.3.1 合并数据集

pandas对象中的数据可以通过一些方式进行合并：

* pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。SQL或其他关系型数据库的用户对此应该会比较熟悉，因为它实现的就是数据库的
join操作。

* pandas.concat可以沿着一条轴将多个对象堆叠到一起。

* 实例方法combine_first可以将重复数据拼接在一起，用一个对象中的值填充另一个对象中的缺失值。

1、数据库风格的DataFrame合并

数据集的合并（merge） 或连接（join） 运算是通过一个或多个键将行连接起来的。
这些运算是关系型数据库（基于SQL） 的核心。pandas的merge函数是对数据应用这些算法的主要切入点。

In [658]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)})
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [659]:
df2 = pd.DataFrame({'key': ['a', 'b', 'd'],  'data2': range(3)})
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [660]:
# 取内连接
pd.merge(df1, df2)

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


In [661]:
# 没有指明要用哪个列进行连接。如果没有指定，merge就会将重叠列的列名当做键。
pd.merge(df1, df2, on='key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


In [662]:
# 如果两个对象的列名不同，也可以分别进行指定
df3 = pd.DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],'data1': range(7)})
df4 = pd.DataFrame({'rkey': ['a', 'b', 'd'], 'data2': range(3)})
pd.merge(df3, df4, left_on='lkey', right_on='rkey')

Unnamed: 0,lkey,data1,rkey,data2
0,b,0,b,1
1,b,1,b,1
2,b,6,b,1
3,a,2,a,0
4,a,4,a,0
5,a,5,a,0


其他方式还有"left"、"right"以及"outer"。

In [663]:
# 外连接求取的是键的并集，组合了左连接和右连接的效果
pd.merge(df1, df2, how='outer')

Unnamed: 0,key,data1,data2
0,b,0.0,1.0
1,b,1.0,1.0
2,b,6.0,1.0
3,a,2.0,0.0
4,a,4.0,0.0
5,a,5.0,0.0
6,c,3.0,
7,d,,2.0


多对多连接产生的是行的笛卡尔积。由于左边的DataFrame有3个"b"行，右边的有2个，所以最终结果中就有6个"b"行。
连接方式只影响出现在结果中的不同的键的值

In [664]:
# 可以指定多个列作为键值。pd.merge(left, right, on=['key1', 'key2'], how='outer')

# 对于合并运算需要考虑的最后一个问题是对重复列名的处理。
# 虽然你可以手工处理列名重叠的问题（查看前面介绍的重命名轴标签） ，
# 但merge有一个更实用的suffixes选项，用于指定附加到左右两个DataFrame对象的重叠列名上的字符串
# suffixes默认为_x和_y
# pd.merge(left, right, on='key1', suffixes=('_left', '_right'))

索引上的合并

In [665]:
# 有时候，DataFrame中的连接键位于其索引中。在这种情况下，你可以传入left_index=True或right_index=True（或两个都传） 以说明索引应该被用作连接键
left1 = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b','c'], 'value': range(6)})
left1

Unnamed: 0,key,value
0,a,0
1,b,1
2,a,2
3,a,3
4,b,4
5,c,5


In [666]:
right1 = pd.DataFrame({'group_val': [3.5, 7]}, index=['a', 'b'])
right1

Unnamed: 0,group_val
a,3.5
b,7.0


In [667]:
pd.merge(left1, right1, left_on='key', right_index=True)

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0


层级化索引合并

In [668]:
lefth = pd.DataFrame({'key1': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'key2': [2000, 2001, 2002, 2001,2002],'data': np.arange(5.)})
lefth

Unnamed: 0,key1,key2,data
0,Ohio,2000,0.0
1,Ohio,2001,1.0
2,Ohio,2002,2.0
3,Nevada,2001,3.0
4,Nevada,2002,4.0


In [669]:
righth = pd.DataFrame(np.arange(12).reshape((6, 2)), 
                      index=[['Nevada', 'Nevada', 'Ohio','Ohio','Ohio', 'Ohio'],[2001, 2000, 2000, 2000, 2001, 2002]],
                      columns=['event1', 'event2'])
righth

Unnamed: 0,Unnamed: 1,event1,event2
Nevada,2001,0,1
Nevada,2000,2,3
Ohio,2000,4,5
Ohio,2000,6,7
Ohio,2001,8,9
Ohio,2002,10,11


In [670]:
pd.merge(lefth, righth, left_on=['key1', 'key2'], right_index=True)

Unnamed: 0,key1,key2,data,event1,event2
0,Ohio,2000,0.0,4,5
0,Ohio,2000,0.0,6,7
1,Ohio,2001,1.0,8,9
2,Ohio,2002,2.0,10,11
3,Nevada,2001,3.0,0,1


In [671]:
pd.merge(lefth, righth, left_on=['key1', 'key2'],right_index=True, how='outer')

Unnamed: 0,key1,key2,data,event1,event2
0,Ohio,2000,0.0,4.0,5.0
0,Ohio,2000,0.0,6.0,7.0
1,Ohio,2001,1.0,8.0,9.0
2,Ohio,2002,2.0,10.0,11.0
3,Nevada,2001,3.0,0.0,1.0
4,Nevada,2002,4.0,,
4,Nevada,2000,,2.0,3.0


In [672]:
# 同时使用合并双方的索引
left2 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=['a', 'c', 'e'], columns=['Ohio', 'Nevada'])
right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.],[13, 14]],index=['b', 'c', 'd', 'e'],columns=['Missouri', 'Alabama'])
pd.merge(left2, right2, how='outer', left_index=True, right_index=True)

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [673]:
# DataFrame还有一个便捷的join实例方法，它能更为方便地实现按索引合并。它还可用于合并多个带有相同或相似索引的DataFrame对象，但要求没有重叠的列。
left2.join(right2, how='outer')

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [674]:
# DataFrame的join方法默认使用的是左连接，保留左边表的行索引。它还支持在调用的DataFrame的列上，连接传递的DataFrame索引：
left1.join(right1, on='key')

Unnamed: 0,key,value,group_val
0,a,0,3.5
1,b,1,7.0
2,a,2,3.5
3,a,3,3.5
4,b,4,7.0
5,c,5,


2.3.2 轴向连接(concat函数)

另一种数据合并运算也被称作连接（concatenation） 、绑定（binding） 或堆叠（stacking） 。NumPy的concatenation函数可以用NumPy数组来做

In [675]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s1

a    0
b    1
dtype: int64

In [676]:
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])

In [677]:
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [678]:
# 默认情况下，concat是在axis=0上工作的，最终产生一个新的Series。如果传入axis=1，则结果就会变成一个DataFrame（axis=1是列）
pd.concat([s1, s2, s3], axis=1, sort=True)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


这种情况下，另外的轴上没有重叠，从索引的有序并集（外连接） 上就可以看出来.

传入join='inner'即可得到它们的交集.

In [679]:
s4 = pd.concat([s1, s3])
s4

a    0
b    1
f    5
g    6
dtype: int64

In [680]:
pd.concat([s1, s4], axis=1,sort=True)

Unnamed: 0,0,1
a,0.0,0
b,1.0,1
f,,5
g,,6


In [681]:
pd.concat([s1, s4], axis=1, join='inner')

Unnamed: 0,0,1
a,0,0
b,1,1


In [682]:
# 可以通过join_axes指定要在其它轴上使用的索引
pd.concat([s1, s4], axis=1, join_axes=[['a', 'c', 'b','e']])

Unnamed: 0,0,1
a,0.0,0.0
c,,
b,1.0,1.0
e,,


In [683]:
# 参与连接的片段在结果中区分不开。假设你想要在连接轴上创建一个层次化索引。使用keys参数即可达到这个目的
pd.concat([s1, s1, s3])

a    0
b    1
a    0
b    1
f    5
g    6
dtype: int64

In [684]:
pd.concat([s1, s1, s3], keys=['one','two', 'three'])

one    a    0
       b    1
two    a    0
       b    1
three  f    5
       g    6
dtype: int64

In [685]:
pd.concat([s1, s1, s3], keys=['one','two', 'three']).unstack()

Unnamed: 0,a,b,f,g
one,0.0,1.0,,
two,0.0,1.0,,
three,,,5.0,6.0


In [686]:
# 如果沿着axis=1对Series进行合并，则keys就会成为DataFrame的列头
pd.concat([s1, s2, s3], axis=1, keys=['one','two', 'three'],sort=True)

Unnamed: 0,one,two,three
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


同样的逻辑也适用于DataFrame对象

In [687]:
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=['a', 'b', 'c'], columns=['one', 'two'])
df1

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5


In [688]:
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=['a', 'c'],columns=['three', 'four'])
df2

Unnamed: 0,three,four
a,5,6
c,7,8


In [689]:
pd.concat([df1, df2], axis=1, keys=['level1', 'level2'],sort=True)

Unnamed: 0_level_0,level1,level1,level2,level2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [690]:
# 如果传入的不是列表而是一个字典，则字典的键就会被当做keys选项的值
pd.concat({'level1': df1, 'level2': df2}, axis=1, sort=True)

Unnamed: 0_level_0,level1,level1,level2,level2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [691]:
pd.concat({'level1': df1, 'level2': df2}, axis=0, sort=True)

Unnamed: 0,Unnamed: 1,four,one,three,two
level1,a,,0.0,,1.0
level1,b,,2.0,,3.0
level1,c,,4.0,,5.0
level2,a,6.0,,5.0,
level2,c,8.0,,7.0,


2.3.3 合并重叠数据

还有一种数据组合问题不能用简单的合并（merge） 或连接（concatenation） 运算来处理。比如说，你可能有索引全部或部分重叠的两个数据集

In [692]:
df1 = pd.DataFrame({'a': [1., np.nan, 5., np.nan], 'b': [np.nan, 2., np.nan, 6.], 'c': range(2, 18, 4)})
df1

Unnamed: 0,a,b,c
0,1.0,,2
1,,2.0,6
2,5.0,,10
3,,6.0,14


In [693]:
df2 = pd.DataFrame({'a': [5., 4., np.nan, 3., 7.], 'b': [np.nan, 3., 4., 6., 8.]})
df2

Unnamed: 0,a,b
0,5.0,
1,4.0,3.0
2,,4.0
3,3.0,6.0
4,7.0,8.0


In [694]:
df1.combine_first(df2)

Unnamed: 0,a,b,c
0,1.0,,2.0
1,4.0,2.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,


#### 2.3.4 重塑层次化索引

层次化索引为DataFrame数据的重排任务提供了一种具有良好一致性的方式。主要功能有二：

* stack：将数据的列“旋转”为行。

* unstack：将数据的行“旋转”为列。

In [695]:
data = pd.DataFrame(np.arange(6).reshape((2, 3)),
                    index=pd.Index(['Ohio','Colorado'], name='state'),
                    columns=pd.Index(['one', 'two', 'three'],name='number'))
data

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [696]:
result = data.stack()
result

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int32

In [697]:
result.unstack()

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [698]:
# 默认情况下，unstack操作的是最内层（stack也是如此） 。传入分层级别的编号或名称即可对其它级别进行unstack操作
result.unstack(0)

state,Ohio,Colorado
number,Unnamed: 1_level_1,Unnamed: 2_level_1
one,0,3
two,1,4
three,2,5


In [699]:
result.unstack('number')

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


#### 2.3.5 长宽格式转换

多个时间序列数据通常是以所谓的“长格式”（long） 或“堆叠格式”（stacked） 存储在数据库和CSV中的。
做一些时间序列规整和数据清洗：

1、pandas.melt

In [700]:
# 它不是将一列转换到多个新的DataFrame，而是合并多个列成为一个，产生一个比输入长的DataFrame。
df = pd.DataFrame({'key': ['foo', 'bar', 'baz'], 'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
df 

Unnamed: 0,key,A,B,C
0,foo,1,4,7
1,bar,2,5,8
2,baz,3,6,9


In [701]:
# key列可能是分组指标，其它的列是数据值。当使用pandas.melt，我们必须指明哪些列是分组指标。
melted = pd.melt(df, ['key'])
melted

Unnamed: 0,key,variable,value
0,foo,A,1
1,bar,A,2
2,baz,A,3
3,foo,B,4
4,bar,B,5
5,baz,B,6
6,foo,C,7
7,bar,C,8
8,baz,C,9


In [702]:
# 你还可以指定列的子集，作为值的列
pd.melt(df, id_vars=['key'], value_vars=['A', 'B'])

Unnamed: 0,key,variable,value
0,foo,A,1
1,bar,A,2
2,baz,A,3
3,foo,B,4
4,bar,B,5
5,baz,B,6


2、pivot

使用pivot，可以重塑回原来的样子

前两个传递的值分别用作行和列索引，最后一个可选值则是用于填充DataFrame的数据列。

In [703]:
reshaped = melted.pivot('key', 'variable', 'value')
reshaped

variable,A,B,C
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,2,5,8
baz,3,6,9
foo,1,4,7


In [704]:
# 因为pivot的结果从列创建了一个索引，用作行标签，我们可以使用reset_index将数据移回列
reshaped.reset_index()

variable,key,A,B,C
0,bar,2,5,8
1,baz,3,6,9
2,foo,1,4,7


In [705]:
# pivot其实就是用set_index创建层次化索引，再用unstack重塑
melted.set_index(['key', 'variable']).unstack('variable')

Unnamed: 0_level_0,value,value,value
variable,A,B,C
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
bar,2,5,8
baz,3,6,9
foo,1,4,7


### 2.4 数据聚合与分组运算

在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。

由于Python和pandas强大的表达能力，我们可以执行复杂得多的分组运算（利用任何可以接受pandas对象或NumPy数组的函数）

在本章中，你将会学到：
* 使用一个或多个键（形式可以是函数、数组或DataFrame列名）分割pandas对象。
* 计算分组的概述统计，比如数量、平均值或标准差，或是用户定义的函数。
* 应用组内转换或其他运算，如规格化、线性回归、排名或选取子集等。
* 计算透视表或交叉表。
* 执行分位数分析以及其它统计分组分析。

#### 2.4.1  GroupBy机制

Hadley Wickham（ 许多热门R语言包的作者） 创造了一个用于表示分组运算的术语"split-apply-combine"（ 拆分－应用－合并） 。

第一个阶段，pandas对象（ 无论是Series、DataFrame还是其他的） 中的数据会根据你所提供的一个或多个键被拆分（ split） 为多组。拆分操作是在对象的特定轴上执行的。例如，DataFrame可以在其行（ axis=0） 或列（ axis=1） 上进行分组。然后，将一个函数应用（ apply） 到各个分组并产生一个新值。最后，所有这些函数的执行结果会被合并（ combine）到最终的结果对象中。结果对象的形式一般取决于数据上所执行的操作。

分组键可以有多种形式，且类型不必相同：
* 列表或数组，其长度与待分组的轴一样。
* 表示DataFrame某个列名的值。
* 字典或Series，给出待分组轴上的值与分组名之间的对应关系。
* 函数，用于处理轴索引或索引中的各个标签。


1、分组的基本操作

In [706]:
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 'key2' : ['one', 'two', 'one', 'two', 'one'], 
                   'data1' : np.random.randn(5), 'data2' : np.random.randn(5)})
df

Unnamed: 0,key1,key2,data1,data2
0,a,one,1.007189,0.886429
1,a,two,-1.296221,-2.001637
2,b,one,0.274992,-0.371843
3,b,two,0.228913,1.669025
4,a,one,1.352917,-0.43857


In [707]:
# 按key1进行分组，并计算data1列的平均值
grouped = df['data1'].groupby(df['key1'])
grouped

<pandas.core.groupby.groupby.SeriesGroupBy object at 0x00000000095902E8>

In [708]:
#变量grouped是一个GroupBy对象。它实际上还没有进行任何计算，只是含有一些有关分组键df['key1']的中间数据而已。
#换句话说，该对象已经有了接下来对各分组执行运算所需的一切信息。例如，我们可以调用GroupBy的mean方法来计算分组平均值

grouped.mean()

key1
a    0.354628
b    0.251952
Name: data1, dtype: float64

数据（ Series） 根据分组键进行了聚合，产生了一个新的Series，其索引为key1列中的唯一值。之所以结果中索引的名称为key1，是因为原始DataFrame的列df['key1']就叫这个名字

In [709]:
# 多列groupby
df['data1'].groupby([df['key1'], df['key2']]).mean()

key1  key2
a     one     1.180053
      two    -1.296221
b     one     0.274992
      two     0.228913
Name: data1, dtype: float64

In [710]:
# 制定分组键。分组键可以是任何长度适当的数组.
states = np.array(['Ohio', 'California', 'California','Ohio', 'Ohio'])
years = np.array([2005, 2005, 2006, 2005, 2006])
df['data1'].groupby([states, years]).mean()

California  2005   -1.296221
            2006    0.274992
Ohio        2005    0.618051
            2006    1.352917
Name: data1, dtype: float64

In [711]:
# 指定列作为分组键。分组信息就位于相同的要处理DataFrame中
df.groupby(['key1', 'key2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,one,1.180053,0.22393
a,two,-1.296221,-2.001637
b,one,0.274992,-0.371843
b,two,0.228913,1.669025


当被统计的列不是数值数据（ 俗称“麻烦列”） ，所以被从结果中排除了。

任何分组关键词中的缺失值，都会被从结果中除去。

2、对分组进行迭代

In [712]:
# 对于多重键的情况，元组的第一个元素将会是由键值组成的元组
for (k1, k2), group in df.groupby(['key1', 'key2']):
    print((k1, k2))
    print(group)

('a', 'one')
  key1 key2     data1     data2
0    a  one  1.007189  0.886429
4    a  one  1.352917 -0.438570
('a', 'two')
  key1 key2     data1     data2
1    a  two -1.296221 -2.001637
('b', 'one')
  key1 key2     data1     data2
2    b  one  0.274992 -0.371843
('b', 'two')
  key1 key2     data1     data2
3    b  two  0.228913  1.669025


In [713]:
# 将分组结果转为字典。将这些数据片段做成一个字典
dict(list(df.groupby('key1')))

{'a':   key1 key2     data1     data2
 0    a  one  1.007189  0.886429
 1    a  two -1.296221 -2.001637
 4    a  one  1.352917 -0.438570, 'b':   key1 key2     data1     data2
 2    b  one  0.274992 -0.371843
 3    b  two  0.228913  1.669025}

In [714]:
# groupby默认是在axis=0上进行分组的，通过设置也可以在其他任何轴上进行分组。
df.dtypes

key1      object
key2      object
data1    float64
data2    float64
dtype: object

In [715]:
grouped = df.groupby(df.dtypes, axis=1)
for dtype, group in grouped:
    print(dtype)
    print(group)

float64
      data1     data2
0  1.007189  0.886429
1 -1.296221 -2.001637
2  0.274992 -0.371843
3  0.228913  1.669025
4  1.352917 -0.438570
object
  key1 key2
0    a  one
1    a  two
2    b  one
3    b  two
4    a  one


3、选取一列或列的子集

对于由DataFrame产生的GroupBy对象，如果用一个（ 单个字符串） 或一组（ 字符串数组） 列名对其进行索引，就能实现选取部分列进行聚合的目的

```
df.groupby('key1')['data1']
df.groupby('key1')[['data2']]
```
等同于
```
df['data1'].groupby(df['key1'])
df[['data2']].groupby(df['key1'])
```

In [716]:
# 尤其对于大数据集，很可能只需要对部分列进行聚合。例如，在前面那个数据集中，如果只需计算data2列的平均值并以DataFrame形式得到结果
df.groupby(['key1', 'key2'])[['data2']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data2
key1,key2,Unnamed: 2_level_1
a,one,0.22393
a,two,-2.001637
b,one,-0.371843
b,two,1.669025


4、通过字典或Series进行分组

In [717]:
mapping = {'data1': 'red', 'data2': 'blue'}
df.groupby(mapping, axis=1).sum()

Unnamed: 0,blue,red
0,0.886429,1.007189
1,-2.001637,-1.296221
2,-0.371843,0.274992
3,1.669025,0.228913
4,-0.43857,1.352917


In [718]:
# 使用Series进行分组
map_series = pd.Series(mapping)
df.groupby(map_series, axis=1).count()

Unnamed: 0,blue,red
0,1,1
1,1,1
2,1,1
3,1,1
4,1,1


5、通过函数进行分组

任何被当做分组键的函数都会在各个索引值上被调用一次，其返回值就会被用作分组名称。

In [719]:
df.groupby(type).sum()

Unnamed: 0,data1,data2
<class 'int'>,1.56779,-0.256595


In [720]:
# 将函数跟数组、列表、字典、Series混合使用也不是问题，因为任何东西在内部都会被转换为数组
key_list = ['one', 'one', 'one', 'two', 'two']
df.groupby([type, key_list]).min()

Unnamed: 0,Unnamed: 1,key1,key2,data1,data2
<class 'int'>,one,a,one,-1.296221,-2.001637
<class 'int'>,two,a,one,0.228913,-0.43857


6、根据索引级别分组

层次化索引数据集最方便的地方就在于它能够根据轴索引的一个级别进行聚合

In [721]:
hier_df = pd.DataFrame(np.random.randn(4, 5), columns=[['US', 'US', 'US','JP', 'JP'], [1, 3, 5, 1, 3]])
hier_df                                                                                                             

Unnamed: 0_level_0,US,US,US,JP,JP
Unnamed: 0_level_1,1,3,5,1,3
0,-0.539741,0.476985,3.248944,-1.021228,-0.577087
1,0.124121,0.302614,0.523772,0.00094,1.34381
2,-0.713544,-0.831154,-2.370232,-1.860761,-0.860757
3,0.560145,-1.265934,0.119827,-1.063512,0.332883


In [722]:
hier_df.index.names = ['tenor']
hier_df.columns.names = ['cty','key']
hier_df

cty,US,US,US,JP,JP
key,1,3,5,1,3
tenor,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
0,-0.539741,0.476985,3.248944,-1.021228,-0.577087
1,0.124121,0.302614,0.523772,0.00094,1.34381
2,-0.713544,-0.831154,-2.370232,-1.860761,-0.860757
3,0.560145,-1.265934,0.119827,-1.063512,0.332883


In [723]:
# 要根据级别分组，使用level关键字传递级别序号或名字
hier_df.groupby(level='key', axis=1).count()

key,1,3,5
tenor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,2,2,1
1,2,2,1
2,2,2,1
3,2,2,1


#### 2.4.2 数据聚合

1、聚合运算基本介绍

聚合指的是任何能够从数组产生标量值的数据转换过程。之前的例子已经用过一些，比如mean、count、min以及sum等。

聚合运输函数有都有优化，主要有以下方法：

|函数名|说明|
|---|---|
|count、sum、mean、prod|非NA值的数量、和、平均数、乘积|
|median、std、var|非NA的算术中位数、无偏标准差和方差|
|first、last|第一个和最后一个非NA值|



虽然quantile并没有明确地实现于GroupBy，但它是一个Series方法，所以这里是能用的。

如果要使用你自己的聚合函数，只需将其传入aggregate或agg方法即可

In [724]:
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 'key2' : ['one', 'two', 'one', 'two', 'one'], 
                   'data1' : np.random.randn(5), 'data2' : np.random.randn(5)})
df

Unnamed: 0,key1,key2,data1,data2
0,a,one,-2.359419,0.28635
1,a,two,-0.199543,0.377984
2,b,one,-1.541996,-0.753887
3,b,two,-0.970736,0.331286
4,a,one,-1.30703,1.349742


In [725]:
df.groupby('key1')['data1'].quantile(0.9)

key1
a   -0.421040
b   -1.027862
Name: data1, dtype: float64

In [726]:
# 自定义聚合函数
def peak_to_peak(arr):
    return arr.max() - arr.min()
df.groupby('key1').agg(peak_to_peak)

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.159876,1.063392
b,0.57126,1.085172


自定义聚合函数要比表10-1中那些经过优化的函数慢得多。这是因为在构造中间分组数据块时存在非常大的开销（函数调用、数据重排等） 。

2、针对列的多函数聚合

你可能希望对不同的列使用不同的聚合函数，或一次应用多个函数。

In [728]:
# 一次应用多个聚合函数
df.groupby(['key1','key2']).agg(['mean', 'std', peak_to_peak])

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,peak_to_peak,mean,std,peak_to_peak
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
a,one,-1.833225,0.744151,1.052389,0.818046,0.751932,1.063392
a,two,-0.199543,,0.0,0.377984,,0.0
b,one,-1.541996,,0.0,-0.753887,,0.0
b,two,-0.970736,,0.0,0.331286,,0.0


In [729]:
# 指定聚合函数结果名称
#如果传入的是一个由(name,function)元组组成的列表，则各元组的第一个元素就会被用作DataFrame的列名
#（可以将这种二元元组列表看做一个有序映射） 
df.groupby(['key1','key2']).agg([('mean_newname', 'mean'), ('std_newname', np.std)])

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data1,data2,data2
Unnamed: 0_level_1,Unnamed: 1_level_1,mean_newname,std_newname,mean_newname,std_newname
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,one,-1.833225,0.744151,0.818046,0.751932
a,two,-0.199543,,0.377984,
b,one,-1.541996,,-0.753887,
b,two,-0.970736,,0.331286,


In [731]:
# 不同的列应用不同的聚合函数
df.groupby(['key1','key2']).agg([{'data1':['min', 'max', 'mean', 'std'],'data2':np.min}])

is deprecated and will be removed in a future version
  results[name] = obj.aggregate(func)


Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data1,data1,data1,data1,data2,data2,data2,data2,data2
Unnamed: 0_level_1,Unnamed: 1_level_1,NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN,NaN
Unnamed: 0_level_2,Unnamed: 1_level_2,data1,data1,data1,data1,data2,data1,data1,data1,data1,data2
Unnamed: 0_level_3,Unnamed: 1_level_3,min,max,mean,std,data1,min,max,mean,std,data2
key1,key2,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4,Unnamed: 11_level_4
a,one,-2.359419,-1.30703,-1.833225,0.744151,-2.359419,0.28635,1.349742,0.818046,0.751932,0.28635
a,two,-0.199543,-0.199543,-0.199543,,-0.199543,0.377984,0.377984,0.377984,,0.377984
b,one,-1.541996,-1.541996,-1.541996,,-1.541996,-0.753887,-0.753887,-0.753887,,-0.753887
b,two,-0.970736,-0.970736,-0.970736,,-0.970736,0.331286,0.331286,0.331286,,0.331286


只有将多个函数应用到至少一列时，DataFrame才会拥有层次化的列。

3、禁用行索引的形式返回聚合数据

In [732]:
df.groupby(['key1', 'key2'], as_index=False).mean()

Unnamed: 0,key1,key2,data1,data2
0,a,one,-1.833225,0.818046
1,a,two,-0.199543,0.377984
2,b,one,-1.541996,-0.753887
3,b,two,-0.970736,0.331286


对结果调用reset_index也能得到这种形式的结果。使用as_index=False方法可以避免一些不必要的计算

#### 2.4.3 apply：一般性的“拆分－应用－合并

最通用的GroupBy方法是apply。apply会将待处理的对象拆分成多个片段，然后对各片段调用传入的函数，最后尝试
将各片段组合到一起。

1、Apply的使用

In [734]:
def top(df, n=5, column='key1'):
    return df.sort_values(by=column)[-n:]

df.groupby('key1').apply(top, n=1, column='key2')

Unnamed: 0_level_0,Unnamed: 1_level_0,key1,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
a,1,a,two,-0.199543,0.377984
b,3,b,two,-0.970736,0.331286


除这些基本用法之外，能否充分发挥apply的威力很大程度上取决于你的创造力。传入的那个函数能做什么全由你说了算，它只需返回一个pandas对象或标量值即可。

In [735]:
# 例如使用apply调用describe
df.groupby('key1').describe()

Unnamed: 0_level_0,data1,data1,data1,data1,data1,data1,data1,data1,data2,data2,data2,data2,data2,data2,data2,data2
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
a,3.0,-1.288664,1.080055,-2.359419,-1.833225,-1.30703,-0.753287,-0.199543,3.0,0.671359,0.589281,0.28635,0.332167,0.377984,0.863863,1.349742
b,2.0,-1.256366,0.403942,-1.541996,-1.399181,-1.256366,-1.113551,-0.970736,2.0,-0.2113,0.767333,-0.753887,-0.482593,-0.2113,0.059993,0.331286


In [749]:
# 上面类似于：
f = lambda x: x.describe()
df.groupby('key1').apply(f).unstack()

Unnamed: 0_level_0,data1,data1,data1,data1,data1,data1,data1,data1,data2,data2,data2,data2,data2,data2,data2,data2
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
a,3.0,-1.288664,1.080055,-2.359419,-1.833225,-1.30703,-0.753287,-0.199543,3.0,0.671359,0.589281,0.28635,0.332167,0.377984,0.863863,1.349742
b,2.0,-1.256366,0.403942,-1.541996,-1.399181,-1.256366,-1.113551,-0.970736,2.0,-0.2113,0.767333,-0.753887,-0.482593,-0.2113,0.059993,0.331286


In [744]:
# 禁用分组键
#分组键会跟原始对象的索引共同构成结果对象中的层次化索引。将group_keys=False传入groupby即可禁止该效果
df.groupby('key1',group_keys=False).apply(top, n=1, column='key2')

Unnamed: 0,key1,key2,data1,data2
1,a,two,-0.199543,0.377984
3,b,two,-0.970736,0.331286


2、其他使用技巧

分位数和桶分析

In [745]:
frame = pd.DataFrame({'data1': np.random.randn(100), 'data2': np.random.randn(100)})
quartiles = pd.cut(frame.data1, 4)
quartiles[:10]

0     (-0.0674, 1.051]
1     (-0.0674, 1.051]
2     (-0.0674, 1.051]
3     (-0.0674, 1.051]
4       (1.051, 2.169]
5    (-1.186, -0.0674]
6     (-2.309, -1.186]
7     (-0.0674, 1.051]
8     (-0.0674, 1.051]
9    (-1.186, -0.0674]
Name: data1, dtype: category
Categories (4, interval[float64]): [(-2.309, -1.186] < (-1.186, -0.0674] < (-0.0674, 1.051] < (1.051, 2.169]]

In [747]:
# 由cut返回的Categorical对象可直接传递到groupby。因此，我们可以像下面这样对data2列做一些统计计算：

def get_stats(group):
    return {'min': group.min(), 'max': group.max(), 'count': group.count(), 'mean': group.mean()}

frame.data2.groupby(quartiles).apply(get_stats)

data1                   
(-2.309, -1.186]   count    10.000000
                   max       2.224660
                   mean      0.286097
                   min      -1.741494
(-1.186, -0.0674]  count    32.000000
                   max       1.920784
                   mean     -0.088770
                   min      -1.563740
(-0.0674, 1.051]   count    48.000000
                   max       2.068708
                   mean     -0.040192
                   min      -2.420294
(1.051, 2.169]     count    10.000000
                   max       1.270025
                   mean     -0.436589
                   min      -2.644409
Name: data2, dtype: float64

In [748]:
frame.data2.groupby(quartiles).apply(get_stats).unstack()

Unnamed: 0_level_0,count,max,mean,min
data1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
"(-2.309, -1.186]",10.0,2.22466,0.286097,-1.741494
"(-1.186, -0.0674]",32.0,1.920784,-0.08877,-1.56374
"(-0.0674, 1.051]",48.0,2.068708,-0.040192,-2.420294
"(1.051, 2.169]",10.0,1.270025,-0.436589,-2.644409


In [751]:
# 些都是长度相等的桶。要根据样本分位数得到大小相等的桶，使用qcut即可。传入labels=False即可只获取分位数的编
grouping = pd.qcut(frame.data1, 4, labels=False)

frame.data2.groupby(grouping).apply(get_stats).unstack()

Unnamed: 0_level_0,count,max,mean,min
data1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,25.0,2.22466,-0.077103,-1.741494
1,25.0,1.4573,0.077132,-1.168634
2,25.0,2.068708,0.039698,-2.420294
3,25.0,1.436603,-0.290719,-2.644409


用特定于分组的值填充缺失值

In [752]:
states = ['Ohio', 'New York', 'Vermont', 'Florida','Oregon', 'Nevada', 'California', 'Idaho']
group_key = ['East'] * 4 + ['West'] * 4
data = pd.Series(np.random.randn(8), index=states)
data[['Vermont', 'Nevada', 'Idaho']] = np.nan
data

Ohio          1.394072
New York     -1.076742
Vermont            NaN
Florida      -0.871188
Oregon        0.420852
Nevada             NaN
California   -0.258867
Idaho              NaN
dtype: float64

In [753]:
fill_mean = lambda g: g.fillna(g.mean())
data.groupby(group_key).apply(fill_mean)

Ohio          1.394072
New York     -1.076742
Vermont      -0.184619
Florida      -0.871188
Oregon        0.420852
Nevada        0.080993
California   -0.258867
Idaho         0.080993
dtype: float64

In [754]:
# 由于分组具有一个name属性，所以我们可以拿来用一下
fill_values = {'East': 0.5, 'West': -1}
fill_func = lambda g: g.fillna(fill_values[g.name])
data.groupby(group_key).apply(fill_func)

Ohio          1.394072
New York     -1.076742
Vermont       0.500000
Florida      -0.871188
Oregon        0.420852
Nevada       -1.000000
California   -0.258867
Idaho        -1.000000
dtype: float64

还可以用于：
* 随机采样和排列
* 分组加权平均数和相关系数
* 组级别的线性回归

#### 2.4.4 透视表和交叉表

1、透视表（pivot table）

透视表（pivot table） 是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。在Python和pandas中，可以通过本章所介绍的groupby功能以及（能够利用层次化索引的） 重塑运算制作透视表。DataFrame有一个pivot_table方法，此外还有一个顶级的pandas.pivot_table函数。除能为groupby提供便利之外，pivot_table还可以添加分项小计，也叫做margins。

In [755]:
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 'key2' : ['one', 'two', 'one', 'two', 'one'], 
                   'data1' : np.random.randn(5), 'data2' : np.random.randn(5)})
df

Unnamed: 0,key1,key2,data1,data2
0,a,one,-1.260421,2.01039
1,a,two,0.464575,-0.887104
2,b,one,-1.070241,-0.977936
3,b,two,0.804223,-0.267217
4,a,one,-0.156736,0.483338


In [756]:
# 根据key1和key2计算分组平均数（pivot_table的默认聚合类型） ，并将key1和key2放到行
df.pivot_table(index=['key1','key2'])

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,one,-0.708578,1.246864
a,two,0.464575,-0.887104
b,one,-1.070241,-0.977936
b,two,0.804223,-0.267217


In [757]:
df.groupby(['key1','key2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,one,-0.708578,1.246864
a,two,0.464575,-0.887104
b,one,-1.070241,-0.977936
b,two,0.804223,-0.267217


In [758]:
df['key3']=['East'] *3 + ['West'] * 2

In [759]:
# 假设我们只想聚合data1，而且想根据key1进行分组。我将key2放到列上，把key3放到行上
df.pivot_table(['data1'],index=['key1','key3'],columns='key2')

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data1
Unnamed: 0_level_1,key2,one,two
key1,key3,Unnamed: 2_level_2,Unnamed: 3_level_2
a,East,-1.260421,0.464575
a,West,-0.156736,
b,East,-1.070241,
b,West,,0.804223


In [760]:
# 还可以对这个表作进一步的处理，传入margins=True添加分项小计。
# 这将会添加标签为All的行和列，其值对应于单个等级中所有数据的分组统计
df.pivot_table(['data1'],index=['key1','key3'],columns='key2',margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data1,data1
Unnamed: 0_level_1,key2,one,two,All
key1,key3,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,East,-1.260421,0.464575,-0.397923
a,West,-0.156736,,-0.156736
b,East,-1.070241,,-1.070241
b,West,,0.804223,0.804223
All,,-0.829132,0.634399,-0.24372


All值为平均数：不单独考虑East与West（All列） ，不单独考虑行分组两个级别中的任何单项（All行） 

In [762]:
# 要使用其他的聚合函数，将其传给aggfunc即可。例如，使用count或len可以得到有关分组大小的交叉表（计数或频率） 
# 如果存在空的组合（也就是NA） ，你可能会希望设置一个fill_value
df.pivot_table(['data1'],index=['key1','key3'],columns='key2',margins=True,aggfunc='mean', fill_value=-99)

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data1,data1
Unnamed: 0_level_1,key2,one,two,All
key1,key3,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,East,-1.260421,0.464575,-0.397923
a,West,-0.156736,-99.0,-0.156736
b,East,-1.070241,-99.0,-1.070241
b,West,-99.0,0.804223,0.804223
All,,-0.829132,0.634399,-0.24372


pivot_table参数说明：

|函数名|说明|
|---|---|
|values| 待聚合的列的名称。默认聚合所有数据列|
|index|用于分组的列名或其他分组键，出现在结果透视表的行|
|columns|用于分组的列名或其他分组键，出现在结果透视表的列|
|aggfunc|聚合函数或函数列表，默认为Mean可以是任何对groupby 有效的函数|
|filee_value|用于替换结果表中的缺失值|
|dropna|如果为True，不添加条码都是NA的列|
|margins|添加行/列小计和总计，默认为FALSE|

2、交叉表：crosstab

交叉表（cross-tabulation，简称crosstab） 是一种用于计算分组频率的特殊透视表

In [763]:
df

Unnamed: 0,key1,key2,data1,data2,key3
0,a,one,-1.260421,2.01039,East
1,a,two,0.464575,-0.887104,East
2,b,one,-1.070241,-0.977936,East
3,b,two,0.804223,-0.267217,West
4,a,one,-0.156736,0.483338,West


In [764]:
# 虽然可以用pivot_table实现该功能，但是pandas.crosstab函数会更方便
pd.crosstab(df.key1,df.key2,margins=True)

key2,one,two,All
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,2,1,3
b,1,1,2
All,3,2,5


In [766]:
pd.crosstab([df.key1,df.key3],df.key2,margins=True)

Unnamed: 0_level_0,key2,one,two,All
key1,key3,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,East,1,1,2
a,West,1,0,1
b,East,1,0,1
b,West,0,1,1
All,,3,2,5
