# 基础用法
本节介绍 Pandas 数据结构的基础用法。

In [2]:
import numpy as np
import pandas as pd

创建示例数据对象

In [3]:
index = pd.date_range('1/1/2000', periods=8)
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
df = pd.DataFrame(np.random.randn(8, 3), index=index,columns=['A', 'B', 'C'])
print(df.head())

                   A         B         C
2000-01-01  2.154673 -0.737510  1.203240
2000-01-02 -0.900629 -2.047972 -1.719049
2000-01-03 -0.398915 -1.955144 -0.524376
2000-01-04 -1.038913  1.399373 -0.462991
2000-01-05  0.028534  0.403210  0.049354


# 1.Head 与 Tail
head() 与 tail() 用于快速预览 Series 与 DataFrame，默认显示 5 条数据，也可以指定显示数据的数量。

In [4]:
long_series = pd.Series(np.random.randn(1000))
long_series.head()

0   -1.778055
1    1.054245
2   -1.285888
3    0.410189
4    0.963308
dtype: float64

In [5]:
long_series.tail()

995   -3.343712
996    1.237923
997   -0.178588
998    0.044885
999   -0.428086
dtype: float64

# 2.属性与底层数据
Pandas 可以通过多个属性访问元数据：

shape: 
    输出对象的轴维度，与 ndarray 一致

轴标签:
    Series: Index (仅有此轴)
    DataFrame: Index (行) 与列

注意： 为属性赋值是安全的！

In [6]:
df[:2]

Unnamed: 0,A,B,C
2000-01-01,2.154673,-0.73751,1.20324
2000-01-02,-0.900629,-2.047972,-1.719049


In [8]:
df.columns = [x.lower() for x in df.columns]
df

Unnamed: 0,a,b,c
2000-01-01,2.154673,-0.73751,1.20324
2000-01-02,-0.900629,-2.047972,-1.719049
2000-01-03,-0.398915,-1.955144,-0.524376
2000-01-04,-1.038913,1.399373,-0.462991
2000-01-05,0.028534,0.40321,0.049354
2000-01-06,-1.526045,-0.210021,0.460599
2000-01-07,2.196513,0.527812,-0.38916
2000-01-08,0.9877,-0.279704,-1.496783


Pandas 对象（Index， Series， DataFrame）相当于数组的容器，用于存储数据、执行计算。大部分类型的底层数组都是 numpy.ndarray。不过，Pandas 与第三方支持库一般都会扩展 NumPy 类型系统，添加自定义数组（见数据类型）。

array 属性用于提取 Index 或 Series 里的数据。

提取 NumPy 数组，用 to_numpy() 或 numpy.asarray()。

In [16]:
np.array(s)

array([-0.74618631, -0.06724112, -0.60979418, -1.38741381,  1.06579504])

In [13]:
np.asarray(s)

array([-0.74618631, -0.06724112, -0.60979418, -1.38741381,  1.06579504])

In [17]:
np.array(s.index)

array(['a', 'b', 'c', 'd', 'e'], dtype=object)

# 3.加速操作
借助 numexpr 与 bottleneck 支持库，Pandas 可以加速特定类型的二进制数值与布尔操作。

处理大型数据集时，这两个支持库特别有用，加速效果也非常明显。 numexpr 使用智能分块、缓存与多核技术。bottleneck 是一组专属 cython 例程，处理含 nans 值的数组时，特别快。

请看下面这个例子（DataFrame 包含 100 列 X 10 万行数据）:

操作	0.11.0版 (ms)	旧版 (ms)	提升比率
df1 > df2	13.32	125.35	0.1063
df1 * df2	21.71	36.63	0.5928
df1 + df2	22.04	36.50	0.6039
强烈建议安装这两个支持库。

这两个支持库默认为启用状态，可用以下选项设置：

0.20.0 版新增。

pd.set_option('compute.use_bottleneck', False)

pd.set_option('compute.use_numexpr', False)

# 4.二进制操作
Pandas 数据结构之间执行二进制操作，要注意下列两个关键点：

多维（DataFrame）与低维（Series）对象之间的广播机制；

计算中的缺失值处理。

这两个问题可以同时处理，但下面先介绍怎么分开处理。

匹配/广播机制

DataFrame 支持 add()、sub()、mul()、div() 及 radd()、rsub() 等方法执行二进制操作。广播机制重点关注输入的 Series。通过 axis 关键字，匹配 index 或 columns 即可调用这些函数。

In [21]:
df = pd.DataFrame({
   ....:     'one': pd.Series(np.random.randn(3), index=['a', 'b', 'c']),
   ....:     'two': pd.Series(np.random.randn(4), index=['a', 'b', 'c', 'd']),
   ....:     'three': pd.Series(np.random.randn(3), index=['b', 'c', 'd'])})
df

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [23]:
row = df.iloc[1]
row

one     -0.670989
two     -0.372091
three    0.222521
Name: b, dtype: float64

In [24]:
column = df['two']
column

a   -2.092453
b   -0.372091
c    0.327729
d    1.622268
Name: two, dtype: float64

In [25]:
df.sub(row, axis='columns')

Unnamed: 0,one,two,three
a,1.699239,-1.720362,
b,0.0,0.0,0.0
c,0.037912,0.699821,1.133696
d,,1.994359,0.310345


In [26]:
df.sub(row, axis=1)

Unnamed: 0,one,two,three
a,1.699239,-1.720362,
b,0.0,0.0,0.0
c,0.037912,0.699821,1.133696
d,,1.994359,0.310345


In [27]:
df.sub(column, axis='index')

Unnamed: 0,one,two,three
a,3.120703,0.0,
b,-0.298898,0.0,0.594612
c,-0.960806,0.0,1.028488
d,,0.0,-1.089402


In [28]:
df.sub(column, axis=0)

Unnamed: 0,one,two,three
a,3.120703,0.0,
b,-0.298898,0.0,0.594612
c,-0.960806,0.0,1.028488
d,,0.0,-1.089402


还可以用 Series 对齐多层索引 DataFrame 的某一层级

In [31]:
dfmi = df.copy()
dfmi.index = pd.MultiIndex.from_tuples([(1, 'a'), (1, 'b'),
                                        (1, 'c'), (2, 'a')],
                                       names=['first', 'second'])
dfmi

Unnamed: 0_level_0,Unnamed: 1_level_0,one,two,three
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,a,1.028251,-2.092453,
1,b,-0.670989,-0.372091,0.222521
1,c,-0.633077,0.327729,1.356217
2,a,,1.622268,0.532866


In [32]:
dfmi.sub(column, axis=0, level='second')

Unnamed: 0_level_0,Unnamed: 1_level_0,one,two,three
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,a,3.120703,0.0,
1,b,-0.298898,0.0,0.594612
1,c,-0.960806,0.0,1.028488
2,a,,3.714721,2.625319


Series 与 Index 还支持 divmod() 内置函数，该函数同时执行向下取整除与模运算，返回两个与左侧类型相同的元组。示例如下：

In [33]:
s = pd.Series(np.arange(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

In [35]:
div, rem = divmod(s, 3)
print(div)
print('-----------------------------')
print(rem)

0    0
1    0
2    0
3    1
4    1
5    1
6    2
7    2
8    2
9    3
dtype: int32
-----------------------------
0    0
1    1
2    2
3    0
4    1
5    2
6    0
7    1
8    2
9    0
dtype: int32


In [36]:
idx = pd.Index(np.arange(10))
idx

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')

In [37]:
div, rem = divmod(idx, 3)
print(div)
print('-----------------------------')
print(rem)

Int64Index([0, 0, 0, 1, 1, 1, 2, 2, 2, 3], dtype='int64')
-----------------------------
Int64Index([0, 1, 2, 0, 1, 2, 0, 1, 2, 0], dtype='int64')


divmod() 还支持元素级运算

In [38]:
div, rem = divmod(s, [2, 2, 3, 3, 4, 4, 5, 5, 6, 6])
print(div)
print('-----------------------------')
print(rem)

0    0
1    0
2    0
3    1
4    1
5    1
6    1
7    1
8    1
9    1
dtype: int32
-----------------------------
0    0
1    1
2    2
3    0
4    0
5    1
6    1
7    2
8    2
9    3
dtype: int32


# 5.缺失值与填充缺失值操作

Series 与 DataFrame 的算数函数支持 fill_value 选项，即用指定值替换某个位置的缺失值。比如，两个 DataFrame 相加，除非两个 DataFrame 里同一个位置都有缺失值，其相加的和仍为 NaN，如果只有一个 DataFrame 里存在缺失值，则可以用 fill_value 指定一个值来替代 NaN，当然，也可以用 fillna 把 NaN 替换为想要的值。

In [39]:
df

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [46]:
df2=df.copy()
df2.at['d','one']=np.nan
df2.at['a','three']=1.
df2

Unnamed: 0,one,two,three
a,1.028251,-2.092453,1.0
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [47]:
df+df2

Unnamed: 0,one,two,three
a,2.056501,-4.184906,
b,-1.341977,-0.744182,0.445043
c,-1.266154,0.655459,2.712434
d,,3.244536,1.065732


In [48]:
df.add(df2,fill_value=0)

Unnamed: 0,one,two,three
a,2.056501,-4.184906,1.0
b,-1.341977,-0.744182,0.445043
c,-1.266154,0.655459,2.712434
d,,3.244536,1.065732


# 6.比较操作
与上一小节的算数运算类似，Series 与 DataFrame 还支持 eq、ne、lt、gt、le、ge 等二进制比较操作的方法

序号	缩写	英文	中文

1	eq	equal to	等于

2	ne	not equal to	不等于

3	lt	less than	小于

4	gt	greater than	大于

5	le	less than or equal to	小于等于

6	ge	greater than or equal to	大于等于

In [50]:
df.gt(df2)

Unnamed: 0,one,two,three
a,False,False,False
b,False,False,False
c,False,False,False
d,False,False,False


In [51]:
df2.ne(df)

Unnamed: 0,one,two,three
a,False,False,True
b,False,False,False
c,False,False,False
d,True,False,False


# 7.布尔简化
empty、any()、all()、bool() 可以把数据汇总简化至单个布尔值。

In [52]:
(df > 0).all()

one      False
two      False
three    False
dtype: bool

In [53]:
(df > 0).any()

one      True
two      True
three    True
dtype: bool

还可以进一步把上面的结果简化为单个布尔值

In [54]:
 (df > 0).any().any()

True

通过 empty 属性，可以验证 Pandas 对象是否为空

In [55]:
df.empty

False

In [56]:
pd.DataFrame(columns=list('ABC')).empty

True

用 bool() 方法验证单元素 pandas 对象的布尔值

In [57]:
pd.Series([True]).bool()

True

In [58]:
pd.Series([False]).bool()

False

In [59]:
pd.DataFrame([[True]]).bool()

True

In [60]:
pd.DataFrame([[False]]).bool()

False

# 8.比较对象是否等效

一般情况下，多种方式都能得出相同的结果。以 df + df 与 df * 2 为例。应用上一小节学到的知识，测试这两种计算方式的结果是否一致，一般人都会用 (df + df == df * 2).all()，不过，这个表达式的结果是 False：

In [61]:
df + df == df * 2

Unnamed: 0,one,two,three
a,True,True,False
b,True,True,True
c,True,True,True
d,False,True,True


In [62]:
(df + df == df * 2).all()

one      False
two       True
three    False
dtype: bool

注意：布尔型 DataFrame df + df == df * 2 中有 False 值！这是因为两个 NaN 值的比较结果为不等：

In [63]:
np.nan == np.nan

False

为了验证数据是否等效，Series 与 DataFrame 等 N 维框架提供了 equals() 方法，用这个方法验证 NaN 值的结果为相等。

In [64]:
(df + df).equals(df * 2)

True

In [65]:
# 注意：Series 与 DataFrame 索引的顺序必须一致，验证结果才能为 True：
df1 = pd.DataFrame({'col': ['foo', 0, np.nan]})
df2 = pd.DataFrame({'col': [np.nan, 0, 'foo']}, index=[2, 1, 0])
print(df1)
print('------------------')
print(df2)

   col
0  foo
1    0
2  NaN
------------------
   col
2  NaN
1    0
0  foo


In [66]:
df1.equals(df2)

False

In [67]:
df1.equals(df2.sort_index())

True

# 9.比较 array 型对象

In [68]:
# 用标量值与 Pandas 数据结构对比数据元素非常简单：
pd.Series(['foo', 'bar', 'baz']) == 'foo'

0     True
1    False
2    False
dtype: bool

In [69]:
pd.Index(['foo', 'bar', 'baz']) == 'foo'

array([ True, False, False])

In [70]:
# Pandas 还能对比两个等长 array 对象里的数据元素：
pd.Series(['foo', 'bar', 'baz']) == pd.Index(['foo', 'bar', 'qux'])

0     True
1     True
2    False
dtype: bool

In [71]:
pd.Series(['foo', 'bar', 'baz']) == np.array(['foo', 'bar', 'qux'])

0     True
1     True
2    False
dtype: bool

In [72]:
# 对比不等长的 Index 或 Series 对象会触发 ValueError：
pd.Series(['foo', 'bar', 'baz']) == pd.Series(['foo', 'bar'])

ValueError: Can only compare identically-labeled Series objects

# 10.合并重叠数据集
有时，要合并两个相似的数据集，两个数据集里的其中一个的数据比另一个多。比如，展示特定经济指标的两个数据序列，其中一个是“高质量”指标，另一个是“低质量”指标。一般来说，低质量序列可能包含更多的历史数据，或覆盖更广的数据。因此，要合并这两个 DataFrame 对象，其中一个 DataFrame 中的缺失值将按指定条件用另一个 DataFrame 里类似标签中的数据进行填充。要实现这一操作，请用下列代码中的 combine_first() 函数。

In [73]:
df1 = pd.DataFrame({'A': [1., np.nan, 3., 5., np.nan],
                    'B': [np.nan, 2., 3., np.nan, 6.]})
df1

Unnamed: 0,A,B
0,1.0,
1,,2.0
2,3.0,3.0
3,5.0,
4,,6.0


In [74]:
df2 = pd.DataFrame({'A': [5., 2., 4., np.nan, 3., 7.],
                     'B': [np.nan, np.nan, 3., 4., 6., 8.]})
df2

Unnamed: 0,A,B
0,5.0,
1,2.0,
2,4.0,3.0
3,,4.0
4,3.0,6.0
5,7.0,8.0


In [75]:
df1.combine_first(df2)

Unnamed: 0,A,B
0,1.0,
1,2.0,2.0
2,3.0,3.0
3,5.0,4.0
4,3.0,6.0
5,7.0,8.0


# 11.DataFrame 通用合并方法
上述 combine_first() 方法调用了更普适的 DataFrame.combine() 方法。该方法提取另一个 DataFrame 及合并器函数，并将之与输入的 DataFrame 对齐，再传递与 Series 配对的合并器函数（比如，名称相同的列）。

In [76]:
# 下面的代码复现了上述的 combine_first() 函数：
def combiner(x, y):
    return np.where(pd.isna(x), y, x)

# 12.描述性统计
Series 与 DataFrame 支持大量计算描述性统计的方法与操作。这些方法大部分都是 sum()、mean()、quantile() 等聚合函数，其输出结果比原始数据集小；此外，还有输出结果与原始数据集同样大小的 cumsum() 、 cumprod() 等函数。这些方法都基本上都接受 axis 参数，如， ndarray.{sum,std,…}，但这里的 axis 可以用名称或整数指定：

Series：无需 axis 参数

DataFrame：
index，即 axis=0，默认值；
columns, 即 axis=1

In [77]:
df

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [78]:
df.mean(0)

one     -0.091938
two     -0.128637
three    0.703868
dtype: float64

In [79]:
df.mean(1)

a   -0.532101
b   -0.273519
c    0.350290
d    1.077567
dtype: float64

In [80]:
# 上述方法都支持 skipna 关键字，指定是否要排除缺失数据，默认值为 True
df.sum(0, skipna=False)

one           NaN
two     -0.514546
three         NaN
dtype: float64

In [81]:
df.sum(axis=1, skipna=True)

a   -1.064202
b   -0.820558
c    1.050870
d    2.155134
dtype: float64

In [82]:
# 结合广播机制或算数操作，可以描述不同统计过程，比如标准化，即渲染数据零均值与标准差 
# 1，这种操作非常简单：
ts_stand = (df - df.mean()) / df.std()
ts_stand.std()

one      1.0
two      1.0
three    1.0
dtype: float64

In [83]:
xs_stand = df.sub(df.mean(1), axis=0).div(df.std(1), axis=0)
xs_stand.std(1)

a    1.0
b    1.0
c    1.0
d    1.0
dtype: float64

In [84]:
# 注 ： cumsum() 与 cumprod() 等方法保留 NaN 值的位置。这与 expanding() 和 rolling() 略显不同
df.cumsum()

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,0.357262,-2.464544,0.222521
c,-0.275815,-2.136815,1.578738
d,,-0.514546,2.111604


下表为常用函数汇总表。每个函数都支持 level 参数，仅在数据对象为结构化 Index 时使用。

函数	描述

count	统计非空值数量

sum	汇总值

mean	平均值

mad	平均绝对偏差

median	算数中位数

min	最小值

max	最大值

mode	众数

abs	绝对值

prod	乘积

std	贝塞尔校正的样本标准偏差

var	无偏方差

sem	平均值的标准误差

skew	样本偏度 (第三阶)

kurt	样本峰度 (第四阶)

quantile	样本分位数 (不同 % 的值)

cumsum	累加

cumprod	累乘

cummax	累积最大值

cummin	累积最小值

注意：NumPy 的 mean、std、sum 等方法默认不统计 Series 里的空值。

In [85]:
np.mean(df['one'])

-0.09193830692011447

In [89]:
# Series.nunique() 返回 Series 里所有非空值的唯一值。
series = pd.Series(np.random.randn(500))
series.head()

0   -0.870975
1    1.527232
2    0.339325
3   -1.549234
4    0.731865
dtype: float64

In [91]:
series[20:500] = np.nan
series[10:20] = 5

In [92]:
series.nunique()

11

# 13.数据总结：describe

describe() 函数计算 Series 与 DataFrame 数据列的各种数据统计量，注意，这里排除了空值。

In [93]:
series = pd.Series(np.random.randn(1000))
series[::2] = np.nan
series.describe()

count    500.000000
mean       0.003120
std        1.008260
min       -2.633692
25%       -0.697136
50%       -0.020745
75%        0.700684
max        3.033429
dtype: float64

In [95]:
frame = pd.DataFrame(np.random.randn(1000, 5),columns=['a', 'b', 'c', 'd', 'e'])
frame.iloc[::2] = np.nan
frame.describe()

Unnamed: 0,a,b,c,d,e
count,500.0,500.0,500.0,500.0,500.0
mean,-0.075192,-0.04448,0.014824,0.105191,0.048436
std,1.036523,1.002434,1.005207,0.983548,1.040899
min,-3.051108,-2.88959,-3.251393,-3.096695,-2.841797
25%,-0.850936,-0.743446,-0.659339,-0.572305,-0.643148
50%,-0.064091,-0.034877,-0.001648,0.055908,0.060712
75%,0.68781,0.62248,0.718673,0.785611,0.708516
max,2.483011,3.043794,3.326192,3.257312,3.490032


In [96]:
# 此外，还可以指定输出结果包含的分位数：
series.describe(percentiles=[.05, .25, .75, .95])

count    500.000000
mean       0.003120
std        1.008260
min       -2.633692
5%        -1.584809
25%       -0.697136
50%       -0.020745
75%        0.700684
95%        1.712925
max        3.033429
dtype: float64

In [97]:
# 一般情况下，默认值包含中位数。
# 对于非数值型 Series 对象， describe() 返回值的总数、唯一值数量、出现次数最多的值及出现的次数。
s = pd.Series(['a', 'a', 'b', 'b', 'a', 'a', np.nan, 'c', 'd', 'a'])
s.describe()

count     9
unique    4
top       a
freq      5
dtype: object

In [98]:
# 注意：对于混合型的 DataFrame 对象， describe() 只返回数值列的汇总统计量，如果没有数值列，则只显示类别型的列。
frame = pd.DataFrame({'a': ['Yes', 'Yes', 'No', 'No'], 'b': range(4)})
frame.describe()

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


In [99]:
# include/exclude 参数的值为列表，用该参数可以控制包含或排除的数据类型。这里还有一个特殊值，all：
frame.describe(include=['object'])

Unnamed: 0,a
count,4
unique,2
top,Yes
freq,2


In [100]:
frame.describe(include=['number'])

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


In [101]:
frame.describe(include='all')

Unnamed: 0,a,b
count,4,4.0
unique,2,
top,Yes,
freq,2,
mean,,1.5
std,,1.290994
min,,0.0
25%,,0.75
50%,,1.5
75%,,2.25


# 14.最大值与最小值对应的索引
Series 与 DataFrame 的 idxmax() 与 idxmin() 函数计算最大值与最小值对应的索引。

In [102]:
s1 = pd.Series(np.random.randn(5))
s1

0    0.499863
1    2.051151
2    0.005150
3   -0.133195
4    0.482721
dtype: float64

In [103]:
s1.idxmin(), s1.idxmax()

(3, 1)

In [104]:
df1 = pd.DataFrame(np.random.randn(5, 3), columns=['A', 'B', 'C'])
df1

Unnamed: 0,A,B,C
0,0.405557,-0.311878,-0.211497
1,0.632784,0.556409,0.304463
2,1.139616,-0.92717,0.620336
3,0.314398,-0.421576,-0.054129
4,0.750833,0.511693,0.401153


In [105]:
df1.idxmin(axis=0)

A    3
B    2
C    0
dtype: int64

In [106]:
df1.idxmax(axis=1)

0    A
1    A
2    A
3    A
4    A
dtype: object

In [107]:
# 多行或多列中存在多个最大值或最小值时，idxmax() 与 idxmin() 只返回匹配到的第一个值的 Index
# idxmin 与 idxmax 对应 NumPy 里的 argmin 与 argmax。
df3 = pd.DataFrame([2, 1, 1, 3, np.nan], columns=['A'], index=list('edcba'))
df3

Unnamed: 0,A
e,2.0
d,1.0
c,1.0
b,3.0
a,


In [108]:
df3['A'].idxmin()

'd'

# 15.值计数（直方图）与众数
Series 的 value_counts() 方法及顶级函数计算一维数组中数据值的直方图，还可以用作常规数组的函数：

In [109]:
data = np.random.randint(0, 7, size=50)
data

array([2, 5, 2, 6, 0, 6, 1, 4, 4, 3, 4, 3, 3, 4, 6, 4, 4, 2, 5, 3, 4, 0,
       6, 5, 6, 6, 4, 3, 4, 3, 2, 1, 5, 0, 0, 6, 2, 2, 3, 3, 2, 5, 1, 0,
       2, 0, 3, 4, 0, 0])

In [110]:
s = pd.Series(data)
s.value_counts()

4    10
3     9
2     8
0     8
6     7
5     5
1     3
dtype: int64

In [111]:
pd.value_counts(data)

4    10
3     9
2     8
0     8
6     7
5     5
1     3
dtype: int64

In [112]:
# 与上述操作类似，还可以统计 Series 或 DataFrame 的众数，即出现频率最高的值：
s5 = pd.Series([1, 1, 3, 3, 3, 5, 5, 7, 7, 7])
s5

0    1
1    1
2    3
3    3
4    3
5    5
6    5
7    7
8    7
9    7
dtype: int64

In [113]:
s5.mode()

0    3
1    7
dtype: int64

In [115]:
df5 = pd.DataFrame({"A": np.random.randint(0, 7, size=50),"B": np.random.randint(-10, 15, size=50)})
df5.mode()

Unnamed: 0,A,B
0,2.0,-6
1,,-5


# 16.离散化与分位数
cut() 函数（以值为依据实现分箱）及 qcut() 函数（以样本分位数为依据实现分箱）用于连续值的离散化：

In [116]:
arr = np.random.randn(20)
factor = pd.cut(arr, 4)
factor

[(-0.557, 0.407], (-0.557, 0.407], (0.407, 1.371], (-1.525, -0.557], (-1.525, -0.557], ..., (1.371, 2.336], (-1.525, -0.557], (-0.557, 0.407], (-0.557, 0.407], (-1.525, -0.557]]
Length: 20
Categories (4, interval[float64]): [(-1.525, -0.557] < (-0.557, 0.407] < (0.407, 1.371] < (1.371, 2.336]]

In [117]:
factor = pd.cut(arr, [-5, -1, 0, 1, 5])
factor

[(0, 1], (0, 1], (0, 1], (-1, 0], (-5, -1], ..., (1, 5], (-1, 0], (-1, 0], (0, 1], (-5, -1]]
Length: 20
Categories (4, interval[int64]): [(-5, -1] < (-1, 0] < (0, 1] < (1, 5]]

In [118]:
# qcut() 计算样本分位数。比如，下列代码按等距分位数分割正态分布的数据：
arr = np.random.randn(30)
factor = pd.qcut(arr, [0, .25, .5, .75, 1])
factor

[(-1.6139999999999999, -0.301], (0.573, 1.73], (0.573, 1.73], (0.225, 0.573], (-1.6139999999999999, -0.301], ..., (0.573, 1.73], (-0.301, 0.225], (-0.301, 0.225], (-1.6139999999999999, -0.301], (0.573, 1.73]]
Length: 30
Categories (4, interval[float64]): [(-1.6139999999999999, -0.301] < (-0.301, 0.225] < (0.225, 0.573] < (0.573, 1.73]]

In [119]:
pd.value_counts(factor)

(0.573, 1.73]                    8
(-1.6139999999999999, -0.301]    8
(0.225, 0.573]                   7
(-0.301, 0.225]                  7
dtype: int64

In [120]:
# 定义分箱时，还可以传递无穷值：
arr = np.random.randn(20)
factor = pd.cut(arr, [-np.inf, 0, np.inf])
factor

[(0.0, inf], (0.0, inf], (-inf, 0.0], (0.0, inf], (0.0, inf], ..., (-inf, 0.0], (-inf, 0.0], (0.0, inf], (0.0, inf], (0.0, inf]]
Length: 20
Categories (2, interval[float64]): [(-inf, 0.0] < (0.0, inf]]

# 17.函数应用
不管是为 Pandas 对象应用自定义函数，还是应用第三方函数，都离不开以下三种方法。用哪种方法取决于操作的对象是 DataFrame，还是 Series ；是行、列，还是元素。

表级函数应用：pipe()

行列级函数应用： apply()

聚合 API： agg() 与 transform()

元素级函数应用：applymap()

# 表级函数应用
虽然可以把 DataFrame 与 Series 传递给函数，不过链式调用函数时，最好使用 pipe() 方法。对比以下两种方式：

f、g、h 是提取、返回 `DataFrames` 的函数

f(g(h(df), arg1=1), arg2=2, arg3=3)

下列代码与上述代码等效：

(df.pipe(h)

   .pipe(g, arg1=1)
   
   .pipe(f, arg2=2, arg3=3))
   
Pandas 鼓励使用第二种方式，即链式方法。在链式方法中调用自定义函数或第三方支持库函数时，用 pipe 更容易，与用 Pandas 自身方法一样。

上例中，f、g 与 h 这几个函数都把 DataFrame 当作首位参数。要是想把数据作为第二个参数，该怎么办？本例中，pipe 为元组
（callable,data_keyword）形式。.pipe 把 DataFrame 作为元组里指定的参数。

下例用 statsmodels 拟合回归。该 API 先接收一个公式，DataFrame 是第二个参数，data。要传递函数，则要用pipe 接收关键词对 (sm.ols,'data')。

In [122]:
import statsmodels.formula.api as sm
bb = pd.read_csv('data/baseball.csv', index_col='id')
(bb.query('h > 0')
    .assign(ln_h=lambda df: np.log(df.h))
    .pipe((sm.ols, 'data'), 'hr ~ ln_h + year + g + C(lg)')
    .fit()
    .summary()
 )

FileNotFoundError: File b'data/baseball.csv' does not exist

# 行列级函数应用
apply() 方法沿着 DataFrame 的轴应用函数，比如，描述性统计方法，该方法支持 axis 参数。

In [126]:
df

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [123]:
df.apply(np.mean)

one     -0.091938
two     -0.128637
three    0.703868
dtype: float64

In [124]:
df.apply(np.mean, axis=1)

a   -0.532101
b   -0.273519
c    0.350290
d    1.077567
dtype: float64

In [125]:
df.apply(lambda x: x.max() - x.min())

one      1.699239
two      3.714721
three    1.133696
dtype: float64

In [127]:
df.apply(lambda x: x.max() - x.min(),axis=1)

a    3.120703
b    0.893510
c    1.989294
d    1.089402
dtype: float64

In [128]:
df.apply(np.cumsum)

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,0.357262,-2.464544,0.222521
c,-0.275815,-2.136815,1.578738
d,,-0.514546,2.111604


In [129]:
df.apply(np.exp)

Unnamed: 0,one,two,three
a,2.79617,0.123384,
b,0.511203,0.689291,1.249222
c,0.530956,1.387813,3.881482
d,,5.064564,1.703809


In [130]:
# apply() 方法还支持通过函数名字符串调用函数。
df.apply('mean')

one     -0.091938
two     -0.128637
three    0.703868
dtype: float64

In [131]:
df.apply('mean', axis=1)

a   -0.532101
b   -0.273519
c    0.350290
d    1.077567
dtype: float64

In [132]:
# 默认情况下，apply() 调用的函数返回的类型会影响 DataFrame.apply 输出结果的类型。

# 函数返回的是 Series 时，最终输出结果是 DataFrame。输出的列与函数返回的 Series 索引相匹配。

# 函数返回其它任意类型时，输出结果是 Series。

# result_type 会覆盖默认行为，该参数有三个选项：reduce、broadcast、expand。这些选项决定了列表型返回值是否扩展为 DataFrame。

# 用好 apply() 可以了解数据集的很多信息。比如可以提取每列的最大值对应的日期：
tsdf = pd.DataFrame(np.random.randn(1000, 3), columns=['A', 'B', 'C'],
                     index=pd.date_range('1/1/2000', periods=1000))
tsdf.apply(lambda x: x.idxmax())

A   2001-07-24
B   2000-01-24
C   2000-01-29
dtype: datetime64[ns]

In [134]:
# 还可以向 apply() 方法传递额外的参数与关键字参数。比如下例中要应用的这个函数：
def subtract_and_divide(x, sub, divide=1):
    return (x - sub) / divide
# 可以用下列方式应用该函数：
df.apply(subtract_and_divide, args=(5,), divide=3)

Unnamed: 0,one,two,three
a,-1.323916,-2.364151,
b,-1.89033,-1.790697,-1.592493
c,-1.877692,-1.557424,-1.214594
d,,-1.125911,-1.489045


In [135]:
# 为每行或每列执行 Series 方法的功能也很实用：
tsdf

Unnamed: 0,A,B,C
2000-01-01,0.472543,0.770398,0.396867
2000-01-02,-1.686789,0.533987,-0.795214
2000-01-03,-0.979347,0.204868,-0.631371
2000-01-04,-1.522112,-2.014447,0.027977
2000-01-05,-0.894064,0.941507,-0.137022
2000-01-06,-0.310021,-1.735040,0.681924
2000-01-07,0.584240,1.188652,1.250014
2000-01-08,0.739759,0.250017,-0.160860
2000-01-09,0.302815,-1.725283,1.142232
2000-01-10,0.277547,-0.931137,0.648601


In [136]:
# apply() 有一个参数 raw，默认值为 False，在应用函数前，使用该参数可以将每行或列转换为 Series。
# 该参数为 True 时，传递的函数接收 ndarray 对象，若不需要索引功能，这种操作能显著提高性能。
tsdf.apply(pd.Series.interpolate)

Unnamed: 0,A,B,C
2000-01-01,0.472543,0.770398,0.396867
2000-01-02,-1.686789,0.533987,-0.795214
2000-01-03,-0.979347,0.204868,-0.631371
2000-01-04,-1.522112,-2.014447,0.027977
2000-01-05,-0.894064,0.941507,-0.137022
2000-01-06,-0.310021,-1.735040,0.681924
2000-01-07,0.584240,1.188652,1.250014
2000-01-08,0.739759,0.250017,-0.160860
2000-01-09,0.302815,-1.725283,1.142232
2000-01-10,0.277547,-0.931137,0.648601


# 18.聚合 API
聚合 API 可以快速、简洁地执行多个聚合操作。Pandas 对象支持多个类似的 API，如 groupby API、window functions API、resample API。聚合函数为DataFrame.aggregate()，它的别名是 DataFrame.agg()。

In [137]:
tsdf = pd.DataFrame(np.random.randn(10, 3), columns=['A', 'B', 'C'],
                    index=pd.date_range('1/1/2000', periods=10))
tsdf.iloc[3:7] = np.nan
tsdf

Unnamed: 0,A,B,C
2000-01-01,-0.906811,0.203048,-1.036276
2000-01-02,-0.007386,-0.861816,-0.370407
2000-01-03,-0.535301,-0.781,1.352182
2000-01-04,,,
2000-01-05,,,
2000-01-06,,,
2000-01-07,,,
2000-01-08,0.439079,0.170203,-0.526698
2000-01-09,-1.244425,-0.685253,-0.255221
2000-01-10,1.269093,-0.933601,-2.156565


In [138]:
# 应用单个函数时，该操作与 apply() 等效，这里也可以用字符串表示聚合函数名。下面的聚合函数输出的结果为 Series
tsdf.agg(np.sum)

A   -0.985751
B   -2.888420
C   -2.992986
dtype: float64

In [139]:
tsdf.agg('sum')

A   -0.985751
B   -2.888420
C   -2.992986
dtype: float64

In [140]:
# 因为应用的是单个函数，该操作与`.sum()` 是等效的
tsdf.sum()

A   -0.985751
B   -2.888420
C   -2.992986
dtype: float64

In [141]:
# Series 单个聚合操作返回标量值：
tsdf.A.agg('sum')

-0.9857512860618505

# 19.多函数聚合
还可以用列表形式传递多个聚合函数。每个函数在输出结果 DataFrame 里以行的形式显示，行名是每个聚合函数的函数名。

In [142]:
tsdf.agg(['sum'])

Unnamed: 0,A,B,C
sum,-0.985751,-2.88842,-2.992986


In [143]:
# 多个函数输出多行：
tsdf.agg(['sum', 'mean'])

Unnamed: 0,A,B,C
sum,-0.985751,-2.88842,-2.992986
mean,-0.164292,-0.481403,-0.498831


In [144]:
# Series 聚合多函数返回结果还是 Series，索引为函数名：
tsdf.A.agg(['sum', 'mean'])

sum    -0.985751
mean   -0.164292
Name: A, dtype: float64

In [145]:
# 传递 lambda 函数时，输出名为 <lambda> 的行：
tsdf.A.agg(['sum', lambda x: x.mean()])

sum        -0.985751
<lambda>   -0.164292
Name: A, dtype: float64

In [146]:
# 应用自定义函数时，该函数名为输出结果的行名：
def mymean(x):
    return x.mean()
tsdf.A.agg(['sum', mymean])

sum      -0.985751
mymean   -0.164292
Name: A, dtype: float64

# 20.用字典实现聚合
指定为哪些列应用哪些聚合函数时，需要把包含列名与标量（或标量列表）的字典传递给 DataFrame.agg。

注意：这里输出结果的顺序不是固定的，要想让输出顺序与输入顺序一致，请使用 OrderedDict。

In [147]:
tsdf.agg({'A': 'mean', 'B': 'sum'})

A   -0.164292
B   -2.888420
dtype: float64

In [148]:
# 输入的参数是列表时，输出结果为 DataFrame，并以矩阵形式显示所有聚合函数的计算结果，且输出结果由所有唯一函数组成。
# 未执行聚合操作的列输出结果为 NaN 值：
tsdf.agg({'A': ['mean', 'min'], 'B': 'sum'})

Unnamed: 0,A,B
mean,-0.164292,
min,-1.244425,
sum,,-2.88842


# 21.多种数据类型（Dtype）
与 groupby 的 .agg 操作类似，DataFrame 含不能执行聚合的数据类型时，.agg 只计算可聚合的列

In [156]:
mdf = pd.DataFrame({'A': [1, 2, 3],
   .....:                     'B': [1., 2., 3.],
   .....:                     'C': ['foo', 'bar', 'baz'],
   .....:                     'D': pd.date_range('20190101', periods=3)})
mdf

Unnamed: 0,A,B,C,D
0,1,1.0,foo,2019-01-01
1,2,2.0,bar,2019-01-02
2,3,3.0,baz,2019-01-03


In [157]:
mdf.dtypes

A             int64
B           float64
C            object
D    datetime64[ns]
dtype: object

In [158]:
mdf.agg(['min', 'sum'])

Unnamed: 0,A,B,C,D
min,1,1.0,bar,2019-01-01
sum,6,6.0,foobarbaz,NaT


# 22.自定义 Describe
.agg() 可以创建类似于内置 describe 函数 的自定义 describe 函数。

In [152]:
from functools import partial
q_25 = partial(pd.Series.quantile, q=0.25)
q_25.__name__ = '25%'
q_75 = partial(pd.Series.quantile, q=0.75)
q_75.__name__ = '75%'
tsdf.agg(['count', 'mean', 'std', 'min', q_25, 'median', q_75, 'max'])

Unnamed: 0,A,B,C
count,6.0,6.0,6.0
mean,-0.164292,-0.481403,-0.498831
std,0.927247,0.524132,1.14366
min,-1.244425,-0.933601,-2.156565
25%,-0.813934,-0.841612,-0.908882
median,-0.271344,-0.733127,-0.448553
75%,0.327462,-0.043661,-0.284017
max,1.269093,0.203048,1.352182


# 23.Transform API
transform() 方法的返回结果与原始数据的索引相同，大小相同。与 .agg API 类似，该 API 支持同时处理多种操作，不用一个一个操作。

In [155]:
tsdf = pd.DataFrame(np.random.randn(10, 3), columns=['A', 'B', 'C'],
   .....:                     index=pd.date_range('1/1/2019', periods=10))
tsdf.iloc[3:7] = np.nan
tsdf

Unnamed: 0,A,B,C
2019-01-01,0.199088,-0.077625,-0.598477
2019-01-02,-0.72603,1.370391,0.614461
2019-01-03,0.589777,-1.43497,0.068016
2019-01-04,,,
2019-01-05,,,
2019-01-06,,,
2019-01-07,,,
2019-01-08,0.267045,1.17386,-0.957787
2019-01-09,1.25533,1.287038,-0.783112
2019-01-10,-1.11824,-0.518364,-1.961431


In [159]:
# 这里转换的是整个 DataFrame。.transform() 支持 NumPy 函数、字符串函数及自定义函数。
tsdf.transform(np.abs)

Unnamed: 0,A,B,C
2019-01-01,0.199088,0.077625,0.598477
2019-01-02,0.72603,1.370391,0.614461
2019-01-03,0.589777,1.43497,0.068016
2019-01-04,,,
2019-01-05,,,
2019-01-06,,,
2019-01-07,,,
2019-01-08,0.267045,1.17386,0.957787
2019-01-09,1.25533,1.287038,0.783112
2019-01-10,1.11824,0.518364,1.961431


In [160]:
 tsdf.transform('abs')

Unnamed: 0,A,B,C
2019-01-01,0.199088,0.077625,0.598477
2019-01-02,0.72603,1.370391,0.614461
2019-01-03,0.589777,1.43497,0.068016
2019-01-04,,,
2019-01-05,,,
2019-01-06,,,
2019-01-07,,,
2019-01-08,0.267045,1.17386,0.957787
2019-01-09,1.25533,1.287038,0.783112
2019-01-10,1.11824,0.518364,1.961431


In [161]:
tsdf.transform(lambda x: x.abs())

Unnamed: 0,A,B,C
2019-01-01,0.199088,0.077625,0.598477
2019-01-02,0.72603,1.370391,0.614461
2019-01-03,0.589777,1.43497,0.068016
2019-01-04,,,
2019-01-05,,,
2019-01-06,,,
2019-01-07,,,
2019-01-08,0.267045,1.17386,0.957787
2019-01-09,1.25533,1.287038,0.783112
2019-01-10,1.11824,0.518364,1.961431


In [162]:
# 这里的 transform() 接受单个函数；与 ufunc 等效。
np.abs(tsdf)

Unnamed: 0,A,B,C
2019-01-01,0.199088,0.077625,0.598477
2019-01-02,0.72603,1.370391,0.614461
2019-01-03,0.589777,1.43497,0.068016
2019-01-04,,,
2019-01-05,,,
2019-01-06,,,
2019-01-07,,,
2019-01-08,0.267045,1.17386,0.957787
2019-01-09,1.25533,1.287038,0.783112
2019-01-10,1.11824,0.518364,1.961431


In [163]:
# .transform() 向 Series 传递单个函数时，返回的结果也是单个 Series。
tsdf.A.transform(np.abs)

2019-01-01    0.199088
2019-01-02    0.726030
2019-01-03    0.589777
2019-01-04         NaN
2019-01-05         NaN
2019-01-06         NaN
2019-01-07         NaN
2019-01-08    0.267045
2019-01-09    1.255330
2019-01-10    1.118240
Freq: D, Name: A, dtype: float64

# 24.多函数 Transform
transform() 调用多个函数时，生成多层索引 DataFrame。第一层是原始数据集的列名；第二层是 transform() 调用的函数名。

In [164]:
tsdf.transform([np.abs, lambda x: x + 1])

Unnamed: 0_level_0,A,A,B,B,C,C
Unnamed: 0_level_1,absolute,<lambda>,absolute,<lambda>,absolute,<lambda>
2019-01-01,0.199088,1.199088,0.077625,0.922375,0.598477,0.401523
2019-01-02,0.72603,0.27397,1.370391,2.370391,0.614461,1.614461
2019-01-03,0.589777,1.589777,1.43497,-0.43497,0.068016,1.068016
2019-01-04,,,,,,
2019-01-05,,,,,,
2019-01-06,,,,,,
2019-01-07,,,,,,
2019-01-08,0.267045,1.267045,1.17386,2.17386,0.957787,0.042213
2019-01-09,1.25533,2.25533,1.287038,2.287038,0.783112,0.216888
2019-01-10,1.11824,-0.11824,0.518364,0.481636,1.961431,-0.961431


In [165]:
# 为 Series 应用多个函数时，输出结果是 DataFrame，列名是 transform() 调用的函数名。
tsdf.A.transform([np.abs, lambda x: x + 1])

Unnamed: 0,absolute,<lambda>
2019-01-01,0.199088,1.199088
2019-01-02,0.72603,0.27397
2019-01-03,0.589777,1.589777
2019-01-04,,
2019-01-05,,
2019-01-06,,
2019-01-07,,
2019-01-08,0.267045,1.267045
2019-01-09,1.25533,2.25533
2019-01-10,1.11824,-0.11824


# 25.用字典执行 transform 操作
函数字典可以为每列执行指定 transform() 操作。

In [166]:
tsdf.transform({'A': np.abs, 'B': lambda x: x + 1})

Unnamed: 0,A,B
2019-01-01,0.199088,0.922375
2019-01-02,0.72603,2.370391
2019-01-03,0.589777,-0.43497
2019-01-04,,
2019-01-05,,
2019-01-06,,
2019-01-07,,
2019-01-08,0.267045,2.17386
2019-01-09,1.25533,2.287038
2019-01-10,1.11824,0.481636


In [167]:
# transform() 的参数是列表字典时，生成的是以 transform() 调用的函数为名的多层索引 DataFrame。
tsdf.transform({'A': np.abs, 'B': [lambda x: x + 1, 'sqrt']})

Unnamed: 0_level_0,A,B,B
Unnamed: 0_level_1,absolute,<lambda>,sqrt
2019-01-01,0.199088,0.922375,
2019-01-02,0.72603,2.370391,1.170637
2019-01-03,0.589777,-0.43497,
2019-01-04,,,
2019-01-05,,,
2019-01-06,,,
2019-01-07,,,
2019-01-08,0.267045,2.17386,1.083448
2019-01-09,1.25533,2.287038,1.134477
2019-01-10,1.11824,0.481636,


# 26.元素级函数应用
并非所有函数都能矢量化，即接受 NumPy 数组，返回另一个数组或值，DataFrame 的 applymap() 及 Series 的 map() ，支持任何接收单个值并返回单个值的 Python 函数。

In [169]:
df

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [170]:
def f(x):
    return len(str(x))
df['one'].map(f)

a    18
b    19
c    19
d     3
Name: one, dtype: int64

In [171]:
df.applymap(f)

Unnamed: 0,one,two,three
a,18,18,3
b,19,20,18
c,19,18,18
d,3,18,18


In [173]:
# Series.map() 还有个功能，可以“连接”或“映射”第二个 Series 定义的值。这与 merging / joining 功能联系非常紧密：
s = pd.Series(['six', 'seven', 'six', 'seven', 'six'],index=['a', 'b', 'c', 'd', 'e'])
s

a      six
b    seven
c      six
d    seven
e      six
dtype: object

In [176]:
t = pd.Series({'six': 6., 'seven': 7.})
s.map(t)

a    6.0
b    7.0
c    6.0
d    7.0
e    6.0
dtype: float64

# 27.重置索引与更换标签
reindex() 是 Pandas 里实现数据对齐的基本方法，该方法执行几乎所有功能都要用到的标签对齐功能。 reindex 指的是沿着指定轴，让数据与给定的一组标签进行匹配。该功能完成以下几项操作：

让现有数据匹配一组新标签，并重新排序；

在无数据但有标签的位置插入缺失值（NA）标记；

如果指定，则按逻辑填充无标签的数据，该操作多见于时间序列数据。

In [177]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a    0.416753
b    0.532856
c   -0.427609
d   -0.261751
e   -0.124828
dtype: float64

In [178]:
s.reindex(['e', 'b', 'f', 'd'])

e   -0.124828
b    0.532856
f         NaN
d   -0.261751
dtype: float64

In [179]:
# 本例中，原 Series 里没有标签 f ，因此，输出结果里 f 对应的值为 NaN。
# DataFrame 支持同时 reindex 索引与列：
df

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [180]:
df.reindex(index=['c', 'f', 'b'], columns=['three', 'two', 'one'])

Unnamed: 0,three,two,one
c,1.356217,0.327729,-0.633077
f,,,
b,0.222521,-0.372091,-0.670989


In [181]:
# reindex 还支持 axis 关键字：
df.reindex(['c', 'f', 'b'], axis='index')

Unnamed: 0,one,two,three
c,-0.633077,0.327729,1.356217
f,,,
b,-0.670989,-0.372091,0.222521


In [183]:
# 注意：不同对象可以共享 Index 包含的轴标签。比如，有一个 Series，还有一个 DataFrame，可以执行下列操作：
rs = s.reindex(df.index)
rs

a    0.416753
b    0.532856
c   -0.427609
d   -0.261751
dtype: float64

In [184]:
rs.index is df.index

True

In [185]:
# 这里指的是，重置后，Series 的索引与 DataFrame 的索引是同一个 Python 对象。
# DataFrame.reindex() 还支持 “轴样式”调用习语，可以指定单个 labels 参数，并指定应用于哪个 axis。
df.reindex(['c', 'f', 'b'], axis='index')

Unnamed: 0,one,two,three
c,-0.633077,0.327729,1.356217
f,,,
b,-0.670989,-0.372091,0.222521


In [186]:
df.reindex(['three', 'two', 'one'], axis='columns')

Unnamed: 0,three,two,one
a,,-2.092453,1.028251
b,0.222521,-0.372091,-0.670989
c,1.356217,0.327729,-0.633077
d,0.532866,1.622268,


# 28.重置索引，并与其它对象对齐
提取一个对象，并用另一个具有相同标签的对象 reindex 该对象的轴。这种操作的语法虽然简单，但未免有些啰嗦。这时，最好用 reindex_like() 方法，这是一种既有效，又简单的方式：

In [189]:
df

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [194]:
df2=tsdf[0:4]
df2

Unnamed: 0,A,B,C
2019-01-01,0.199088,-0.077625,-0.598477
2019-01-02,-0.72603,1.370391,0.614461
2019-01-03,0.589777,-1.43497,0.068016
2019-01-04,,,


In [195]:
df.reindex_like(df2)

Unnamed: 0,A,B,C
2019-01-01,,,
2019-01-02,,,
2019-01-03,,,
2019-01-04,,,


# 29.用 align 对齐多个对象
align() 方法是对齐两个对象最快的方式，该方法支持 join 参数（请参阅 joining 与 merging）：

join='outer'：使用两个对象索引的合集，默认值

join='left'：使用左侧调用对象的索引

join='right'：使用右侧传递对象的索引

join='inner'：使用两个对象索引的交集

In [196]:
# 该方法返回重置索引后的两个 Series 元组：
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a   -0.158655
b    0.675228
c   -1.908040
d   -0.302906
e   -0.646611
dtype: float64

In [197]:
s1 = s[:4]
s1

a   -0.158655
b    0.675228
c   -1.908040
d   -0.302906
dtype: float64

In [198]:
s2 = s[1:]
s2

b    0.675228
c   -1.908040
d   -0.302906
e   -0.646611
dtype: float64

In [201]:
s1.align(s2)

(a   -0.158655
b    0.675228
c   -1.908040
d   -0.302906
e         NaN
dtype: float64, a         NaN
b    0.675228
c   -1.908040
d   -0.302906
e   -0.646611
dtype: float64)


In [200]:
s1.align(s2, join='inner')

(b    0.675228
 c   -1.908040
 d   -0.302906
 dtype: float64, b    0.675228
 c   -1.908040
 d   -0.302906
 dtype: float64)

In [202]:
s1.align(s2, join='left')

(a   -0.158655
 b    0.675228
 c   -1.908040
 d   -0.302906
 dtype: float64, a         NaN
 b    0.675228
 c   -1.908040
 d   -0.302906
 dtype: float64)

In [203]:
# 默认条件下， join 方法既应用于索引，也应用于列：
df.align(df2, join='inner')

(Empty DataFrame
 Columns: []
 Index: [], Empty DataFrame
 Columns: []
 Index: [])

In [204]:
# align 方法还支持 axis 选项，用来指定要对齐的轴：
df.align(df2, join='inner', axis=0)

(Empty DataFrame
 Columns: [one, two, three]
 Index: [], Empty DataFrame
 Columns: [A, B, C]
 Index: [])

In [206]:
# 如果把 Series 传递给 DataFrame.align()，可以用 axis 参数选择是在 DataFrame 的索引，还是列上对齐两个对象：
df.align(df2.iloc[0], axis=1)

(    A   B   C       one     three       two
 a NaN NaN NaN  1.028251       NaN -2.092453
 b NaN NaN NaN -0.670989  0.222521 -0.372091
 c NaN NaN NaN -0.633077  1.356217  0.327729
 d NaN NaN NaN       NaN  0.532866  1.622268, A        0.199088
 B       -0.077625
 C       -0.598477
 one           NaN
 three         NaN
 two           NaN
 Name: 2019-01-01 00:00:00, dtype: float64)

In [208]:
# 下面用一个简单的 Series 展示 fill 方法：
rng = pd.date_range('1/3/2019', periods=8)
ts = pd.Series(np.random.randn(8), index=rng)
ts

2019-01-03    0.782685
2019-01-04    0.471354
2019-01-05   -1.507345
2019-01-06   -2.195469
2019-01-07   -0.682050
2019-01-08    0.373816
2019-01-09   -0.872683
2019-01-10   -1.115168
Freq: D, dtype: float64

In [210]:
ts2 = ts[[0, 3, 6]]
ts2

2019-01-03    0.782685
2019-01-06   -2.195469
2019-01-09   -0.872683
dtype: float64

In [211]:
ts2.reindex(ts.index)

2019-01-03    0.782685
2019-01-04         NaN
2019-01-05         NaN
2019-01-06   -2.195469
2019-01-07         NaN
2019-01-08         NaN
2019-01-09   -0.872683
2019-01-10         NaN
Freq: D, dtype: float64

In [212]:
ts2.reindex(ts.index, method='ffill')

2019-01-03    0.782685
2019-01-04    0.782685
2019-01-05    0.782685
2019-01-06   -2.195469
2019-01-07   -2.195469
2019-01-08   -2.195469
2019-01-09   -0.872683
2019-01-10   -0.872683
Freq: D, dtype: float64

In [213]:
ts2.reindex(ts.index, method='bfill')

2019-01-03    0.782685
2019-01-04   -2.195469
2019-01-05   -2.195469
2019-01-06   -2.195469
2019-01-07   -0.872683
2019-01-08   -0.872683
2019-01-09   -0.872683
2019-01-10         NaN
Freq: D, dtype: float64

In [214]:
ts2.reindex(ts.index, method='nearest')

2019-01-03    0.782685
2019-01-04    0.782685
2019-01-05   -2.195469
2019-01-06   -2.195469
2019-01-07   -2.195469
2019-01-08   -0.872683
2019-01-09   -0.872683
2019-01-10   -0.872683
Freq: D, dtype: float64

In [215]:
# 上述操作要求索引按递增或递减排序。
# 注意：除了 method='nearest'，用 fillna 或 interpolate 也能实现同样的效果：
ts2.reindex(ts.index).fillna(method='ffill')

2019-01-03    0.782685
2019-01-04    0.782685
2019-01-05    0.782685
2019-01-06   -2.195469
2019-01-07   -2.195469
2019-01-08   -2.195469
2019-01-09   -0.872683
2019-01-10   -0.872683
Freq: D, dtype: float64

# 30.重置索引填充的限制
limit 与 tolerance 参数可以控制 reindex 的填充操作。limit 限定了连续匹配的最大数量：

In [216]:
ts2.reindex(ts.index, method='ffill', limit=1)

2019-01-03    0.782685
2019-01-04    0.782685
2019-01-05         NaN
2019-01-06   -2.195469
2019-01-07   -2.195469
2019-01-08         NaN
2019-01-09   -0.872683
2019-01-10   -0.872683
Freq: D, dtype: float64

In [217]:
# 反之，tolerance 限定了索引与索引器值之间的最大距离：
ts2.reindex(ts.index, method='ffill', tolerance='1 day')
# 注意：索引为 DatetimeIndex、TimedeltaIndex 或 PeriodIndex 时，tolerance 会尽可能将这些索引强制转换为 Timedelta，
# 这里要求用户用恰当的字符串设定 tolerance 参数。

2019-01-03    0.782685
2019-01-04    0.782685
2019-01-05         NaN
2019-01-06   -2.195469
2019-01-07   -2.195469
2019-01-08         NaN
2019-01-09   -0.872683
2019-01-10   -0.872683
Freq: D, dtype: float64

# 31.去掉轴上的标签
drop() 函数与 reindex 经常配合使用，该函数用于删除轴上的一组标签：

In [218]:
df

Unnamed: 0,one,two,three
a,1.028251,-2.092453,
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [219]:
df.drop(['a', 'd'], axis=0)

Unnamed: 0,one,two,three
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217


In [220]:
df.drop(['one'], axis=1)

Unnamed: 0,two,three
a,-2.092453,
b,-0.372091,0.222521
c,0.327729,1.356217
d,1.622268,0.532866


In [221]:
df.reindex(df.index.difference(['a', 'd']))

Unnamed: 0,one,two,three
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217


# 32.重命名或映射标签
rename() 方法支持按不同的轴基于映射（字典或 Series）调整标签。

In [222]:
s

a   -0.158655
b    0.675228
c   -1.908040
d   -0.302906
e   -0.646611
dtype: float64

In [223]:
s.rename(str.upper)

A   -0.158655
B    0.675228
C   -1.908040
D   -0.302906
E   -0.646611
dtype: float64

In [224]:
# 如果调用的是函数，该函数在处理标签时，必须返回一个值，而且生成的必须是一组唯一值。此外，rename() 还可以调用字典或 Series。
df.rename(columns={'one': 'foo', 'two': 'bar'},
           index={'a': 'apple', 'b': 'banana', 'd': 'durian'})

Unnamed: 0,foo,bar,three
apple,1.028251,-2.092453,
banana,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
durian,,1.622268,0.532866


In [225]:
# Pandas 不会重命名标签未包含在映射里的列或索引。注意，映射里多出的标签不会触发错误。
# DataFrame.rename() 还支持“轴式”习语，用这种方式可以指定单个 mapper，及执行映射的 axis。
df.rename({'one': 'foo', 'two': 'bar'}, axis='columns')

Unnamed: 0,foo,bar,three
a,1.028251,-2.092453,
b,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
d,,1.622268,0.532866


In [226]:
df.rename({'a': 'apple', 'b': 'banana', 'd': 'durian'}, axis='index')

Unnamed: 0,one,two,three
apple,1.028251,-2.092453,
banana,-0.670989,-0.372091,0.222521
c,-0.633077,0.327729,1.356217
durian,,1.622268,0.532866


In [227]:
# rename() 方法还提供了 inplace 命名参数，默认为 False，并会复制底层数据。inplace=True 时，会直接在原数据上重命名。
# rename() 还支持用标量或列表更改 Series.name 属性。
s.rename("scalar-name")

a   -0.158655
b    0.675228
c   -1.908040
d   -0.302906
e   -0.646611
Name: scalar-name, dtype: float64

In [228]:
# rename_axis() 方法支持指定 多层索引 名称，与标签相对应。
df = pd.DataFrame({'x': [1, 2, 3, 4, 5, 6],
                    'y': [10, 20, 30, 40, 50, 60]},
                   index=pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]],
                   names=['let', 'num']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,x,y
let,num,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,1,10
a,2,2,20
b,1,3,30
b,2,4,40
c,1,5,50
c,2,6,60


In [231]:
df.rename_axis(mapper={'let': 'left'})

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Unnamed: 1_level_0,x,y
let,num,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,1,10
a,2,2,20
b,1,3,30
b,2,4,40
c,1,5,50
c,2,6,60


# 33.迭代
Pandas 对象基于类型进行迭代操作。Series 迭代时被视为数组，基础迭代生成值。DataFrame 则遵循字典式习语，用对象的 key 实现迭代操作。

简言之，基础迭代（for i in object）生成：

Series ：值

DataFrame：列标签

In [232]:
df = pd.DataFrame({'col1': np.random.randn(3),
                   'col2': np.random.randn(3)}, index=['a', 'b', 'c'])
df

Unnamed: 0,col1,col2
a,-0.791161,-0.591309
b,1.917611,-2.691841
c,0.958579,1.625891


In [233]:
for col in df:
    print(col)

col1
col2


Pandas 对象还支持字典式的 items() 方法，通过键值对迭代。
用下列方法可以迭代 DataFrame 里的行：
iterrows()：把 DataFrame 里的行当作 （index， Series）对进行迭代。该操作把行转为 Series，同时改变数据类型，并对性能有影响。
itertuples() 把 DataFrame 的行当作值的命名元组进行迭代。该操作比 iterrows() 快的多，建议尽量用这种方法迭代 DataFrame 的值。

警告

Pandas 对象迭代的速度较慢。大部分情况下，没必要对行执行迭代操作，建议用以下几种替代方式：

矢量化：很多操作可以用内置方法或 NumPy 函数，布尔索引……
调用的函数不能在完整的 DataFrame / Series 上运行时，最好用 apply()，不要对值进行迭代操作。请参阅函数应用文档。
如果必须对值进行迭代，请务必注意代码的性能，建议在 cython 或 numba 环境下实现内循环。参阅性能优化一节，查看这种操作方法的示例。

警告

永远不要修改迭代的内容，这种方式不能确保所有操作都能正常运作。
基于数据类型，迭代器返回的是复制（copy）的结果，不是视图（view），这种写入可能不会生效！

# 34.项目（items）
与字典型接口类似，items() 通过键值对进行迭代：

Series：（Index，标量值）对

DataFrame：（列，Series）对

In [234]:
for label,ser in df.items():
    print(label)
    print(ser)

col1
a   -0.791161
b    1.917611
c    0.958579
Name: col1, dtype: float64
col2
a   -0.591309
b   -2.691841
c    1.625891
Name: col2, dtype: float64


In [235]:
#iterrows
# iterrows() 迭代 DataFrame 或 Series 里的每一行数据。这个操作返回一个迭代器，生成索引值及包含每行数据的 Series：
for row_index, row in df.iterrows():
    print(row_index, row, sep='\n')

a
col1   -0.791161
col2   -0.591309
Name: a, dtype: float64
b
col1    1.917611
col2   -2.691841
Name: b, dtype: float64
c
col1    0.958579
col2    1.625891
Name: c, dtype: float64


In [236]:
# iterrows() 返回的是 Series 里的每一行数据，该操作不保留每行数据的数据类型，因为数据类型是通过 DataFrame 的列界定的。
df_orig = pd.DataFrame([[1, 1.5]], columns=['int', 'float'])
df_orig.dtypes

int        int64
float    float64
dtype: object

In [237]:
row = next(df_orig.iterrows())[1]
row

int      1.0
float    1.5
Name: 0, dtype: float64

In [239]:
# row 里的值以 Series 形式返回，并被转换为浮点数，原始的整数值则在列 X
# 要想在行迭代时保存数据类型，最好用 itertuples()，这个函数返回值的命名元组，总的来说，该操作比 iterrows() 速度更快。
row['int'].dtype

dtype('float64')

In [240]:
df_orig['int'].dtype

dtype('int64')

In [241]:
# itertuples
# itertuples() 方法返回为 DataFrame 里每行数据生成命名元组的迭代器。该元组的第一个元素是行的索引值，其余的值则是行的值。
# 该方法不会把行转换为 Series，只是返回命名元组里的值。itertuples() 保存值的数据类型，而且比 iterrows() 快。
for row in df.itertuples():
    print(row)

Pandas(Index='a', col1=-0.7911609771285445, col2=-0.5913088940777644)
Pandas(Index='b', col1=1.9176105897288318, col2=-2.691840539926591)
Pandas(Index='c', col1=0.9585793074186207, col2=1.6258908356398085)


# 35.  .dt 访问器
Series 提供一个可以简单、快捷地返回 datetime 属性值的访问器。这个访问器返回的也是 Series，索引与现有的 Series 一样。

In [243]:
# datetime
s = pd.Series(pd.date_range('20191214 14:21:12', periods=4))
s

0   2019-12-14 14:21:12
1   2019-12-15 14:21:12
2   2019-12-16 14:21:12
3   2019-12-17 14:21:12
dtype: datetime64[ns]

In [244]:
s.dt.hour

0    14
1    14
2    14
3    14
dtype: int64

In [245]:
s.dt.second

0    12
1    12
2    12
3    12
dtype: int64

In [246]:
s.dt.day

0    14
1    15
2    16
3    17
dtype: int64

In [247]:
s.dt.month

0    12
1    12
2    12
3    12
dtype: int64

In [248]:
s.dt.year

0    2019
1    2019
2    2019
3    2019
dtype: int64

In [251]:
# 用下列表达式进行筛选非常方便：
s[s.dt.day == 15]

1   2019-12-15 14:21:12
dtype: datetime64[ns]

In [252]:
# 时区转换也很轻松：
stz = s.dt.tz_localize('US/Eastern')
stz

0   2019-12-14 14:21:12-05:00
1   2019-12-15 14:21:12-05:00
2   2019-12-16 14:21:12-05:00
3   2019-12-17 14:21:12-05:00
dtype: datetime64[ns, US/Eastern]

In [253]:
stz.dt.tz

<DstTzInfo 'US/Eastern' LMT-1 day, 19:04:00 STD>

In [254]:
# 可以把这些操作连在一起：
s.dt.tz_localize('UTC').dt.tz_convert('US/Eastern')

0   2019-12-14 09:21:12-05:00
1   2019-12-15 09:21:12-05:00
2   2019-12-16 09:21:12-05:00
3   2019-12-17 09:21:12-05:00
dtype: datetime64[ns, US/Eastern]

In [255]:
# 还可以用 Series.dt.strftime() 把 datetime 的值当成字符串进行格式化，支持与标准 strftime() 同样的格式。
s = pd.Series(pd.date_range('20191214', periods=4))
s

0   2019-12-14
1   2019-12-15
2   2019-12-16
3   2019-12-17
dtype: datetime64[ns]

In [256]:
s.dt.strftime('%Y/%m/%d')

0    2019/12/14
1    2019/12/15
2    2019/12/16
3    2019/12/17
dtype: object

In [258]:
# PeriodIndex
s = pd.Series(pd.period_range('20191214', periods=4))
s

0   2019-12-14
1   2019-12-15
2   2019-12-16
3   2019-12-17
dtype: object

In [259]:
s.dt.strftime('%Y/%m/%d')

0    2019/12/14
1    2019/12/15
2    2019/12/16
3    2019/12/17
dtype: object

In [260]:
# .dt 访问器还支持 period 与 timedelta。
# period
s = pd.Series(pd.period_range('20191214', periods=4, freq='D'))
s

0   2019-12-14
1   2019-12-15
2   2019-12-16
3   2019-12-17
dtype: object

In [261]:
s.dt.year

0    2019
1    2019
2    2019
3    2019
dtype: int64

In [263]:
# timedelta
s = pd.Series(pd.timedelta_range('1 day 00:00:05', periods=4, freq='s'))
s

0   1 days 00:00:05
1   1 days 00:00:06
2   1 days 00:00:07
3   1 days 00:00:08
dtype: timedelta64[ns]

In [264]:
s.dt.days

0    1
1    1
2    1
3    1
dtype: int64

In [265]:
s.dt.components
# 用这个访问器处理不是 datetime 类型的值时，Series.dt 会触发 TypeError 错误。

Unnamed: 0,days,hours,minutes,seconds,milliseconds,microseconds,nanoseconds
0,1,0,0,5,0,0,0
1,1,0,0,6,0,0,0
2,1,0,0,7,0,0,0
3,1,0,0,8,0,0,0


# 36.矢量化字符串方法
Series 支持字符串处理方法，可以非常方便地操作数组里的每个元素。这些方法会自动排除缺失值与空值，这也许是其最重要的特性。这些方法通过 Series 的 str 属性访问，一般情况下，这些操作的名称与内置的字符串方法一致。示例如下：

In [266]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s

0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object

In [267]:
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

# 37.排序
Pandas 支持三种排序方式，按索引标签排序，按列里的值排序，按两种方式混合排序。

In [270]:
# 按索引排序
# Series.sort_index() 与 DataFrame.sort_index() 方法用于按索引层级对 Pandas 对象排序。
df = pd.DataFrame({'one': pd.Series(np.random.randn(3), index=['a', 'b', 'c']),
                   'two': pd.Series(np.random.randn(4), index=['a', 'b', 'c', 'd']),
                   'three': pd.Series(np.random.randn(3), index=['b', 'c', 'd'])})
df

Unnamed: 0,one,two,three
a,0.483029,-0.910101,
b,-0.397461,0.422885,-0.500983
c,-0.329032,-0.517551,1.04776
d,,-0.366857,-0.08191


In [272]:
unsorted_df = df.reindex(index=['a', 'd', 'c', 'b'],columns=['three', 'two', 'one'])
unsorted_df

Unnamed: 0,three,two,one
a,,-0.910101,0.483029
d,-0.08191,-0.366857,
c,1.04776,-0.517551,-0.329032
b,-0.500983,0.422885,-0.397461


In [273]:
unsorted_df.sort_index()

Unnamed: 0,three,two,one
a,,-0.910101,0.483029
b,-0.500983,0.422885,-0.397461
c,1.04776,-0.517551,-0.329032
d,-0.08191,-0.366857,


In [274]:
unsorted_df.sort_index(ascending=False)

Unnamed: 0,three,two,one
d,-0.08191,-0.366857,
c,1.04776,-0.517551,-0.329032
b,-0.500983,0.422885,-0.397461
a,,-0.910101,0.483029


In [275]:
unsorted_df.sort_index(axis=1)

Unnamed: 0,one,three,two
a,0.483029,,-0.910101
d,,-0.08191,-0.366857
c,-0.329032,1.04776,-0.517551
b,-0.397461,-0.500983,0.422885


In [276]:
unsorted_df['three'].sort_index()

a         NaN
b   -0.500983
c    1.047760
d   -0.081910
Name: three, dtype: float64

In [277]:
# 按值排序
# Series.sort_values() 方法用于按值对 Series 排序。DataFrame.sort_values() 方法用于按行列的值对 DataFrame 排序。
# DataFrame.sort_values() 的可选参数 by 用于指定按哪列排序，该参数的值可以是一列或多列数据。
df1 = pd.DataFrame({'one': [2, 1, 1, 1],
                     'two': [1, 3, 2, 4],
                     'three': [5, 4, 3, 2]})
df1

Unnamed: 0,one,two,three
0,2,1,5
1,1,3,4
2,1,2,3
3,1,4,2


In [278]:
df1.sort_values(by='two')

Unnamed: 0,one,two,three
0,2,1,5
2,1,2,3
1,1,3,4
3,1,4,2


In [279]:
# 参数 by 支持列名列表，示例如下：
df1[['one', 'two', 'three']].sort_values(by=['one', 'two'])

Unnamed: 0,one,two,three
2,1,2,3
1,1,3,4
3,1,4,2
0,2,1,5


In [280]:
# 这些方法支持用 na_position 参数处理空值。
s[2] = np.nan
s

0       A
1       B
2     NaN
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object

In [281]:
s.sort_values()

0       A
3    Aaba
1       B
4    Baca
6    CABA
8     cat
7     dog
2     NaN
5     NaN
dtype: object

In [282]:
s.sort_values(na_position='first')

2     NaN
5     NaN
0       A
3    Aaba
1       B
4    Baca
6    CABA
8     cat
7     dog
dtype: object

In [283]:
# 按索引与值排序
# 通过参数 by 传递给 DataFrame.sort_values() 的字符串可以引用列或索引层名。
# 创建 MultiIndex
idx = pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('a', 2),
                                 ('b', 2), ('b', 1), ('b', 1)])
idx

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 0, 1, 1, 1], [0, 1, 1, 1, 0, 0]])

In [284]:
idx.names = ['first', 'second']

In [285]:
df_multi = pd.DataFrame({'A': np.arange(6, 0, -1)},index=idx)
df_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,A
first,second,Unnamed: 2_level_1
a,1,6
a,2,5
a,2,4
b,2,3
b,1,2
b,1,1


In [286]:
# 按 second（索引）与 A（列）排序。
df_multi.sort_values(by=['second', 'A'])

Unnamed: 0_level_0,Unnamed: 1_level_0,A
first,second,Unnamed: 2_level_1
b,1,1
b,1,2
a,1,6
b,2,3
a,2,4
a,2,5


# 38.搜索排序
Series 支持 searchsorted() 方法，这与numpy.ndarray.searchsorted() 的操作方式类似。

In [287]:
ser = pd.Series([1, 2, 3])
ser.searchsorted([0, 3])

array([0, 2], dtype=int32)

In [288]:
ser.searchsorted([0, 4])

array([0, 3], dtype=int32)

In [289]:
ser.searchsorted([1, 3], side='right')

array([1, 3], dtype=int32)

In [290]:
ser.searchsorted([1, 3], side='left')

array([0, 2], dtype=int32)

In [292]:
ser = pd.Series([3, 1, 2])
ser.searchsorted([0, 3], sorter=np.argsort(ser))

array([0, 2], dtype=int32)

# 39.最大值与最小值
Series 支持 nsmallest() 与 nlargest() 方法，本方法返回 N 个最大或最小的值。对于数据量大的 Series 来说，该方法比先为整个 Series 排序，再调用 head(n) 这种方式的速度要快得多。

In [293]:
s = pd.Series(np.random.permutation(10))
s

0    0
1    2
2    9
3    1
4    4
5    7
6    8
7    6
8    5
9    3
dtype: int32

In [294]:
s.sort_values()

0    0
3    1
1    2
9    3
4    4
8    5
7    6
5    7
6    8
2    9
dtype: int32

In [295]:
s.nsmallest(3)

0    0
3    1
1    2
dtype: int32

In [296]:
s.nlargest(3)

2    9
6    8
5    7
dtype: int32

In [297]:
# DataFrame 也支持 nlargest 与 nsmallest 方法。
df = pd.DataFrame({'a': [-2, -1, 1, 10, 8, 11, -1],
                    'b': list('abdceff'),
                    'c': [1.0, 2.0, 4.0, 3.2, np.nan, 3.0, 4.0]})
df

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
2,1,d,4.0
3,10,c,3.2
4,8,e,
5,11,f,3.0
6,-1,f,4.0


In [298]:
df.nlargest(3, 'a')

Unnamed: 0,a,b,c
5,11,f,3.0
3,10,c,3.2
4,8,e,


In [299]:
df.nlargest(5, ['a', 'c'])

Unnamed: 0,a,b,c
6,-1,f,4.0
5,11,f,3.0
3,10,c,3.2
4,8,e,
2,1,d,4.0


In [300]:
df.nsmallest(3, 'a')

Unnamed: 0,a,b,c
0,-2,a,1.0
1,-1,b,2.0
6,-1,f,4.0


In [301]:
df.nsmallest(5, ['a', 'c'])

Unnamed: 0,a,b,c
0,-2,a,1.0
2,1,d,4.0
4,8,e,
1,-1,b,2.0
6,-1,f,4.0


# 40.用多层索引的列排序
列为多层索引时，可以显式排序，用 by 指定所有层级。

In [302]:
df1.columns = pd.MultiIndex.from_tuples([('a', 'one'),
                                             ('a', 'two'),
                                             ('b', 'three')])
df1.sort_values(by=('a', 'two'))

Unnamed: 0_level_0,a,a,b
Unnamed: 0_level_1,one,two,three
0,2,1,5
2,1,2,3
1,1,3,4
3,1,4,2


# 41.复制
在 Pandas 对象上执行 copy() 方法，将复制底层数据（但不包括轴索引，因为轴索引不可变），并返回一个新的对象。注意，复制对象这种操作一般来说不是必须的。比如说，以下几种方式可以***就地（inplace）*** 改变 DataFrame：

插入、删除、修改列

为 index 或 columns 属性赋值

对于同质数据，用 values 属性或高级索引即可直接修改值

注意，用 Pandas 方法修改数据不会带来任何副作用，几乎所有方法都返回新的对象，不会修改原始数据对象。如果原始数据有所改动，唯一的可能就是用户显式指定了要修改原始数据。

# 42.数据类型
大多数情况下，Pandas 使用 NumPy 数组、Series 或 DataFrame 里某列的数据类型。NumPy 支持 float、int、bool、timedelta[ns]、datetime64[ns]，注意，NumPy 不支持带时区信息的 datetime。

Pandas 与第三方支持库扩充了 NumPy 类型系统，本节只介绍 Pandas 的内部扩展。如需了解如何编写与 Pandas 扩展类型，请参阅扩展类型，参阅扩展数据类型了解第三方支持库提供的扩展类型。

Pandas 用 object 存储字符串。

虽然， object 数据类型能够存储任何对象，但应尽量避免这种操作，要了解与其它支持库与方法的性能与交互操作，参阅 对象转换。

DataFrame 的 dtypes 属性用起来很方便，以 Series 形式返回每列的数据类型。

In [303]:
dft = pd.DataFrame({'A': np.random.rand(3),
   .....:                     'B': 1,
   .....:                     'C': 'foo',
   .....:                     'D': pd.Timestamp('20010102'),
   .....:                     'E': pd.Series([1.0] * 3).astype('float32'),
   .....:                     'F': False,
   .....:                     'G': pd.Series([1] * 3, dtype='int8')})

In [304]:
dft

Unnamed: 0,A,B,C,D,E,F,G
0,0.177567,1,foo,2001-01-02,1.0,False,1
1,0.066152,1,foo,2001-01-02,1.0,False,1
2,0.450782,1,foo,2001-01-02,1.0,False,1


In [305]:
dft.dtypes

A           float64
B             int64
C            object
D    datetime64[ns]
E           float32
F              bool
G              int8
dtype: object

In [306]:
# 要查看 Series 的数据类型，用 dtype 属性。
dft['A'].dtype

dtype('float64')

In [307]:
# Pandas 对象单列中含多种类型的数据时，该列的数据类型为可适配于各类数据的数据类型，通常为 object。
# 整数被强制转换为浮点数
pd.Series([1, 2, 3, 4, 5, 6.])

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
dtype: float64

In [308]:
# 字符串数据决定了该 Series 的数据类型为 ``object``
pd.Series([1, 2, 3, 6., 'foo'])

0      1
1      2
2      3
3      6
4    foo
dtype: object

In [309]:
# DataFrame.dtypes.value_counts() 用于统计 DataFrame 里不同数据类型的列数。
dft.dtypes.value_counts()

int64             1
float32           1
datetime64[ns]    1
float64           1
bool              1
object            1
int8              1
dtype: int64

In [310]:
# 多种数值型数据类型可以在 DataFrame 里共存。如果只传递一种数据类型，不论是通过 dtype 关键字直接传递，
# 还是通过 ndarray 或 Series 传递，都会保存至 DataFrame 操作。此外，不同数值型数据类型不会合并。示例如下：
df1 = pd.DataFrame(np.random.randn(8, 1), columns=['A'], dtype='float32')
df1

Unnamed: 0,A
0,1.224808
1,1.382665
2,0.712011
3,1.404612
4,0.959741
5,-0.934117
6,0.991249
7,-0.834729


In [311]:
df1.dtypes

A    float32
dtype: object

In [312]:
df2 = pd.DataFrame({'A': pd.Series(np.random.randn(8), dtype='float16'),
   .....:                     'B': pd.Series(np.random.randn(8)),
   .....:                     'C': pd.Series(np.array(np.random.randn(8),
   .....:                                             dtype='uint8'))})

In [313]:
df2

Unnamed: 0,A,B,C
0,0.28125,-0.380421,0
1,0.765137,-0.539735,0
2,0.006596,1.993247,0
3,-1.035156,0.081808,0
4,-0.046417,1.335337,0
5,1.598633,-1.606152,254
6,0.115173,-1.022862,2
7,-1.576172,-1.242039,0


In [314]:
df2.dtypes

A    float16
B    float64
C      uint8
dtype: object

# 43.默认值
整数的默认类型为 int64，浮点数的默认类型为 float64，这里的默认值与系统平台无关，不管是 32 位系统，还是 64 位系统都是一样的。下列代码返回的结果都是 int64：

In [315]:
pd.DataFrame([1, 2], columns=['a']).dtypes

a    int64
dtype: object

In [318]:
# 注意，NumPy 创建数组时，会根据系统选择类型。下列代码在 32 位系统上将返回 int32。
frame = pd.DataFrame(np.array([1, 2]))
frame.dtypes

0    int32
dtype: object

# 44.向上转型
与其它类型合并时，用的是向上转型，指的是从现有类型转换为另一种类型，如int 变为 float。

In [319]:
df3 = df1.reindex_like(df2).fillna(value=0.0) + df2
df3

Unnamed: 0,A,B,C
0,1.506058,-0.380421,0.0
1,2.147802,-0.539735,0.0
2,0.718607,1.993247,0.0
3,0.369456,0.081808,0.0
4,0.913324,1.335337,0.0
5,0.664516,-1.606152,254.0
6,1.106423,-1.022862,2.0
7,-2.410901,-1.242039,0.0


In [320]:
df3.dtypes

A    float32
B    float64
C    float64
dtype: object

# 45.astype
astype() 方法显式地把一种数据类型转换为另一种，默认操作为复制数据，就算数据类型没有改变也会复制数据，copy=False 改变默认操作模式。此外，astype 无效时，会触发异常。

向上转型一般都遵循 NumPy 规则。操作中含有两种不同类型的数据时，返回更为通用的那种数据类型。

In [323]:
df3.dtypes

A    float32
B    float64
C    float64
dtype: object

In [324]:
df3.astype('float32').dtypes

A    float32
B    float32
C    float32
dtype: object

In [326]:
# 用 astype() 把一列或多列转换为指定类型 。
dft = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})
dft[['a', 'b']] = dft[['a', 'b']].astype(np.uint8)
dft.dtypes

a    uint8
b    uint8
c    int64
dtype: object

In [327]:
# astype() 通过字典指定哪些列转换为哪些类型。
dft1 = pd.DataFrame({'a': [1, 0, 1], 'b': [4, 5, 6], 'c': [7, 8, 9]})
dft1 = dft1.astype({'a': np.bool, 'c': np.float64})
dft1.dtypes

a       bool
b      int64
c    float64
dtype: object

In [328]:
# 用 astype() 与 loc() 为部分列转换指定类型时，会发生向上转型。
# loc() 尝试分配当前的数据类型，而 [] 则会从右方获取数据类型并进行覆盖。因此，下列代码会产出意料之外的结果：
dft = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})
dft.loc[:, ['a', 'b']].astype(np.uint8).dtypes
dft.loc[:, ['a', 'b']] = dft.loc[:, ['a', 'b']].astype(np.uint8)
dft.dtypes

a    int64
b    int64
c    int64
dtype: object

# 46.对象转换
Pandas 提供了多种函数可以把 object 从一种类型强制转为另一种类型。这是因为，数据有时存储的是正确类型，但在保存时却存成了 object 类型，此时，用 DataFrame.infer_objects() 与 Series.infer_objects() 方法即可把数据软转换为正确的类型。

In [331]:
import datetime
df = pd.DataFrame([[1, 2],
                   ['a', 'b'],
                   [datetime.datetime(2019, 12, 14),
                    datetime.datetime(2019, 12, 31)]])
df = df.T
df

Unnamed: 0,0,1,2
0,1,a,2019-12-14 00:00:00
1,2,b,2019-12-31 00:00:00


In [332]:
df.dtypes

0    object
1    object
2    object
dtype: object

In [333]:
# 因为数据被转置，所以把原始列的数据类型改成了 object，但使用 infer_objects 后就变正确了。
df.infer_objects().dtypes

0             int64
1            object
2    datetime64[ns]
dtype: object

In [334]:
# 下列函数可以应用于一维数组与标量，执行硬转换，把对象转换为指定类型。
# to_numeric()，转换为数值型
m = ['1.1', 2, 3]
pd.to_numeric(m)

array([1.1, 2. , 3. ])

In [336]:
# to_datetime()，转换为 datetime 对象
m = ['2019-11-14', datetime.datetime(2019, 12, 14)]
pd.to_datetime(m)

DatetimeIndex(['2019-11-14', '2019-12-14'], dtype='datetime64[ns]', freq=None)

In [338]:
# to_timedelta()，转换为 timedelta 对象。
m = ['5us', pd.Timedelta('1day')]
pd.to_timedelta(m)

TimedeltaIndex(['0 days 00:00:00.000005', '1 days 00:00:00'], dtype='timedelta64[ns]', freq=None)

In [339]:
# 执行转换操作时，to_numeric() 还有一个参数，downcast，即向下转型，可以把数值型转换为减少内存占用的数据类型：
m = ['1', 2, 3]
pd.to_numeric(m, downcast='integer')   # smallest signed int dtype

array([1, 2, 3], dtype=int8)

In [340]:
pd.to_numeric(m, downcast='signed')    # same as 'integer'

array([1, 2, 3], dtype=int8)

In [341]:
pd.to_numeric(m, downcast='unsigned')  # smallest unsigned int dtype

array([1, 2, 3], dtype=uint8)

In [342]:
pd.to_numeric(m, downcast='float')     # smallest float dtype

array([1., 2., 3.], dtype=float32)

In [343]:
# 上述方法仅能应用于一维数组、列表或标量；不能直接用于 DataFrame 等多维对象。不过，用 apply()，可以快速为每列应用函数：
df = pd.DataFrame([['2016-07-09', datetime.datetime(2016, 3, 2)]] * 2, dtype='O')
df

Unnamed: 0,0,1
0,2016-07-09,2016-03-02 00:00:00
1,2016-07-09,2016-03-02 00:00:00


In [344]:
df.apply(pd.to_datetime)

Unnamed: 0,0,1
0,2016-07-09,2016-03-02
1,2016-07-09,2016-03-02


In [346]:
df = pd.DataFrame([['1.1', 2, 3]] * 2, dtype='O')
df

Unnamed: 0,0,1,2
0,1.1,2,3
1,1.1,2,3


In [347]:
df.apply(pd.to_numeric)

Unnamed: 0,0,1,2
0,1.1,2,3
1,1.1,2,3


In [348]:
df = pd.DataFrame([['5us', pd.Timedelta('1day')]] * 2, dtype='O')
df

Unnamed: 0,0,1
0,5us,1 days 00:00:00
1,5us,1 days 00:00:00


In [349]:
df.apply(pd.to_timedelta)

Unnamed: 0,0,1
0,00:00:00.000005,1 days
1,00:00:00.000005,1 days


# 47.基于 dtype 选择列
select_dtypes() 方法基于 dtype 选择列。

In [351]:
# 首先，创建一个由多种数据类型组成的 DataFrame：
df = pd.DataFrame({'string': list('abc'),
                    'int64': list(range(1, 4)),
                    'uint8': np.arange(3, 6).astype('u1'),
                    'float64': np.arange(4.0, 7.0),
                    'bool1': [True, False, True],
                    'bool2': [False, True, False],
                    'dates': pd.date_range('now', periods=3),
                    'category': pd.Series(list("ABC")).astype('category')})
df

Unnamed: 0,string,int64,uint8,float64,bool1,bool2,dates,category
0,a,1,3,4.0,True,False,2019-12-14 15:07:41.878519,A
1,b,2,4,5.0,False,True,2019-12-15 15:07:41.878519,B
2,c,3,5,6.0,True,False,2019-12-16 15:07:41.878519,C


In [352]:
df['tdeltas'] = df.dates.diff()
df['uint64'] = np.arange(3, 6).astype('u8')
df['other_dates'] = pd.date_range('20130101', periods=3)
df['tz_aware_dates'] = pd.date_range('20130101', periods=3, tz='US/Eastern')
df

Unnamed: 0,string,int64,uint8,float64,bool1,bool2,dates,category,tdeltas,uint64,other_dates,tz_aware_dates
0,a,1,3,4.0,True,False,2019-12-14 15:07:41.878519,A,NaT,3,2013-01-01,2013-01-01 00:00:00-05:00
1,b,2,4,5.0,False,True,2019-12-15 15:07:41.878519,B,1 days,4,2013-01-02,2013-01-02 00:00:00-05:00
2,c,3,5,6.0,True,False,2019-12-16 15:07:41.878519,C,1 days,5,2013-01-03,2013-01-03 00:00:00-05:00


In [353]:
df.dtypes

string                                object
int64                                  int64
uint8                                  uint8
float64                              float64
bool1                                   bool
bool2                                   bool
dates                         datetime64[ns]
category                            category
tdeltas                      timedelta64[ns]
uint64                                uint64
other_dates                   datetime64[ns]
tz_aware_dates    datetime64[ns, US/Eastern]
dtype: object

In [354]:
# select_dtypes() 有两个参数，include 与 exclude，用于实现“提取这些数据类型的列” （include）或 “提取不是这些数据类型的列”（exclude）。
# 选择 bool 型的列，示例如下：
df.select_dtypes(include=[bool])

Unnamed: 0,bool1,bool2
0,True,False
1,False,True
2,True,False


In [355]:
# 该方法还支持输入 NumPy 数据类型的名称：
df.select_dtypes(include=['bool'])

Unnamed: 0,bool1,bool2
0,True,False
1,False,True
2,True,False


In [356]:
# select_dtypes() 还支持通用数据类型。
# 比如，选择所有数值型与布尔型的列，同时，排除无符号整数：
df.select_dtypes(include=['number', 'bool'], exclude=['unsignedinteger'])

Unnamed: 0,int64,float64,bool1,bool2,tdeltas
0,1,4.0,True,False,NaT
1,2,5.0,False,True,1 days
2,3,6.0,True,False,1 days


In [357]:
# 选择字符串型的列必须要用 object：
df.select_dtypes(include=['object'])

Unnamed: 0,string
0,a
1,b
2,c


In [358]:
# 要查看 numpy.number 等通用 dtype 的所有子类型，可以定义一个函数，返回子类型树：
def subdtypes(dtype):
    subs = dtype.__subclasses__()
    if not subs:
        return dtype
    return [dtype, [subdtypes(dt) for dt in subs]]
# 所有 NumPy 数据类型都是 numpy.generic 的子类：
subdtypes(np.generic)
# Pandas 支持 category 与 datetime64[ns, tz] 类型，但这两种类型未整合到 NumPy 架构，因此，上面的函数没有显示。

[numpy.generic,
 [[numpy.number,
   [[numpy.integer,
     [[numpy.signedinteger,
       [numpy.int8,
        numpy.int16,
        numpy.int32,
        numpy.int32,
        numpy.int64,
        numpy.timedelta64]],
      [numpy.unsignedinteger,
       [numpy.uint8,
        numpy.uint16,
        numpy.uint32,
        numpy.uint32,
        numpy.uint64]]]],
    [numpy.inexact,
     [[numpy.floating,
       [numpy.float16, numpy.float32, numpy.float64, numpy.float64]],
      [numpy.complexfloating,
       [numpy.complex64, numpy.complex128, numpy.complex128]]]]]],
  [numpy.flexible,
   [[numpy.character, [numpy.bytes_, numpy.str_]],
    [numpy.void, [numpy.record]]]],
  numpy.bool_,
  numpy.datetime64,
  numpy.object_]]