如果你有志于从事数据分析相关工作.本篇将会是"重头戏",而且数据分析能力是以后职场竞争的必备能力,所以学习掌握Pandas工具包将会令你如虎添翼.

Pandas是专门为解决数据分析而创建的,详情看官网 (https://pandas.pydata.org/) 。

Pandas 里面的数据结构是「多维数据表」，学习它可以类比这 NumPy 里的「多维数组」。1/2/3 维的「多维数据表」分别叫做 Series (系列), DataFrame (数据帧) 和 Panel (面板)，和1/2/3 维的「多维数组」的类比关系如下：

![1](./img/Numpy与Pandas数据结构对比图.png)

对比 NumPy (np) 和 Pandas (pd) 每个维度下的数据结构，不难看出



    pd 多维数据表 = np 多维数组 + 描述



其中



- Series = 1darray + index

- DataFrame = 2darray + index + columns

- Panel = 3darray + index + columns + item



每个维度上的「索引」使得「多维数据表」比「多维数组」涵盖更多的信息。

In [6]:
import numpy as np
import pandas as pd

# 创建

数据表三种类型Series,DataFrame,Panel.其中Series是Pandas最基本的数据结构,相当于list和1Darray,且每一种数据类型相当于是前者的容器,即DataFrame 可理解成是 Series 的容器，每一列都是一个 Series，或者 Series 是只有一列的 DataFrame;Panel 可理解成是 DataFrame 的容器

## 按部就班法

### 一维Series

#### 列表作为值

In [7]:
s = pd.Series([27.2, 27.65, 27.70, 28])
s

0    27.20
1    27.65
2    27.70
3    28.00
dtype: float64

In [8]:
# 打印s的值
s.values

array([ 27.2 ,  27.65,  27.7 ,  28.  ])

In [9]:
# 打印s的索引
s.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
dates = pd.date_range('20190401', periods=4)  # 利用pandas的date_range方法生成日期作为索引
s2 = pd.Series([27.2, 27.65, 27.70, 28], index=dates)
s2

2019-04-01    27.20
2019-04-02    27.65
2019-04-03    27.70
2019-04-04    28.00
Freq: D, dtype: float64

In [11]:
s2.index

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04'], dtype='datetime64[ns]', freq='D')

In [12]:
# 给s2命名
s2.name = '京东股价'
s2

2019-04-01    27.20
2019-04-02    27.65
2019-04-03    27.70
2019-04-04    28.00
Freq: D, Name: 京东股价, dtype: float64

#### numpy数组作为值

In [13]:
s = pd.Series(np.array([27.2, 27.65, 27.70, 28, 28, np.nan]))  # 这里加入了一个缺失值
s

0    27.20
1    27.65
2    27.70
3    28.00
4    28.00
5      NaN
dtype: float64

In [14]:
# s里的元素个数
len(s)

6

In [15]:
# s的形状(用元组表示)
s.shape

(6,)

In [16]:
# s里不含空值的元素个数
s.count()

5

In [17]:
# 返回不重复的元素
s.unique()

array([ 27.2 ,  27.65,  27.7 ,  28.  ,    nan])

In [18]:
# 统计非空元组出现的次数
s.value_counts()

28.00    2
27.70    1
27.65    1
27.20    1
dtype: int64

#### 字典作为值

In [19]:
data_dict = {'BABA': 187.07, 'PDD': 21.83, 'JD': 30.79, 'BIDU': 184.77}
s3 = pd.Series(data_dict, name='中概股')
s3.index.name = '股票代号'
s3

股票代号
BABA    187.07
PDD      21.83
JD       30.79
BIDU    184.77
Name: 中概股, dtype: float64

In [20]:
# 加入新的元素,注意比较s4和s3的区别
stock = ['FB', 'BABA', 'PDD', 'JD']
s4 = pd.Series(s3, index=stock)
s4

FB         NaN
BABA    187.07
PDD      21.83
JD       30.79
Name: 中概股, dtype: float64

In [21]:
# 两个Series可直接相加
s3 + s4

BABA    374.14
BIDU       NaN
FB         NaN
JD       61.58
PDD      43.66
Name: 中概股, dtype: float64

Series是最基本的数据结构,但只能解决一对一问题,一个索引对应一个元素,假如要处理一对多的问题,需要使用DataFrame

### 二维DataFrame

#### 列表或数组作为值

In [22]:
# df1=pd.DataFrame([[1,2,3],[4,5,6]])
df1 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


#### 字典作为值

In [23]:
symbol = ['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT']
data = {
    '行业': ['电商', '电商', '科技', '金融', '金融', '零售'],
    '价格': [176.92, 25.95, 172.97, 41.79, 196.00, 99.55],
    '交易量': [16175610, 27113291, 18913154, 10132145, 2626634, 8086946],
    '雇员': [101550, 175336, 100000, 60348, 36600, 2200000]
}
df2 = pd.DataFrame(data, index=symbol)
df2.name = '美股'
df2.index.name = '代号'
df2

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600
WMT,零售,99.55,8086946,2200000


字典的「键值对」的「键」自动变成了 DataFrame 的栏 (columns)，而「值」自动变成了 DataFrame 的值 (values)，而其索引 (index) 需要另外定义。

In [24]:
df2.values

array([['电商', 176.92, 16175610, 101550],
       ['电商', 25.95, 27113291, 175336],
       ['科技', 172.97, 18913154, 100000],
       ['金融', 41.79, 10132145, 60348],
       ['金融', 196.0, 2626634, 36600],
       ['零售', 99.55, 8086946, 2200000]], dtype=object)

In [25]:
df2.columns

Index(['行业', '价格', '交易量', '雇员'], dtype='object')

In [26]:
df2.index

Index(['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT'], dtype='object', name='代号')

In [27]:
# 查看DataFrame
# 从头查看n行,n的默认值是5
df2.head()

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600


In [28]:
# 从尾部查看n行,n的默认值是5
df2.tail(3)

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600
WMT,零售,99.55,8086946,2200000


In [29]:
# 统计数据表
df2.describe()

Unnamed: 0,价格,交易量,雇员
count,6.0,6.0,6.0
mean,118.863333,13841300.0,445639.0
std,73.748714,8717312.0,860752.2
min,25.95,2626634.0,36600.0
25%,56.23,8598246.0,70261.0
50%,136.26,13153880.0,100775.0
75%,175.9325,18228770.0,156889.5
max,196.0,27113290.0,2200000.0


In [30]:
# 利用MultIlndex对二维数据表增加多层索引,相当于进行升维
df2.index = pd.MultiIndex.from_tuples([('中国公司', 'BABA'), ('中国公司', 'JD'),
                                       ('美国公司', 'AAPL'), ('美国公司', 'MS'),
                                       ('美国公司', 'GS'), ('美国公司', 'WMT')])
df2

Unnamed: 0,Unnamed: 1,行业,价格,交易量,雇员
中国公司,BABA,电商,176.92,16175610,101550
中国公司,JD,电商,25.95,27113291,175336
美国公司,AAPL,科技,172.97,18913154,100000
美国公司,MS,金融,41.79,10132145,60348
美国公司,GS,金融,196.0,2626634,36600
美国公司,WMT,零售,99.55,8086946,2200000


三维Panel 在未来版本中会被废除,这里只是了解下结构和相关参数

pd.Panel( x, item=itm,major_axis=n1,minor_axis=n2 )
  
- x 是位置参数

- items 是默认参数 (axis 0)，默认值为 itm = range(0, number of DataFrame)

- major_axis 是默认参数 (axis 1)，默认值和 DataFrame 的默认 index 一样

- minor_axis 是默认参数 (axis 2)，默认值和 DataFrame 的默认 columns 一样

# 存载

## Excel格式

In [31]:
# 用 pd.to_excel 函数将 DataFrame 保存为 .xlsx 格式，并保存到 ‘Sheet1’ 中
# pd.to_excel ('文件名','表名')
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))
df.to_excel('pd_excel.xlsx', sheet_name='数据源表')

In [32]:
# 读取Excel文件
df1 = pd.read_excel('pd_excel.xlsx', sheet_name='数据源表')
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


## csv格式

In [33]:
# 注意如果 index 没有特意设定，最后不要把 index 值存到 csv 文件中。
# pd.to_csv('文件名',index=False)
data = {
    'Code': ['BABA', '00700.HK', 'AAPL', '600519.SH'],
    'Name': ['阿里巴巴', '腾讯', '苹果', '茅台'],
    'Market': ['US', 'HK', 'US', 'SH'],
    'Price': [185.35, 380.2, 197, 900.2],
    'Currency': ['USD', 'HKD', 'USD', 'CNY']
}
df = pd.DataFrame(data)
df.to_csv('pd_csv.csv', index=False)

In [34]:
# 读取csv文件
df2 = pd.read_csv('pd_csv.csv')
df2

Unnamed: 0,Code,Name,Market,Price,Currency
0,BABA,阿里巴巴,US,185.35,USD
1,00700.HK,腾讯,HK,380.2,HKD
2,AAPL,苹果,US,197.0,USD
3,600519.SH,茅台,SH,900.2,CNY


In [35]:
# 如果一开始储存 df 的时候用 index=True，你会发现加载完后的 df2 是以下的样子
# 注意如果 index 没有特意设定，最后不要把 index 值存到 csv 文件中。
# pd.to_csv('文件名',index=False)
data = {
    'Code': ['BABA', '00700.HK', 'AAPL', '600519.SH'],
    'Name': ['阿里巴巴', '腾讯', '苹果', '茅台'],
    'Market': ['US', 'HK', 'US', 'SH'],
    'Price': [185.35, 380.2, 197, 900.2],
    'Currency': ['USD', 'HKD', 'USD', 'CNY']
}
df = pd.DataFrame(data)
df.to_csv('pd_csv.csv', index=True)
df2 = pd.read_csv('pd_csv.csv')
df2

Unnamed: 0.1,Unnamed: 0,Code,Name,Market,Price,Currency
0,0,BABA,阿里巴巴,US,185.35,USD
1,1,00700.HK,腾讯,HK,380.2,HKD
2,2,AAPL,苹果,US,197.0,USD
3,3,600519.SH,茅台,SH,900.2,CNY


所以,如果没有特意设定,记得将to_csv中的index参数设置为False

# 索引和切片

由于索引切片 Series 跟 numpy 数组很类似，由于 Panel 在未来会被废掉，这里只专注于对 DataFrame 做索引和切片.

In [36]:
# 创建二维数据表
symbol = ['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT']
data = {
    '行业': ['电商', '电商', '科技', '金融', '金融', '零售'],
    '价格': [176.92, 25.95, 172.97, 41.79, 196.00, 99.55],
    '交易量': [16175610, 27113291, 18913154, 10132145, 2626634, 8086946],
    '雇员': [101550, 175336, 100000, 60348, 36600, 2200000]
}
df = pd.DataFrame(data, index=symbol)
df.name = '美股'
df.index.name = '代号'
df

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600
WMT,零售,99.55,8086946,2200000


DataFrame 的索引或切片可以基于标签 (label-based) ，也可以基于位置 (position-based)，不像 numpy 数组的索引或切片只基于位置。

一般基于标签就用 at 和 loc，基于位置就用 iat 和 iloc。

## 索引单元素

In [37]:
# 索引单元素
df.at['AAPL', '价格']

172.97

In [38]:
# 索引单元素
df.iat[2, 1]

172.97

## 切片单列

In [39]:
# 切片单列
df.价格

代号
BABA    176.92
JD       25.95
AAPL    172.97
MS       41.79
GS      196.00
WMT      99.55
Name: 价格, dtype: float64

In [40]:
# 切片单列
df['价格']

代号
BABA    176.92
JD       25.95
AAPL    172.97
MS       41.79
GS      196.00
WMT      99.55
Name: 价格, dtype: float64

In [41]:
# 获取交易量属性下的Series
df.loc[:, '交易量']

代号
BABA    16175610
JD      27113291
AAPL    18913154
MS      10132145
GS       2626634
WMT      8086946
Name: 交易量, dtype: int64

In [42]:
# 用 iloc 获取第 1 列下的 Series
df.iloc[:, 0]

代号
BABA    电商
JD      电商
AAPL    科技
MS      金融
GS      金融
WMT     零售
Name: 行业, dtype: object

建议，如果追求简洁和方便，用 . 和 []；如果追求一致和清晰，用 loc 和 iloc

## 切片多列

In [43]:
# 切片多列
df[['雇员','价格']]

Unnamed: 0_level_0,雇员,价格
代号,Unnamed: 1_level_1,Unnamed: 2_level_1
BABA,101550,176.92
JD,175336,25.95
AAPL,100000,172.97
MS,60348,41.79
GS,36600,196.0
WMT,2200000,99.55


In [44]:
# 用 loc 获取从属性 ‘行业’ 到 ‘交易量‘ 之间的列
df.loc[:, '行业':'交易量']

Unnamed: 0_level_0,行业,价格,交易量
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BABA,电商,176.92,16175610
JD,电商,25.95,27113291
AAPL,科技,172.97,18913154
MS,金融,41.79,10132145
GS,金融,196.0,2626634
WMT,零售,99.55,8086946


In [45]:
# 用 iloc 获取第 1 和 2 列
df.iloc[:, 0:2]

Unnamed: 0_level_0,行业,价格
代号,Unnamed: 1_level_1,Unnamed: 2_level_1
BABA,电商,176.92
JD,电商,25.95
AAPL,科技,172.97
MS,金融,41.79
GS,金融,196.0
WMT,零售,99.55


建议，如果追求简洁和方便用 []；如果追求一致和清晰，用 loc 和 iloc。

## 对行切片

In [46]:
# 用loc获取标签为'GS'的Series
df.loc['GS',:]

行业          金融
价格         196
交易量    2626634
雇员       36600
Name: GS, dtype: object

In [47]:
# 用 iloc 获取第 4 行下的 Series
df.iloc[3,:]

行业           金融
价格        41.79
交易量    10132145
雇员        60348
Name: MS, dtype: object

In [48]:
# 用 [1:2] 获取第 2 行的 sub-DataFrame (只有一行)
df[1:2]

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
JD,电商,25.95,27113291,175336


In [49]:
# 用 ['JD':'JD'] 获取标签为 'JD' 的 sub-DataFrame (只有一行)。
df['JD':'JD']

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
JD,电商,25.95,27113291,175336


建议，只用 loc 和 iloc

## 对多行切片

In [50]:
# 用 [1:4] 获取第 2 到 4 行的 sub-DataFrame
df[1:4]

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
MS,金融,41.79,10132145,60348


In [51]:
# 用 ['GS':'WMT'] 获取标签从'GS' 到 'WMT' 的 sub-DataFrame
df[ 'GS':'WMT' ]

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
GS,金融,196.0,2626634,36600
WMT,零售,99.55,8086946,2200000


In [52]:
# 用 loc 获取标签从 ‘MS‘ 到 'GS' 的 sub-DataFrame
df.loc[ 'MS':'GS', : ]

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MS,金融,41.79,10132145,60348
GS,金融,196.0,2626634,36600


In [53]:
# 注意 ‘MS’:’GS’ 要按着 index 里面元素的顺序，要不然会返回一个空的 DataFrame
df.loc[ 'MS':'JD', : ]

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


In [54]:
# 用 iloc 获取第 2 到 3 行的 sub-DataFrame
df.iloc[ 1:3, : ]

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000


建议，只用 loc 和 iloc

## 切片行和列

In [55]:
# 用 loc 获取行标签从 ‘GS‘ 到 'WMT'，列标签从'价格'到最后的 sub-DataFrame
df.loc[ 'GS':'WMT', '价格': ]

Unnamed: 0_level_0,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
GS,196.0,2626634,36600
WMT,99.55,8086946,2200000


In [56]:
# 用 iloc 获取第 1 到 2 行，第 1 到 2 列的 sub-DataFrame
df.iloc[ :2, 1:3 ]

Unnamed: 0_level_0,价格,交易量
代号,Unnamed: 1_level_1,Unnamed: 2_level_1
BABA,176.92,16175610
JD,25.95,27113291


## 高级索引

高级索引 (advanced indexing) 可以用布尔索引 (boolean indexing) 和调用函数 (callable function) 来实现，两种方法都返回一组“正确”的索引，而且可以和 loc , iloc , [] 一起套用，具体形式有以下常见几种：



- df.loc[布尔索引, :] 

- df.iloc[布尔索引, :] 

- df[布尔索引] 

- df.loc[调用函数, :]  

- df.iloc[调用函数, :] 

- df[调用函数] 



还有以下罕见几种：



- df.loc[:, 布尔索引] 

- df.iloc[:, 布尔索引] 

- df.loc[:, 调用函数]  

- df.iloc[:, 调用函数] 

### 布尔索引

In [57]:
# 过滤掉雇员小于 100,000 人的公司
print( df.雇员 >= 100000 )
df.loc[ df.雇员 >= 100000, : ]

代号
BABA     True
JD       True
AAPL     True
MS      False
GS      False
WMT      True
Name: 雇员, dtype: bool


Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000
WMT,零售,99.55,8086946,2200000


In [58]:
# 找到所有值为整数型的 columns
print( df.dtypes == 'int64' )
df.loc[ :, df.dtypes == 'int64' ]

行业     False
价格     False
交易量     True
雇员      True
dtype: bool


Unnamed: 0_level_0,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1
BABA,16175610,101550
JD,27113291,175336
AAPL,18913154,100000
MS,10132145,60348
GS,2626634,36600
WMT,8086946,2200000


### 调用函数

In [59]:
# 找出交易量大于平均交易量的所有公司
df.loc[lambda x : x.交易量 > x.交易量.mean(),:]

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
JD,电商,25.95,27113291,175336
AAPL,科技,172.97,18913154,100000


In [60]:
# 在上面基础上再加一个条件 -- 价格要在 100 之上 
df.loc[lambda x :(x.交易量>x.交易量.mean())&(x.价格>100),:]

Unnamed: 0_level_0,行业,价格,交易量,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,电商,176.92,16175610,101550
AAPL,科技,172.97,18913154,100000


In [61]:
# 价格大于 100 的股票
df.价格.loc[lambda x :x>100]

代号
BABA    176.92
AAPL    172.97
GS      196.00
Name: 价格, dtype: float64

### 多层索引

#### 多层索引Series

In [62]:
# 定义一个 Series，注意它的 index 是一个二维列表，列表第一行 dates 作为第一层索引，第二行 codes 作为第二层索引

price = [190,32,196,192,200,189,31,30,199]
dates = ['2019-04-01']*3 + ['2019-04-02']*2+['2019-04-03']*2 + ['2019-04-04']*2
codes = ['BABA','JD','GS','BABA','GS','BABA','JD','JD','GS']

data = pd.Series( price,index=[ dates, codes ])
data

2019-04-01  BABA    190
            JD       32
            GS      196
2019-04-02  BABA    192
            GS      200
2019-04-03  BABA    189
            JD       31
2019-04-04  JD       30
            GS      199
dtype: int64

In [63]:
data.index

MultiIndex(levels=[['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04'], ['BABA', 'GS', 'JD']],
           labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 2, 1, 0, 1, 0, 2, 2, 1]])

In [64]:
# 用 [] 加第一层索引可以获取第一层信息
data['2019-04-02']

BABA    192
GS      200
dtype: int64

In [65]:
# 同理，用 loc 加第一层索引也可以切片获取第一层信息
data.loc['2019-04-02':'2019-04-04']

2019-04-02  BABA    192
            GS      200
2019-04-03  BABA    189
            JD       31
2019-04-04  JD       30
            GS      199
dtype: int64

In [66]:
# 切片还可以在不同层上进行，下面 loc  中的冒号 : 表示第一层所有元素，‘GS’ 表示第二层标签为 ‘GS’
data.loc[ :, 'GS' ]

2019-04-01    196
2019-04-02    200
2019-04-04    199
dtype: int64

#### 多层索引DataFrame

In [67]:
# 注意midx 和 mcol 都是对象，各种都有 levels, labels, names 等性质

data = [ ['电商', 101550, 176.92, 16175610], 
         ['电商', 175336, 25.95, 27113291], 
         ['金融', 60348, 41.79, 10132145], 
         ['金融', 36600, 196.00, 2626634] ]

midx = pd.MultiIndex( 
          levels=[['中国','美国'],
                  ['BABA', 'JD', 'GS', 'MS']], 
          labels=[[0,0,1,1],[0,1,2,3]],
          names=['地区', '代号'])

mcol = pd.MultiIndex( 
          levels=[['公司数据','交易数据'],
                  ['行业','雇员','价格','交易量']], 
          labels=[[0,0,1,1],[0,1,2,3]],
          names=['概括','细分'])

df = pd.DataFrame(data, index=midx, columns=mcol)
df

Unnamed: 0_level_0,概括,公司数据,公司数据,交易数据,交易数据
Unnamed: 0_level_1,细分,行业,雇员,价格,交易量
地区,代号,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
中国,BABA,电商,101550,176.92,16175610
中国,JD,电商,175336,25.95,27113291
美国,GS,金融,60348,41.79,10132145
美国,MS,金融,36600,196.0,2626634


In [68]:
# 在第一层 columns 的 ‘公司数据’ 和第二层 columns 的 ‘行业’ 做索引
df['公司数据','行业']

地区  代号  
中国  BABA    电商
    JD      电商
美国  GS      金融
    MS      金融
Name: (公司数据, 行业), dtype: object

In [220]:
# 在第一层 index 的 ‘中国’ 做切片，得到一个含两层 columns 的 DataFrame
df.loc['中国']

特征,行业,雇员,价格
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BABA,电商,101550,176.92
JD,电商,175336,25.95


In [70]:
# 用 swaplevel 将 index level 的顺序调位
df.swaplevel('地区', '代号')

Unnamed: 0_level_0,概括,公司数据,公司数据,交易数据,交易数据
Unnamed: 0_level_1,细分,行业,雇员,价格,交易量
代号,地区,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
BABA,中国,电商,101550,176.92,16175610
JD,中国,电商,175336,25.95,27113291
GS,美国,金融,60348,41.79,10132145
MS,美国,金融,36600,196.0,2626634


In [71]:
# 也可以用 swaplevel 将 columns level 的顺序调位
df.columns = df.columns.swaplevel(0,1)
df

Unnamed: 0_level_0,细分,行业,雇员,价格,交易量
Unnamed: 0_level_1,概括,公司数据,公司数据,交易数据,交易数据
地区,代号,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
中国,BABA,电商,101550,176.92,16175610
中国,JD,电商,175336,25.95,27113291
美国,GS,金融,60348,41.79,10132145
美国,MS,金融,36600,196.0,2626634


In [72]:
# 重设index
data = {'地区': ['中国', '中国', '美国', '美国'],
        '代号': ['BABA', 'JD', 'MS', 'GS'],
        '行业': ['电商', '电商', '金融', '金融'],
        '价格': [176.92, 25.95, 41.79, 196.00],
        '交易量': [16175610, 27113291, 10132145, 2626634],
        '雇员': [101550, 175336, 60348, 36600] }
df = pd.DataFrame( data )
df

Unnamed: 0,地区,代号,行业,价格,交易量,雇员
0,中国,BABA,电商,176.92,16175610,101550
1,中国,JD,电商,25.95,27113291,175336
2,美国,MS,金融,41.79,10132145,60348
3,美国,GS,金融,196.0,2626634,36600


In [73]:
# 用set_index将将「地区」和「代号」设置为第一层 index 和第二层 index
df2 = df.set_index( ['地区','代号'] )
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,行业,价格,交易量,雇员
地区,代号,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
中国,BABA,电商,176.92,16175610,101550
中国,JD,电商,25.95,27113291,175336
美国,MS,金融,41.79,10132145,60348
美国,GS,金融,196.0,2626634,36600


In [74]:
# 将所有 index 变成 columns
df2.reset_index()

Unnamed: 0,地区,代号,行业,价格,交易量,雇员
0,中国,BABA,电商,176.92,16175610,101550
1,中国,JD,电商,25.95,27113291,175336
2,美国,MS,金融,41.79,10132145,60348
3,美国,GS,金融,196.0,2626634,36600


# 合并和连接

数据表可以按「键」合并，用 merge 函数；可以按「轴」来连接，用 concat 函数。

## 合并

合并用merge函数,语法写成:
pd.merge(df1,df2,how=s,on=c)

In [76]:
# 创建price表
df_price=pd.DataFrame({'Data':pd.date_range('2019-1-1',periods=4),'Adj Close':[24.42,25.00,25.25,25.64]})
df_price

Unnamed: 0,Data,Adj Close
0,2019-01-01,24.42
1,2019-01-02,25.0
2,2019-01-03,25.25
3,2019-01-04,25.64


In [81]:
# 创建volume表
df_volume=pd.DataFrame({'Data':pd.date_range('2019-1-2',periods=5),'Volume':[56081400,99455500,83028700,100234000,73829000]})
df_volume

Unnamed: 0,Data,Volume
0,2019-01-02,56081400
1,2019-01-03,99455500
2,2019-01-04,83028700
3,2019-01-05,100234000
4,2019-01-06,73829000


In [82]:
# 左连接
pd.merge(df_price,df_volume,how='left')

Unnamed: 0,Data,Adj Close,Volume
0,2019-01-01,24.42,
1,2019-01-02,25.0,56081400.0
2,2019-01-03,25.25,99455500.0
3,2019-01-04,25.64,83028700.0


In [83]:
# 右连接
pd.merge(df_price,df_volume,how='right')

Unnamed: 0,Data,Adj Close,Volume
0,2019-01-02,25.0,56081400
1,2019-01-03,25.25,99455500
2,2019-01-04,25.64,83028700
3,2019-01-05,,100234000
4,2019-01-06,,73829000


In [84]:
# 外连接
pd.merge(df_price,df_volume,how='outer')

Unnamed: 0,Data,Adj Close,Volume
0,2019-01-01,24.42,
1,2019-01-02,25.0,56081400.0
2,2019-01-03,25.25,99455500.0
3,2019-01-04,25.64,83028700.0
4,2019-01-05,,100234000.0
5,2019-01-06,,73829000.0


In [85]:
# 内连接(默认)
pd.merge(df_price,df_volume,how='inner')

Unnamed: 0,Data,Adj Close,Volume
0,2019-01-02,25.0,56081400
1,2019-01-03,25.25,99455500
2,2019-01-04,25.64,83028700


In [112]:
# 创建两个数据表
porfolio1=pd.DataFrame({'Asset':['FX','FX','IR'],'Instrument':['Option','Swap','Option'],'Number':[1,2,3]})
porfolio2=pd.DataFrame({'Asset':['FX','FX','FX','IR'],'Instrument':['Option','Option','Swap','Swap'],'Number':[4,5,6,7]})
print(profolio1)
print('\n')
print(profolio2)

  Asset Instrument  Number
0    FX     Option       1
1    FX       Swap       2
2    IR     Option       3


  Asset Instrument  Number
0    FX     Option       4
1    FX     Option       5
2    FX       Swap       6
3    IR       Swap       7


In [113]:
# 在'Asset'和'Instrument'两个键上合并
pd.merge(porfolio1,porfolio2,on=['Asset','Instrument'],how='outer')

Unnamed: 0,Asset,Instrument,Number_x,Number_y
0,FX,Option,1.0,4.0
1,FX,Option,1.0,5.0
2,FX,Swap,2.0,6.0
3,IR,Option,3.0,
4,IR,Swap,,7.0


In [116]:
# 当 df1 和 df2 有两个相同的列 (Asset 和 Instrument) 时，单单只对一列 (Asset) 做合并产出的 DataFrame 会有另一列 (Instrument) 重复的名称。这时 merge 函数给重复的名称加个后缀 _x, _y 等等
pd.merge(porfolio1,porfolio2,on='Asset')

Unnamed: 0,Asset,Instrument_x,Number_x,Instrument_y,Number_y
0,FX,Option,1,Option,4
1,FX,Option,1,Option,5
2,FX,Option,1,Swap,6
3,FX,Swap,2,Option,4
4,FX,Swap,2,Option,5
5,FX,Swap,2,Swap,6
6,IR,Option,3,Swap,7


In [118]:
# 增加后缀
pd.merge(porfolio1,porfolio2,on='Asset',suffixes=('1','2'))

Unnamed: 0,Asset,Instrument1,Number1,Instrument2,Number2
0,FX,Option,1,Option,4
1,FX,Option,1,Option,5
2,FX,Option,1,Swap,6
3,FX,Swap,2,Option,4
4,FX,Swap,2,Option,5
5,FX,Swap,2,Swap,6
6,IR,Option,3,Swap,7


## 连接

在 concat 函数也可设定参数 axis，



- axis = 0 (默认)，沿着轴 0 (行) 连接，得到一个更长的 Series

- axis = 1，沿着轴 1 (列) 连接，得到一个 DataFrame

In [119]:
# 创建三个Series
s1=pd.Series([0,1],index=['a','b'])
s2=pd.Series([2,3,4],index=['c','d','e'])
s3=pd.Series([5,6],index=['f','g'])

In [120]:
# 沿轴0连接
pd.concat([s1,s2,s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [140]:
# 沿轴1连接
pd.concat([s1,s2,s3],axis=1,sort=True)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [133]:
s4=pd.concat([s1,s3])
s4

a    0
b    1
f    5
g    6
dtype: int64

In [135]:
# 内连接s1和s4
pd.concat([s1,s4],axis=1,join='inner')

Unnamed: 0,0,1
a,0,0
b,1,1


In [137]:
# 将 n 个 Series 沿「轴 0」连接起来，再赋予 3 个 keys 创建多层 Series
pd.concat([s1,s2,s3],keys=['one','two','three'])

one    a    0
       b    1
two    c    2
       d    3
       e    4
three  f    5
       g    6
dtype: int64

In [148]:
# 创建数据表
df1=pd.DataFrame(np.arange(12).reshape(3,4),columns=['a','b','c','d'])
df2=pd.DataFrame(np.arange(6).reshape(2,3),columns=['b','c','a'])
print(df1,'\n',df2)

   a  b   c   d
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11 
    b  c  a
0  0  1  2
1  3  4  5


In [150]:
pd.concat([df1,df2],sort=True)

Unnamed: 0,a,b,c,d
0,0,1,2,3.0
1,4,5,6,7.0
2,8,9,10,11.0
0,2,0,1,
1,5,3,4,


In [153]:
# 得到的 DataFrame 的 index = [0,1,2,0,1]，有重复值。如果 index 不包含重要信息 ，可以将 ignore_index 设置为 True，
#这样就得到默认的 index 值了
pd.concat([df1,df2],ignore_index=True,sort=True)


Unnamed: 0,a,b,c,d
0,0,1,2,3.0
1,4,5,6,7.0
2,8,9,10,11.0
3,2,0,1,
4,5,3,4,


In [155]:
# 创建两个数据表
df1=pd.DataFrame(np.arange(6).reshape(3,2),index=['a','b','c'],columns=['one','two'])
df1

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5


In [164]:
df2=pd.DataFrame(5+np.arange(4).reshape(2,2),index=['a','c'],columns=['three','four'])
df2

Unnamed: 0,three,four
a,5,6
c,7,8


In [168]:
pd.concat([df1,df2],axis=1,sort=True)

Unnamed: 0,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


# 重塑和透视

重塑 (reshape) 和透视 (pivot) 两个操作只改变数据表的布局 (layout)：



- 重塑用 stack 和 unstack 函数 (互为逆转操作)

- 透视用 pivot 和 melt 函数 (互为逆转操作)

## 重塑

In [46]:
import numpy as np
import pandas as pd
symbol = ['JD', 'AAPL']
data = {'行业': ['电商', '科技'],
        '价格': [25.95, 172.97],
        '交易量': [27113291, 18913154]}
df = pd.DataFrame( data, index=symbol )
df.columns.name = '特征'
df.index.name = '代号'
df

特征,行业,价格,交易量
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
JD,电商,25.95,27113291
AAPL,科技,172.97,18913154


In [47]:
# stack: 列索引 → 行索引
c2i_Series=df.stack()
c2i_Series

代号    特征 
JD    行业           电商
      价格        25.95
      交易量    27113291
AAPL  行业           科技
      价格       172.97
      交易量    18913154
dtype: object

In [48]:
#unstack: 行索引 → 列索引
i2c_Series=df.unstack()
i2c_Series

特征   代号  
行业   JD            电商
     AAPL          科技
价格   JD         25.95
     AAPL      172.97
交易量  JD      27113291
     AAPL    18913154
dtype: object

规律：



- 当用 stack 将 df 变成 c2i_Series 时，df 的列索引 c 加在其行索引 r 后面得到 [r, c] 做为 c2i_Series 的多层索引



- 当用 unstack 将 df 变成 i2c_Series 时，df 的行索引 r 加在其列索引 c 后面得到 [c, r] 做为 i2c_Series 的多层索引

In [49]:
#  基于层来 unstack() 时，没有填层数，默认为最后一层
c2i_Series.unstack()

特征,行业,价格,交易量
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
JD,电商,25.95,27113291
AAPL,科技,172.97,18913154


In [50]:
# 基于层来 unstack() 时，选择第一层 (参数放 0)
c2i_Series.unstack(0)

代号,JD,AAPL
特征,Unnamed: 1_level_1,Unnamed: 2_level_1
行业,电商,科技
价格,25.95,172.97
交易量,27113291,18913154


In [51]:
# 基于名称来 unstack 
c2i_Series.unstack('代号')

代号,JD,AAPL
特征,Unnamed: 1_level_1,Unnamed: 2_level_1
行业,电商,科技
价格,25.95,172.97
交易量,27113291,18913154


In [53]:
# 创建多层DataFrame
data = [ ['电商', 101550, 176.92], 
         ['电商', 175336, 25.95], 
         ['金融', 60348, 41.79], 
         ['金融', 36600, 196.00] ]

midx = pd.MultiIndex( levels=[['中国','美国'],
                              ['BABA', 'JD', 'GS', 'MS']], 
                      labels=[[0,0,1,1],[0,1,2,3]],
                      names = ['地区', '代号'])

mcol = pd.Index(['行业','雇员','价格'], name='特征')

df = pd.DataFrame( data, index=midx, columns=mcol )
df

Unnamed: 0_level_0,特征,行业,雇员,价格
地区,代号,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
中国,BABA,电商,101550,176.92
中国,JD,电商,175336,25.95
美国,GS,金融,60348,41.79
美国,MS,金融,36600,196.0


In [54]:
df.index,df.columns

(MultiIndex(levels=[['中国', '美国'], ['BABA', 'JD', 'GS', 'MS']],
            labels=[[0, 0, 1, 1], [0, 1, 2, 3]],
            names=['地区', '代号']),
 Index(['行业', '雇员', '价格'], dtype='object', name='特征'))

In [55]:
# 基于层来 unstack() 时，选择第一层 (参数放 0)
df.unstack(0)

特征,行业,行业,雇员,雇员,价格,价格
地区,中国,美国,中国,美国,中国,美国
代号,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
BABA,电商,,101550.0,,176.92,
JD,电商,,175336.0,,25.95,
GS,,金融,,60348.0,,41.79
MS,,金融,,36600.0,,196.0


In [56]:
# 基于层来 unstack() 时，选择第二层 (参数放 1)
df.unstack(1)

特征,行业,行业,行业,行业,雇员,雇员,雇员,雇员,价格,价格,价格,价格
代号,BABA,JD,GS,MS,BABA,JD,GS,MS,BABA,JD,GS,MS
地区,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
中国,电商,电商,,,101550.0,175336.0,,,176.92,25.95,,
美国,,,金融,金融,,,60348.0,36600.0,,,41.79,196.0


In [57]:
# 基于层先 unstack(0) 再 stack(0)
df.unstack(0).stack(0)

Unnamed: 0_level_0,地区,中国,美国
代号,特征,Unnamed: 2_level_1,Unnamed: 3_level_1
BABA,价格,176.92,
BABA,行业,电商,
BABA,雇员,101550,
JD,价格,25.95,
JD,行业,电商,
JD,雇员,175336,
GS,价格,,41.79
GS,行业,,金融
GS,雇员,,60348
MS,价格,,196


In [58]:
#  基于层先 unstack(0) 再 stack(1)
df.unstack(0).stack(1)

Unnamed: 0_level_0,特征,行业,雇员,价格
代号,地区,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,中国,电商,101550.0,176.92
JD,中国,电商,175336.0,25.95
GS,美国,金融,60348.0,41.79
MS,美国,金融,36600.0,196.0


In [59]:
# 基于层先 unstack(1) 再 stack(0)
df.unstack(1).stack(0)

Unnamed: 0_level_0,代号,BABA,GS,JD,MS
地区,特征,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
中国,价格,176.92,,25.95,
中国,行业,电商,,电商,
中国,雇员,101550,,175336,
美国,价格,,41.79,,196
美国,行业,,金融,,金融
美国,雇员,,60348,,36600


In [60]:
# 基于层先 unstack(1) 再 stack(1)
df.unstack(1).stack(1)

Unnamed: 0_level_0,特征,行业,雇员,价格
地区,代号,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
中国,BABA,电商,101550.0,176.92
中国,JD,电商,175336.0,25.95
美国,GS,金融,60348.0,41.79
美国,MS,金融,36600.0,196.0


In [61]:
# 基于层被 stack()，没有填层数，默认为最后一层。
df.stack()

地区  代号    特征
中国  BABA  行业        电商
          雇员    101550
          价格    176.92
    JD    行业        电商
          雇员    175336
          价格     25.95
美国  GS    行业        金融
          雇员     60348
          价格     41.79
    MS    行业        金融
          雇员     36600
          价格       196
dtype: object

In [62]:
# 基于层被 unstack() 两次，没有填层数，默认为最后一层
df.unstack().unstack()

特征  代号    地区
行业  BABA  中国        电商
          美国       NaN
    JD    中国        电商
          美国       NaN
    GS    中国       NaN
          美国        金融
    MS    中国       NaN
          美国        金融
雇员  BABA  中国    101550
          美国       NaN
    JD    中国    175336
          美国       NaN
    GS    中国       NaN
          美国     60348
    MS    中国       NaN
          美国     36600
价格  BABA  中国    176.92
          美国       NaN
    JD    中国     25.95
          美国       NaN
    GS    中国       NaN
          美国     41.79
    MS    中国       NaN
          美国       196
dtype: object

## 透视

跟Excel的数据透视表是一回事，通过对源表进行透视操作后，就可以根据自己的需求来“随意揉捏”数据了。

透视表是用来汇总其它表的数据：

- 首先把源表分组，将不同值当做行 (row)、列 (column) 和值 (value)


- 然后对各组内数据做汇总操作如排序、平均、累加、计数等


这种动态将·「源表」得到想要「终表」的旋转 (pivoting) 过程，使透视表得以命名。

在 Pandas 里透视的方法有两种：



- 用 pivot 函数将「一张长表」变「多张宽表」(一维转二维)

- 用 melt 函数将「多张宽表」变「一张长表」(二维转一维)

### 从长到宽pivot

在 pivot 函数中



- 将 index 设置成 源表某列

- 将 columns 设置成 源表某列

- 将 values 设置成 源表某列

In [91]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [92]:
data=pd.read_excel("./data/stock.xlsx")
data.head()

Unnamed: 0,date,symbol,open,high,low,close,adj close,volume
0,2019-02-21,AAPL,173,22,144,64,186,40
1,2019-02-21,JD,159,96,195,62,149,143
2,2019-02-21,BABA,94,98,133,127,82,121
3,2019-02-21,GS,192,100,143,87,63,99
4,2019-02-21,FB,107,90,99,33,161,122


In [98]:
# 透视一列
close_price=data.pivot(index='date',columns='symbol',values='adj close')
close_price

symbol,AAPL,BABA,FB,GS,JD
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-02-21,186,82,161,63,149
2019-02-22,188,26,79,59,56
2019-02-23,175,133,142,153,189
2019-02-24,33,187,20,29,25
2019-02-25,87,92,191,104,132
2019-02-26,58,54,27,198,41


In [101]:
# 透视多列
cv_values=data.pivot(index='date',columns='symbol',values=['adj close','volume'])
cv_values

Unnamed: 0_level_0,adj close,adj close,adj close,adj close,adj close,volume,volume,volume,volume,volume
symbol,AAPL,BABA,FB,GS,JD,AAPL,BABA,FB,GS,JD
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
2019-02-21,186,82,161,63,149,40,121,122,99,143
2019-02-22,188,26,79,59,56,180,134,172,112,127
2019-02-23,175,133,142,153,189,73,92,105,165,99
2019-02-24,33,187,20,29,25,106,124,53,81,99
2019-02-25,87,92,191,104,132,156,26,197,134,27
2019-02-26,58,54,27,198,41,145,191,28,59,192


In [111]:
# 如果不设置values参数,pivot默认返回columns(源表列数)-2个透视表
all_pivot=data.pivot(index = 'date',columns='symbol')
all_pivot

Unnamed: 0_level_0,open,open,open,open,open,high,high,high,high,high,...,adj close,adj close,adj close,adj close,adj close,volume,volume,volume,volume,volume
symbol,AAPL,BABA,FB,GS,JD,AAPL,BABA,FB,GS,JD,...,AAPL,BABA,FB,GS,JD,AAPL,BABA,FB,GS,JD
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2019-02-21,173,94,107,192,159,22,98,90,100,96,...,186,82,161,63,149,40,121,122,99,143
2019-02-22,62,87,103,78,138,110,162,99,173,99,...,188,26,79,59,56,180,134,172,112,127
2019-02-23,142,177,185,40,143,65,172,157,146,102,...,175,133,142,153,189,73,92,105,165,99
2019-02-24,161,42,192,46,120,22,174,105,121,103,...,33,187,20,29,25,106,124,53,81,99
2019-02-25,132,122,170,109,164,71,89,194,112,163,...,87,92,191,104,132,156,26,197,134,27
2019-02-26,181,150,37,187,67,81,79,160,128,199,...,58,54,27,198,41,145,191,28,59,192


In [112]:
# 获取 2019-02-25 和 2019-02-26 两天的 BABA 和 FB 的开盘价
# all_pivot['open'].iloc[2:,1:3]

### 从宽到长(melt)

pivot 逆反操作是 melt,具体来说，函数 melt 实际是将「源表」转化成 id-variable 类型的 DataFrame

In [114]:
# Date 和 Symbol 列当成 id,其他列 Open, High, Low, Close, Adj Close 和 Volume 当成 variable，而它们对应的值当成 value
melted_data = pd.melt( data, id_vars=['date','symbol'] )
melted_data.head(5).append(melted_data.tail(5))

Unnamed: 0,date,symbol,variable,value
0,2019-02-21,AAPL,open,173
1,2019-02-21,JD,open,159
2,2019-02-21,BABA,open,94
3,2019-02-21,GS,open,192
4,2019-02-21,FB,open,107
175,2019-02-26,AAPL,volume,145
176,2019-02-26,JD,volume,192
177,2019-02-26,BABA,volume,191
178,2019-02-26,GS,volume,59
179,2019-02-26,FB,volume,28


In [117]:
# 在 melted_data 上使用调用函数做索引，得到了在 2019-02-25 那天 BABA 和 FB 的信息
melted_data[ lambda x: (x.date=='25/02/2019') 
                     & ((x.symbol=='BABA')|(x.symbol=='FB')) ]

Unnamed: 0,date,symbol,variable,value
22,2019-02-25,BABA,open,122
24,2019-02-25,FB,open,170
52,2019-02-25,BABA,high,89
54,2019-02-25,FB,high,194
82,2019-02-25,BABA,low,123
84,2019-02-25,FB,low,35
112,2019-02-25,BABA,close,135
114,2019-02-25,FB,close,197
142,2019-02-25,BABA,adj close,92
144,2019-02-25,FB,adj close,191


# 分组和整合

In [186]:
data.head()

Unnamed: 0,date,symbol,open,high,low,close,adj close,volume
0,2019-02-21,AAPL,173,22,144,64,186,40
1,2019-02-21,JD,159,96,195,62,149,143
2,2019-02-21,BABA,94,98,133,127,82,121
3,2019-02-21,GS,192,100,143,87,63,99
4,2019-02-21,FB,107,90,99,33,161,122


In [187]:
data1=data[['date','symbol','adj close']]
data1.insert(1,'year',pd.DatetimeIndex(data1['date']).year)
data1.insert(2,'month',pd.DatetimeIndex(data1['date']).month)
data1.head(3).append(data1.tail(3))

Unnamed: 0,date,year,month,symbol,adj close
0,2019-02-21,2019,2,AAPL,186
1,2019-02-21,2019,2,JD,149
2,2019-02-21,2019,2,BABA,82
27,2019-02-26,2019,2,BABA,54
28,2019-02-26,2019,2,GS,198
29,2019-02-26,2019,2,FB,27


## 分组

当你对如果使用某个对象感到迷茫时，用 dir() 来查看它的「属性」和「内置方法」。

In [188]:
grouped=data1.groupby('symbol')
grouped

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x0000016452AAB860>

In [189]:
dir(grouped)

['__bytes__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_accessors',
 '_add_numeric_operations',
 '_agg_doc',
 '_aggregate',
 '_aggregate_generic',
 '_aggregate_item_by_item',
 '_aggregate_multiple_funcs',
 '_apply_filter',
 '_apply_to_column_groupbys',
 '_apply_whitelist',
 '_assure_grouper',
 '_block_agg_axis',
 '_bool_agg',
 '_builtin_table',
 '_choose_path',
 '_concat_objects',
 '_constructor',
 '_cumcount_array',
 '_cython_agg_blocks',
 '_cython_agg_general',
 '_cython_table',
 '_cython_transform',
 '_decide_output_index',
 '_def_str',
 '_define_paths',
 '_deprecations',
 '_dir_additio

In [190]:
# 组的个数 (int)
grouped.ngroups

5

In [191]:
# 每组元素的个数 (Series)
grouped.size()

symbol
AAPL    6
BABA    6
FB      6
GS      6
JD      6
dtype: int64

In [192]:
# 每组元素在原 DataFrame 中的索引信息 (dict)
grouped.groups

{'AAPL': Int64Index([0, 5, 10, 15, 20, 25], dtype='int64'),
 'BABA': Int64Index([2, 7, 12, 17, 22, 27], dtype='int64'),
 'FB': Int64Index([4, 9, 14, 19, 24, 29], dtype='int64'),
 'GS': Int64Index([3, 8, 13, 18, 23, 28], dtype='int64'),
 'JD': Int64Index([1, 6, 11, 16, 21, 26], dtype='int64')}

In [193]:
# 标签 label 对应的数据 (DataFrame)
grouped.get_group('GS').tail()

Unnamed: 0,date,year,month,symbol,adj close
8,2019-02-22,2019,2,GS,59
13,2019-02-23,2019,2,GS,153
18,2019-02-24,2019,2,GS,29
23,2019-02-25,2019,2,GS,104
28,2019-02-26,2019,2,GS,198


In [194]:
def print_groups( group_obj ):
    for name, group in group_obj:
        print( name )
        print( group.head() )

In [195]:
print_groups( grouped )

AAPL
         date  year  month symbol  adj close
0  2019-02-21  2019      2   AAPL        186
5  2019-02-22  2019      2   AAPL        188
10 2019-02-23  2019      2   AAPL        175
15 2019-02-24  2019      2   AAPL         33
20 2019-02-25  2019      2   AAPL         87
BABA
         date  year  month symbol  adj close
2  2019-02-21  2019      2   BABA         82
7  2019-02-22  2019      2   BABA         26
12 2019-02-23  2019      2   BABA        133
17 2019-02-24  2019      2   BABA        187
22 2019-02-25  2019      2   BABA         92
FB
         date  year  month symbol  adj close
4  2019-02-21  2019      2     FB        161
9  2019-02-22  2019      2     FB         79
14 2019-02-23  2019      2     FB        142
19 2019-02-24  2019      2     FB         20
24 2019-02-25  2019      2     FB        191
GS
         date  year  month symbol  adj close
3  2019-02-21  2019      2     GS         63
8  2019-02-22  2019      2     GS         59
13 2019-02-23  2019      2     GS      

In [196]:
# 多标签分组
grouped2 = data1.groupby(['symbol', 'year', 'month'])
print_groups( grouped2 )

('AAPL', 2019, 2)
         date  year  month symbol  adj close
0  2019-02-21  2019      2   AAPL        186
5  2019-02-22  2019      2   AAPL        188
10 2019-02-23  2019      2   AAPL        175
15 2019-02-24  2019      2   AAPL         33
20 2019-02-25  2019      2   AAPL         87
('BABA', 2019, 2)
         date  year  month symbol  adj close
2  2019-02-21  2019      2   BABA         82
7  2019-02-22  2019      2   BABA         26
12 2019-02-23  2019      2   BABA        133
17 2019-02-24  2019      2   BABA        187
22 2019-02-25  2019      2   BABA         92
('FB', 2019, 2)
         date  year  month symbol  adj close
4  2019-02-21  2019      2     FB        161
9  2019-02-22  2019      2     FB         79
14 2019-02-23  2019      2     FB        142
19 2019-02-24  2019      2     FB         20
24 2019-02-25  2019      2     FB        191
('GS', 2019, 2)
         date  year  month symbol  adj close
3  2019-02-21  2019      2     GS         63
8  2019-02-22  2019      2     G

In [197]:
data2=data1.set_index(['symbol','year','month'])
data2.head().append(data2.tail())

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,date,adj close
symbol,year,month,Unnamed: 3_level_1,Unnamed: 4_level_1
AAPL,2019,2,2019-02-21,186
JD,2019,2,2019-02-21,149
BABA,2019,2,2019-02-21,82
GS,2019,2,2019-02-21,63
FB,2019,2,2019-02-21,161
AAPL,2019,2,2019-02-26,58
JD,2019,2,2019-02-26,41
BABA,2019,2,2019-02-26,54
GS,2019,2,2019-02-26,198
FB,2019,2,2019-02-26,27


In [198]:
# 对第一层 (Year) 进行分组
grouped3=data2.groupby(level=1)
print_groups(grouped3)

2019
                        date  adj close
symbol year month                      
AAPL   2019 2     2019-02-21        186
JD     2019 2     2019-02-21        149
BABA   2019 2     2019-02-21         82
GS     2019 2     2019-02-21         63
FB     2019 2     2019-02-21        161


In [199]:
# 对第零层 (Symbol) 和第二层 (Month) 进行分组
grouped4 = data2.groupby(level=[0, 2])
print_groups( grouped4 )

('AAPL', 2)
                        date  adj close
symbol year month                      
AAPL   2019 2     2019-02-21        186
            2     2019-02-22        188
            2     2019-02-23        175
            2     2019-02-24         33
            2     2019-02-25         87
('BABA', 2)
                        date  adj close
symbol year month                      
BABA   2019 2     2019-02-21         82
            2     2019-02-22         26
            2     2019-02-23        133
            2     2019-02-24        187
            2     2019-02-25         92
('FB', 2)
                        date  adj close
symbol year month                      
FB     2019 2     2019-02-21        161
            2     2019-02-22         79
            2     2019-02-23        142
            2     2019-02-24         20
            2     2019-02-25        191
('GS', 2)
                        date  adj close
symbol year month                      
GS     2019 2     2019-02-21        

## 整合

In [200]:
grouped.size()

symbol
AAPL    6
BABA    6
FB      6
GS      6
JD      6
dtype: int64

In [201]:
# 计算每个 Symbol 下 1 年时期的股价均值
grouped.mean()

Unnamed: 0_level_0,year,month,adj close
symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AAPL,2019.0,2.0,121.166667
BABA,2019.0,2.0,95.666667
FB,2019.0,2.0,103.333333
GS,2019.0,2.0,101.0
JD,2019.0,2.0,98.666667


In [202]:
# 对每只股票在每年每个月上求均值
reslut=grouped4.agg(np.mean)
reslut.head().append(reslut.tail())

Unnamed: 0_level_0,Unnamed: 1_level_0,adj close
symbol,month,Unnamed: 2_level_1
AAPL,2,121.166667
BABA,2,95.666667
FB,2,103.333333
GS,2,101.0
JD,2,98.666667
AAPL,2,121.166667
BABA,2,95.666667
FB,2,103.333333
GS,2,101.0
JD,2,98.666667


In [203]:
# 对每只股票在每年每个月上求均值和标准差
result = grouped4.agg( [np.mean, np.std] )
result.head().append(result.tail())

Unnamed: 0_level_0,Unnamed: 1_level_0,adj close,adj close
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std
symbol,month,Unnamed: 2_level_2,Unnamed: 3_level_2
AAPL,2,121.166667,69.998333
BABA,2,95.666667,57.489709
FB,2,103.333333,71.929595
GS,2,101.0,64.053103
JD,2,98.666667,66.898929
AAPL,2,121.166667,69.998333
BABA,2,95.666667,57.489709
FB,2,103.333333,71.929595
GS,2,101.0,64.053103
JD,2,98.666667,66.898929


In [204]:
# 定义一个对 grouped 里面每个标签下求最大值和最小值，再求差。注意 lambda 函数里面的 x 就是 grouped。
result = grouped.agg( lambda x: np.max(x)-np.min(x) )
result.head().append(result.tail())

Unnamed: 0_level_0,date,year,month,adj close
symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AAPL,5 days,0,0,155
BABA,5 days,0,0,161
FB,5 days,0,0,171
GS,5 days,0,0,169
JD,5 days,0,0,164
AAPL,5 days,0,0,155
BABA,5 days,0,0,161
FB,5 days,0,0,171
GS,5 days,0,0,169
JD,5 days,0,0,164


## split-apply-combine

![1](./img/split-apply-combine.png)

split-apply-combine 过程有三步：



- 根据 key 来 split 成 n 组

- 将函数 apply 到每个组

- 把 n 组的结果 combine 起来

In [211]:
# 定一个 top 函数，返回 DataFrame 某一栏中 n 个最大值

def top( df, n=5, column='volume' ):
    return df.sort_values(by=column)[-n:]

In [212]:
top(data)

Unnamed: 0,date,symbol,open,high,low,close,adj close,volume
9,2019-02-22,FB,103,99,172,38,79,172
5,2019-02-22,AAPL,62,110,117,47,188,180
27,2019-02-26,BABA,150,79,173,33,54,191
26,2019-02-26,JD,67,199,127,79,41,192
24,2019-02-25,FB,170,194,35,197,191,197


In [214]:
# df.sort_values?

In [216]:
# 将 top() 函数 apply 到按 Symbol 分的每个组上，按每个 Symbol 打印出来了 Volume 栏下的 5 个最大值
data.groupby('symbol').apply(top)

Unnamed: 0_level_0,Unnamed: 1_level_0,date,symbol,open,high,low,close,adj close,volume
symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AAPL,10,2019-02-23,AAPL,142,65,71,185,175,73
AAPL,15,2019-02-24,AAPL,161,22,52,68,33,106
AAPL,25,2019-02-26,AAPL,181,81,199,125,58,145
AAPL,20,2019-02-25,AAPL,132,71,138,78,87,156
AAPL,5,2019-02-22,AAPL,62,110,117,47,188,180
BABA,12,2019-02-23,BABA,177,172,101,186,133,92
BABA,2,2019-02-21,BABA,94,98,133,127,82,121
BABA,17,2019-02-24,BABA,42,174,63,169,187,124
BABA,7,2019-02-22,BABA,87,162,138,66,26,134
BABA,27,2019-02-26,BABA,150,79,173,33,54,191


In [217]:
# 按每个 Symbol 和 Year 打印出来了 Adj Close 栏下的最大值
data1.groupby(['symbol','year']).apply(top, n=1, column='adj close')

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,date,year,month,symbol,adj close
symbol,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
AAPL,2019,5,2019-02-22,2019,2,AAPL,188
BABA,2019,17,2019-02-24,2019,2,BABA,187
FB,2019,24,2019-02-25,2019,2,FB,191
GS,2019,28,2019-02-26,2019,2,GS,198
JD,2019,11,2019-02-23,2019,2,JD,189


# 总结

![1](./img/Pandas合并连接数据表.png)

![1](./img/Pandas重塑数据表.png)

![1](./img/Pandas透视数据表.png)

![1](./img/Pandas分组整合数据表.png)