# pandas中包括series,dataframe和panel

In [3]:
import pandas as pd

# 1.1umpy(np)和pandas(pd)每个维度下的数据结构可以看出、
# pd多维数据表 = np多维数组 + 描述
# 其中
# series = 1darray + index
# dataframe = 2darray + index + colums
# panel = 3darray + index + columns + item

# 1.2数据表的创建
# series:一维数据，类似python的list,最基本的数据结构
# Dataframe:二维数据，dataframe时series的容器
# panel:三维数据，panel时dataframe的容器

# 1.2.1 按部就班法
# list、numpy数组，字典

In [9]:
s = pd.Series([27,27.65,27.70,28])
s
# 查看Series所有的内置函数
# dir(s)
s.index
s.values

array([27.  , 27.65, 27.7 , 28.  ])

# 1.2.1.1list

In [15]:
# periods 代表的频率是天
dates = pd.date_range('20190401',periods=4)
s2 = pd.Series([27.2, 27.65, 27.70, 28],index=dates)
s2.index
s2.name = '海底捞股价'
s2

2019-04-01    27.20
2019-04-02    27.65
2019-04-03    27.70
2019-04-04    28.00
Freq: D, Name: 海底捞股价, dtype: float64

In [16]:
# Series内置函数用法
# len:s里的元素个数
# shape:s的形状，用元组表示
# count:s里不含nan的元素个数
# unique：返回s里不重复的元素
# value_counts：统计s里非nan元素的出现次数


# 1.2.1.2 numpy

In [21]:
s = pd.Series(np.array([27.2, 27.65, 27.70, 28, 28, np.nan]))
print('the length is ',len(s))
print('the shape is ',s.shape)
print('the count is ',s.count())
print('the unique is ',s.unique())
print('the vale_counts is ',s.value_counts())

the length is  6
the shape is  (6,)
the count is  5
the unique is  [27.2  27.65 27.7  28.     nan]
the vale_counts is  28.00    2
27.70    1
27.65    1
27.20    1
dtype: int64


# 1.2.1.3 map

In [26]:
data_dict = { 'BABA': 187.07, 'PDD': 21.83, 'JD': 30.79, 'BIDU': 184.77 }
s3 = pd.Series(data_dict,name='中概股')
s3.index.name = '股票代号'
s3

股票代号
BABA    187.07
BIDU    184.77
JD       30.79
PDD      21.83
Name: 中概股, dtype: float64

# 1.3 创建dataframe 

In [29]:
# pd.DataFrame( x, index=id，columns=col )
# x可以是 二维list，二维numpy数组。字典，另外一个dataframe。

# 1.3.1 用列表或numpy数组创建

In [30]:
df1 = pd.DataFrame([[1,2,3],[4,5,6]])
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


# 1.3.2用字典创建

In [34]:
symbol = ['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT']
data = {'行业': ['电商', '电商', '科技', '金融', '金融', '零售'],
'价格': [176.92, 25.95, 172.97, 41.79, 196.00, 99.55],
'交易量': [16175610, 27113291, 18913154, 10132145, 2626634, 8086946],
'雇员': [101550, 175336, 100000, 60348, 36600, 2200000]}
df2 = pd.DataFrame(data,index=symbol)
df2.name = '美股'
df2.index.name = '股票代号'
df2
df2.values
df2.index
df2.columns

Index(['交易量', '价格', '行业', '雇员'], dtype='object')

# 1.3.3 查看datafra

In [36]:
# 我们可以从头或从尾部查看 DataFrame 的 n 行，分别用 df2.head() 和df2.tail(n)，如果没有设定 n，默认值为 5 行。
df2.head()
df2.tail(3)

Unnamed: 0_level_0,交易量,价格,行业,雇员
股票代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
MS,10132145,41.79,金融,60348
GS,2626634,196.0,金融,36600
WMT,8086946,99.55,零售,2200000


# 1.3.4 统计dataf

In [37]:
# 我们用 df2.describe() 还可以看看 DataFrame 每栏的统计数据。
# 函数 describe() 只对「数值型变量」有用 (没有对「字符型变量」行业栏做统计)。
# 统计量分别包括个数、均值、标准差、最小值，25-50-75 百分数值，最大值。
df2.describe()

Unnamed: 0,交易量,价格,雇员
count,6.0,6.0,6.0
mean,13841300.0,118.863333,445639.0
std,8717312.0,73.748714,860752.2
min,2626634.0,25.95,36600.0
25%,8598246.0,56.23,70261.0
50%,13153880.0,136.26,100775.0
75%,18228770.0,175.9325,156889.5
max,27113290.0,196.0,2200000.0


# 1.3.5 升维 dataframe

In [40]:
# 我们用 MultiIndex.from_tuples() 还可以赋予 DataFrame 多层索引 (实际上增加了维度，多层索引的 DataFrame 实际上是三维数据)。
df2.index = pd.MultiIndex.from_tuples( 
            [('中国公司','BABA'), ('中国公司','JD'), 
             ('美国公司','AAPL'), ('美国公司','MS'), 
             ('美国公司','GS'), ('美国公司','WMT')] )
df2

Unnamed: 0,Unnamed: 1,交易量,价格,行业,雇员
中国公司,BABA,16175610,176.92,电商,101550
中国公司,JD,27113291,25.95,电商,175336
美国公司,AAPL,18913154,172.97,科技,100000
美国公司,MS,10132145,41.79,金融,60348
美国公司,GS,2626634,196.0,金融,36600
美国公司,WMT,8086946,99.55,零售,2200000


# 2 数据表的存载，用时再找。

# 3. 数据表的索引和切片

In [48]:
symbol = ['BABA', 'JD', 'AAPL', 'MS', 'GS', 'WMT']
data = {'行业': ['电商', '电商', '科技', '金融', '金融', '零售'],
'价格': [176.92, 25.95, 172.97, 41.79, 196.00, 99.55],
'交易量': [16175610, 27113291, 18913154, 10132145, 2626634, 8086946],
'雇员': [101550, 175336, 100000, 60348, 36600, 2200000]}
df = pd.DataFrame( data, index=symbol )
df.name='美股'
df.index.name = '代号'
df

Unnamed: 0_level_0,交易量,价格,行业,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,16175610,176.92,电商,101550
JD,27113291,25.95,电商,175336
AAPL,18913154,172.97,科技,100000
MS,10132145,41.79,金融,60348
GS,2626634,196.0,金融,36600
WMT,8086946,99.55,零售,2200000


# 3.1 索引单元素

In [50]:
# 基于标签的at
# 基于位置的iat
# 情况 1 - df.at['idx_i', 'attr_j']
# 情况 2 - df.iat[i, j]
df.at['AAPL','价格']
df.iat[2,1]

172.97

# 3.2 切片columns

In [56]:
# 用 . 来切片单列
# 用 [] 来切片单列或多列
# 基于标签的 loc
# 基于位置的 iloc
# 切片单个 columns 会返回一个 Series，有以下四种情况。情况 1 用点 .；情况 2 用中括号 []；情况 3 基于标签 loc，情况 4 基于位置 iloc。
# 情况 1 - df.attr_i
# 情况 2 - df['attr_i']
# 情况 3 - df.loc[:, 'attr_i']
# 情况 4 - df.iloc[:, i]
df.价格
df['价格']
df.loc[:,'交易量']
df.iloc[:,0]

代号
BABA    16175610
JD      27113291
AAPL    18913154
MS      10132145
GS       2626634
WMT      8086946
Name: 交易量, dtype: int64

# 3.3 切片index

In [46]:
# 用 [] 来切片单行或多行
# 基于标签的 loc
# 基于位置的 iloc


# 3.4 切片index和columns

In [57]:
# 基于标签的 loc
# 基于位置的 iloc

In [58]:
# 函数的调用

In [61]:
df.loc[lambda x : x.交易量 > x.交易量.mean(),:]
df.loc[lambda x : (x.交易量 > x.交易量.mean()) & (x.价格 > 100),:]

Unnamed: 0_level_0,交易量,价格,行业,雇员
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BABA,16175610,176.92,电商,101550
AAPL,18913154,172.97,科技,100000


# 3.5多层索引

# 3.5.1 多层索引Series

In [64]:
price = [190,32,196,192,200,189,31,30,199]
dates = ['2019-04-01']*3 + ['2019-04-02']*2 +['2019-04-03']*2 + ['2019-04-04']*2
codes = ['BABA','JD','GS','BABA','GS','BABA','JD','JD','GS']
data = pd.Series( price,index=[ dates, codes ])
data.index

MultiIndex(levels=[['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04'], ['BABA', 'GS', 'JD']],
           codes=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 2, 1, 0, 1, 0, 2, 2, 1]])

In [68]:
data['2019-04-01']
data.loc['2019-04-01':'2019-04-04']
data.loc[:,'GS']

2019-04-01    196
2019-04-02    200
2019-04-04    199
dtype: int64

# 3.5.2 多层索引DataFrame

In [70]:
data = [ ['电商', 101550, 176.92, 16175610], 
         ['电商', 175336, 25.95, 27113291], 
         ['金融', 60348, 41.79, 10132145], 
         ['金融', 36600, 196.00, 2626634] ]

midx = pd.MultiIndex( 
          levels=[['中国','美国'],
                  ['BABA', 'JD', 'GS', 'MS']], 
          codes=[[0,0,1,1],[0,1,2,3]],
          names=['地区', '代号'])

mcol = pd.MultiIndex( 
          levels=[['公司数据','交易数据'],
                  ['行业','雇员','价格','交易量']], 
          codes=[[0,0,1,1],[0,1,2,3]],
          names=['概括','细分'])

df = pd.DataFrame(data, index=midx, columns=mcol)
df

Unnamed: 0_level_0,概括,公司数据,公司数据,交易数据,交易数据
Unnamed: 0_level_1,细分,行业,雇员,价格,交易量
地区,代号,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
中国,BABA,电商,101550,176.92,16175610
中国,JD,电商,175336,25.95,27113291
美国,GS,金融,60348,41.79,10132145
美国,MS,金融,36600,196.0,2626634


In [87]:
df['公司数据']['行业']

地区  代号  
中国  BABA    电商
    JD      电商
美国  GS      金融
    MS      金融
Name: 行业, dtype: object

In [76]:
df.loc['中国'].loc['BABA':'JD']

概括,公司数据,公司数据,交易数据,交易数据
细分,行业,雇员,价格,交易量
代号,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
BABA,电商,101550,176.92,16175610
JD,电商,175336,25.95,27113291


# 4 数据表的合并和连接

In [88]:
# 数据表可以按键合并，用merge函数，可以按轴来连接，用concat函数。
# 按键合并可以分为单键合并和多键合并

# 4.1 合并

# 4.1.1 单键合并

In [89]:
# 单键合并用merge函数，语法如下：
#    pd.merge(df1,df2,how=s,on=c)
# c是df1和df2共有的一栏，合并的方式(how=s)有四种
# 1.左连接(left join):合并之后显示df1的所有行
# 2.右连接(right join):合并之后显示df2的所有行
# 3.外连接(outer join):合并df1和df2共有的所有行
# 4.内连接(inner join):合并共有的所有行(默认情况)

In [91]:
df_price = pd.DataFrame({'Date':pd.date_range('2019-1-1',periods=4),'Adj Close':[24.42,25,25.25,25.64]})
df_price

Unnamed: 0,Adj Close,Date
0,24.42,2019-01-01
1,25.0,2019-01-02
2,25.25,2019-01-03
3,25.64,2019-01-04


In [92]:
df_volume = pd.DataFrame({'Date':pd.date_range('2019-1-2',periods=5),'Volume':[56081400, 99455500, 83028700, 100234000, 73829000]})
df_volume

Unnamed: 0,Date,Volume
0,2019-01-02,56081400
1,2019-01-03,99455500
2,2019-01-04,83028700
3,2019-01-05,100234000
4,2019-01-06,73829000


In [96]:
# left_join
pd.merge(df_price,df_volume,how='left')
# right_join
pd.merge(df_price,df_volume,how='right')
# outer_join
pd.merge(df_price,df_volume,how='outer')
# inner_join
pd.merge(df_price,df_volume,how='inner')

Unnamed: 0,Adj Close,Date,Volume
0,25.0,2019-01-02,56081400
1,25.25,2019-01-03,99455500
2,25.64,2019-01-04,83028700


# 4.1.2 多键合并

In [97]:
# 多键合并的语法和单键一样，只不过on=c中c是多栏

In [98]:
profolio1 = pd.DataFrame({'Asset':['FX', 'FX', 'IR'],'Instrument': ['Option', 'Swap', 'Option'], 
'Number': [1, 2, 3]})
profolio1

Unnamed: 0,Asset,Instrument,Number
0,FX,Option,1
1,FX,Swap,2
2,IR,Option,3


In [103]:
profolio2 = pd.DataFrame({'Asset':['FX', 'FX', 'FX','IR'],'Instrument': ['Option', 'Option', 'Swap','Swap'], 
'Number': [4,5,6,7]})
profolio2

Unnamed: 0,Asset,Instrument,Number
0,FX,Option,4
1,FX,Option,5
2,FX,Swap,6
3,IR,Swap,7


In [104]:
# 在 Asset和Instrument两个键上做外合并
pd.merge(profolio1,profolio2,how='outer',on=['Asset','Instrument'])

Unnamed: 0,Asset,Instrument,Number_x,Number_y
0,FX,Option,1.0,4.0
1,FX,Option,1.0,5.0
2,FX,Swap,2.0,6.0
3,IR,Option,3.0,
4,IR,Swap,,7.0


In [105]:
# 当 df1 和 df2 有两个相同的列 (Asset 和 Instrument) 时，单单只对一列 (Asset) 做合并产出的 DataFrame 会有另一列 (Instrument) 重复的名称。
# 这时 merge 函数给重复的名称加个后缀 _x, _y 等等。
pd.merge(profolio1,profolio2,how='outer',on=['Asset'])

Unnamed: 0,Asset,Instrument_x,Number_x,Instrument_y,Number_y
0,FX,Option,1,Option,4
1,FX,Option,1,Option,5
2,FX,Option,1,Swap,6
3,FX,Swap,2,Option,4
4,FX,Swap,2,Option,5
5,FX,Swap,2,Swap,6
6,IR,Option,3,Swap,7


# 4.2 连接 

In [106]:
# numpy数组可以相互连接，np.concat；同理，series也可以相互连接，DataFrame也可以相互连接
# 用pd.concat

# 4.2.1 连接Series

In [107]:
# 在concat函数也可以设定参数axis,
# axis = 0(默认)沿着轴0行连接，得到一个更长的Series
# axis = 1沿着轴1列连接得到一个dataframe
# 被连接的series他们的index可以重复(overlapping)，也可以不同

In [110]:
s1 = pd.Series([0,1],index = ['a','b'])
s2 = pd.Series([2,3,4],index = ['c','d','e'])
s3 = pd.Series([5,6],index = ['f','g'])

In [111]:
pd.concat([s1,s2,s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [113]:
pd.concat([s1,s2,s3],axis=1,sort=False)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [114]:
# 将s1和s3沿着轴0连接创建s4，这样s4和s1的index是有重复的
s4 = pd.concat([s1,s3])
s4

a    0
b    1
f    5
g    6
dtype: int64

In [115]:
# 将s1和s4沿着轴1内连接(即只连接他们共有的index对应的值)
pd.concat([s1,s4],axis=1,join='inner')

Unnamed: 0,0,1
a,0,0
b,1,1


In [120]:
# 最后还可以将n个series沿着轴0连接起来，在赋予3个keys创建多层series
res = pd.concat([s1,s2,s3],keys=['one','two','three'])
print(res)
print(res['one'])
print(res['two'])

one    a    0
       b    1
two    c    2
       d    3
       e    4
three  f    5
       g    6
dtype: int64
a    0
b    1
dtype: int64
c    2
d    3
e    4
dtype: int64


# 4.2.2 连接dataframe 

In [122]:
# 连接dataframe的逻辑和series的一模一样
df1 = pd.DataFrame(np.arange(12).reshape(3,4),columns=['a','b','c','d'])
df2 = pd.DataFrame(np.arange(6).reshape(2,3),columns=['b','d','a'])
df1
df2

Unnamed: 0,b,d,a
0,0,1,2
1,3,4,5


In [127]:
# 沿着行连接分为两步
# 1.先把df1和df2列标签补齐
# 2.再把df1和df2纵向连起来

# index可能会有重复值，如果index不包含重要的值，可以忽略，这样就会会显示默认的index
pd.concat([df1,df2],ignore_index = True,sort=False)

Unnamed: 0,a,b,c,d
0,0,1,2.0,3
1,4,5,6.0,7
2,8,9,10.0,11
3,2,0,,1
4,5,3,,4


In [135]:
# 沿着列连接同理
df1 = pd.DataFrame(np.arange(6).reshape(3, 2),
                   index=['a', 'b', 'c'],
                   columns=['one', 'two'])

df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2),
                   index=['a', 'c'],
                   columns=['three', 'four'])
print(df1)
print(df2)

   one  two
a    0    1
b    2    3
c    4    5
   three  four
a      5     6
c      7     8


In [136]:
pd.concat([df1,df2],axis=1,sort=False)

Unnamed: 0,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


# 5 数据表的重塑和透视

In [137]:
# 重塑(reshape)和透视(povit)两个操作只改变数据表的布局(layout)
# 重塑用stack和unstack函数互为逆转操作
# 透视用pivot和melt函数互为逆操作


# 5.1 重塑

In [138]:
# 在〖数据结构之 Pandas (上)〗提到过，DataFrame 和「多层索引的 Series」其实维度是一样，只是展示形式不同。
# 而重塑就是通过改变数据表里面的「行索引」和「列索引」来改变展示形式。
# 行索引-》列索引 用stack函数
# 列索引-》行索引 用unstack函数

# 5.1.1 单层dataframe 

In [139]:

symbol = ['JD', 'AAPL']
data = {'行业': ['电商', '科技'],
'价格': [25.95, 172.97],
'交易量': [27113291, 18913154]}
df = pd.DataFrame( data, index=symbol )
df.columns.name = '特征'
df.index.name = '代号'
df

特征,交易量,价格,行业
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
JD,27113291,25.95,电商
AAPL,18913154,172.97,科技


In [140]:
# 行索引 = [JD, AAPL]，名称是代号
# 列索引 = [行业, 价格, 交易量]，名称是特征

In [142]:
# 列索引 (特征) 变成了行索引，原来的 DataFrame df 变成了两层 Series (第一层索引是代号，第二层索引是特征)。
c2i_Seris = df.stack()
c2i_Seris

代号    特征 
JD    交易量    27113291
      价格        25.95
      行业           电商
AAPL  交易量    18913154
      价格       172.97
      行业           科技
dtype: object

In [147]:
# 行索引 (代号) 变成了列索引，原来的 DataFrame df 也变成了两层 Series (第一层索引是特征，第二层索引是代号)。
i2c_Seris = df.unstack()
i2c_Seris

特征   代号  
交易量  JD      27113291
     AAPL    18913154
价格   JD         25.95
     AAPL      172.97
行业   JD            电商
     AAPL          科技
dtype: object

In [144]:
# 对 df 做 stack 和 unstack 都得到了「两层 Series」，但是索引的层次不同，那么在背后的规律是什么？首先我们先来看看两个「两层 Series」的 index 包含哪些信息 (以及 df 的 index 和 columns)。
df.index,df.columns

(Index(['JD', 'AAPL'], dtype='object', name='代号'),
 Index(['交易量', '价格', '行业'], dtype='object', name='特征'))

In [145]:
c2i_Seris.index

MultiIndex(levels=[['JD', 'AAPL'], ['交易量', '价格', '行业']],
           codes=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]],
           names=['代号', '特征'])

In [148]:
i2c_Seris.index

MultiIndex(levels=[['交易量', '价格', '行业'], ['JD', 'AAPL']],
           codes=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]],
           names=['特征', '代号'])

In [149]:
# 定义
# r = [JD,APPL],名称是代号
# c = [行业，价格，交易量]，名称是特征
# 那么
# c2i_Seris的索引=[r,c]
# i2c_Seris的索引=[c,r]
# 现在可以总结规律
# 1.当用 stack 将 df 变成 c2i_Series 时，df 的列索引 c 加在其行索引 r后面得到 [r, c] 做为 c2i_Series 的多层索引
# 2.当用 unstack 将 df 变成 i2c_Series 时，df 的行索引 r 加在其列索引 c 后面得到 [c, r] 做为 i2c_Series 的多层索引

# 5.1.2 基于层和名称来unstack

In [150]:
# 对于多层索引的series,unstack哪一层有两种方法来确定
# 1.基于层(level-based)
# 2.基于名称(name-based)

# 5.1.2.1 基于层来unstack

In [153]:
# 没有填层数，默认为最后一层
print(c2i_Seris)
c2i_Seris.unstack()

代号    特征 
JD    交易量    27113291
      价格        25.95
      行业           电商
AAPL  交易量    18913154
      价格       172.97
      行业           科技
dtype: object


特征,交易量,价格,行业
代号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
JD,27113291,25.95,电商
AAPL,18913154,172.97,科技


In [154]:
# 基于层，选择第一层
c2i_Seris.unstack(0)

代号,JD,AAPL
特征,Unnamed: 1_level_1,Unnamed: 2_level_1
交易量,27113291,18913154
价格,25.95,172.97
行业,电商,科技


# 5.1.2.2 基于名称来unstack

In [161]:
print(c2i_Seris.index)
print(c2i_Seris.unstack('代号'))
print('---------------------------')
print(c2i_Seris.unstack('特征'))

MultiIndex(levels=[['JD', 'AAPL'], ['交易量', '价格', '行业']],
           codes=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]],
           names=['代号', '特征'])
代号         JD      AAPL
特征                     
交易量  27113291  18913154
价格      25.95    172.97
行业         电商        科技
---------------------------
特征         交易量      价格  行业
代号                        
JD    27113291   25.95  电商
AAPL  18913154  172.97  科技


# 5.1.3 多层dataframe

In [166]:
# 创建一个dataframe(2层行索引，1层列索引)
data = [ ['电商', 101550, 176.92], 
         ['电商', 175336, 25.95], 
         ['金融', 60348, 41.79], 
         ['金融', 36600, 196.00] ]
midx = pd.MultiIndex(levels=[['中国','美国'],
                             ['BABA','JD','GS','MS']],
                    labels=[[0,0,1,1],[0,1,2,3]],
                    name=['地区','代号'])
mcol = pd.Index(['行业','雇员','价格'],name = '特征')
df = pd.DataFrame(data,index=midx,columns=mcol)
df



Unnamed: 0_level_0,特征,行业,雇员,价格
地区,代号,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
中国,BABA,电商,101550,176.92
中国,JD,电商,175336,25.95
美国,GS,金融,60348,41.79
美国,MS,金融,36600,196.0


In [168]:
print(df.index)
print(df.columns)

MultiIndex(levels=[['中国', '美国'], ['BABA', 'JD', 'GS', 'MS']],
           codes=[[0, 0, 1, 1], [0, 1, 2, 3]],
           names=['地区', '代号'])
Index(['行业', '雇员', '价格'], dtype='object', name='特征')


# 5.1.3.1 基于层来unstack时，选择第一层(参数0)

In [169]:
df.unstack(0)
# df被unstack(0)之后变成(行变列)
# 行索引 = r2
# 列索引 = [c,r1]
# 重塑后的dataframe这时行索引只有一层(代号)，而列索引有两层，第一册是特征，第二层是地区

特征,行业,行业,雇员,雇员,价格,价格
地区,中国,美国,中国,美国,中国,美国
代号,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
BABA,电商,,101550.0,,176.92,
JD,电商,,175336.0,,25.95,
GS,,金融,,60348.0,,41.79
MS,,金融,,36600.0,,196.0


# 5.1.3.2 基于层来unstack()时,选择第二层(参数放1)

In [172]:
df.unstack(1)
# df被unstack(1)之后变成(行->列)
# 行索引 = r1
# 列索引 = [c,r2]
# 重塑之后的df这时行索引只有一层(地区)，而列索引有两层，第一层是特征，第二层是代号

特征,行业,行业,行业,行业,雇员,雇员,雇员,雇员,价格,价格,价格,价格
代号,BABA,JD,GS,MS,BABA,JD,GS,MS,BABA,JD,GS,MS
地区,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
中国,电商,电商,,,101550.0,175336.0,,,176.92,25.95,,
美国,,,金融,金融,,,60348.0,36600.0,,,41.79,196.0


# 5.1.3.3 基于层先unstack(0)再stack(0)

In [174]:
df.unstack(0).stack(0)
# df被unstack(0)之后变成(行->列)
# 行索引 = r2
# 列索引 = [c,r1]
# 再被stack(0)之后变成(列->行)
# 行索引 = [r2,c]
# 列索引 = r1
# 重塑后的dataframe这时行索引有两层，第一层是代号，第二层是特征，而列索引只有一层(地区)

Unnamed: 0_level_0,地区,中国,美国
代号,特征,Unnamed: 2_level_1,Unnamed: 3_level_1
BABA,价格,176.92,
BABA,行业,电商,
BABA,雇员,101550,
JD,价格,25.95,
JD,行业,电商,
JD,雇员,175336,
GS,价格,,41.79
GS,行业,,金融
GS,雇员,,60348
MS,价格,,196


# 5.1.3.4 基于层先unstack(1)再stack(0)

In [175]:
df.unstack(1).stack(0)
# df被unstack(1)之后变成(行->列)
# 行索引 = r1
# 列索引 = [c,r2]
# 再被stack(0)之后变成(列->行)
# 行索引 = [r1,c]
# 列索引 = r2
# 重塑后的dataframe这时行索引有两层，第一层是地区，第二层是特征，而列索引只有一层(代号)

Unnamed: 0_level_0,代号,BABA,GS,JD,MS
地区,特征,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
中国,价格,176.92,,25.95,
中国,行业,电商,,电商,
中国,雇员,101550,,175336,
美国,价格,,41.79,,196
美国,行业,,金融,,金融
美国,雇员,,60348,,36600


# 5.1.3.5 基于层先unstack(1)再stack(1)

In [176]:
df.unstack(1).stack(1)
# df被unstack(1)之后变成(行->列)
# 行索引 = r1
# 列索引 = [c,r2]
# 再被stack(1)之后变成(列->行)
# 行索引 = [r1,r2]
# 列索引 = c
# 重塑后的dataframe这时行索引有两层，第一层是地区，第二层是代号，而列索引只有一层(特征)

Unnamed: 0_level_0,特征,行业,雇员,价格
地区,代号,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
中国,BABA,电商,101550.0,176.92
中国,JD,电商,175336.0,25.95
美国,GS,金融,60348.0,41.79
美国,MS,金融,36600.0,196.0


# 5.1.3.6 基于层被stack()，没有填层数，默认为最后一层


In [177]:
df.stack()
# df被stack()之后变成(列->行)
# 行索引 = [r1,r2,c]
# 列索引 = []
# 重塑后的series这时行索引有三层，第一层是地区，第二层是代号，第三层是特征

地区  代号    特征
中国  BABA  行业        电商
          雇员    101550
          价格    176.92
    JD    行业        电商
          雇员    175336
          价格     25.95
美国  GS    行业        金融
          雇员     60348
          价格     41.79
    MS    行业        金融
          雇员     36600
          价格       196
dtype: object

# 5.1.3.7 基于层被unstack()两次，没有填层数，默认为最后一层

In [178]:
df.unstack().unstack()
# df被unstack(0之后变成(行->列)
# 行索引 = r1
# 列索引 = [c,r2]
# 再被unstack()之后变成(行->列)
# 行索引 = []
# 列索引 = [c,r2,r1]
# 重塑后的series这时列索引有三层，第一层是特征，第二层是代号，第三层是地区

特征  代号    地区
行业  BABA  中国        电商
          美国       NaN
    JD    中国        电商
          美国       NaN
    GS    中国       NaN
          美国        金融
    MS    中国       NaN
          美国        金融
雇员  BABA  中国    101550
          美国       NaN
    JD    中国    175336
          美国       NaN
    GS    中国       NaN
          美国     60348
    MS    中国       NaN
          美国     36600
价格  BABA  中国    176.92
          美国       NaN
    JD    中国     25.95
          美国       NaN
    GS    中国       NaN
          美国     41.79
    MS    中国       NaN
          美国       196
dtype: object

# 5.2 透视

In [180]:
# 数据源表通常只包含行和列，那么经常有重复值出现在各列下，因而导致源表不能
# 传递有价值的信息。这时可以用透视方法调整源表的布局用作更清晰的展示
# pandas里透视表有两种方法：
# 用pivot函数将一张长表变多张宽表
# 用melt函数将多张宽表变一张长表