In [1]:
import numpy as np
import pandas as pd
import re

In [2]:
# 显示全部结果
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

## 一、分层索引

### （一）基本概念

**分层索引(MultiIndex)**，就是在一个轴向上拥有多个（两个或两个以上）的索引层级。如下：

In [13]:
# 一个简单的series例子
series = pd.Series(np.random.randn(9),
                 index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                        [1, 2, 3, 1, 3, 1, 2, 2, 3]])

series

a  1   -0.197433
   2   -0.188919
   3    1.092255
b  1    0.525601
   3    0.021694
c  1    1.197582
   2   -0.111899
d  2    0.508589
   3    1.802123
dtype: float64

In [59]:
# 一个简单的df例子
df = pd.DataFrame(np.arange(16).reshape(4, 4),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=[['上海', '上海', '江苏', '江苏'], ['人口', '面积', '人口', '面积']])

df.index.names = ['key1', 'key2']
df.columns.names = ['城市', '属性']

df

Unnamed: 0_level_0,城市,上海,上海,江苏,江苏
Unnamed: 0_level_1,属性,人口,面积,人口,面积
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


### （二）索引

* 更深入复杂的索引方式可以参考： https://www.pypandas.cn/docs/user_guide/advanced.html#%E5%85%B7%E6%9C%89%E5%B1%82%E6%AC%A1%E7%B4%A2%E5%BC%95%E7%9A%84%E9%AB%98%E7%BA%A7%E7%B4%A2%E5%BC%95%E6%96%B9%E6%B3%95

In [63]:
df = pd.DataFrame(np.arange(20).reshape(5, 4),
                  index=[['a', 'a', 'a', 'b', 'b'], [1, 2, 3, 1, 2]],
                  columns=[['上海', '上海', '江苏', '江苏'], ['人口', '面积', '人口', '面积']])

df.index.names = ['key1', 'key2']
df.columns.names = ['城市', '属性']

df

# 1
df['上海']

# 2
df.loc[('a')]

# 3
df.loc[('a'), (1)]

# 4 
df.loc[('a'), ('上海')]

#  5
df.loc[('a'), ('上海')].iloc[:, 0]

Unnamed: 0_level_0,城市,上海,上海,江苏,江苏
Unnamed: 0_level_1,属性,人口,面积,人口,面积
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
a,3,8,9,10,11
b,1,12,13,14,15
b,2,16,17,18,19


Unnamed: 0_level_0,属性,人口,面积
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,4,5
a,3,8,9
b,1,12,13
b,2,16,17


城市,上海,上海,江苏,江苏
属性,人口,面积,人口,面积
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,0,1,2,3
2,4,5,6,7
3,8,9,10,11


城市  属性
上海  人口    0
    面积    1
江苏  人口    2
    面积    3
Name: (a, 1), dtype: int32

属性,人口,面积
key2,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0,1
2,4,5
3,8,9


key2
1    0
2    4
3    8
Name: 人口, dtype: int32

### （三）重排序与层级排序

In [65]:
df = pd.DataFrame(np.arange(20).reshape(5, 4),
                  index=[['a', 'a', 'a', 'b', 'b'], [1, 2, 3, 1, 2]],
                  columns=[['上海', '上海', '江苏', '江苏'], ['人口', '面积', '人口', '面积']])

df.index.names = ['key1', 'key2']
df.columns.names = ['城市', '属性']

df

Unnamed: 0_level_0,城市,上海,上海,江苏,江苏
Unnamed: 0_level_1,属性,人口,面积,人口,面积
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
a,3,8,9,10,11
b,1,12,13,14,15
b,2,16,17,18,19


#### 1. df.swaplevel()

In [64]:
df.swaplevel('key1', 'key2')

Unnamed: 0_level_0,城市,上海,上海,江苏,江苏
Unnamed: 0_level_1,属性,人口,面积,人口,面积
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,a,0,1,2,3
2,a,4,5,6,7
3,a,8,9,10,11
1,b,12,13,14,15
2,b,16,17,18,19


#### 2. df.sort_index()
```python
DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)
```

In [69]:
df.sort_index(level=1)
df.sort_index(level=0, ascending=False)

Unnamed: 0_level_0,城市,上海,上海,江苏,江苏
Unnamed: 0_level_1,属性,人口,面积,人口,面积
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
b,1,12,13,14,15
a,2,4,5,6,7
b,2,16,17,18,19
a,3,8,9,10,11


Unnamed: 0_level_0,城市,上海,上海,江苏,江苏
Unnamed: 0_level_1,属性,人口,面积,人口,面积
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
b,2,16,17,18,19
b,1,12,13,14,15
a,3,8,9,10,11
a,2,4,5,6,7
a,1,0,1,2,3


### （四）按层级汇总

In [71]:
df = pd.DataFrame(np.arange(20).reshape(5, 4),
                  index=[['a', 'a', 'a', 'b', 'b'], [1, 2, 3, 1, 2]],
                  columns=[['上海', '上海', '江苏', '江苏'], ['人口', '面积', '人口', '面积']])

df.index.names = ['key1', 'key2']
df.columns.names = ['城市', '属性']

df

Unnamed: 0_level_0,城市,上海,上海,江苏,江苏
Unnamed: 0_level_1,属性,人口,面积,人口,面积
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
a,3,8,9,10,11
b,1,12,13,14,15
b,2,16,17,18,19


In [73]:
df.sum(level=1)
df.sum(level=0)

城市,上海,上海,江苏,江苏
属性,人口,面积,人口,面积
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,12,14,16,18
2,20,22,24,26
3,8,9,10,11


城市,上海,上海,江苏,江苏
属性,人口,面积,人口,面积
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,12,15,18,21
b,28,30,32,34


### （五）将df的列转化为索引

#### 1. df.set_index()

In [79]:
df = pd.DataFrame({'col_1': range(7), 'col_2': range(7,0,-1),
              't_col_1': ['one', 'one', 'two', 'two', 'one', 'three', 'three'],
              't_col_2': [0, 1, 2, 0, 1, 2, 3]})

df

Unnamed: 0,col_1,col_2,t_col_1,t_col_2
0,0,7,one,0
1,1,6,one,1
2,2,5,two,2
3,3,4,two,0
4,4,3,one,1
5,5,2,three,2
6,6,1,three,3


In [86]:
df_new = df.set_index(['t_col_1', 't_col_2'], drop=False)
df_new

df_new = df.sort_values(by='t_col_1').set_index(['t_col_1', 't_col_2'], drop=False)
df_new

df_new = df.sort_values(by='t_col_1').set_index(['t_col_1', 't_col_2'], drop=True)
df_new

Unnamed: 0_level_0,Unnamed: 1_level_0,col_1,col_2,t_col_1,t_col_2
t_col_1,t_col_2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
two,2,2,5,two,2
two,0,3,4,two,0
one,1,4,3,one,1
three,2,5,2,three,2
three,3,6,1,three,3


Unnamed: 0_level_0,Unnamed: 1_level_0,col_1,col_2,t_col_1,t_col_2
t_col_1,t_col_2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,1,4,3,one,1
three,2,5,2,three,2
three,3,6,1,three,3
two,2,2,5,two,2
two,0,3,4,two,0


Unnamed: 0_level_0,Unnamed: 1_level_0,col_1,col_2
t_col_1,t_col_2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,1,4,3
three,2,5,2
three,3,6,1
two,2,2,5
two,0,3,4


#### 2. reset_index()
set_index的反向操作

In [87]:
df_new.reset_index()

Unnamed: 0,t_col_1,t_col_2,col_1,col_2
0,one,0,0,7
1,one,1,1,6
2,one,1,4,3
3,three,2,5,2
4,three,3,6,1
5,two,2,2,5
6,two,0,3,4


## 二、联合与合并数据集

### （一）df.merge()

```python
DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes='_x', '_y', copy=True, indicator=False, validate=None)
```

**参数：**
> * **right:** 目标df；
> * **how:** 连接方式；
    > > * *left:* 左连（类似SQL left outer join）；
> > * *right:* 右连（类似SQL right outer join）；
> > * *outer:* 全连（类似SQL full outer join）；
> > * *inner:* 内连（类似SQL inner join）。
> * **on:** 需要连接的列名。必须是两边的df对象都有的列名；
> * **left_on:** 左边df中用作连接键的列；
> * **right_on:** 右边df中用作连接键的列；
> * **left_index:** 使用左边df的行索引作为它的连接键（如果是MultiIndex,则是多个键）；
> * **right_index:** 使用右边df的行索引作为它的连接键（如果是MultiIndex,则是多个键）；
> * **sort:** 连接后的df按照连接键进行排序；
> * **suffixes:** 在两边的df有重叠列名的情况下，在列明后面加上后缀，默认是('_x', '_y')
> * **copy:** 是否对原数据进行复制后操作，默认True，复制；
> * **indicator:** 添加一个特殊的列，标记每一行的数据来源于哪一个df，例如：来自左df，则标记'left_only'，来自右边df，则标记'right_df'，来自两边，则标记'both'；
> * **validate:** 用来检查以下情况：（不是对应的情况就会抛出错误）
> > * *'one_to_one':* 检查连接键是否是1对1；
> > * *'one_to_many':* 检查连接键是否是1对多；
> > * *'many_to_one':* 检查连接键是否是多对1；
> > * *'many_to_many':* 检查连接键是否是多对多。

**返回值：**
> 连接过后的df。

In [115]:
# 多对多 笛卡尔积 m*n
df_left = pd.DataFrame({'key_left': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                       'data': range(7)})

df_right = pd.DataFrame({'key_right': ['a', 'b', 'b', 'b', 'd'],
                         'data': range(5)})

df_left
df_right

# 1
df_left.merge(df_right, left_on='key_left', right_on='key_right') # 如果两边df的连接键的名称一样，我们只需要用on就行

# 2
df_left.merge(df_right, how='left',left_on='key_left', right_on='key_right',
              suffixes=('_left','_right'), indicator=True, validate='many_to_many')

# 3
df_left.merge(df_right, how='left',left_index=True, right_index=True,
              suffixes=('_left','_right'), indicator=True, validate='many_to_many')

Unnamed: 0,key_left,data
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


Unnamed: 0,key_right,data
0,a,0
1,b,1
2,b,2
3,b,3
4,d,4


Unnamed: 0,key_left,data_x,key_right,data_y
0,b,0,b,1
1,b,0,b,2
2,b,0,b,3
3,b,1,b,1
4,b,1,b,2
5,b,1,b,3
6,b,6,b,1
7,b,6,b,2
8,b,6,b,3
9,a,2,a,0


Unnamed: 0,key_left,data_left,key_right,data_right,_merge
0,b,0,b,1.0,both
1,b,0,b,2.0,both
2,b,0,b,3.0,both
3,b,1,b,1.0,both
4,b,1,b,2.0,both
5,b,1,b,3.0,both
6,a,2,a,0.0,both
7,c,3,,,left_only
8,a,4,a,0.0,both
9,a,5,a,0.0,both


Unnamed: 0,key_left,data_left,key_right,data_right,_merge
0,b,0,a,0.0,both
1,b,1,b,1.0,both
2,a,2,b,2.0,both
3,c,3,b,3.0,both
4,a,4,d,4.0,both
5,a,5,,,left_only
6,b,6,,,left_only


### （二）df.join()

按照行索引直接连接
```python
DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
```

In [120]:
df_left = pd.DataFrame({'key_left': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                       'data': range(7)})

df_right = pd.DataFrame({'key_right': ['a', 'b', 'b', 'b', 'd'],
                         'data': range(5)})

df_left
df_right

df_left.join(df_right, how='right', lsuffix='_left', rsuffix='_right')

Unnamed: 0,key_left,data
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


Unnamed: 0,key_right,data
0,a,0
1,b,1
2,b,2
3,b,3
4,d,4


Unnamed: 0,key_left,data_left,key_right,data_right
0,b,0,a,0
1,b,1,b,1
2,a,2,b,2
3,c,3,b,3
4,a,4,d,4


### （三）pd.concat()

**参考文档：** https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html
```python
pandas.concat(objs: Union[Iterable[‘DataFrame’], Mapping[Label, ‘DataFrame’]], axis='0', join: str = "'outer'", ignore_index: bool = 'False', keys='None', levels='None', names='None', verify_integrity: bool = 'False', sort: bool = 'False', copy: bool = 'True') → ’DataFrame’
```
**参数：**
> * **objs:** 需要连接的对象列表（必选）；
> * **axis:** 连接轴向，默认axis=0；
> * **join:** 连接方式，可选'innner' 'outer'；
> * **ignore_index:** 是否对连接后的对象以0,1,...,n-1的方式重排索引，True，进行重排；
> * **keys:** 用传入的值构建多层索引的最外层索引；
> * **levels:** 指定多层索引的连接层级；
> * **names:** 指定连接后的多层索引的层级名称；
> * **verify_integrity:** 检测连接后的对象的轴是否重复，如果重复则抛出错误；
> * **sort:** 排序；
> * **copy:** 是否拷贝数据。

**返回值：**
> * Series 或者 DataFrame

In [127]:
df_left = pd.DataFrame({'key_left': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                       'data': range(7)})

df_right = pd.DataFrame({'key_right': ['a', 'b', 'b', 'b', 'd'],
                         'data': range(5)})

df_left
df_right

# 1
pd.concat([df_left, df_right], axis=1, keys=['data_left', 'data_right'], names=['level_1', 'level_2'])

# 2
pd.concat([df_left, df_right], axis=0, keys=['data_left', 'data_right'], names=['level_1', 'level_2'],
          verify_integrity=True, ignore_index=False)

# 3
pd.concat([df_left, df_right], axis=0, keys=['data_left', 'data_right'], names=['level_1', 'level_2'],
          verify_integrity=True, ignore_index=True)

Unnamed: 0,key_left,data
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


Unnamed: 0,key_right,data
0,a,0
1,b,1
2,b,2
3,b,3
4,d,4


level_1,data_left,data_left,data_right,data_right
level_2,key_left,data,key_right,data
0,b,0,a,0.0
1,b,1,b,1.0
2,a,2,b,2.0
3,c,3,b,3.0
4,a,4,d,4.0
5,a,5,,
6,b,6,,


Unnamed: 0_level_0,Unnamed: 1_level_0,key_left,data,key_right
level_1,level_2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
data_left,0,b,0,
data_left,1,b,1,
data_left,2,a,2,
data_left,3,c,3,
data_left,4,a,4,
data_left,5,a,5,
data_left,6,b,6,
data_right,0,,0,a
data_right,1,,1,b
data_right,2,,2,b


Unnamed: 0,key_left,data,key_right
0,b,0,
1,b,1,
2,a,2,
3,c,3,
4,a,4,
5,a,5,
6,b,6,
7,,0,a
8,,1,b
9,,2,b


### （四）df.combine_first()

In [131]:
df_1 = pd.DataFrame({'a': [1., np.nan, 5., np.nan],
                     'b': [np.nan, 2., np.nan, 6.],
                     'c': range(2, 18 , 4)})

df_2 = pd.DataFrame({'a': [5., 4., np.nan, 3., 7.],
                     'b': [np.nan, 3., 4., 6., 8.]})

df_1
df_2

df_1.combine_first(df_2)  # 可以看成是用df_2的值去修补df_1的缺失值，然后自己的仍然保留

Unnamed: 0,a,b,c
0,1.0,,2
1,,2.0,6
2,5.0,,10
3,,6.0,14


Unnamed: 0,a,b
0,5.0,
1,4.0,3.0
2,,4.0
3,3.0,6.0
4,7.0,8.0


Unnamed: 0,a,b,c
0,1.0,,2.0
1,4.0,2.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,


## 三、重塑与透视

### （一）df.stack()

将列中的数据透视到行。stack简单说就是把columns转成index

```python
DataFrame.stack(level=- 1, dropna=True)
```
**参数：**
> * **level:** 层级序号或者名称（int, str, list, default -1）；
> * **dropna:** 是否删除结果中的有缺失值的行（bool, default True）。

**返回值：**
> Stacked dataframe or series.

In [61]:
# 一个简单案例
df = pd.DataFrame({'姓名': ['狗蛋', '狗蛋', '狗蛋', '二狗', '二狗', '二狗', 
                            '王多余', '王多余', '王多余', '小明', '小明', '小强'],
                   '属性': ['帅气值', '骚气值', '智慧值', '帅气值', '骚气值', '智慧值',
                            '帅气值', '骚气值', '智慧值', '帅气值', '骚气值', '智慧值'],
                   '得分': [75,80,50,70,90,70,100,70,80,70,50,100],
                   '方差': [10,13,20,30,20,20,15,15,15,20,25,30]}).set_index(['姓名', '属性'])

df

df.stack()
type(df.stack())

Unnamed: 0_level_0,Unnamed: 1_level_0,得分,方差
姓名,属性,Unnamed: 2_level_1,Unnamed: 3_level_1
狗蛋,帅气值,75,10
狗蛋,骚气值,80,13
狗蛋,智慧值,50,20
二狗,帅气值,70,30
二狗,骚气值,90,20
二狗,智慧值,70,20
王多余,帅气值,100,15
王多余,骚气值,70,15
王多余,智慧值,80,15
小明,帅气值,70,20


姓名   属性     
狗蛋   帅气值  得分     75
          方差     10
     骚气值  得分     80
          方差     13
     智慧值  得分     50
          方差     20
二狗   帅气值  得分     70
          方差     30
     骚气值  得分     90
          方差     20
     智慧值  得分     70
          方差     20
王多余  帅气值  得分    100
          方差     15
     骚气值  得分     70
          方差     15
     智慧值  得分     80
          方差     15
小明   帅气值  得分     70
          方差     20
     骚气值  得分     50
          方差     25
小强   智慧值  得分    100
          方差     30
dtype: int64

pandas.core.series.Series

### （二）df.unstack()

将行中的数据透视到列。unstack就是把index转成columns。
```python
DataFrame.unstack(level=- 1, fill_value=None)
```
**参数：**
> * **level:** 层级序号或者名称 （int, str, or list of these, default -1 (last level)）；
> * **fill)value:** 用来填充NaN的值。

**返回值：**
> Series or DataFrame

In [59]:
df = pd.DataFrame({'姓名': ['狗蛋', '狗蛋', '狗蛋', '二狗', '二狗', '二狗', 
                            '王多余', '王多余', '王多余', '小明', '小明', '小强'],
                   '属性': ['帅气值', '骚气值', '智慧值', '帅气值', '骚气值', '智慧值',
                            '帅气值', '骚气值', '智慧值', '帅气值', '骚气值', '智慧值'],
                   '得分': [75,80,50,70,90,70,100,70,80,70,50,100],
                   '方差': [10,13,20,30,20,20,15,15,15,20,25,30]}).set_index(['姓名', '属性'])

df

df.unstack()
df.unstack(level='姓名')

Unnamed: 0_level_0,Unnamed: 1_level_0,得分,方差
姓名,属性,Unnamed: 2_level_1,Unnamed: 3_level_1
狗蛋,帅气值,75,10
狗蛋,骚气值,80,13
狗蛋,智慧值,50,20
二狗,帅气值,70,30
二狗,骚气值,90,20
二狗,智慧值,70,20
王多余,帅气值,100,15
王多余,骚气值,70,15
王多余,智慧值,80,15
小明,帅气值,70,20


Unnamed: 0_level_0,得分,得分,得分,方差,方差,方差
属性,帅气值,智慧值,骚气值,帅气值,智慧值,骚气值
姓名,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
二狗,70.0,70.0,90.0,30.0,20.0,20.0
小强,,100.0,,,30.0,
小明,70.0,,50.0,20.0,,25.0
狗蛋,75.0,50.0,80.0,10.0,20.0,13.0
王多余,100.0,80.0,70.0,15.0,15.0,15.0


Unnamed: 0_level_0,得分,得分,得分,得分,得分,方差,方差,方差,方差,方差
姓名,二狗,小强,小明,狗蛋,王多余,二狗,小强,小明,狗蛋,王多余
属性,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
帅气值,70.0,,70.0,75.0,100.0,30.0,,20.0,10.0,15.0
智慧值,70.0,100.0,,50.0,80.0,20.0,30.0,,20.0,15.0
骚气值,90.0,,50.0,80.0,70.0,20.0,,25.0,13.0,15.0


### （三）df.pivot() 
***todo：待进一步理解***

**将长格式转换为宽格式**
```python
DataFrame.pivot(index=None, columns=None, values=None)
```
**参数：**
> * **index:** 指定列作为新df的行索引。如果未指明，就用当前已存在的行索引（str or object or a list of str, optional）；
> * **columns:** 指定列作为新df的列索引（str or object or a list of str）；
> * **values:** 在原dataframe中选中某一列/几列的值，使其在新dataframe的列里显示。如果不指定，则默认将原dataframe中所有的列都显示，这里需要注意：为了将所有的值都显示出来，就会出现多层行索引的情况（str, object or a list of the previous, optional）。

**返回值：**
> DataFrame

In [78]:
# 课本案例 —— 将“长”透视为“宽”
df = pd.read_csv('.\\data_for_book\\chapter_08\\macrodata.csv')
df.head()

Unnamed: 0,year,quarter,realgdp,realcons,realinv,realgovt,realdpi,cpi,m1,tbilrate,unemp,pop,infl,realint
0,1959.0,1.0,2710.349,1707.4,286.898,470.045,1886.9,28.98,139.7,2.82,5.8,177.146,0.0,0.0
1,1959.0,2.0,2778.801,1733.7,310.859,481.301,1919.7,29.15,141.7,3.08,5.1,177.83,2.34,0.74
2,1959.0,3.0,2775.488,1751.8,289.226,491.26,1916.4,29.35,140.5,3.82,5.3,178.657,2.74,1.09
3,1959.0,4.0,2785.204,1753.7,299.356,484.052,1931.3,29.37,140.0,4.33,5.6,179.386,0.27,4.06
4,1960.0,1.0,2847.699,1770.5,331.722,462.199,1955.5,29.54,139.6,3.5,5.2,180.007,2.31,1.19


In [100]:
# 生成Periods
periods = pd.PeriodIndex(year=df['year'], quarter=df['quarter'], name='date')
periods

# 生成要取的列名
columns = pd.Index(['realgdp', 'infl', 'unemp'],  name='item')
columns

df_copy = df.copy()

# 转换新的列
df_1 = df_copy.reindex(columns=columns)
df_1.head(8)

# 将Periods转换成时间戳，并将其作为df_1的index
df_1.index = periods.to_timestamp('D', 'end')
df_1.head(8)

PeriodIndex(['1959Q1', '1959Q2', '1959Q3', '1959Q4', '1960Q1', '1960Q2',
             '1960Q3', '1960Q4', '1961Q1', '1961Q2',
             ...
             '2007Q2', '2007Q3', '2007Q4', '2008Q1', '2008Q2', '2008Q3',
             '2008Q4', '2009Q1', '2009Q2', '2009Q3'],
            dtype='period[Q-DEC]', name='date', length=203, freq='Q-DEC')

Index(['realgdp', 'infl', 'unemp'], dtype='object', name='item')

item,realgdp,infl,unemp
0,2710.349,0.0,5.8
1,2778.801,2.34,5.1
2,2775.488,2.74,5.3
3,2785.204,0.27,5.6
4,2847.699,2.31,5.2
5,2834.39,0.14,5.2
6,2839.022,2.7,5.6
7,2802.616,1.21,6.3


item,realgdp,infl,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31 23:59:59.999999999,2710.349,0.0,5.8
1959-06-30 23:59:59.999999999,2778.801,2.34,5.1
1959-09-30 23:59:59.999999999,2775.488,2.74,5.3
1959-12-31 23:59:59.999999999,2785.204,0.27,5.6
1960-03-31 23:59:59.999999999,2847.699,2.31,5.2
1960-06-30 23:59:59.999999999,2834.39,0.14,5.2
1960-09-30 23:59:59.999999999,2839.022,2.7,5.6
1960-12-31 23:59:59.999999999,2802.616,1.21,6.3


In [119]:
df_2 = df_1.stack().reset_index().rename(columns={0: 'value'})
df_2.head(8)

pivoted = df_2.pivot(index='date', columns='item', values='value')
pivoted.head(8)

Unnamed: 0,date,item,value
0,1959-03-31 23:59:59.999999999,realgdp,2710.349
1,1959-03-31 23:59:59.999999999,infl,0.0
2,1959-03-31 23:59:59.999999999,unemp,5.8
3,1959-06-30 23:59:59.999999999,realgdp,2778.801
4,1959-06-30 23:59:59.999999999,infl,2.34
5,1959-06-30 23:59:59.999999999,unemp,5.1
6,1959-09-30 23:59:59.999999999,realgdp,2775.488
7,1959-09-30 23:59:59.999999999,infl,2.74


item,infl,realgdp,unemp
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1959-03-31 23:59:59.999999999,0.0,2710.349,5.8
1959-06-30 23:59:59.999999999,2.34,2778.801,5.1
1959-09-30 23:59:59.999999999,2.74,2775.488,5.3
1959-12-31 23:59:59.999999999,0.27,2785.204,5.6
1960-03-31 23:59:59.999999999,2.31,2847.699,5.2
1960-06-30 23:59:59.999999999,0.14,2834.39,5.2
1960-09-30 23:59:59.999999999,2.7,2839.022,5.6
1960-12-31 23:59:59.999999999,1.21,2802.616,6.3


### （四）pd.melt()

**将宽格式转换为长格式**
```python
pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)
```
**参数：**
> * **frame:** 目标df；
> * **id_vars:** [元组, 列表或ndarray, 可选]：指定作为分组指标的列；
> * **value_vars:**  [元组, 列表或ndarray, 可选]：引用要取消透视的列。如果未指定, 则默认所有列；
> * **var_name:** 指代用于 "variable" 列的名称。如果为None, 则使用frame.columns.name或’variable’；
> * **value_name:** [标量, 默认为’value’]：是指用于 "value" 列的名称；
> * **col_level:** 如果列为MultiIndex, 它将使用此级别来融化；
> * **ignore_index:** 如果为True，则原始索引就被忽略进行重建；如果为False，继续沿用原始索引。

**返回值：**
> Unpivoted DataFrame

In [120]:
# 一个简单的例子
df = pd.DataFrame({'id_vars_name': ['狗蛋', '二狗', '王多余', '小明'], 
                   '语文': [78,80,86,78],
                   '数学': [85,84,90,88],
                   '英语': [78,90,87,65]})
df # 宽格式

df.melt() # 转换成长格式

df.melt(id_vars='id_vars_name')

df.melt(id_vars='id_vars_name', value_vars=['语文','数学'])

df.melt(id_vars='id_vars_name', var_name='科目', value_name='分数' )

df.melt(id_vars='id_vars_name', var_name='科目', value_name='分数' ).pivot(index='id_vars_name', columns='科目', values='分数')

Unnamed: 0,id_vars_name,语文,数学,英语
0,狗蛋,78,85,78
1,二狗,80,84,90
2,王多余,86,90,87
3,小明,78,88,65


Unnamed: 0,variable,value
0,id_vars_name,狗蛋
1,id_vars_name,二狗
2,id_vars_name,王多余
3,id_vars_name,小明
4,语文,78
5,语文,80
6,语文,86
7,语文,78
8,数学,85
9,数学,84


Unnamed: 0,id_vars_name,variable,value
0,狗蛋,语文,78
1,二狗,语文,80
2,王多余,语文,86
3,小明,语文,78
4,狗蛋,数学,85
5,二狗,数学,84
6,王多余,数学,90
7,小明,数学,88
8,狗蛋,英语,78
9,二狗,英语,90


Unnamed: 0,id_vars_name,variable,value
0,狗蛋,语文,78
1,二狗,语文,80
2,王多余,语文,86
3,小明,语文,78
4,狗蛋,数学,85
5,二狗,数学,84
6,王多余,数学,90
7,小明,数学,88


Unnamed: 0,id_vars_name,科目,分数
0,狗蛋,语文,78
1,二狗,语文,80
2,王多余,语文,86
3,小明,语文,78
4,狗蛋,数学,85
5,二狗,数学,84
6,王多余,数学,90
7,小明,数学,88
8,狗蛋,英语,78
9,二狗,英语,90


科目,数学,英语,语文
id_vars_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
二狗,84,90,80
小明,88,65,78
狗蛋,85,78,78
王多余,90,87,86
