# 2_数据处理

**创建日期：** 20200805 14:20      
**上次修改：** 20200805 14:10   
**Python版本：** Python 3.7  

项目介绍：一直想写一份适合经济学等社科背景，学术科研向的Python教程。因为经济学背景多少会对Stata有所了解，有一些写~代码~命令的基础，所以对这份教程应该：

- 简洁好理解，花最少的时间了解Python核心的用法；
- 实用易操作，最好是能够看完上手即用，最好是能和Stata写do文档的思路有点连接，便于过渡。

在构思了一段时间之后，偶然发现 Ties de Kok 的 [Get started with Python for research tutorial](https://github.com/TiesdeKok/LearnPythonforResearch)项目已经做了我想要搭建的框架。于是打算在这个项目的基础上进行完善，首先将其主要内容“汉化”成中文，之后对用法进行扩充、加入典型用法和案例。

>原作者简介：Ties de Kok ([Personal Website](http://www.tiesdekok.com))为华盛顿大学福斯特商学院的助理教授，他专注于将计算机科学与实证会计研究相结合，研究兴趣是财务会计、资本市场、计算机科学、自然语言处理和经验管理会计。

本部分基于 PyCon 2015 tutorial/talk by Brandon Rhodes，如果想了解更多，建议观看：

https://www.youtube.com/watch?v=5JnMutdy6Fw  
https://github.com/brandon-rhodes/pycon-pandas-tutorial

# 导入 Pandas 库

In [61]:
import pandas as pd
import numpy as np

In [62]:
import os
from os.path import join

In [63]:
# 定义路径
data_path = join(os.getcwd(), 'data')

# 创建 dataframe

## 导入本地数据

In [64]:
df_auto = pd.read_csv(join(data_path, 'auto_df.csv'), sep=';', index_col='Unnamed: 0')

## 创建并传入数据

可以传入多种类型的数据到 `pd.DataFrame()`：

In [65]:
d = {'col1': [1,2,3,4], 'col2': [5,6,7,8]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


In [66]:
d = [(1, 2 ,3 ,4), (5, 6, 7, 8)]
df = pd.DataFrame(data=d)
df

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8


## 由字典创建

In [67]:
d = {'row1': [1,2,3,4], 'row2': [5,6,7,8]}
df = pd.DataFrame.from_dict(d, orient='index')
df

Unnamed: 0,0,1,2,3
row1,1,2,3,4
row2,5,6,7,8


也可以直接传入字典：

In [68]:
df = pd.DataFrame.from_dict({'row1': [1,2,3,4], 'row2': [5,6,7,8]}, orient='index')
df

Unnamed: 0,0,1,2,3
row1,1,2,3,4
row2,5,6,7,8


# 操作 dataframe

## 添加列（Add columns）

In [69]:
df['col5'] = [10, 10]
df

Unnamed: 0,0,1,2,3,col5
row1,1,2,3,4,10
row2,5,6,7,8,10


## 添加行（Add row）

In [70]:
df.loc['row3'] = [11, 12, 13, 14, 15]
df

Unnamed: 0,0,1,2,3,col5
row1,1,2,3,4,10
row2,5,6,7,8,10
row3,11,12,13,14,15


## 转置（Inverse dataframe）

In [71]:
df.T

Unnamed: 0,row1,row2,row3
0,1,5,11
1,2,6,12
2,3,7,13
3,4,8,14
col5,10,10,15


## 删除列（Remove columns）

In [72]:
df = df.drop('col5', axis=1) # axis =1 : column
df

Unnamed: 0,0,1,2,3
row1,1,2,3,4
row2,5,6,7,8
row3,11,12,13,14


## 删除行（Remove row）

In [73]:
df = df.drop('row1', axis=0)
df

Unnamed: 0,0,1,2,3
row2,5,6,7,8
row3,11,12,13,14


## 设置索引（Set index）

In [74]:
df

Unnamed: 0,0,1,2,3
row2,5,6,7,8
row3,11,12,13,14


In [75]:
df.set_index(0)

Unnamed: 0_level_0,1,2,3
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,6,7,8
11,12,13,14


提示：Pandas允许多索引，这在数据分析中非常实用。

In [76]:
df.set_index(0, append=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,1,2,3
Unnamed: 0_level_1,0,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row2,5,6,7,8
row3,11,12,13,14


## 重置索引（Reset index）

使用`reset_index()`将索引（index）转化为常规的列（regular column）。

In [77]:
df.reset_index()

Unnamed: 0,index,0,1,2,3
0,row2,5,6,7,8
1,row3,11,12,13,14


# 重命名列（Rename columns）

可以直接操作`df.columns`或使用`df.rename()`：

In [78]:
df.columns = ['col1','col2','col3','col4']
df

Unnamed: 0,col1,col2,col3,col4
row2,5,6,7,8
row3,11,12,13,14


In [79]:
df.rename(columns={'col1' : 'column1', 'col2' : 'column2'})

Unnamed: 0,column1,column2,col3,col4
row2,5,6,7,8
row3,11,12,13,14


使用`df.rename()`是复制后修改，不会对原来的df覆盖。要对原来的df进行覆盖，需要使用`inplace=True`选项。

In [80]:
df = df.rename(columns={'col1' : 'column1', 'col2' : 'column2'})
#or
df.rename(columns={'col1' : 'column1', 'col2' : 'column2'}, inplace=True) 

# 预览 dataframe

## 全部

In [81]:
df_auto # 只显示首部和尾部

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
3,Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic
...,...,...,...,...,...,...,...,...,...,...,...,...
69,VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
70,VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
71,VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
72,VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign


## 首部和尾部

In [82]:
df_auto.head(3) # 首部3条数据

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic


In [83]:
df_auto.tail(5) # 尾部5条数据

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
69,VW Dasher,7140,23,4.0,2.5,12,2160,172,36,97,3.74,Foreign
70,VW Diesel,5397,41,5.0,3.0,15,2040,155,35,90,3.78,Foreign
71,VW Rabbit,4697,25,4.0,3.0,15,1930,155,35,89,3.78,Foreign
72,VW Scirocco,6850,25,4.0,2.0,16,1990,156,36,97,3.78,Foreign
73,Volvo 260,11995,17,5.0,2.5,14,3170,193,37,163,2.98,Foreign


## 随机X部分

In [84]:
X = 5
df_auto.sample(X)

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
55,Datsun 200,6229,23,4.0,1.5,6,2370,170,35,119,3.89,Foreign
18,Chev. Nova,3955,19,3.0,3.5,13,3430,197,43,250,2.56,Domestic
40,Olds Toronado,10371,16,3.0,3.5,17,4030,206,43,350,2.41,Domestic
9,Buick Skylark,4082,19,3.0,3.5,13,3400,200,42,231,3.08,Domestic
44,Plym. Sapporo,6486,26,,1.5,8,2520,182,38,119,3.54,Domestic


## 通过行名选取行

**注意：**下面返回的是Pandas的 Series 对象，这与Pandas的 Dataframe 对象不同！

In [85]:
df_auto['make'].head(3)

0    AMC Concord
1      AMC Pacer
2     AMC Spirit
Name: make, dtype: object

如果列名没有空格，则还可以在列名后使用点号(`.`)：

In [86]:
df_auto.make.head(3)

0    AMC Concord
1      AMC Pacer
2     AMC Spirit
Name: make, dtype: object

使用双引号，选择多列：

In [87]:
df_auto[['make', 'price', 'mpg']].head(10)

Unnamed: 0,make,price,mpg
0,AMC Concord,4099,22
1,AMC Pacer,4749,17
2,AMC Spirit,3799,22
3,Buick Century,4816,20
4,Buick Electra,7827,15
5,Buick LeSabre,5788,18
6,Buick Opel,4453,26
7,Buick Regal,5189,20
8,Buick Riviera,10372,16
9,Buick Skylark,4082,19


## 通过索引值选取行

In [88]:
df = df_auto[['make', 'price', 'mpg', 'trunk', 'headroom']].set_index('make')

In [89]:
df.loc['Buick Riviera']

price       10372.0
mpg            16.0
trunk          17.0
headroom        3.5
Name: Buick Riviera, dtype: float64

注意：返回一个pandas.Series对象而不是pandas.Dataframe对象。

## 通过索引位置选取行

In [90]:
df.iloc[2:5] # index location

Unnamed: 0_level_0,price,mpg,trunk,headroom
make,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AMC Spirit,3799,22,12,3.0
Buick Century,4816,20,16,4.5
Buick Electra,7827,15,20,4.0


In [91]:
df.iloc[2:5, 1:3]

Unnamed: 0_level_0,mpg,trunk
make,Unnamed: 1_level_1,Unnamed: 2_level_1
AMC Spirit,22,12
Buick Century,20,16
Buick Electra,15,20


## 条件选择

条件选择背后的逻辑：

1. 使用df[`condition`] 来请求Pandas过滤数据框
2. `conditon`是每行的`True`或者`False`值序列（因此`condition`的长度必须和dataframe行的长度相同）
3. 在Pandas中，只需在整个列上编写一个布尔表达式，就可以为每一行生成True或False值
4. Pandas仅会显示行为`True`的值。

举例来说：

`df_auto['price'] < 3800` 会每行依次判断 `df_auto['price']`，之后会返回条件为`True` 或者 `False`:

``
0     False
1     False
2      True
3     False
4     False
5     False
``
将条件放入方括号中 `df_auto[ df_auto['price'] < 3800 ]`， Pandas首先会生成值为 `True` / `False`的序列，之后仅显示为`True`的行所对应的值。

In [92]:
df_auto[ df_auto['price'] < 3800 ]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
13,Chev. Chevette,3299,29,3.0,2.5,9,2110,163,34,231,2.93,Domestic
17,Chev. Monza,3667,24,2.0,2.0,7,2750,179,40,151,2.73,Domestic
33,Merc. Zephyr,3291,20,3.0,3.5,17,2830,195,43,140,3.08,Domestic
65,Subaru,3798,35,5.0,2.5,11,2050,164,36,97,3.81,Foreign
67,Toyota Corolla,3748,31,5.0,3.0,9,2200,165,35,97,3.21,Foreign


也可以通过链接布尔表达式来组合多个条件： 

* 且: `&`
* 或: `|`

In [93]:
df_auto[(df_auto['price'] < 3800) & (df_auto['foreign'] == 'Foreign')]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
65,Subaru,3798,35,5.0,2.5,11,2050,164,36,97,3.81,Foreign
67,Toyota Corolla,3748,31,5.0,3.0,9,2200,165,35,97,3.21,Foreign


注意：如果我们不分配上述所有新dataframe，则上述所有操作均会返回这些新dataframe。如果我们要将其保留为单独的dataframe，则必须像这样分配它：

In [94]:
df_auto_small = df_auto[(df_auto.price < 3800) & (df_auto.foreign == 'Foreign')]
df_auto_small

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
65,Subaru,3798,35,5.0,2.5,11,2050,164,36,97,3.81,Foreign
67,Toyota Corolla,3748,31,5.0,3.0,9,2200,165,35,97,3.21,Foreign


## dataframe排序

In [95]:
df_auto.sort_values(by=['headroom', 'trunk'], inplace=True) # df.sort_value()
df_auto.head()

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
55,Datsun 200,6229,23,4.0,1.5,6,2370,170,35,119,3.89,Foreign
47,Pont. Firebird,4934,18,1.0,1.5,7,3470,198,42,231,3.08,Domestic
44,Plym. Sapporo,6486,26,,1.5,8,2520,182,38,119,3.54,Domestic
23,Ford Fiesta,4389,28,4.0,1.5,9,1800,147,33,98,3.15,Domestic
17,Chev. Monza,3667,24,2.0,2.0,7,2750,179,40,151,2.73,Domestic


# 处理数据类型

## 当前数据类型

In [96]:
df_auto.dtypes

make             object
price             int64
mpg               int64
rep78           float64
headroom        float64
trunk             int64
weight            int64
length            int64
turn              int64
displacement      int64
gear_ratio      float64
foreign          object
dtype: object

## 转换数据类型

我们可以通过两种方式转换列的数据类型：

1. 循环遍历值并分别转换；
2. 使用内置的Pandas函数一次性转换列。

### 分别转换值

In [97]:
df_auto['length'].apply(lambda x: str(x)).dtypes # apply() + lambda function

dtype('O')

注意: `'O'` 表示 'object'

In [98]:
df_auto['length'].apply(lambda x: int(x)).dtypes

dtype('int64')

### 直接转换列

如果想将列转化为`string`，建议使用`.astype(str)`:

In [99]:
df_auto['length'].astype(str).dtypes

dtype('O')

如果想将列转化为`numeric`，建议使用`df.to_numeric()`:

In [100]:
pd.to_numeric(df_auto['length']).dtypes

dtype('int64')

# 处理缺失值

http://pandas.pydata.org/pandas-docs/stable/missing_data.html

## 添加缺失值

将缺失值定义为`np.nan`：

In [101]:
df_auto.loc['UvT_Car'] = [np.nan for x in range(0,len(df_auto.columns))]
df_auto.loc['UvT_Bike'] = [np.nan for x in range(0,len(df_auto.columns))]

In [102]:
df_auto.loc[['UvT_Car', 'UvT_Bike']]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
UvT_Car,,,,,,,,,,,,
UvT_Bike,,,,,,,,,,,,


## 选择缺失或非缺失值

始终使用`pd.isnull()` 或`pd.notnull()` 最为可靠,`df_auto.make == np.nan` 有时无法取得正确的结果。

In [103]:
df_auto[pd.isnull(df_auto.make)]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
UvT_Car,,,,,,,,,,,,
UvT_Bike,,,,,,,,,,,,


In [104]:
df_auto[pd.notnull(df_auto.make)].head()

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
55,Datsun 200,6229.0,23.0,4.0,1.5,6.0,2370.0,170.0,35.0,119.0,3.89,Foreign
47,Pont. Firebird,4934.0,18.0,1.0,1.5,7.0,3470.0,198.0,42.0,231.0,3.08,Domestic
44,Plym. Sapporo,6486.0,26.0,,1.5,8.0,2520.0,182.0,38.0,119.0,3.54,Domestic
23,Ford Fiesta,4389.0,28.0,4.0,1.5,9.0,1800.0,147.0,33.0,98.0,3.15,Domestic
17,Chev. Monza,3667.0,24.0,2.0,2.0,7.0,2750.0,179.0,40.0,151.0,2.73,Domestic


## 填补缺失值

使用`fillna()`填补缺失值：

In [105]:
df = df_auto.fillna('Missing')
df.loc[['UvT_Car', 'UvT_Bike']]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
UvT_Car,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing
UvT_Bike,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing,Missing


## 删除含缺失值的行

使用`.dropna()`删除缺失值：

In [106]:
df_auto['make'].tail(3)

45          Plym. Volare
UvT_Car              NaN
UvT_Bike             NaN
Name: make, dtype: object

In [107]:
df = df_auto.dropna(axis=0)
df['make'].tail(3)

36       Olds Cutlass
22    Dodge St. Regis
45       Plym. Volare
Name: make, dtype: object

# 处理 dataframe

## 合并列（Combine columns）生成新的一列

In [113]:
df_auto['price_trunk_ratio'] = df_auto.price / df_auto.trunk
df_auto[['price', 'trunk', 'price_trunk_ratio']].head()

Unnamed: 0,price,trunk,price_trunk_ratio
55,6229.0,6.0,1038.166667
47,4934.0,7.0,704.857143
44,6486.0,8.0,810.75
23,4389.0,9.0,487.666667
17,3667.0,7.0,523.857143


## 通过遍历（iterate）每行数据框来生成新列

**提出问题：如果是国外车(Foreign)，将价格（Price）乘以1.5。**

### 法一：使用`apply()`函数和`lambda`

In [None]:
logic = lambda x: x.price*1.5 if x.foreign == 'Foreign' else x.price
df_auto['new_price'] = df_auto.apply(logic, axis=1)
df_auto[['make', 'price', 'foreign', 'new_price']].head()

### 法二：使用`apply()`和函数

在上面的示例中，我们使用匿名lambda函数。  
对于更复杂的处理，可以使用已定义的函数并在`.apply()`中调用它。  
比较建议这种方式，因为最灵活并且更易于阅读。

In [109]:
def new_price_function(x):
    if x.foreign == 'Foreign':
        return x.price * 1.5
    else:
        return x.price

In [110]:
df_auto['new_price'] = df_auto.apply(new_price_function, axis=1) # axis =1: iterate over rows
df_auto[['make', 'price', 'foreign', 'new_price']].head()

Unnamed: 0,make,price,foreign,new_price
55,Datsun 200,6229.0,Foreign,9343.5
47,Pont. Firebird,4934.0,Domestic,4934.0
44,Plym. Sapporo,6486.0,Domestic,6486.0
23,Ford Fiesta,4389.0,Domestic,4389.0
17,Chev. Monza,3667.0,Domestic,3667.0


### 法三：列表推导式

In [111]:
df_auto['new_price'] = [p*1.5 if f == 'Foreign' else p for p, f in zip(df_auto.price, df_auto.foreign)]
df_auto[['price', 'foreign', 'new_price']].sample(5, random_state=1)

Unnamed: 0,price,foreign,new_price
58,8129.0,Foreign,12193.5
49,4723.0,Domestic,4723.0
41,4647.0,Domestic,4647.0
36,4733.0,Domestic,4733.0
40,10371.0,Domestic,10371.0


注意：`random_state=1`保证每次获取同样的随机数样本。

## 合并dataframe

有三种方式合并dataframe：

1. Merge  
2. Join  
3. Append  

In [116]:
# 数据准备
df_auto_p1 = df_auto[['make', 'price', 'mpg']]
df_auto_p2 = df_auto[['make', 'headroom', 'trunk']]

In [None]:
df_auto_p1.head(3)

In [None]:
df_auto_p2.head(3)

### Merge 数据集

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html 

In [None]:
merged_auto = pd.merge(df_auto_p1, df_auto_p2, how='left', on='make')
merged_auto.head(3)

### 在索引上Join数据集

两个dataframe都必须具有与索引相同的列集（column set）

In [None]:
df_auto_p1.set_index('make', inplace=True)
df_auto_p2.set_index('make', inplace=True)

### Append

http://pandas.pydata.org/pandas-docs/stable/merging.html#concatenating-objects

In [None]:
df_auto_i1 = df_auto.iloc[0:3]
df_auto_i2 = df_auto.iloc[3:6]

In [None]:
df_auto_i1

In [None]:
df_auto_i2

使用`concat()`函数:

In [None]:
pd.concat([df_auto_i1, df_auto_i2])

使用`append()`函数:

In [None]:
df_auto_i1.append(df_auto_i2)

In [None]:
## 分组操作（Group-by operations）

使用`.groupby()`实现组内操作，处理流程如下：

1. **Split**: 根据某些条件将数据分为几组
2. **Apply**: 分别对每个组应用函数
3. **Combine**: 将结果组合到数据结构中

参阅:http://pandas.pydata.org/pandas-docs/stable/groupby.html

### 通过创建group对象拆分dataframe

步骤1：创建一个组对象，该对象指定我们要创建的组。

In [None]:
col_list = ['price', 'mpg', 'headroom', 'trunk', 'weight', 'length']
grouped = df_auto[col_list + ['foreign']].groupby(['foreign'])

### 应用示例1：计算均值摘要统计量

In [None]:
grouped.mean()

### 应用示例2：检索特定组

In [None]:
grouped.get_group('Domestic').head()

### 应用示例3：遍历`group`对象中的组

In [None]:
for name, group in grouped:
    print(name)
    print(group.head())

在`group`对象中应用`.apply()`函数：

在`.apply（）`中使用`lambda`是迭代数据子集的好方法。   
例如，假设我们要获得每个`trunk`尺寸类别中最便宜的汽车：

In [None]:
df_auto.groupby('trunk').apply(lambda df: df.sort_values('price').iloc[0]).head()

## 将groupby对象聚合到新 dataframe

如果要将每个组汇总到新数据框中的一行，则可以使用以下两个示例中的许多选项：

### `grouped.sum()` 和 `gropued.mean()`

In [None]:
grouped.sum()

In [None]:
grouped.mean()

### `grouped.count()` 和 `gropued.size()`

In [None]:
grouped.count()

In [None]:
grouped.size()

### `grouped.first()` 和 `gropued.last()`

In [None]:
grouped.first()

In [None]:
grouped.last()

In [None]:
grouped.agg({'price' : 'first', 'mpg' : ['mean', 'median'], 'trunk' : ['mean', (lambda x: 100 * np.mean(x))]})

`.groupby`更多的操作可以参阅：  
https://pandas.pydata.org/pandas-docs/stable/groupby.html

# 重塑和数据透视表

## 创建演示数据

In [None]:
tuples = [('bar', 'one',   1, 2),
          ('bar', 'two',   3, 4),
          ('bar', 'three', 5, 6),
          ('baz', 'one',   1, 2),
          ('baz', 'two',   3, 4),
          ('baz', 'three', 5, 6),
          ('foo', 'one',   1, 2),
          ('foo', 'two',   3, 4),
          ('foo', 'three', 5, 6)
         ]
df = pd.DataFrame(tuples)
df.columns = ['first', 'second', 'A', 'B']

In [None]:
df

## 示例1：创建透视表（Create a pivot table）

使用`pivot()`函数：  
http://pandas.pydata.org/pandas-docs/stable/reshaping.html#reshaping-by-pivoting-dataframe-objects

In [None]:
df.pivot(index='first', columns='second', values='A')

使用 `pd.pivot_table()` 函数:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html

In [None]:
pd.pivot_table(df, values=['A', 'B'], index='first', columns='second')

说明1：以上内容说明了Pandas本质上具有两个索引：通常的“row index”和“column index”。  
说明2：Pandas 还具有一个称为`pandas.melt`（https://pandas.pydata.org/pandas-docs/stable/generated/pandas.melt.html)

## 示例2：堆叠与去堆叠（Stack and Unstack）

`Stack`和`Unstack`是高级操作符，用于基于多级索引来重塑数据框。

- Stack --> 向下移动数据
- Unstack --> 向上移动数据

## Stack

In [None]:
pivot_df = pd.pivot_table(df, values=['A', 'B'], index='first', columns='second')
pivot_df

In [None]:
pivot_df.stack(level=['second'])

In [None]:
注意：我们也可以只使用`pivot_df.stack()`，因为它将默认选择索引的“last”级别。

In [None]:
## Unstack

In [None]:
df.set_index(['first', 'second'], inplace=True)

In [None]:
df