# Pandas Vol.2

在开始学习这份教程前，请确保你已学习下列内容：
- Dataframe的基本操作
- csv file I/O
- 切片
- 常用聚合函数的使用（如： `mean()` ,  `max()` ）
- 排序
- 查询（条件选择器 & `query()` ）
- `groupby()`
- `apply()`
- `map()`

repo中附的Pandas Cheat Sheet介绍了大部分常用的操作，包括：

## 1. 数据重塑

数据重塑函数可以将单个或多个DataFrame重塑为需要的格式

### melt()

**将DataFrame从宽格式转换为长格式**

将部分列保留为标识符变量，将其他列转换为\[变量、值]的格式

参数：
- id_vars：用作标识符变量的列
- value_vars：转换为\[变量、值]格式的列

In [29]:
import pandas as pd

df = pd.DataFrame(
    {"Name": {0: "Adam", 1: "Bob", 2: "Ciel"},
     "Program": {0: "DS", 1: "CV", 2: "DS"},
     "Grade": {0: 10, 1: 12, 2: 11}}
)

In [19]:
df

Unnamed: 0,Name,Program,Grade
0,Adam,DS,10
1,Bob,CV,12
2,Ciel,DS,11


In [20]:
pd.melt(df)
# 无标识符变量，将所有列转换为[变量、值]的格式

Unnamed: 0,variable,value
0,Name,Adam
1,Name,Bob
2,Name,Ciel
3,Program,DS
4,Program,CV
5,Program,DS
6,Grade,10
7,Grade,12
8,Grade,11


In [21]:
pd.melt(df, id_vars=["Name"], value_vars=["Program"])
# 将Name列作为标识符变量列仅将Program列转换为[变量、值]的格式

Unnamed: 0,Name,variable,value
0,Adam,Program,DS
1,Bob,Program,CV
2,Ciel,Program,DS


In [23]:
pd.melt(df, id_vars=["Name", "Program"])
# 将多个列作为标识符变量列

Unnamed: 0,Name,Program,variable,value
0,Adam,DS,Grade,10
1,Bob,CV,Grade,12
2,Ciel,DS,Grade,11


### pivot()

**反向melt**

参数：
- index：作为索引的列
- columns：作为新DataFrame列名的列

In [33]:
df = pd.melt(pd.DataFrame(
    {"Name": {0: "Adam", 1: "Bob", 2: "Ciel"},
     "Program": {0: "DS", 1: "CV", 2: "DS"},
     "Grade": {0: 10, 1: 12, 2: 11}}
), id_vars=["Name"])

In [34]:
df

Unnamed: 0,Name,variable,value
0,Adam,Program,DS
1,Bob,Program,CV
2,Ciel,Program,DS
3,Adam,Grade,10
4,Bob,Grade,12
5,Ciel,Grade,11


In [45]:
pd.pivot(df, index=["Name"], columns=["variable"])

Unnamed: 0_level_0,value,value
variable,Grade,Program
Name,Unnamed: 1_level_2,Unnamed: 2_level_2
Adam,10,DS
Bob,12,CV
Ciel,11,DS


## 2. 数据合并

### concat()

In [46]:
df1 = pd.DataFrame(
    [[1, 2, 3],
     [4, 5, 6]]
)

df2 = pd.DataFrame(
    [[7, 8, 9],
     [10, 11, 12]]
)

In [47]:
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [48]:
df2

Unnamed: 0,0,1,2
0,7,8,9
1,10,11,12


In [49]:
pd.concat([df1, df2])  # 纵向拼接

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
0,7,8,9
1,10,11,12


In [50]:
pd.concat([df1, df2], axis=1)  # 横向拼接

Unnamed: 0,0,1,2,0.1,1.1,2.1
0,1,2,3,7,8,9
1,4,5,6,10,11,12
