In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [2]:
import pandas as pd
from pandas import DataFrame,Series
import matplotlib.pyplot as plt
import numpy as np

# Pandas私房手册-数据的形状重塑（reshaping）

## 通过`pivot`重塑

### 基本用法

`pivot`方法（除了`dataframe`对象的`pivot`方法，也有顶层的`pd.pivot()`方法）可以把"长表"变成了"宽表"，一维变二维，看个例子：

In [40]:
import pandas.util.testing as tm

tm.N = 3


def unpivot(frame):
    N, K = frame.shape
    data = {
        'value': frame.to_numpy().ravel('F'),
        'variable': np.asarray(frame.columns).repeat(N),
        'date': np.tile(np.asarray(frame.index), K)
    }
    return pd.DataFrame(data, columns=['date', 'variable', 'value'])


df = unpivot(tm.makeTimeDataFrame())
df.head()

Unnamed: 0,date,variable,value
0,2000-01-03,A,-0.050184
1,2000-01-04,A,0.937453
2,2000-01-05,A,-0.894746
3,2000-01-03,B,1.371878
4,2000-01-04,B,0.521496


In [41]:
df.pivot(index='date', columns='variable', values='value')

variable,A,B,C,D
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000-01-03,-0.050184,1.371878,0.621406,0.043906
2000-01-04,0.937453,0.521496,-1.224852,-0.356701
2000-01-05,-0.894746,-0.740996,-0.603098,-0.176778


### 和`pivot_table`的区别

要弄清楚`pivot`和`pivot_table`方法之间的区别，`pivot_table`是`pivot`的泛化，虽然通过设置`pivot_table`的参数，也可以实现和`pivot`一样的效果，但是，和`pivot`是用来重塑数据形状不同，`pivot_table`主要是进行聚合计算的，类似于excel的数据透视表，如下：

In [42]:
# pivot_table也可以达到pivot的效果
df.pivot_table('value', index='date', columns='variable')

variable,A,B,C,D
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000-01-03,-0.050184,1.371878,0.621406,0.043906
2000-01-04,0.937453,0.521496,-1.224852,-0.356701
2000-01-05,-0.894746,-0.740996,-0.603098,-0.176778


In [43]:
# 但是，更主要的作用是用来做聚合计算的
df.pivot_table('value', index='variable', aggfunc='sum')

Unnamed: 0_level_0,value
variable,Unnamed: 1_level_1
A,-0.007477
B,1.152377
C,-1.206544
D,-0.489573


### 省略`values`参数的情况

如果省略`values`参数，且`DataFrame`有不止一列值，这些值不用作`pivot`的列或索引，则生成的`DataFrame`将具有分层列:

In [44]:
df['value2'] = df['value'] * 2
df.head()
# 没有设定values参数，则生成分层列，value和value2都包含
df.pivot(index='date', columns='variable')

Unnamed: 0,date,variable,value,value2
0,2000-01-03,A,-0.050184,-0.100367
1,2000-01-04,A,0.937453,1.874906
2,2000-01-05,A,-0.894746,-1.789492
3,2000-01-03,B,1.371878,2.743756
4,2000-01-04,B,0.521496,1.042992


Unnamed: 0_level_0,value,value,value,value,value2,value2,value2,value2
variable,A,B,C,D,A,B,C,D
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2000-01-03,-0.050184,1.371878,0.621406,0.043906,-0.100367,2.743756,1.242813,0.087811
2000-01-04,0.937453,0.521496,-1.224852,-0.356701,1.874906,1.042992,-2.449704,-0.713403
2000-01-05,-0.894746,-0.740996,-0.603098,-0.176778,-1.789492,-1.481993,-1.206196,-0.353556


### 注意事项

注意2点：
1. `pivot()`将使用ValueError错误:Index包含重复的条目，如果索引/列对不是惟一的，则不能重新整形。在这种情况下，可以考虑使用`pivot_table()`，它是pivot的泛化，可以处理一个索引/列对的重复值。
2. 在数据是homogeneously-typed（这里没太明白，引用官方的原文）的情况下，这将返回一个关于底层数据的视图。

In [51]:
# 将4行2列的值'B'改为'A'，此时索引index和列column组成的对不是唯一的，因此会报错
df = unpivot(tm.makeTimeDataFrame())
df.loc[3, 'variable'] = 'A'
df.head()
try:
    df.pivot(index='date', columns='variable')
except ValueError as e:
    print(e)

Unnamed: 0,date,variable,value
0,2000-01-03,A,1.873029
1,2000-01-04,A,-0.699956
2,2000-01-05,A,-0.061525
3,2000-01-03,A,1.50653
4,2000-01-04,B,0.982581


Index contains duplicate entries, cannot reshape


In [52]:
# 使用pivot_table，此时相同索引/列的值由聚合函数处理，这里为求和，默认为均值，没有的则被设为NaN。
df.pivot_table('value', index='date', columns='variable', aggfunc='sum')

variable,A,B,C,D
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000-01-03,3.379559,,0.046027,-0.778836
2000-01-04,-0.699956,0.982581,-1.606448,1.532792
2000-01-05,-0.061525,0.273608,-0.081272,-0.583041


In [96]:
# 这里的pivoted是副本而不是视图，没太明白homogeneously-typed是什么意思，不知道什么情况下会返回视图
df = unpivot(tm.makeTimeDataFrame())
pivoted = df.pivot(index='date', columns='variable')
pivoted.loc['2000-01-03', ('value', 'A')] = 0
pivoted.loc['2000-01-03', ('value', 'A')] 
df.loc[(df['date']=='2000-01-03') & (df['variable']=='A'), 'value'][0]

0.0

-0.45175291588947875

## 通过`melt()`重塑

### 基本用法

`melt()`是`pivot`的逆运算，即将宽表转换为长表（二维变一维），`dataframe`对象有`melt()`方法，也有顶层的`melt()`方法。它的函数签名是`dataframe.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)`，其中：
- `id_vars`指用做标识符的列
- `value_vars`指要进行`unstack`的列，可以不指定，不指定的话，默认所有不是`id_vars`的列都为`value_vars`
- `var_name`用于指定变量列的名称，如果没指定，默认为variable，或者None
- `value_name`用于指定值列的名称
- `col_level`如果列索引是多层索引，则可以指定那一层来进行unstack操作

从字面上很难理解每个参数的意义，还是看例子：

In [18]:
cheese = pd.DataFrame({
    'first': ['John', 'Mary'],
    'last': ['Doe', 'Bo'],
    'height': [5.5, 6.0],
    'weight': [130, 150]
})
cheese
# 指定标识符列为first，要进行unstack操作的是height列，没有指定var_name和value_name，这两列的默认值为variable和value
cheese.melt(id_vars='first', value_vars='height')
cheese.melt(
    id_vars='first',
    value_vars='height',
    var_name='attribute',
    value_name='height')

Unnamed: 0,first,last,height,weight
0,John,Doe,5.5,130
1,Mary,Bo,6.0,150


Unnamed: 0,first,variable,value
0,John,height,5.5
1,Mary,height,6.0


Unnamed: 0,first,attribute,height
0,John,height,5.5
1,Mary,height,6.0


### `wide_to_long`使用方法

也可以使用`wide_to_long`方法，官方上介绍它没有`melt`灵活，但是对用户相对更友好，个人觉得它的逻辑不太好理解。但是它可以一次性的将多列作为一个`value_vars`，要实现与它相同的功能，使用`melt`要多些很多代码，所以还是需要掌握。

In [41]:
dft = pd.DataFrame({
    "A1970": {
        0: "a",
        1: "b",
        2: "c"
    },
    "A1980": {
        0: "d",
        1: "e",
        2: "f"
    },
    "B1970": {
        0: 2.5,
        1: 1.2,
        2: .7
    },
    "B1980": {
        0: 3.2,
        1: 1.3,
        2: .1
    },
    "X": dict(zip(range(3), np.random.randn(3)))
})
dft["id"] = dft.index
dft
pd.wide_to_long(dft, ['A', 'B'], i='id', j='year')

Unnamed: 0,A1970,A1980,B1970,B1980,X,id
0,a,d,2.5,3.2,0.259087,0
1,b,e,1.2,1.3,-1.513521,1
2,c,f,0.7,0.1,0.160619,2


Unnamed: 0_level_0,Unnamed: 1_level_0,X,A,B
id,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1970,0.259087,a,2.5
1,1970,-1.513521,b,1.2
2,1970,0.160619,c,0.7
0,1980,0.259087,d,3.2
1,1980,-1.513521,e,1.3
2,1980,0.160619,f,0.1


## 通过`stack()`和`unstack()`重塑

### 基本用法

`stack()`和`unstack()`方法与`melt()`和`pivot()`方法的作用非常相似，都是宽表变长表（二维变一维）或者长表变宽表（一维变二维）。他们的区别是`stack()`和`unstack()`是和多层索引配合使用的，即：它是作用在索引上，而`melt()`和`pivot()`方法是作用上列上的，先创建一些数据，然后举例说明：

In [104]:
tuples = list(
    zip(*[['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
          ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df2 = df[:4]
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.892666,0.283449
bar,two,-1.137142,-0.11192
baz,one,-0.919789,-0.843453
baz,two,0.419736,-0.639154


`stack()`方法“压缩”DataFrame列中的一个级别，和`melt()`类似，结果为以下两种情况之一:
1. 如果列的索引不是多层的（严格来说，只要将索引全部“压缩”，即使是多层索引，也可以全部传入`level`参数），则返回一个行是多层索引的`series`。
2. 如果列的索引是多层的，则返回一个`dataframe`，此时可以通过`level`参数选择多层索引的哪一层来进行“压缩”。

In [108]:
# 列只有一层，则返回series，列索引此时成为行索引的最里一层
stacked = df2.stack()
stacked

first  second   
bar    one     A    0.892666
               B    0.283449
       two     A   -1.137142
               B   -0.111920
baz    one     A   -0.919789
               B   -0.843453
       two     A    0.419736
               B   -0.639154
dtype: float64

`stack()`的逆操作是`unstack`，和`pivot()`类似，将长列表变为宽列表（一维变二维），不指定`level`参数的话，默认将最里层的索引“解压缩”到列上，`level`参数可以是整数（从0开始从外到里依次增大），如果索引有名称的话，也可以是名称：

In [114]:
stacked.unstack()
stacked.unstack(1)
stacked.unstack('first')

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.892666,0.283449
bar,two,-1.137142,-0.11192
baz,one,-0.919789,-0.843453
baz,two,0.419736,-0.639154


Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,0.892666,-1.137142
bar,B,0.283449,-0.11192
baz,A,-0.919789,0.419736
baz,B,-0.843453,-0.639154


Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,0.892666,-0.919789
one,B,0.283449,-0.843453
two,A,-1.137142,0.419736
two,B,-0.11192,-0.639154


### 隐式的排序

要注意：`stack`和`unstack`方法隐式地对涉及的索引级别进行了排序：

In [131]:
# 可见，堆叠操作以后，对索引进行了排序
df.index = df.index.set_codes([2, 2, 1, 1, 0, 0, 3, 3], level=0)
df
df.unstack().stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
foo,one,0.892666,0.283449
foo,two,-1.137142,-0.11192
baz,one,-0.919789,-0.843453
baz,two,0.419736,-0.639154
bar,one,0.648567,-0.987792
bar,two,-1.579823,-0.773398
qux,one,0.234593,-0.123861
qux,two,-0.13569,-1.257423


Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.648567,-0.987792
bar,two,-1.579823,-0.773398
baz,one,-0.919789,-0.843453
baz,two,0.419736,-0.639154
foo,one,0.892666,0.283449
foo,two,-1.137142,-0.11192
qux,one,0.234593,-0.123861
qux,two,-0.13569,-1.257423


### level参数是列表的情况

`stack()`和`unstack()`的`level`参数可以是列表，一次性将多层的索引全部进行`stack`或者`unstack`，注意：如果将所有层的索引全部传入`level`参数，则返回的是`series`：

In [136]:
df.unstack(level=['first', 'second'])

   first  second
A  foo    one       0.892666
          two      -1.137142
   baz    one      -0.919789
          two       0.419736
   bar    one       0.648567
          two      -1.579823
   qux    one       0.234593
          two      -0.135690
B  foo    one       0.283449
          two      -0.111920
   baz    one      -0.843453
          two      -0.639154
   bar    one      -0.987792
          two      -0.773398
   qux    one      -0.123861
          two      -1.257423
dtype: float64

### 处理缺失值

如果行的多层索引的子组没有相同的标签集，则`unstack`可能导致丢失值。默认情况下，缺失的值将被该数据类型的默认填填充替换，`NaN`用于`float`, `NaT`用于`datetimelike`，等等。对于整数类型，默认情况下数据将转换为浮点数，缺失的值将设置为`NaN`。可以通过`fill_value`参数来指定填充值。因此，在对行有多层索引进行`unstack`的时候，要格外小心。

In [6]:
columns = pd.MultiIndex.from_tuples(
    [('A', 'cat'), ('B', 'dog'), ('B', 'cat'), ('A', 'dog')],
    names=['exp', 'animal'])
index = pd.MultiIndex.from_product(
    [('bar', 'baz', 'foo', 'qux'), ('one', 'two')], names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 4), index=index, columns=columns)
df1 = df.iloc[[0, 1, 4, 7], [1, 2]]
df1

Unnamed: 0_level_0,exp,B,B
Unnamed: 0_level_1,animal,dog,cat
first,second,Unnamed: 2_level_2,Unnamed: 3_level_2
bar,one,-1.029896,0.204928
bar,two,0.293249,0.569353
foo,one,0.191397,0.521613
qux,two,-0.121591,-0.063559


In [8]:
# 标签不一致，foo缺少two，qux缺少one，因此会有缺失值
df1.unstack()

exp,B,B,B,B
animal,dog,dog,cat,cat
second,one,two,one,two
first,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3
bar,-1.029896,0.293249,0.204928,0.569353
foo,0.191397,,0.521613,
qux,,-0.121591,,-0.063559


In [10]:
# 可以通过fill_value参数指定用什么填充缺失值
df1.unstack(fill_value=0)

exp,B,B,B,B
animal,dog,dog,cat,cat
second,one,two,one,two
first,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3
bar,-1.029896,0.293249,0.204928,0.569353
foo,0.191397,0.0,0.521613,0.0
qux,0.0,-0.121591,0.0,-0.063559


In [12]:
# 因此在对行是多层索引进行unstack操作的时候，要留心是否有缺失值
df[:3].unstack()

exp,A,A,B,B,B,B,A,A
animal,cat,cat,dog,dog,cat,cat,dog,dog
second,one,two,one,two,one,two,one,two
first,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
bar,0.096681,0.513045,-1.029896,0.293249,0.204928,0.569353,0.099441,0.39134
baz,-0.351816,,-3.606095,,2.247193,,1.422572,


## 与`GroupBy`和`stats`结合起来

`stack`，`unstack`，`pivot`，`melt`往往可以和`GroupBy`以及基本的`Series`和`DataFrame`统计函数结合起来，来得到我们想要的结果。这个比较容易理解，只是需要多做一些练习来熟悉：

In [3]:
columns = pd.MultiIndex.from_tuples(
    [('A', 'cat'), ('B', 'dog'), ('B', 'cat'), ('A', 'dog')],
    names=['exp', 'animal'])
index = pd.MultiIndex.from_product(
    [('bar', 'baz', 'foo', 'qux'), ('one', 'two')], names=['first', 'second'])
df = pd.DataFrame(np.random.randn(8, 4), index=index, columns=columns)
df

Unnamed: 0_level_0,exp,A,B,B,A
Unnamed: 0_level_1,animal,cat,dog,cat,dog
first,second,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
bar,one,-0.137688,0.547776,0.129621,-1.190857
bar,two,1.204463,-0.986866,0.849255,1.76823
baz,one,-1.714977,0.726408,1.656391,0.445953
baz,two,-1.405301,2.377237,0.06502,-0.190942
foo,one,0.254259,0.795922,-1.173119,-0.064924
foo,two,-0.232923,1.554335,-0.037891,-0.02681
qux,one,0.451685,1.110539,-1.258822,1.38948
qux,two,-1.676221,-0.67035,-0.866268,-0.058221


现在假如我们需要分别求标签为'cat'和'dog'的列的均值，有几种方法可以实现，当然也可以一步一步的通过选取索引求得均值，但是那样显然会比较繁琐：

In [28]:
# 方法1：
# stack和unstack默认是处理最里层的字段，mean(1)表示按照轴1，即水平方向计算
df.stack().mean(1).unstack()

# 方法2：
# 也可以使用groupby函数，通过level参数选择对应的索引的级别，结果是一样的。
# df.groupby(level=1, axis=1).mean()

Unnamed: 0_level_0,animal,cat,dog
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.019615,1.450293
bar,two,1.539358,-0.17047
baz,one,0.269504,-0.150844
baz,two,0.287657,0.274692
foo,one,0.099195,-0.440285
foo,two,-0.431576,-0.927954
qux,one,1.006528,0.11694
qux,two,0.677955,0.9313


## `pivot_table`和`crosstab`

### `pivot_table`

`pivot_table`和`crosstab`的主要用法不再详述，可以参考官方文档和相关书籍，需要注意的是，`pivot_table`是`pivot`的泛化，因此主要根据列的值进行聚合而不是根据索引，虽然也可以根据层级索引进行聚合，但是列的设置容易出错。如果是根据索引进行聚合，用`groupby`或者使用`stack`/`unstack`结合统计函数比较容易理解：

In [28]:
# 行想要通过first进行聚合，列想要通过animal进行聚合，使用pivot_table无法对列进行聚合
df.pivot_table(index='first')

# 方法一：
# 通过groupby方法的level参数指定聚合的层级，是最好理解的
df.groupby(level='first').mean().groupby(level=1, axis=1).mean()

# 方法二：
# 也可以使用stack/unstack结合统计函数进行聚合，结果和方法一是一样的
# df.mean(level=0).stack().mean(1).unstack()

exp,A,A,B,B
animal,cat,dog,cat,dog
first,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
bar,0.533387,0.288687,0.489438,-0.219545
baz,-1.560139,0.127506,0.860705,1.551823
foo,0.010668,-0.045867,-0.605505,1.175129
qux,-0.612268,0.665629,-1.062545,0.220095


### `crosstab`

`crosstab`主要用来计算频次，相当于`pivot_table`中`count()`计算，`crosstab`如果使用列表或者数组，可以指定返回行和列的名称：

In [60]:
foo, bar, dull, shiny, one, two = 'foo', 'bar', 'dull', 'shiny', 'one', 'two'
a = np.array([foo, foo, bar, bar, foo, foo], dtype=object)
b = np.array([one, one, two, one, two, one], dtype=object)
c = np.array([dull, dull, shiny, dull, dull, shiny], dtype=object)
pd.crosstab(a, [b, c], rownames='a', colnames=['b', 'c'])

b,one,one,two,two
c,dull,shiny,dull,shiny
a,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
bar,1,0,0,1
foo,2,1,1,0


`crosstab`默认计算频次，相当于`pivot_table`将`aggfunc`设置为`size`或者`count`（注意，如果使用`size`，则不需要设置`value`参数，如果是`count`，则必须指定`value`参数），但是两者对返回结果的`nan`值的默认处理方式不同，`crosstab`把返回结果的`nan`计为0，`pivot_tab`为认为是`NaN`，但是可以通过`fill_value`参数设置为任意值：

In [119]:
df = pd.DataFrame({
    'A': ['a', 'a', 'b', 'b', 'b'],
    'B': ['c', 'c', 'c', 'c', 'd'],
    'C': [1, 1, np.nan, np.nan, 1]
})
# df.pivot_table(values='C', index='A', columns='B', aggfunc='count')
# 计算频次优先使用size，而不是count
df.pivot_table(index='A', columns='B', aggfunc='size')
pd.crosstab(df.A, df.B)

B,c,d
A,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.0,
b,2.0,1.0


B,c,d
A,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2,0
b,2,1


`crosstab`也可以通过传递`values`和`aggfunc`参数（两者必须都传，`aggfunc`不传的话，不会默认为计算`count`），来进行其它的聚合计算，得到的结果和`pivot_table`是一样的（如果`aggfunc`是`count`的话，`crosstab`对返回结果的`nan`的处理和`pivot_table`一样），它和`pivot_table`的区别在与：`crosstab`只有一个顶层函数，`dataframe`对象没有`crosstab`的方法，`crosstab`可以对任意的`array_like`序列进行聚合，而`pivot_table`只能够作用于`dataframe`对象：

In [82]:
a = ['a', 'a', 'b', 'b', 'b'],
b = ['c', 'c', 'c', 'c', 'd'],
c = [1, 1, np.nan, np.nan, 1]
pd.crosstab(a, b, c, aggfunc='count', rownames='A', colnames='B')

df = pd.DataFrame({
    'A': ['a', 'a', 'b', 'b', 'b'],
    'B': ['c', 'c', 'c', 'c', 'd'],
    'C': [1, 1, np.nan, np.nan, 1]
})
pd.pivot_table(df, 'C', index='A', columns='B', aggfunc='count')

B,c,d
A,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.0,
b,0.0,1.0


B,c,d
A,Unnamed: 1_level_1,Unnamed: 2_level_1
a,2.0,
b,0.0,1.0


最后，可能很多人不知道，`crosstab`可以通过`normalize`参数方便快捷的计算频次百分比，并且可以通过将`normalize`设置为`columns`或者`index`单独计算行或者列的百分比：

In [61]:
df = pd.DataFrame({
    'A': [1, 2, 2, 2, 2],
    'B': [3, 3, 4, 4, 4],
    'C': [1, 1, np.nan, 1, 1]
})
pd.crosstab(df.A, df.B, normalize=True)
pd.crosstab(df.A, df.B, normalize='index')

B,3,4
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.2,0.0
2,0.2,0.6


B,3,4
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.0,0.0
2,0.25,0.75


## `get_dummies()`计算哑变量

机器学习中常需要将序列转换成哑变量，这里不详细解释哑变量的意义及`get_dummies`的用法，只关注需要注意的地方以及一些技巧。哑变量常常和`cut`函数一起使用：

In [6]:
values = np.random.rand(10)
bins = [0, 0.2, 0.4, 0.6, 0.8, 1]
pd.get_dummies(pd.cut(values, bins))

Unnamed: 0,"(0.0, 0.2]","(0.2, 0.4]","(0.4, 0.6]","(0.6, 0.8]","(0.8, 1.0]"
0,1,0,0,0,0
1,0,1,0,0,0
2,0,0,1,0,0
3,0,0,0,0,1
4,1,0,0,0,0
5,1,0,0,0,0
6,0,1,0,0,0
7,0,0,0,1,0
8,0,0,0,0,1
9,1,0,0,0,0


`get_dummies()`也接受`dataframe`对象。默认情况下，所有的分类变量(统计意义上的分类变量，具有object或categorical dtype的变量)都被编码为哑变量，非`object`和`categorical`类型的将原样输出，也可以通过`columns`参数指定哪一列转换成哑变量：

In [25]:
# A和B列可以视为分类变量，默认被转换成了哑变量
df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['c', 'c', 'b'], 'C': [1, 2, 3]})
# C是整型，不属于object或者categorical类型，因此不会被编码
pd.get_dummies(df)
# 只选择A列进行编码
pd.get_dummies(df, columns=['A'])

Unnamed: 0,C,A_a,A_b,B_b,B_c
0,1,1,0,0,1
1,2,0,1,0,1
2,3,1,0,1,0


Unnamed: 0,B,C,A_a,A_b
0,c,1,1,0
1,c,2,0,1
2,b,3,1,0


可以通过`prefix`和`prefix_sep`参数设置返回结果的前缀。在一些统计模型中，只需要k-1个分类变量来避免共线性，可以将`drop_first`参数设置为`True`来实现。注意，此时不是简单的删除第1列，而是包含第一个变量的所有列：

In [20]:
df = pd.DataFrame({'A': list('aaabb'), 'B': list('ababc')})
pd.get_dummies(df)
# 注意，此时删除了包含变量a的A_a列和B_a列
pd.get_dummies(df, drop_first=True)

Unnamed: 0,A_a,A_b,B_a,B_b,B_c
0,1,0,1,0,0
1,1,0,0,1,0
2,1,0,1,0,0
3,0,1,0,1,0
4,0,1,0,0,1


Unnamed: 0,A_b,B_b,B_c
0,0,0,0
1,0,1,0
2,0,0,0
3,1,1,0
4,1,0,1


默认返回的`dateframe`的数据类型为`np.uint8`，可以通过`dtype`参数来指定数据类型：

In [26]:
df = pd.DataFrame({'A': list('abc'), 'B': [1.1, 2.2, 3.3]})
pd.get_dummies(df, dtype=bool)

Unnamed: 0,A,B
0,a,1.1
1,b,2.2
2,c,3.3


Unnamed: 0,B,A_a,A_b,A_c
0,1.1,1.0,0.0,0.0
1,2.2,0.0,1.0,0.0
2,3.3,0.0,0.0,1.0


## `factorize`因式分解

0.23版本之后，`factorize`可以把一维值编码为枚举类型（实在找不到好的词语翻译，暂且称为因式分解吧），有点类似`python`的`enumerate`，它有个`sort`参数可以对结果进行排序：

In [68]:
x = pd.Series(['C', 'C', np.nan, 'B', 3.14, np.inf])
x.factorize()
x.factorize(sort=True)

(array([ 0,  0, -1,  1,  2,  3], dtype=int64),
 Index(['C', 'B', 3.14, inf], dtype='object'))

(array([ 3,  3, -1,  2,  0,  1], dtype=int64),
 Index([3.14, inf, 'B', 'C'], dtype='object'))

## `explode`列表类型的列

0.25以后，增加了一个`explode`函数，可以使用它将每个类似列表的列转换为单独的行，新的行会复制原行的索引值，空列表会被替换成`NaN`：

In [72]:
keys = ['panda1', 'panda2', 'panda3', 'panda4']
values = [['eats', 'shoots'], ['shoots', 'leaves'], [], [1, 2]]
df = pd.DataFrame({'keys': keys, 'values': values})
df
df.explode('values')

Unnamed: 0,keys,values
0,panda1,"[eats, shoots]"
1,panda2,"[shoots, leaves]"
2,panda3,[]
3,panda4,"[1, 2]"


Unnamed: 0,keys,values
0,panda1,eats
0,panda1,shoots
1,panda2,shoots
1,panda2,leaves
2,panda3,
3,panda4,1
3,panda4,2


再来看个典型的例子，值不是列表而是逗号分隔的字符串（现实中更常见），注意`assign`的用法，其实就相当于`df['var1']=df.var1.str.split(','))`，但是使用`assign`，可以进行链式编程：

In [87]:
df = pd.DataFrame([{'var1': 'a,b,c', 'var2': 1}, {'var1': 'd,e,f', 'var2': 2}])
df
df.assign(var1=df.var1.str.split(',')).explode('var1')

Unnamed: 0,var1,var2
0,"a,b,c",1
1,"d,e,f",2


Unnamed: 0,var1,var2
0,a,1
0,b,1
0,c,1
1,d,2
1,e,2
1,f,2
