In [23]:
# 开篇导包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# from datetime import datetime, timedelta
from sklearn.utils import shuffle

# 显示全部结果
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

## 一、Categorical类型

**参考：** http://liao.cpython.org/pandas15/

pandas从0.15版开始提供分类数据类型，用于表示统计学里**有限且唯一性**数据集，例如描述个人信息的性别一般就男和女两个数据常用'm'和'f'来描述，有时也能对应编码映射为0和1。血型A、B、O和AB型等选择可以映射为0、1、2、3这四个数字分别代表各个血型。pandas里直接就有categorical类型，可以有效地对数据进行分组进行相应的汇总统计工作。

当DataFrame的某列(字段)上的数据值是都是某有限个数值的集合里的值的时候，例如：性别就男和女，有限且唯一。这列可以采用Categorical Data类型来存储、统计。

pandas的Categorical Data类型灵感来源于Data wareHorsing数据仓库里的维度表设计理念，即某列数据存储的不是数据本身，而是该数据对应的编码(有称为分类、字典编码) 这些编码比数据本身存储依赖的空间小，但能基于编码统计汇总的速度要比数据本身的存储、统计速度要快。

### （一）创建

In [2]:
# 创建一个df
fruits = ['苹果', '橘子', '苹果', '苹果'] * 2

N = len(fruits)

df = pd.DataFrame({'篮子编号': np.arange(N),
                   '水果': fruits,
                   '数量': np.random.randint(3,15,size=N),
                   '重量': np.random.uniform(1,4,size=N)})

df

Unnamed: 0,篮子编号,水果,数量,重量
0,0,苹果,10,1.209302
1,1,橘子,9,1.911183
2,2,苹果,14,1.778265
3,3,苹果,10,2.29364
4,4,苹果,7,1.609953
5,5,橘子,10,3.019039
6,6,苹果,13,2.420788
7,7,苹果,8,1.974651


#### 1. Series.astype('category')

In [3]:
# 将水果列转换为Categorical类型
fruit_cat = df['水果'].astype('category')
fruit_cat

0    苹果
1    橘子
2    苹果
3    苹果
4    苹果
5    橘子
6    苹果
7    苹果
Name: 水果, dtype: category
Categories (2, object): ['橘子', '苹果']

#### 2. pd.Categorical()

In [4]:
fruit_cat = pd.Categorical(df['水果'])
fruit_cat 

['苹果', '橘子', '苹果', '苹果', '苹果', '橘子', '苹果', '苹果']
Categories (2, object): ['橘子', '苹果']

#### 3. pd.Categorical.from_codes(codes, categories)

In [5]:
categories = ['狗', '猪', '猫']
codes = [0, 1, 2, 2, 2, 0, 1, 2, 2]

pd.Categorical.from_codes(codes, categories)
pd.Categorical.from_codes(codes, categories, ordered=True)

['狗', '猪', '猫', '猫', '猫', '狗', '猪', '猫', '猫']
Categories (3, object): ['狗', '猪', '猫']

['狗', '猪', '猫', '猫', '猫', '狗', '猪', '猫', '猫']
Categories (3, object): ['狗' < '猪' < '猫']

#### 4. 指定dtype='category'

In [6]:
cat = pd.Series(['狗', '猪', '猫', '狗', '狗', '猪'], dtype='category')
cat
cat.values.codes

0    狗
1    猪
2    猫
3    狗
4    狗
5    猪
dtype: category
Categories (3, object): ['狗', '猪', '猫']

array([0, 1, 2, 0, 0, 1], dtype=int8)

### （二）属性

In [7]:
# 创建一个df
fruits = ['苹果', '橘子', '苹果', '苹果'] * 2

N = len(fruits)

df = pd.DataFrame({'篮子编号': np.arange(N),
                   '水果': fruits,
                   '数量': np.random.randint(3,15,size=N),
                   '重量': np.random.uniform(1,4,size=N)})

df

# 将水果列转换为Categorical类型
fruit_cat = df['水果'].astype('category')
fruit_cat

Unnamed: 0,篮子编号,水果,数量,重量
0,0,苹果,6,2.604542
1,1,橘子,5,2.067475
2,2,苹果,13,1.281047
3,3,苹果,5,2.439247
4,4,苹果,11,1.559053
5,5,橘子,12,2.952567
6,6,苹果,11,1.896564
7,7,苹果,12,2.924052


0    苹果
1    橘子
2    苹果
3    苹果
4    苹果
5    橘子
6    苹果
7    苹果
Name: 水果, dtype: category
Categories (2, object): ['橘子', '苹果']

#### 1. categorical.codes

In [8]:
fruit_cat.values.codes

array([1, 0, 1, 1, 1, 0, 1, 1], dtype=int8)

#### 2. categorical.categories

In [9]:
fruit_cat.values.categories

Index(['橘子', '苹果'], dtype='object')

#### 3. categorical.ordered

In [10]:
fruit_cat.values.ordered

False

#### 4. categorical.dtype

In [11]:
fruit_cat.values.dtype

CategoricalDtype(categories=['橘子', '苹果'], ordered=False)

### （三）Series.cat

In [21]:
# 创建一个df
fruits = ['苹果', '橘子', '苹果', '西瓜', '哈密瓜', '香蕉'] * 2

N = len(fruits)

df = pd.DataFrame({'篮子编号': np.arange(N),
                   '水果': fruits,
                   '数量': np.random.randint(3,15,size=N),
                   '重量': np.random.uniform(1,4,size=N)})

df

# 将水果列转换为Categorical类型
fruit_cat = df['水果'].astype('category')
fruit_cat

Unnamed: 0,篮子编号,水果,数量,重量
0,0,苹果,12,1.008104
1,1,橘子,6,1.118877
2,2,苹果,4,1.483665
3,3,西瓜,14,2.02066
4,4,哈密瓜,5,1.15944
5,5,香蕉,3,2.51675
6,6,苹果,14,2.580846
7,7,橘子,12,1.086575
8,8,苹果,8,3.775838
9,9,西瓜,13,1.642699


0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

#### 1. Series.cat.codes

In [22]:
fruit_cat.cat.codes

0     2
1     1
2     2
3     3
4     0
5     4
6     2
7     1
8     2
9     3
10    0
11    4
dtype: int8

#### 2. Series.cat.categories

In [23]:
fruit_cat.cat.categories

Index(['哈密瓜', '橘子', '苹果', '西瓜', '香蕉'], dtype='object')

#### 3. Series.cat.set_categories()

In [48]:
fruit_cat
fruit_cat.cat.set_categories(['橘子', '苹果', '西瓜'])

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

0      苹果
1      橘子
2      苹果
3      西瓜
4     NaN
5     NaN
6      苹果
7      橘子
8      苹果
9      西瓜
10    NaN
11    NaN
Name: 水果, dtype: category
Categories (3, object): ['橘子', '苹果', '西瓜']

#### 4. Series..cat.rename_categories()

In [49]:
fruit_cat
fruit_cat.cat.rename_categories(['哈密瓜', 'bbb', '香蕉', '橘子', '苹果'])  # 重命名分类元素，新的分类元素长度必须与旧的相等

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

0      香蕉
1     bbb
2      香蕉
3      橘子
4     哈密瓜
5      苹果
6      香蕉
7     bbb
8      香蕉
9      橘子
10    哈密瓜
11     苹果
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', 'bbb', '香蕉', '橘子', '苹果']

#### 5. Series.cat.add_categories()

In [50]:
fruit_cat
fruit_cat.cat.add_categories(['柚子', '白菜'])

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (7, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉', '柚子', '白菜']

#### 6. Series.cat.remove_categories()

In [51]:
fruit_cat
fruit_cat.cat.remove_categories(['哈密瓜'])  # 移除的元素必须包含旧的分类元素中

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

0      苹果
1      橘子
2      苹果
3      西瓜
4     NaN
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    NaN
11     香蕉
Name: 水果, dtype: category
Categories (4, object): ['橘子', '苹果', '西瓜', '香蕉']

#### 7. Series.cat.remove_unused_categories()

In [42]:
fruit_add = fruit_cat.cat.add_categories(['柚子', '白菜'])
fruit_add
fruit_add.cat.remove_unused_categories()

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (7, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉', '柚子', '白菜']

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

#### 8. Series.cat.reorder_categories()

In [46]:
fruit_cat
fruit_cat.cat.reorder_categories(['苹果', '西瓜', '香蕉', '哈密瓜', '橘子'])

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['苹果', '西瓜', '香蕉', '哈密瓜', '橘子']

#### 9. Series.cat.as_ordered()

In [53]:
fruit_cat
fruit_cat.cat.as_ordered()

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜' < '橘子' < '苹果' < '西瓜' < '香蕉']

#### 10. Series.cat.as_unordered()

In [56]:
fruit_cat
fruit_cat.cat.as_unordered()

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

0      苹果
1      橘子
2      苹果
3      西瓜
4     哈密瓜
5      香蕉
6      苹果
7      橘子
8      苹果
9      西瓜
10    哈密瓜
11     香蕉
Name: 水果, dtype: category
Categories (5, object): ['哈密瓜', '橘子', '苹果', '西瓜', '香蕉']

### （四）Categorical 与 groupby 联合使用  以 pd.qcut() 为例

In [17]:
# 生成分箱数据
np.random.seed(131313)
data = np.random.randn(1000)
data[:5]

# 使用pd.qcut()进行分箱
bins = pd.qcut(data, 4, labels=['b1', 'b2', 'b3', 'b4'])
bins
bins.codes[:5]

# 使用groupby进行分组聚合
results = pd.Series(data).groupby(by=bins).agg(['count', 'mean', 'max', 'min'])
results

array([ 0.35321089, -2.06989988, -1.14875657, -0.07879969,  0.75567391])

['b3', 'b1', 'b1', 'b2', 'b4', ..., 'b2', 'b1', 'b3', 'b4', 'b1']
Length: 1000
Categories (4, object): ['b1' < 'b2' < 'b3' < 'b4']

array([2, 0, 0, 1, 3], dtype=int8)

Unnamed: 0,count,mean,max,min
b1,250,-1.319379,-0.710672,-3.111433
b2,250,-0.312701,0.045636,-0.700888
b3,250,0.361327,0.700546,0.046337
b4,250,1.270507,2.758724,0.701348


## 二、高阶Groupby

### （一）groupby 与 transform

**链接：** 

*10_数据聚合与分组操作*
* 1. groupby 与 agg
* 2. groupby 与 apply

In [32]:
# 导入与生成数据
data_all = shuffle(pd.read_csv('.\\data_for_book\\chapter_12\\tips.csv'))
data = data_all[:10]
data.index = range(data.shape[0])
data

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,10.34,2.0,Yes,Thur,Lunch,2
1,25.21,4.29,Yes,Sat,Dinner,2
2,14.83,3.02,No,Sun,Dinner,2
3,34.81,5.2,No,Sun,Dinner,4
4,16.21,2.0,No,Sun,Dinner,3
5,30.4,5.6,No,Sun,Dinner,4
6,18.24,3.76,No,Sat,Dinner,2
7,17.59,2.64,No,Sat,Dinner,3
8,19.81,4.19,Yes,Thur,Lunch,2
9,9.55,1.45,No,Sat,Dinner,2


In [47]:
# transform
data.groupby(by='smoker').transform('mean')
# data.groupby(by='smoker').transform(['mean', 'sum'])  # 会报错
data.groupby(by='smoker').transform(lambda x: x.mean())

Unnamed: 0,total_bill,tip,size
0,18.453333,3.493333,2.0
1,18.453333,3.493333,2.0
2,20.232857,3.381429,2.857143
3,20.232857,3.381429,2.857143
4,20.232857,3.381429,2.857143
5,20.232857,3.381429,2.857143
6,20.232857,3.381429,2.857143
7,20.232857,3.381429,2.857143
8,18.453333,3.493333,2.0
9,20.232857,3.381429,2.857143


Unnamed: 0,total_bill,tip,size
0,18.453333,3.493333,2.0
1,18.453333,3.493333,2.0
2,20.232857,3.381429,2.857143
3,20.232857,3.381429,2.857143
4,20.232857,3.381429,2.857143
5,20.232857,3.381429,2.857143
6,20.232857,3.381429,2.857143
7,20.232857,3.381429,2.857143
8,18.453333,3.493333,2.0
9,20.232857,3.381429,2.857143


In [48]:
# agg
data.groupby(by='smoker').agg('mean')
data.groupby(by='smoker').agg(['mean', 'sum'])
data.groupby(by='smoker').agg(lambda x: x.mean())

Unnamed: 0_level_0,total_bill,tip,size
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
No,20.232857,3.381429,2.857143
Yes,18.453333,3.493333,2.0


Unnamed: 0_level_0,total_bill,total_bill,tip,tip,size,size
Unnamed: 0_level_1,mean,sum,mean,sum,mean,sum
smoker,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
No,20.232857,141.63,3.381429,23.67,2.857143,20
Yes,18.453333,55.36,3.493333,10.48,2.0,6


Unnamed: 0_level_0,total_bill,tip,size
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
No,20.232857,3.381429,2.857143
Yes,18.453333,3.493333,2.0


In [49]:
# apply
# data.groupby(by='smoker').apply('mean')  # 会报错
data.groupby(by='smoker').apply(lambda x: x.mean())

Unnamed: 0_level_0,total_bill,tip,size
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
No,20.232857,3.381429,2.857143
Yes,18.453333,3.493333,2.0


**transform、agg、apply三者之间的异同**

**相同点：**
* 1. 都能传入聚合函数

**不同点：**
* 1. transform聚合后的结果是展开的，也就是说，它聚合之后返回的是与原Series长度（帧率）一样的一个Series，只不过对应的值被聚合后的值所替代了，而agg与apply则不是展开的；
* 2. agg可以以列表、字典的形式同时传入多个聚合函数，但是apply和transform则不可以；
* 3. apply不能传入str形式的聚合函数名，agg和transform则可以。

### （二）分组时间重采样

In [76]:
# 生成数据
time = pd.date_range(start='2020-08-18 00:00:00', periods=15, freq='min')
df = pd.DataFrame({'key': ['a', 'b', 'c']*15,
                   'time': time.repeat(3),
                   'value': np.arange(15*3)})
df[:15]

# 按照key进行分组，然后在组内重采样，然后再聚合
time_key = pd.Grouper(key='time', freq='5min')  # 这里的key名要和下面groupby的目标df里的col名保持一致
time_key

df.groupby(['key', 'time']).sum()
df.groupby(['key', time_key]).sum()

Unnamed: 0,key,time,value
0,a,2020-08-18 00:00:00,0
1,b,2020-08-18 00:00:00,1
2,c,2020-08-18 00:00:00,2
3,a,2020-08-18 00:01:00,3
4,b,2020-08-18 00:01:00,4
5,c,2020-08-18 00:01:00,5
6,a,2020-08-18 00:02:00,6
7,b,2020-08-18 00:02:00,7
8,c,2020-08-18 00:02:00,8
9,a,2020-08-18 00:03:00,9


TimeGrouper(key='time', freq=<5 * Minutes>, axis=0, sort=True, closed='left', label='left', how='mean', convention='e', origin='start_day')

Unnamed: 0_level_0,Unnamed: 1_level_0,value
key,time,Unnamed: 2_level_1
a,2020-08-18 00:00:00,0
a,2020-08-18 00:01:00,3
a,2020-08-18 00:02:00,6
a,2020-08-18 00:03:00,9
a,2020-08-18 00:04:00,12
a,2020-08-18 00:05:00,15
a,2020-08-18 00:06:00,18
a,2020-08-18 00:07:00,21
a,2020-08-18 00:08:00,24
a,2020-08-18 00:09:00,27


Unnamed: 0_level_0,Unnamed: 1_level_0,value
key,time,Unnamed: 2_level_1
a,2020-08-18 00:00:00,30
a,2020-08-18 00:05:00,105
a,2020-08-18 00:10:00,180
b,2020-08-18 00:00:00,35
b,2020-08-18 00:05:00,110
b,2020-08-18 00:10:00,185
c,2020-08-18 00:00:00,40
c,2020-08-18 00:05:00,115
c,2020-08-18 00:10:00,190


## 三、方法链技术

In [79]:
pass