## Pandas0.25来了，别错过这10大好用的新功能

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.__version__

'0.25.0'

In [3]:
np.__version__

'1.17.0'

# Groupby 的命名聚合（Named Aggregation）

## 在 DataFrame 上应用命名聚合

In [4]:
animals = pd.DataFrame({'品种': ['猫', '狗', '猫', '狗'],
                        '身高': [9.1, 6.0, 9.5, 34.0],
                        '体重': [7.9, 7.5, 9.9, 198.0]})
animals

Unnamed: 0,品种,身高,体重
0,猫,9.1,7.9
1,狗,6.0,7.5
2,猫,9.5,9.9
3,狗,34.0,198.0


In [5]:
animals.groupby('品种').agg(
    最低=pd.NamedAgg(column='身高', aggfunc='min'),
    最高=pd.NamedAgg(column='身高', aggfunc='max'),
    平均体重=pd.NamedAgg(column='体重', aggfunc=np.mean),
)

Unnamed: 0_level_0,最低,最高,平均体重
品种,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
狗,6.0,34.0,102.75
猫,9.1,9.5,8.9


In [6]:
animals.groupby('品种').agg(
    最低=('身高', min),
    最高=('身高', max),
    平均体重=('体重', np.mean),
)

Unnamed: 0_level_0,最低,最高,平均体重
品种,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
狗,6.0,34.0,102.75
猫,9.1,9.5,8.9


## 在序列（ Series）上应用命名聚合

In [7]:
animals.groupby('品种').身高.agg(
    最低=min,
    最高=max,
)

Unnamed: 0_level_0,最低,最高
品种,Unnamed: 1_level_1,Unnamed: 2_level_1
狗,6.0,34.0
猫,9.1,9.5


In [8]:
animals.groupby('品种').agg([
    lambda x: x.iloc[0] - x.iloc[1],
    lambda x: x.iloc[0] + x.iloc[1]
])

Unnamed: 0_level_0,身高,身高,体重,体重
Unnamed: 0_level_1,<lambda_0>,<lambda_1>,<lambda_0>,<lambda_1>
品种,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
狗,-28.0,40.0,-190.5,205.5
猫,-0.4,18.6,-2.0,17.8


# Groupby 聚合支持多个 lambda 函数

In [9]:
animals.groupby('品种').身高.agg([
    lambda x: x.iloc[0], lambda x: x.iloc[-1]
])

Unnamed: 0_level_0,<lambda_0>,<lambda_1>
品种,Unnamed: 1_level_1,Unnamed: 2_level_1
狗,6.0,34.0
猫,9.1,9.5


# 优化了 MultiIndex 显示输出

In [10]:
pd.MultiIndex.from_product([['a', 'abc'], range(500)])

MultiIndex([(  'a',   0),
            (  'a',   1),
            (  'a',   2),
            (  'a',   3),
            (  'a',   4),
            (  'a',   5),
            (  'a',   6),
            (  'a',   7),
            (  'a',   8),
            (  'a',   9),
            ...
            ('abc', 490),
            ('abc', 491),
            ('abc', 492),
            ('abc', 493),
            ('abc', 494),
            ('abc', 495),
            ('abc', 496),
            ('abc', 497),
            ('abc', 498),
            ('abc', 499)],
           length=1000)

# 精简显示  Series 与 DataFrame
增加了 `display.min_rows` 选项。

In [11]:
sales_date1 = pd.date_range('20190101', periods=1000, freq='D')
amount1 = np.arange(1000)
cols = ['销售金额']
sales1 = pd.DataFrame(amount1,index=sales_date1,columns=cols)

In [12]:
sales1

Unnamed: 0,销售金额
2019-01-01,0
2019-01-02,1
2019-01-03,2
2019-01-04,3
2019-01-05,4
2019-01-06,5
2019-01-07,6
2019-01-08,7
2019-01-09,8
2019-01-10,9


In [13]:
sales_date2 = pd.date_range('20190101', periods=50, freq='D')
amount2 = np.arange(50)
cols = ['销售金额']
sales2 = pd.DataFrame(amount2,index=sales_date2,columns=cols)

In [14]:
sales2

Unnamed: 0,销售金额
2019-01-01,0
2019-01-02,1
2019-01-03,2
2019-01-04,3
2019-01-05,4
2019-01-06,5
2019-01-07,6
2019-01-08,7
2019-01-09,8
2019-01-10,9


In [15]:
pd.options.display.min_rows = 30

In [16]:
pd.options.display.max_rows = 60

In [17]:
pd.get_option("display.max_rows"),pd.get_option("display.min_rows")

(60, 30)

# json_normalize()  支持 max_level

In [18]:
from pandas.io.json import json_normalize

data = [{
        'CreatedBy': {'Name': 'User001'},
        'Lookup': {'TextField': 'Some text',
                   'UserField': {'Id': 'ID001', 'Name': 'Name001'}},
        'Image': {'a': 'b'}
        }]

json_normalize(data, max_level=1)

Unnamed: 0,CreatedBy.Name,Lookup.TextField,Lookup.UserField,Image.a
0,User001,Some text,"{'Id': 'ID001', 'Name': 'Name001'}",b


# 增加 explode() 方法，把 list 炸成行

In [19]:
df = pd.DataFrame([{'变量1': 'a,b,c', '变量2': 1},
                   {'变量1': 'd,e,f', '变量2': 2}])
df

Unnamed: 0,变量1,变量2
0,"a,b,c",1
1,"d,e,f",2


In [20]:
df.assign(变量1=df.变量1.str.split(',')).explode('变量1')

Unnamed: 0,变量1,变量2
0,a,1
0,b,1
0,c,1
1,d,2
1,e,2
1,f,2


# SparseDataFrame 被废弃了

In [21]:
pd.DataFrame({"A": pd.SparseArray([0, 1])})

Unnamed: 0,A
0,0
1,1


# 对 DataFrame Groupby 后，Groupby.apply 对每组只处理一次

In [22]:
df = pd.DataFrame({"a": ["x", "y"], "b": [1, 2]})
df

def func(group):
    print(group.name)
    return group

df.groupby('a').apply(func)

x
y


Unnamed: 0,a,b
0,x,1
1,y,2


# 用 Dict 生成的 DataFrame，终于支持列排序啦

In [23]:
data = [
    {'姓 名': '张三', '城 市': '北京', '年 龄': 18},
    {'姓 名': '李四', '城 市': '上海', '年 龄': 19, '爱 好': '打游戏'},
    {'姓 名': '王五', '城 市': '广州', '年 龄': 20, '财务状况': '优'}
]
pd.DataFrame(data)

Unnamed: 0,姓 名,城 市,年 龄,爱 好,财务状况
0,张三,北京,18,,
1,李四,上海,19,打游戏,
2,王五,广州,20,,优


# Query() 支持列名空格了

In [24]:
df = pd.DataFrame(data)
df

Unnamed: 0,姓 名,城 市,年 龄,爱 好,财务状况
0,张三,北京,18,,
1,李四,上海,19,打游戏,
2,王五,广州,20,,优


In [25]:
df.query('`年 龄` <19')

Unnamed: 0,姓 名,城 市,年 龄,爱 好,财务状况
0,张三,北京,18,,
