In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# Example one ：用特定于分组的值填充缺失值

# 对于缺失值的处理
#  1、用 dropna 将其替换掉
#  2、用一个固定值填充 NA 值，fillna 工具
#  3、有数据集本身所衍生出来的值填充 NA 值，用 fillna 功能

# 用平均值填充 NA 值
s = pd.Series(np.random.randn(6)) 
s[::2] = np.nan
s

0         NaN
1    1.189713
2         NaN
3   -0.806695
4         NaN
5    0.155311
dtype: float64

In [3]:
# using the mean of dataset filling the NA 
s.fillna(s.mean())

0    0.179443
1    1.189713
2    0.179443
3   -0.806695
4    0.179443
5    0.155311
dtype: float64

In [4]:
# 假设需要对不同的分组填充不同的值
# 方法：将数据分组，并使用 apply 和一个能够各个数据块调用 fillna 的函数即可

# 以下是一些关于美国几个州的示例数据，这些州被分为 东部 和 西部
states = ['Ohio', 'New York', 'Vermont', 'Florida',
        'Oregon', 'Nevada', 'California', 'Idaho']

# ['East'] * 4产生了一个列表， 包括了['East']中元素的四个拷贝。 将这些列表串联起来
group_key = ['East'] * 4 + ['West'] * 4

data = pd.Series(np.random.randn(8), index=states)
data

Ohio         -0.659016
New York      1.064082
Vermont       2.020960
Florida       1.450527
Oregon       -0.154759
Nevada        1.347925
California    0.062896
Idaho         0.576026
dtype: float64

In [5]:
# 将一些值设置为缺失
data[['Vermont', 'Nevada', 'Idaho']] = np.nan
data

Ohio         -0.659016
New York      1.064082
Vermont            NaN
Florida       1.450527
Oregon       -0.154759
Nevada             NaN
California    0.062896
Idaho              NaN
dtype: float64

In [6]:
# 对不同的分组计算对应分组的平均值
data.groupby(group_key).mean()

East    0.618531
West   -0.045931
dtype: float64

In [7]:
# 编写 apply 函数, 用数据集的平均值填充 NA 值
fill_mean = lambda g: g.fillna(g.mean())

data.groupby(group_key).apply(fill_mean)

Ohio         -0.659016
New York      1.064082
Vermont       0.618531
Florida       1.450527
Oregon       -0.154759
Nevada       -0.045931
California    0.062896
Idaho        -0.045931
dtype: float64

In [9]:
# 另外，也可以在代码中预定义各组的填充值
# 由于分组具有一个 name 属性，可以用来 Mark 一下
fill_values = {'East': 0.5, 'West': -1}

fill_func = lambda g: g.fillna(fill_values[g.name]) 

data.groupby(group_key).apply(fill_func)

Ohio         -0.659016
New York      1.064082
Vermont       0.500000
Florida       1.450527
Oregon       -0.154759
Nevada       -1.000000
California    0.062896
Idaho        -1.000000
dtype: float64

In [11]:
# Example two ：随机采样和排列

# 假设想要从一个大数据集中随机抽取（进行替换或者不替换）样本
#    以进行 模特卡罗模拟 （ Monte Carlo simulation ）或者其他分析工作

# Ctrl + B 全屏代码编辑区 ！！！！！

# 抽取的方式很多，其中之一就是对 Series 使用 sample 方法 
# Hearts, Spades, Clubs, Diamonds
suits = ['H', 'S', 'C', 'D']

card_val = (list(range(1, 11)) + [10] * 3) * 4

base_names = ['A'] + list(range(2, 11)) + ['J', 'K', 'Q']

cards = []
for suit in suits:
    cards.extend(str(num) + suit for num in base_names)
    
# deck 就是一副纸牌，有 52 个 Series ，其索引包括牌名，值则是21点或者其他游戏中用于计分的点数
deck = pd.Series(card_val, index=cards)
deck[:13]

AH      1
2H      2
3H      3
4H      4
5H      5
6H      6
7H      7
8H      8
9H      9
10H    10
JH     10
KH     10
QH     10
dtype: int64

In [12]:
# 现在，根据上面所讲的，从整副牌中抽出 5 张
def draw(deck, n=5):
    return deck.sample(n)

draw(deck)

KC     10
10C    10
JC     10
6S      6
9S      9
dtype: int64

In [13]:
# 假设想要从每种花色中随机抽取两张牌
# 由于花色是牌名的最后一个字符，所以可据此进行分组，并使用 apply
get_suit = lambda card: card[-1]

deck.groupby(get_suit).apply(draw, n=2)

C  2C     2
   5C     5
D  KD    10
   QD    10
H  5H     5
   9H     9
S  6S     6
   4S     4
dtype: int64

In [16]:
# 以上 代码 可等价于 如下 代码
# 不需要索引，禁用这个功能，提高代码效率
deck.groupby(get_suit, group_keys=False).apply(draw, n=2)

5C      5
4C      4
10D    10
5D      5
KH     10
7H      7
JS     10
2S      2
dtype: int64

In [17]:
# Example three ：分组加权平均数和相关系数

# 根据 groupby “ 拆分——应用——合并 ” 核心思想，
# 可以进行 DataFrame 的列与列之间或者两个 Series 之间的运算（比如分组加权平均）

# 以下数据集，含有分组键、值，以及一些权重值
df = pd.DataFrame({'category': ['a', 'a', 'a', 'a', 'b', 'b', 'b', 'b'],
                   'data': np.random.randn(8),
                   'weights': np.random.rand(8)})

df

Unnamed: 0,category,data,weights
0,a,0.246188,0.001492
1,a,-1.459589,0.290795
2,a,-1.296136,0.885833
3,a,0.069525,0.233582
4,b,0.532954,0.59321
5,b,-1.948749,0.347098
6,b,0.347697,0.621302
7,b,1.440401,0.6287


In [18]:
# 然后可以利用 category 计算分组加权平均数
grouped = df.groupby('category')

get_wavg = lambda g: np.average(g['data'], weights=g['weights'])

grouped.apply(get_wavg)

category
a   -1.102211
b    0.347600
dtype: float64

In [19]:
# 另一个例子， 考虑一个来自Yahoo!Finance的数据集
#    其中含有几只股票和标准普尔500指数（符号SPX） 的收盘价

dataset_path = './../dataset/'

close_px = pd.read_csv(dataset_path + 'stock_px_2.csv', parse_dates=True, index_col=0)

close_px.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2214 entries, 2003-01-02 to 2011-10-14
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   AAPL    2214 non-null   float64
 1   MSFT    2214 non-null   float64
 2   XOM     2214 non-null   float64
 3   SPX     2214 non-null   float64
dtypes: float64(4)
memory usage: 86.5 KB


In [20]:
close_px[-4:]

Unnamed: 0,AAPL,MSFT,XOM,SPX
2011-10-11,400.29,27.0,76.27,1195.54
2011-10-12,402.19,26.96,77.16,1207.25
2011-10-13,408.43,27.18,76.37,1203.66
2011-10-14,422.0,27.27,78.11,1224.58


In [23]:
# 来做一个比较有趣的任务：
#    计算一个由日收益率（通过百分数变化计算）与 SPX 之间的年度相关系数组成的DataFrame

# 面是一个实现办法，先创建一个函数，用它计算 每列和 SPX列的成对相关系数：
spx_corr = lambda x: x.corrwith(x['SPX'])

# 接下来，使用 pct_change 计算 close_px 的百分比变化
rets = close_px.pct_change().dropna()

# 最后，用年对百分比变化进行分组，
# 可以用一个一行的函数，从每行的标签返回每个 datetime 标签的 year 属性
get_year = lambda x: x.year

by_year = rets.groupby(get_year)

by_year.apply(spx_corr)

Unnamed: 0,AAPL,MSFT,XOM,SPX
2003,0.541124,0.745174,0.661265,1.0
2004,0.374283,0.588531,0.557742,1.0
2005,0.46754,0.562374,0.63101,1.0
2006,0.428267,0.406126,0.518514,1.0
2007,0.508118,0.65877,0.786264,1.0
2008,0.681434,0.804626,0.828303,1.0
2009,0.707103,0.654902,0.797921,1.0
2010,0.710105,0.730118,0.839057,1.0
2011,0.691931,0.800996,0.859975,1.0


In [26]:
# 当然，还可以计算列与列之间的相关系数
# 这里，计算 Apple 和 Microsoft 的年相关系数
by_year.apply(lambda g: g['AAPL'].corr(g['MSFT']))

2003    0.480868
2004    0.259024
2005    0.300093
2006    0.161735
2007    0.417738
2008    0.611901
2009    0.432738
2010    0.571946
2011    0.581987
dtype: float64

In [28]:
# Example four ：组级别的线性回归

# 顺着上一个例子继续， 可以用 groupby 执行更为复杂的分组统计分析， 
#    只要函数返回的是 pandas 对象或标量值即可。 

# 例如， 可以定义下面这个 regress 函数（利用 statsmodels 计量经济学库）
#       对各数据块执行普通最小二乘法（Ordinary Least Squares， OLS） 回归：

# 约定写法
import statsmodels.api as sm

def regress(data, yvar, xvars):
    Y = data[yvar]
    X= data[xvars]
    X['intercept'] = 1
    result = sm.OLS(Y, X,).fit()
    return result.params

# 现在，为了按年计算 AAPL 对 SPX 收益率的线性回归
by_year.apply(regress, 'AAPL', ['SPX'])

Unnamed: 0,SPX,intercept
2003,1.195406,0.00071
2004,1.363463,0.004201
2005,1.766415,0.003246
2006,1.645496,8e-05
2007,1.198761,0.003438
2008,0.968016,-0.00111
2009,0.879103,0.002954
2010,1.052608,0.001261
2011,0.806605,0.001514


In [32]:
# 透视表 和 交叉表

# 透视表（pivot table）是各种电子表格程序和其他数据分析软件中常见的数据汇总工具
# 根据一个或者对个键对数据进行聚合，并根据行 和 列 的分组键将数据分配到各个矩形区域中

# 在 Python 和 pandas 中，通过 groupby 功能以及（能够利用层次化索引）重塑运算 制作透视表
# DataFrame 还有一个 pivot_table 方法
# 还有一个顶级的 pandas.pivot_table 函数
# 除了为 groupby 提供便利之外，pivot_table 还可以添加分项小计，也叫作 margins

# 小费数据集，假设想要根据 day 和 smoker 计算分组平均数（pivot_table 默认聚合类型），并将 day 和 smoker 放到行上

tips = pd.read_csv(dataset_path + 'tips.csv')

tips.pivot_table(index=['day', 'smoker'])

tips['tip_pct'] = tips['tip'] / tips['total_bill']


In [33]:
# 可以用 groupby 直接来做
#    现在，假设只想聚合 tip_pct 和 size，而且想根据 time 进行分组
# 将 smoker 放到列上，把 day 放到行上
tips.pivot_table(['tip_pct', 'size'], 
                 index=['time', 'day'],
                 columns='smoker')

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,No,Yes,No,Yes
time,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Dinner,Fri,2.0,2.222222,0.139622,0.165347
Dinner,Sat,2.555556,2.47619,0.158048,0.147906
Dinner,Sun,2.929825,2.578947,0.160113,0.18725
Dinner,Thur,2.0,,0.159744,
Lunch,Fri,3.0,1.833333,0.187735,0.188937
Lunch,Thur,2.5,2.352941,0.160311,0.163863


In [34]:
# 还可以对这个表作进一步的处理， 传入 margins=True 添加分项小计。 
# 这将会添加标签为 All的行和列， 其值对应于单个等级中所有数据的分组统计：
tips.pivot_table(['tip_pct', 'size'], index=['time', 'day'], columns='smoker', margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,size,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,No,Yes,All,No,Yes,All
time,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Dinner,Fri,2.0,2.222222,2.166667,0.139622,0.165347,0.158916
Dinner,Sat,2.555556,2.47619,2.517241,0.158048,0.147906,0.153152
Dinner,Sun,2.929825,2.578947,2.842105,0.160113,0.18725,0.166897
Dinner,Thur,2.0,,2.0,0.159744,,0.159744
Lunch,Fri,3.0,1.833333,2.0,0.187735,0.188937,0.188765
Lunch,Thur,2.5,2.352941,2.459016,0.160311,0.163863,0.161301
All,,2.668874,2.408602,2.569672,0.159328,0.163196,0.160803


In [35]:
# 这里， All值为平均数： 不单独考虑烟民与非烟民（All列） ，不单独考虑行分组两个级别中的任何单项（All行） 。


# 要使用其他的聚合函数， 将其传给 aggfunc 即可
#  例如， 使用 count 或 len 可以得到有关分组大小的交叉表（计数或频率）
tips.pivot_table('tip_pct', index=['time', 'smoker'], columns='day', aggfunc=len, margins=True)

Unnamed: 0_level_0,day,Fri,Sat,Sun,Thur,All
time,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dinner,No,3.0,45.0,57.0,1.0,106.0
Dinner,Yes,9.0,42.0,19.0,,70.0
Lunch,No,1.0,,,44.0,45.0
Lunch,Yes,6.0,,,17.0,23.0
All,,19.0,87.0,76.0,62.0,244.0


In [36]:
# 如果存在空的组合（也就是NA） ， 你可能会希望设置一个 fill_value：
tips.pivot_table('tip_pct', index=['time', 'size', 'smoker'], 
                 columns='day', aggfunc='mean', fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,day,Fri,Sat,Sun,Thur
time,size,smoker,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dinner,1,No,0.0,0.137931,0.0,0.0
Dinner,1,Yes,0.0,0.325733,0.0,0.0
Dinner,2,No,0.139622,0.162705,0.168859,0.159744
Dinner,2,Yes,0.171297,0.148668,0.207893,0.0
Dinner,3,No,0.0,0.154661,0.152663,0.0
Dinner,3,Yes,0.0,0.144995,0.15266,0.0
Dinner,4,No,0.0,0.150096,0.148143,0.0
Dinner,4,Yes,0.11775,0.124515,0.19337,0.0
Dinner,5,No,0.0,0.0,0.206928,0.0
Dinner,5,Yes,0.0,0.106572,0.06566,0.0


In [37]:
# pivot_table 的参数说明

# 参数名        说明
# values       待聚合的列的名称。默认聚合所有数值列
# index        用于分组的列名或其他分组键，出现在结果透视表的行
# columns      用于分组的列名或其他分组键，出现在结果透视表的列
# aggfunc      聚合函数或函数列表，默认为mean。可以是任何对groupby有效的函数
# fill _value  用于替换结果表中的缺失值
# dropna       如果为True，不添加条目都为NA的列
# margins      添加行/列小计和总计，默认为False


In [39]:
# 交叉表 crosstab

# 交叉表（ cross-tabulation ，简称 crosstab ）是一种用于计算分组频率的特殊透视表

from io import StringIO
data = """\
Sample  Nationality  Handedness
1   USA  Right-handed
2   Japan    Left-handed
3   USA  Right-handed
4   Japan    Right-handed
5   Japan    Left-handed
6   Japan    Right-handed
7   USA  Right-handed
8   USA  Left-handed
9   Japan    Right-handed
10  USA  Right-handed"""
data = pd.read_table(StringIO(data), sep='\s+')

data

Unnamed: 0,Sample,Nationality,Handedness
0,1,USA,Right-handed
1,2,Japan,Left-handed
2,3,USA,Right-handed
3,4,Japan,Right-handed
4,5,Japan,Left-handed
5,6,Japan,Right-handed
6,7,USA,Right-handed
7,8,USA,Left-handed
8,9,Japan,Right-handed
9,10,USA,Right-handed


In [41]:
# 作为调查分析的一部分， 可能想要根据国籍和用手习惯对这段数据进行统计汇总。 
# 虽然可以用 pivot_table 实现该功能， 但是 pandas.crosstab 函数会更方便：
pd.crosstab(data.Nationality, data.Handedness, margins=True)

Handedness,Left-handed,Right-handed,All
Nationality,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Japan,2,3,5
USA,1,4,5
All,3,7,10


In [42]:
# crosstab 的前两个参数可以是 数组 或 Series， 或是数组列表
#   就像小费数据：
pd.crosstab([tips.time, tips.day], tips.smoker, margins=True)

Unnamed: 0_level_0,smoker,No,Yes,All
time,day,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Dinner,Fri,3,9,12
Dinner,Sat,45,42,87
Dinner,Sun,57,19,76
Dinner,Thur,1,0,1
Lunch,Fri,1,6,7
Lunch,Thur,44,17,61
All,,151,93,244


In [None]:
# 掌握 pandas 数据分组工具 既有利于数据清洗，也有利于建模或者统计分析工作