In [None]:
import pandas as pd
import numpy as np

# 部分功能要pandas1.3+才能支持
print(f'pandas version:{pd.__version__}')
print(f'numpy version:{np.__version__}')

In [None]:
df_consume = pd.read_csv('./data/fund_consume.csv',index_col=0,parse_dates=['上任日期','规模对应日期'])
df_consume = df_consume.sort_values('基金规模(亿)',ascending=False).head(10)
df_consume = df_consume.reset_index(drop=True) # 注意drop=True时，原本数据中如果有名为index的列，其值会被drop掉不保存
df_consume

In [None]:
df_fund = pd.read_csv('./data/fund-analysis.csv',index_col=0,parse_dates=['上任日期','规模对应日期'])
df_fund = df_fund.sort_values('基金规模(亿)',ascending=False).head(10)
df_fund = df_fund.reset_index(drop=True)
df_fund.head(2)

In [None]:
df_consume.style.hide_index() #用 hide_index() 方法可以选择隐藏索引

In [None]:
df_consume.style.hide_index().hide_columns(['性别','基金经理','上任日期','2021']) #用 hide_columns() 方法可以选择隐藏一列或者多列

可以用 DataFrame.dtypes 属性来查看数据格式，通过 style.format() 函数对数据格式进行设置

In [None]:
df_consume.dtypes #查看数据格式

In [None]:
format_dict = {'基金规模(亿)': '￥{0:.1f}', 
               '管理费': '{0:.2f}', 
               '托管费': '{0:.2f}', 
               '规模对应日期':lambda x: "{}".format(x.strftime('%Y%m%d')),
               '2018': '{0:.1%}', 
               '2019': '{0:.1%}', 
               '2020': '{0:.1%}', 
               '2021': '{0:.1%}'
                }

df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期','2021'])\
                .format(format_dict)

使用 na_rep 设置空值的显示，一般可以用 -、/、MISSING 等来表示

In [None]:
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期','2021'])\
                .format(format_dict,na_rep='-')

In [None]:
# 通过 highlight_max()来高亮最大值，其中 axis=0 是按列进行统计
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .highlight_max(axis=0,subset=['2018','2019','2020'])

In [None]:
# 通过 highlight_min()来高亮最小值，其中 axis=1 是按行进行统计
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .highlight_min(axis=1,subset=['2018','2019','2020'])

In [None]:
# 通过 highlight_null()来高亮空值（NaN值）
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .highlight_null()

highlight_between() 函数，对处于范围内的数据进行高亮显示。

highlight_between() 函数的使用参数如下：

Styler.highlight_between(subset=None, color='yellow', axis=0, left=None, right=None, inclusive='both', props=None)

highlight_between() 函数,对处于范围内的数据进行高亮显示，通过 left 和 right 参数来设置两边的范围。

需要注意下，highlight_between() 函数从 pandas 1.3.0版本开始才有，旧的版本可能不能使用哦。

下面示例中 对2018年至2020年的年度涨跌幅度 -20%~+20% 范围内的数据进行高亮标注.

In [None]:
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .highlight_between(left=-0.2,right=0.2,subset=['2018','2019','2020'])

也可以分别对不同年度的不同涨跌范围进行设置

In [None]:
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .highlight_between(left=[-0.15,0,0],right=[0,0.2,0.4],subset=['2018','2019','2020'],axis=1)

In [None]:
# 字体颜色和背景颜色设置
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .highlight_min(axis=1,subset=['2018','2019','2020','2021'],props='color:black;background-color:#99ff66')\
                .highlight_max(axis=1,subset=['2018','2019','2020','2021'],props='color:black;background-color:#ee7621')\
                .highlight_null(props='color:white;background-color:darkblue')

In [None]:
# 字体加粗以及字体颜色设置
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .highlight_between(left=-0.2,right=0.2,subset=['2018','2019','2020'],props='font-weight:bold;color:#ee7621')

In [None]:
# 使用 background_gradient() 函数可以对背景颜色进行设置
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期'])\
                .format(format_dict)\
                .background_gradient(cmap='Blues')

In [None]:
# 对 subset 进行设置后，可以选择特定的列或特定的范围进行背景颜色的设置
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期'])\
                .format(format_dict)\
                .background_gradient(subset=['基金规模(亿)'],cmap='Blues')

In [None]:
# 通过对 low 和 high 值的设置，可以来调节背景颜色的范围，low 和 high 分别是压缩 低端和高端的颜色范围，其数值范围一般是 0~1 
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期'])\
                .format(format_dict)\
                .background_gradient(subset=['基金规模(亿)'],cmap='Blues',low=0.3,high=0.9)

当数据范围比较大时，可以通过设置 vmin 和 vmax 来设置最小和最大的颜色的设置起始点。

比如下面，基金规模在20亿以下的，颜色最浅，规模70亿以上的，颜色最深，20~70亿之间的，颜色渐变。

In [None]:
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期'])\
                .format(format_dict)\
                .background_gradient(subset=['基金规模(亿)'],cmap='Blues',vmin=20,vmax=70)

通过 gmap 的设置，可以方便的按照某列的值，对行进行全部的背景设置

In [None]:
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期'])\
                .format(format_dict)\
                .background_gradient(cmap='Blues',gmap=df_consume['基金规模(亿)'])

gmap 还可以以矩阵的形式对数据进行样式设置。gmap矩阵和后面需要进行颜色设置的形状需要保持一致。

需要注意的是 颜色设置是根据 gmap中的值来设置颜色深浅的，而不是根据 DataFrame 中的数值来的。

In [None]:
df_gmap = df_consume.loc[:2,['基金名称','管理费','基金规模(亿)','2020']]

gmap = np.array([[1,2,3], [2,3,4], [3,4,5]])  # 3*3 矩阵，后面需要进行颜色设置的形状也需要是 3*3，需要保持一致
df_gmap.style.background_gradient(axis=None, gmap=gmap,
    cmap='Blues', subset=['管理费','基金规模(亿)','2020']
)

类似于背景色阶颜色设置，文本也可以进行颜色设置。text_gradient() 函数的用法跟 background_gradient() 函数的用法基本是一样的

In [None]:
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期'])\
                .format(format_dict)\
                .text_gradient(subset=['基金规模(亿)'],cmap='RdYlGn')

In [None]:
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期'])\
                .format(format_dict)\
                .text_gradient(cmap='RdYlGn',gmap=df_consume['基金规模(亿)'])

数据条的显示方式，可以同时在数据表格里对数据进行可视化显示，这个功能咱们在 Excel 里也是经常用到的。

在 pandas 中，可以使用 DataFrame.style.bar() 函数来实现这个功能，其参数如下：

Styler.bar(subset=None, axis=0, color='#d65f5f', width=100, align='left', vmin=None, vmax=None)

关于颜色设置，color=['#99ff66','#ee7621']， color可以设置为单个颜色，所有的数据只显示同一个颜色，也可以设置为包含两个元素的list或tuple形式，左边的颜色标注负数值，右边的颜色标注正数值。

In [None]:
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期'])\
                .format(format_dict)\
                .bar(subset=['基金规模(亿)','2018','2021'],color=['#99ff66','#ee7621'])

上面这个可视化效果，对于正负数值的区别，看起来总是有点别扭。

可以通过设置 aligh 参数的值来控制显示方式：

- left: 最小值从单元格的左侧开始。

- zero: 零值位于单元格的中心。

- mid: 单元格的中心在（max-min）/ 2，或者如果值全为负（正），则零对齐于单元格的右（左）。

将显示设置为 mid 后，符合大部分人的视觉审美观，代码如下：

In [None]:
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期'])\
                .format(format_dict)\
                .bar(subset=['基金规模(亿)','2018','2021'],color=['#99ff66','#ee7621'],align='mid')

通过 apply 和 applymap 函数，用户可以使用自定义函数来进行样式设置。

其中：

- apply 通过axis参数，每一次将一列或一行或整个表传递到DataFrame中。对于按列使用 axis=0, 按行使用 axis=1, 整个表使用 axis=None。

- applymap 作用于范围内的每个元素。

In [None]:
# 示例函数max_value()，用来找到符合条件的最大值
def max_value(x, color='red'):
    return np.where(x == np.nanmax(x.to_numpy()), f"color: {color};background-color:yellow", None)

# axis =0 ，按列设置样式
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .apply(max_value,axis=0,subset=['2018','2019','2020','2021'])

In [None]:
# axis =1 ，按行设置样式
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .apply(max_value,axis=1,subset=['2018','2019','2020','2021'])

In [None]:
# axis = None ，按整个表格设置样式
# 注意，整个表格的数据类型需要是一样的，不然会报错

df_consume_1 = df_consume[['2018','2019','2020','2021']]
# df_consume_1
df_consume_1.style.hide_index().apply(max_value,axis=None)

继续上面的数据表格，我们来自定义一个函数，对于基金的年度涨跌幅情况，年度上涨以橙色背景标注，下跌以绿色背景标注，NaN值以灰色背景标注。

由于 applymap 是作用于每个元素的，因此该函数不需要 axis 这个参数来进行设置

In [None]:
def color_returns(val):
    if val >=0:
        color = '#EE7621'  # light red
    elif val <0:
        color =  '#99ff66' # light green  '#99ff66'
    else:
        color = '#FFFAFA'  # ligth gray
    return f'background-color: {color}'

format_dict = {'基金规模(亿)': '￥{0:.1f}', 
               '管理费': '{0:.2f}', 
               '托管费': '{0:.2f}', 
               '规模对应日期':lambda x: "{}".format(x.strftime('%Y%m%d')),
               '2018': '{0:.1%}', 
               '2019': '{0:.1%}', 
               '2020': '{0:.1%}', 
               '2021': '{0:.1%}'
                }

df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .applymap(color_returns,subset=['2018','2019','2020','2021'])


在使用 Style 中的函数对表格数据进行样式设置时，对于有 subset 参数的函数，可以通过设置 行和列的范围来控制需要进行样式设置的区域

In [None]:
df_consume_1.style.applymap(color_returns,subset=pd.IndexSlice[1:5,])

In [None]:
# 对列(column)进行范围设置
df_consume_1.style.applymap(color_returns,subset=['2019','2020'])

In [None]:
# 对行和列同时进行范围设置
df_consume.style.hide_index()\
                .hide_columns(['性别','基金经理','上任日期',])\
                .format(format_dict)\
                .applymap(color_returns,subset=pd.IndexSlice[1:5,['2018','2019','2020']])

对于pandas 中样式设置后的共享复用，目前支持通过 Styler.export() 导出样式，然后通过 Styler.use() 来使用导出的样式。

不过经过阳哥的测试，简单的样式导出与使用是可以的。但稍微复杂一些的情况，目前的pandas版本是不太好用的。

In [None]:
# 简单样式：保存当前样式
df_consume_1 = df_consume[['2018','2019','2020','2021']]
# df_consume_1
style1 = df_consume_1.style.hide_index()\
                .highlight_min(axis=1,subset=['2018','2019','2020','2021'],props='color:black;background-color:#99ff66')\
                .highlight_max(axis=1,subset=['2018','2019','2020','2021'],props='color:black;background-color:#ee7621')\
                .highlight_null(props='color:white;background-color:darkblue')
style1

In [None]:
# 使用保存的样式
df_fund_1 = df_fund[['2018','2019','2020','2021']]

df_fund_1.style.use(style1.export())

当样式设置较多时，比如同时隐藏索引、隐藏列、设置数据格式、高亮特定值等，这个时候有些操作在导出后使用时并没有效果。

DataFrames 使用 OpenPyXL 或XlsxWriter 引擎可以将样式导出到 Excel 工作表。

不过，这个功能目前也还是处于不断完善过程中，估计有时候有些内容会没有效果。