In [1]:
#绘图字体和配色
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from matplotlib.colors import ListedColormap
import matplotlib.patches as patches
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['font.size'] = 16

class AcademicColors:
    """
    学术严谨风格配色方案
    基于Nature、Science等顶级科学期刊的设计理念
    """

    def __init__(self):
        # 主色板
        self.primary = '#333333'
        self.secondary = '#000000'
        self.background = '#F0F0F0'
        self.gridline = '#D9D9D9'

        # 分类色板（图表专用）
        self.categorical = [
            '#FF8C00',  # 明亮橙色 (保留)
            '#6A7FDB',  # 明亮靛蓝 (保留)
            '#2E8B7A',  # 深青 (保留)
            '#A0522D',  # 深红棕色 (替换金色)
            '#DA70D6',  # 明亮兰花紫 (保留)
            '#87CEEB',  # 天蓝色 (保留)
        ]

        # 发散色板
        self.diverging = [
            '#053061',  # 深蓝
            '#67A9CF',  # 浅蓝
            '#F7F7F7',  # 中性灰
            '#EF8A62',  # 浅红
            '#B2182B'   # 深红
        ]

        # 创建颜色映射
        self.categorical_cmap = ListedColormap(self.categorical)
        self.diverging_cmap = ListedColormap(self.diverging)

    def set_style(self):
        """设置matplotlib和seaborn的学术风格"""
        # 设置seaborn样式
        sns.set_style("whitegrid", {
            "axes.linewidth": 0.8,
            "grid.linewidth": 0.5,
            "grid.color": self.gridline,
            "axes.edgecolor": self.secondary,
            "axes.spines.left": True,
            "axes.spines.bottom": True,
            "axes.spines.top": False,
            "axes.spines.right": False,
        })

        # 设置matplotlib参数
        plt.rcParams.update({
            'font.size': 10,
            'axes.titlesize': 12,
            'axes.labelsize': 10,
            'xtick.labelsize': 9,
            'ytick.labelsize': 9,
            'legend.fontsize': 9,
            'figure.titlesize': 14,
            'axes.titlecolor': self.secondary,
            'axes.labelcolor': self.primary,
            'text.color': self.primary,
            'axes.edgecolor': self.secondary,
            'xtick.color': self.primary,
            'ytick.color': self.primary,
            'grid.alpha': 0.6,
            'axes.axisbelow': True
        })

        # 设置默认调色板
        sns.set_palette(self.categorical)

    def get_colors(self, n=None, palette_type='categorical'):
        """
        获取指定数量的颜色

        Parameters:
        -----------
        n : int, optional
            需要的颜色数量，如果为None则返回完整调色板
        palette_type : str
            调色板类型，'categorical' 或 'diverging'

        Returns:
        --------
        list : 颜色列表
        """
        if palette_type == 'categorical':
            colors = self.categorical
        elif palette_type == 'diverging':
            colors = self.diverging
        else:
            raise ValueError("palette_type must be 'categorical' or 'diverging'")

        if n is None:
            return colors
        elif n <= len(colors):
            return colors[:n]
        else:
            # 如果需要的颜色数量超过调色板，则循环使用
            return (colors * ((n // len(colors)) + 1))[:n]

    def _draw_palette_on_ax(self, colors, ax, title):
        """
        在指定的轴上绘制调色板
        这是palplot的替代方案，因为palplot不支持ax参数
        """
        n_colors = len(colors)
        ax.imshow(np.arange(n_colors).reshape(1, n_colors),
                  cmap=ListedColormap(colors),
                  interpolation="nearest",
                  aspect="auto")

        # 设置刻度和标签
        ax.set_xticks(np.arange(n_colors))
        ax.set_xticklabels([f'{i+1}' for i in range(n_colors)])
        ax.set_yticks([])
        ax.set_title(title, fontsize=12, color=self.secondary, pad=15)

        # 添加颜色值标签
        for i, color in enumerate(colors):
            ax.text(i, 0, color.upper(),
                   ha='center', va='center',
                   fontsize=8, color='white' if self._is_dark_color(color) else 'black',
                   weight='bold')

    def _is_dark_color(self, hex_color):
        """判断颜色是否为深色"""
        # 移除#号并转换为RGB
        hex_color = hex_color.lstrip('#')
        rgb = tuple(int(hex_color[i:i+2], 16) for i in (0, 2, 4))
        # 计算亮度
        brightness = (rgb[0] * 299 + rgb[1] * 587 + rgb[2] * 114) / 1000
        return brightness < 128

    def show_palette(self, palette_type='all'):
        """
        展示调色板

        Parameters:
        -----------
        palette_type : str
            'categorical', 'diverging', 或 'all'
        """
        if palette_type == 'all':
            fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(10, 6))
            self._draw_palette_on_ax(self.categorical, ax1, '分类色板（Categorical Palette）')
            self._draw_palette_on_ax(self.diverging, ax2, '发散色板（Diverging Palette）')
        elif palette_type == 'categorical':
            fig, ax = plt.subplots(1, 1, figsize=(10, 3))
            self._draw_palette_on_ax(self.categorical, ax, '分类色板（Categorical Palette）')
        elif palette_type == 'diverging':
            fig, ax = plt.subplots(1, 1, figsize=(10, 3))
            self._draw_palette_on_ax(self.diverging, ax, '发散色板（Diverging Palette）')
        else:
            raise ValueError("palette_type must be 'categorical', 'diverging', or 'all'")

        plt.tight_layout()
        plt.show()

    def show_simple_palette(self, palette_type='all'):
        """
        使用seaborn的palplot展示调色板（简单版本，不支持自定义轴）
        """
        if palette_type in ['categorical', 'all']:
            print("分类色板（Categorical Palette）:")
            sns.palplot(self.categorical)
            plt.show()

        if palette_type in ['diverging', 'all']:
            print("发散色板（Diverging Palette）:")
            sns.palplot(self.diverging)
            plt.show()

    def demo_plots(self):
        """展示使用示例"""
        # 创建示例数据
        np.random.seed(42)
        categories = ['组别A', '组别B', '组别C', '组别D', '组别E']
        values = np.random.randint(10, 100, len(categories))

        # 创建子图
        fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(12, 10))
        fig.suptitle('学术严谨风格图表示例', fontsize=16, color=self.secondary, y=0.95)

        # 柱状图
        bars = ax1.bar(categories, values, color=self.get_colors(len(categories)))
        ax1.set_title('实验组数据对比', fontweight='bold')
        ax1.set_ylabel('测量值')
        ax1.grid(True, alpha=0.3)

        # 散点图
        x = np.random.normal(0, 1, 100)
        y = np.random.normal(0, 1, 100)
        groups = np.random.choice(categories[:3], 100)

        for i, group in enumerate(categories[:3]):
            mask = groups == group
            ax2.scatter(x[mask], y[mask],
                       color=self.categorical[i],
                       label=group, alpha=0.7, s=50)

        ax2.set_title('多组数据分布', fontweight='bold')
        ax2.set_xlabel('变量 X')
        ax2.set_ylabel('变量 Y')
        ax2.legend()
        ax2.grid(True, alpha=0.3)

        # 热力图数据
        data = np.random.randn(5, 5)
        im = ax3.imshow(data, cmap=self.diverging_cmap, aspect='auto')
        ax3.set_title('相关性矩阵热力图', fontweight='bold')
        ax3.set_xticks(range(5))
        ax3.set_yticks(range(5))
        ax3.set_xticklabels([f'特征{i+1}' for i in range(5)])
        ax3.set_yticklabels([f'特征{i+1}' for i in range(5)])

        # 添加颜色条
        cbar = plt.colorbar(im, ax=ax3, shrink=0.8)
        cbar.set_label('相关系数')

        # 线图
        x_line = np.linspace(0, 10, 50)
        for i in range(3):
            y_line = np.sin(x_line + i) + np.random.normal(0, 0.1, 50)
            ax4.plot(x_line, y_line,
                    color=self.categorical[i],
                    label=f'条件{i+1}',
                    linewidth=2)

        ax4.set_title('时间序列对比', fontweight='bold')
        ax4.set_xlabel('时间')
        ax4.set_ylabel('响应值')
        ax4.legend()
        ax4.grid(True, alpha=0.3)

        plt.tight_layout()
        plt.show()

# 创建全局颜色实例
academic_colors = AcademicColors()

# 便捷函数
def set_academic_style():
    """快速设置学术风格"""
    academic_colors.set_style()

def get_academic_colors(n=None, palette_type='categorical'):
    """快速获取学术配色"""
    return academic_colors.get_colors(n, palette_type)

def show_academic_palette(palette_type='all'):
    """快速展示调色板（修复版本）"""
    academic_colors.show_palette(palette_type)

def show_simple_palette(palette_type='all'):
    """使用seaborn原生palplot展示调色板"""
    academic_colors.show_simple_palette(palette_type)

# 使用示例
if __name__ == "__main__":
    print("学术严谨风格配色方案已加载！")
    print("\n使用方法：")
    print("1. set_academic_style() - 设置学术风格")
    print("2. get_academic_colors(n, 'categorical') - 获取分类颜色")
    print("3. get_academic_colors(n, 'diverging') - 获取发散颜色")
    print("4. show_academic_palette() - 展示所有调色板（修复版本）")
    print("5. show_simple_palette() - 展示调色板（简单版本）")
    print("6. academic_colors.demo_plots() - 查看使用示例")


学术严谨风格配色方案已加载！

使用方法：
1. set_academic_style() - 设置学术风格
2. get_academic_colors(n, 'categorical') - 获取分类颜色
3. get_academic_colors(n, 'diverging') - 获取发散颜色
4. show_academic_palette() - 展示所有调色板（修复版本）
5. show_simple_palette() - 展示调色板（简单版本）
6. academic_colors.demo_plots() - 查看使用示例


## 第二章 PB-ROE策略的优化与改进

在第一章中，我们基于PB-ROE估值模型，构建并回测了一个结合高质量（高ROE）与低估值（低P/B）的量化策略。历史数据显示，该基础策略在长周期内具备获取超额收益的潜力，验证了模型的核心逻辑。然而，任何一个投资策略都存在优化的空间。第一章的构建方法相对简洁，虽然体现了核心思想，但也遗留了一些可能影响其稳健性和有效性的问题。

为了构建一个更为精细和稳健的投资模型，本章将从以下四个方面对基础策略进行深入的探讨与改进，并分别进行回测，以检验优化的效果。


### 改进方向一：引入行业中性化约束

#### 1. 基础策略的不足

- 第一章的策略采用了**全市场统一排序**，直接在所有A股中筛选出ROE最高和P/B最低的股票。
- 这种方法可能导致投资组合在行业分布上出现显著偏离和集中。
  - 银行、能源等传统行业市净率系统性偏低。
  - 科技、消费类行业的净资产收益率系统性偏高。
- 基础策略可能无意识地**超配某些行业**而**低配其他行业**，导致：
  - 策略表现受特定行业兴衰主导（行业 Beta）。
  - 超额收益来源变得模糊，引入非预期风险敞口。

#### 2. 改进的理由与逻辑

为了提升策略的稳健性，提出**引入行业中性化约束**：

- 不再统一排序，而是在每一个行业内独立排序、筛选：
  - 如在银行业中筛选 ROE 高且 P/B 低的股票；
  - 在医药、消费、科技等行业也进行同样操作。
- 构建的投资组合在行业配置上与市场基准（如沪深300）基本一致。
- 避免对特定行业的过度押注，**确保超额收益主要来源于个股的“选优”能力**而非“赌行业”。
- 有助于提升策略的稳健性和风险调整后的表现。


In [2]:
#从数据库导入数据dfpbroech1
# import os
# os.environ["MODIN_ENGINE"] = "ray"
# os.environ["MODIN_CPUS"] = "16"
# import modin.pandas as pd
import pandas as pd
from sqlalchemy import create_engine

# 根据你的实际数据库信息填写
username = "panjinhe"
password = "20020112p"
host = "localhost"
port = "5432"
database = "pbroe"

# 构建连接字符串
connection_string = f"postgresql+psycopg2://{username}:{password}@{host}:{port}/{database}"

# 创建引擎
engine = create_engine(connection_string)

# 读取pbroe.pbroech11表
dfpbroech2 = pd.read_sql_table('pbroech11', engine, schema='pbroe')

print(dfpbroech2.info())

dfpbroech2.rename(columns={
    'f050504c': 'ROEttm',
    'f100401a': 'PB',
    'f100603c': 'PEttm',
    'msmvosd': '流通市值',
    'msmvttl': '总市值',
    'markettype': '市场类型'
}, inplace=True)

print(dfpbroech2.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 260099 entries, 0 to 260098
Data columns (total 12 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   stkcd       260099 non-null  object        
 1   shortname   260099 non-null  object        
 2   ifst        260099 non-null  int64         
 3   accper      260099 non-null  datetime64[ns]
 4   indcd1      260099 non-null  object        
 5   indnme1     260099 non-null  object        
 6   f050504c    246158 non-null  float64       
 7   f100401a    257426 non-null  float64       
 8   f100603c    208713 non-null  float64       
 9   markettype  259767 non-null  object        
 10  msmvosd     259789 non-null  float64       
 11  msmvttl     259789 non-null  float64       
dtypes: datetime64[ns](1), float64(5), int64(1), object(5)
memory usage: 23.8+ MB
None
    stkcd shortname  ifst     accper indcd1 indnme1    ROEttm         PB  \
0  000001      深发展A     0 1991-12-31    

In [4]:
# 首先将accper列转换为字符串类型
dfpbroech2['accper'] = dfpbroech2['accper'].astype(str)

# 筛选出12月31日的记录
df_dec31 = dfpbroech2[dfpbroech2['accper'].str.endswith('12-31')]

# 提取年份信息
df_dec31['year'] = df_dec31['accper'].str[:4]

# 统计每个年份中indcd1的分类情况
industry_stats = df_dec31.groupby(['year', 'indcd1']).size().unstack(fill_value=0)

print("各年度行业分类统计:")
print(industry_stats)

# 统计总体行业分类情况
total_stats = df_dec31['indcd1'].value_counts()
print("\n总体行业分类统计:")
print(total_stats)

各年度行业分类统计:
indcd1  A01  A02  A03  A04  A05  B06  B07  B08  B09  B10  ...  O80  O81  O82  \
year                                                      ...                  
1990      0    0    0    0    0    0    0    0    0    0  ...    0    0    0   
1991      0    0    0    0    0    0    0    0    0    0  ...    0    0    0   
1992      0    0    0    0    0    0    0    0    0    0  ...    0    0    0   
1993      1    0    0    1    0    0    0    0    0    0  ...    1    0    0   
1994      1    0    0    1    0    1    0    0    0    0  ...    1    0    0   
1995      1    0    0    1    0    1    0    0    0    0  ...    1    0    0   
1996      3    1    0    2    0    2    1    0    1    0  ...    2    0    0   
1997      8    1    1    2    1    3    1    1    1    0  ...    2    0    0   
1998     10    2    1    3    1    5    2    1    1    0  ...    2    0    1   
1999     11    2    1    3    2    6    3    1    1    0  ...    2    0    1   
2000     15    3    1    4   