# 原始数据检查 (Raw Data Inspection)

本笔记本用于检查当前目录下的原始数据文件。
对于每个文件，我们将展示前 5 行数据并解释各列的含义。
最后，我们将检查 20000101 到 20251031 期间的数据完整性。

In [None]:
import pandas as pd
import os
from pathlib import Path

# 设置数据目录为当前目录 (假设笔记本在 data/raw_data 下)
data_dir = Path(".")

## 1. 股票基础信息 (`stock_basic.parquet`)

**字段说明:**
- `ts_code`: TS代码 (例如 000001.SZ)
- `symbol`: 股票代码
- `name`: 股票名称
- `area`: 地域
- `industry`: 所属行业
- `market`: 市场类型 (主板/中小板/创业板/科创板)
- `list_date`: 上市日期
- `delist_date`: 退市日期

In [None]:
try:
    df_basic = pd.read_parquet(data_dir / "stock_basic.parquet")
    display(df_basic.head())
except Exception as e:
    print(f"加载 stock_basic.parquet 失败: {e}")

## 2. 日线行情 (`daily.parquet`)

**字段说明:**
- `ts_code`: 股票代码
- `trade_date`: 交易日期
- `open`: 开盘价
- `high`: 最高价
- `low`: 最低价
- `close`: 收盘价
- `pre_close`: 昨收价
- `change`: 涨跌额
- `pct_chg`: 涨跌幅
- `vol`: 成交量 (手)
- `amount`: 成交额 (千元)

In [None]:
try:
    df_daily = pd.read_parquet(data_dir / "daily.parquet")
    display(df_daily.head())
except Exception as e:
    print(f"加载 daily.parquet 失败: {e}")

## 3. 财务指标 (`fina_indicator.parquet`)

**字段说明:**
- `ts_code`: TS代码
- `ann_date`: 公告日期
- `end_date`: 报告期
- `eps`: 基本每股收益
- `dt_eps`: 稀释每股收益
- `total_revenue_ps`: 每股营业总收入
- `revenue_ps`: 每股营业收入
- `capital_rese_ps`: 每股资本公积
- `surplus_rese_ps`: 每股盈余公积
- `undist_profit_ps`: 每股未分配利润
- `extra_item`: 非经常性损益
- `profit_dedt`: 扣除非经常性损益后的净利润
- `gross_margin`: 毛利
- `current_ratio`: 流动比率
- `quick_ratio`: 速动比率
- `cash_ratio`: 保守速动比率
- `inv_turn`: 存货周转率
- `ar_turn`: 应收账款周转率
- `ca_turn`: 流动资产周转率
- `fa_turn`: 固定资产周转率
- `assets_turn`: 总资产周转率
- `op_income`: 经营活动净收益
- `value_change_income`: 价值变动净收益
- `interst_income`: 利息费用
- `daa`: 折旧与摊销
- `ebit`: 息税前利润
- `ebitda`: 息税折旧摊销前利润
- `fcff`: 企业自由现金流量
- `fcfe`: 股权自由现金流量
- `current_exint`: 无息流动负债
- `noncurrent_exint`: 无息非流动负债
- `interestdebt`: 带息债务
- `netdebt`: 净债务
- `tangible_asset`: 有形资产
- `working_capital`: 营运资金
- `networking_capital`: 营运流动资本
- `invest_capital`: 全部投入资本
- `retained_earnings`: 留存收益
- `diluted2_eps`: 期末摊薄每股收益
- `bps`: 每股净资产
- `ocfps`: 每股经营活动产生的现金流量净额
- `retainedps`: 每股留存收益
- `cfps`: 每股现金流量净额
- `netprofit_margin`: 销售净利率
- `grossprofit_margin`: 销售毛利率
- `cogs_of_sales`: 销售成本率
- `expense_of_sales`: 销售期间费用率
- `profit_to_gr`: 净利润/营业总收入
- `saleexp_to_gr`: 销售费用/营业总收入
- `adminexp_of_gr`: 管理费用/营业总收入
- `finaexp_of_gr`: 财务费用/营业总收入
- `impai_ttm`: 资产减值损失/营业总收入
- `gc_of_gr`: 营业总成本/营业总收入
- `op_of_gr`: 营业利润/营业总收入
- `ebit_of_gr`: 息税前利润/营业总收入
- `roe`: 净资产收益率
- `roe_waa`: 加权平均净资产收益率
- `roe_dt`: 摊薄净资产收益率
- `roa`: 总资产净利率
- `npta`: 总资产净利润率
- `roic`: 投入资本回报率
- `roe_yearly`: 年化净资产收益率
- `roa2_yearly`: 年化总资产净利率
- `debt_to_assets`: 资产负债率
- `assets_to_eqt`: 权益乘数
- `dp_assets_to_eqt`: 权益乘数(杜邦分析)
- `ca_to_assets`: 流动资产/总资产
- `nca_to_assets`: 非流动资产/总资产
- `tbassets_to_totalassets`: 有形资产/总资产
- `int_to_talcap`: 带息债务/全部投入资本
- `eqt_to_talcapital`: 归属于母公司的股东权益/全部投入资本
- `currentdebt_to_debt`: 流动负债/负债合计
- `longdeb_to_debt`: 非流动负债/负债合计
- `ocf_to_shortdebt`: 经营活动产生的现金流量净额/流动负债
- `debt_to_eqt`: 产权比率
- `eqt_to_debt`: 归属于母公司的股东权益/负债合计
- `eqt_to_interestdebt`: 归属于母公司的股东权益/带息债务
- `tangibleasset_to_debt`: 有形资产/负债合计
- `tangasset_to_intdebt`: 有形资产/带息债务
- `tangibleasset_to_netdebt`: 有形资产/净债务
- `ocf_to_debt`: 经营活动产生的现金流量净额/负债合计
- `ocf_to_interestdebt`: 经营活动产生的现金流量净额/带息债务
- `ocf_to_netdebt`: 经营活动产生的现金流量净额/净债务
- `ebit_to_interest`: 已获利息倍数(EBIT/利息费用)
- `longdebt_to_workingcapital`: 长期债务与营运资金比率
- `ebitda_to_debt`: 息税折旧摊销前利润/负债合计
- `turn_days`: 营业周期
- `roa_yearly`: 年化总资产净利率
- `roa_dp`: 总资产净利率(杜邦分析)
- `fixed_assets`: 固定资产合计
- `profit_prefin_exp`: 扣除财务费用前营业利润
- `non_op_profit`: 非营业利润
- `op_to_ebt`: 营业利润/利润总额
- `nop_to_ebt`: 非营业利润/利润总额
- `ocf_to_profit`: 经营活动产生的现金流量净额/营业利润
- `cash_to_liqdebt`: 货币资金/流动负债
- `cash_to_liqdebt_withinterest`: 货币资金/带息流动负债
- `op_to_liqdebt`: 营业利润/流动负债
- `op_to_debt`: 营业利润/负债合计
- `roic_yearly`: 年化投入资本回报率
- `total_fa_trun`: 固定资产合计周转率
- `profit_to_op`: 利润总额/营业收入
- `q_opincome`: 单季度营业收入
- `q_investincome`: 单季度投资收益
- `q_dtprofit`: 单季度扣除非经常损益后的净利润
- `q_eps`: 单季度基本每股收益
- `q_netprofit_margin`: 单季度销售净利率
- `q_gsprofit_margin`: 单季度销售毛利率
- `q_exp_to_sales`: 单季度销售期间费用率
- `q_profit_to_gr`: 单季度净利润/营业总收入
- `q_saleexp_to_gr`: 销售费用/营业总收入
- `q_adminexp_to_gr`: 单季度管理费用/营业总收入
- `q_finaexp_to_gr`: 单季度财务费用/营业总收入
- `q_impair_to_gr_ttm`: 单季度资产减值损失/营业总收入
- `q_gc_to_gr`: 单季度营业总成本/营业总收入
- `q_op_to_gr`: 单季度营业利润/营业总收入
- `q_roe`: 单季度净资产收益率
- `q_dt_roe`: 单季度摊薄净资产收益率
- `q_npta`: 单季度总资产净利润率
- `q_opincome_to_ebt`: 单季度营业利润/利润总额
- `q_investincome_to_ebt`: 单季度投资收益/利润总额
- `q_dtprofit_to_profit`: 单季度扣除非经常损益后的净利润/净利润
- `q_salescash_to_or`: 单季度销售商品提供劳务收到的现金/营业收入
- `q_ocf_to_sales`: 单季度经营活动产生的现金流量净额/营业收入
- `q_ocf_to_or`: 单季度经营活动产生的现金流量净额/营业总收入
- `basic_eps_yoy`: 基本每股收益同比增长率(%)
- `dt_eps_yoy`: 稀释每股收益同比增长率(%)
- `cfps_yoy`: 每股经营活动产生的现金流量净额同比增长率(%)
- `op_yoy`: 营业利润同比增长率(%)
- `ebt_yoy`: 利润总额同比增长率(%)
- `netprofit_yoy`: 归属母公司股东的净利润同比增长率(%)
- `dt_netprofit_yoy`: 归属母公司股东的净利润-扣除非经常损益同比增长率(%)
- `ocf_yoy`: 经营活动产生的现金流量净额同比增长率(%)
- `roe_yoy`: 净资产收益率(摊薄)同比增长率(%)
- `bps_yoy`: 每股净资产相对年初增长率(%)
- `assets_yoy`: 资产总计相对年初增长率(%)
- `eqt_yoy`: 归属母公司的股东权益相对年初增长率(%)
- `tr_yoy`: 营业总收入同比增长率(%)
- `or_yoy`: 营业收入同比增长率(%)
- `q_gr_yoy`: 营业总收入同比增长率(%)(单季度)
- `q_gr_qoq`: 营业总收入环比增长率(%)(单季度)
- `q_sales_yoy`: 营业收入同比增长率(%)(单季度)
- `q_sales_qoq`: 营业收入环比增长率(%)(单季度)
- `q_op_yoy`: 营业利润同比增长率(%)(单季度)
- `q_op_qoq`: 营业利润环比增长率(%)(单季度)
- `q_profit_yoy`: 净利润同比增长率(%)(单季度)
- `q_profit_qoq`: 净利润环比增长率(%)(单季度)
- `q_netprofit_yoy`: 归属母公司股东的净利润同比增长率(%)(单季度)
- `q_netprofit_qoq`: 归属母公司股东的净利润环比增长率(%)(单季度)
- `equity_yoy`: 净资产同比增长率
- `rd_exp`: 研发费用
- `update_flag`: 更新标识

In [None]:
try:
    df_fina = pd.read_parquet(data_dir / "fina_indicator.parquet")
    display(df_fina.head())
except Exception as e:
    print(f"加载 fina_indicator.parquet 失败: {e}")

## 4. 利润表 (`income.parquet`)

**字段说明:**
- `ts_code`: TS代码
- `ann_date`: 公告日期
- `f_ann_date`: 实际公告日期
- `end_date`: 报告期
- `report_type`: 报告类型
- `comp_type`: 公司类型
- `basic_eps`: 基本每股收益
- `diluted_eps`: 稀释每股收益
- `total_revenue`: 营业总收入
- `revenue`: 营业收入
- `int_income`: 利息收入
- `prem_earned`: 已赚保费
- `comm_income`: 手续费及佣金收入
- `n_commis_income`: 手续费及佣金净收入
- `n_oth_income`: 其他业务净收益
- `n_oth_b_income`: 其他业务净收入
- `prem_income`: 保费业务收入
- `out_prem`: 分出保费
- `une_prem_reser`: 提取未到期责任准备金
- `reins_income`: 分保费收入
- `n_sec_tb_income`: 代理买卖证券业务净收入
- `n_sec_uw_income`: 证券承销业务净收入
- `n_asset_mg_income`: 受托客户资产管理业务净收入
- `oth_b_income`: 其他业务收入
- `fv_value_chg_gain`: 公允价值变动收益
- `invest_income`: 投资收益
- `ass_invest_income`: 对联营企业和合营企业的投资收益
- `forex_gain`: 汇兑收益
- `total_cogs`: 营业总成本
- `oper_cost`: 营业成本
- `int_exp`: 利息支出
- `comm_exp`: 手续费及佣金支出
- `biz_tax_surchg`: 税金及附加
- `sell_exp`: 销售费用
- `admin_exp`: 管理费用
- `fin_exp`: 财务费用
- `assets_impair_loss`: 资产减值损失
- `prem_refund`: 退保金
- `compens_payout`: 赔付支出
- `reser_insur_liab`: 提取保险责任准备金
- `div_payt`: 保单红利支出
- `reins_exp`: 分保费用
- `oper_exp`: 业务及管理费
- `compens_payout_refu`: 摊回赔付支出
- `insur_reser_refu`: 摊回保险责任准备金
- `reins_cost_refund`: 摊回分保费用
- `other_bus_cost`: 其他业务成本
- `operate_profit`: 营业利润
- `non_oper_income`: 营业外收入
- `non_oper_exp`: 营业外支出
- `nca_disploss`: 非流动资产处置损失
- `total_profit`: 利润总额
- `income_tax`: 所得税费用
- `n_income`: 净利润
- `n_income_attr_p`: 归属于母公司所有者的净利润
- `minority_gain`: 少数股东损益
- `oth_compr_income`: 其他综合收益
- `t_compr_income`: 综合收益总额
- `compr_inc_attr_p`: 归属于母公司所有者的综合收益总额
- `compr_inc_attr_m_s`: 归属于少数股东的综合收益总额
- `ebit`: 息税前利润
- `ebitda`: 息税折旧摊销前利润
- `insurance_exp`: 保险业务支出
- `undist_profit`: 年初未分配利润
- `distable_profit`: 可分配利润
- `rd_exp`: 研发费用
- `fin_exp_int_exp`: 财务费用:利息费用
- `fin_exp_int_inc`: 财务费用:利息收入
- `transfer_surplus_rese`: 盈余公积转入
- `transfer_housing_imprest`: 住房周转金转入
- `transfer_oth`: 其他转入
- `adj_lossgain`: 以前年度损益调整
- `withdra_legal_surplus`: 提取法定盈余公积
- `withdra_legal_pubfund`: 提取法定公益金
- `withdra_biz_devfund`: 提取企业发展基金
- `withdra_rese_fund`: 提取储备基金
- `withdra_oth_ersu`: 提取任意盈余公积
- `workers_welfare`: 职工奖金福利
- `distr_profit_shrhder`: 可供股东分配的利润
- `prfshare_payable_dvd`: 应付优先股股利
- `comshare_payable_dvd`: 应付普通股股利
- `capit_comstock_div`: 转作股本的普通股股利
- `continued_net_profit`: 持续经营净利润
- `end_net_profit`: 终止经营净利润
- `credit_impa_loss`: 信用减值损失
- `net_expo_ hedging_benefits`: 净敞口套期收益
- `oth_impair_loss_assets`: 其他资产减值损失
- `total_opcost`: 营业总成本
- `amodcost_fin_assets`: 以摊余成本计量的金融资产终止确认收益
- `oth_income`: 其他收益
- `asset_disp_income`: 资产处置收益
- `update_flag`: 更新标识

In [None]:
try:
    df_income = pd.read_parquet(data_dir / "income.parquet")
    display(df_income.head())
except Exception as e:
    print(f"加载 income.parquet 失败: {e}")

## 5. 资产负债表 (`balancesheet.parquet`)

**字段说明:**
- `ts_code`: TS代码
- `ann_date`: 公告日期
- `f_ann_date`: 实际公告日期
- `end_date`: 报告期
- `report_type`: 报告类型
- `comp_type`: 公司类型
- `total_share`: 期末总股本
- `cap_rese`: 资本公积
- `undistr_porfit`: 未分配利润
- `surplus_rese`: 盈余公积
- `special_rese`: 专项储备
- `money_cap`: 货币资金
- `trad_asset`: 交易性金融资产
- `notes_receiv`: 应收票据
- `accounts_receiv`: 应收账款
- `oth_receiv`: 其他应收款
- `prepayment`: 预付款项
- `div_receiv`: 应收股利
- `int_receiv`: 应收利息
- `inventories`: 存货
- `amor_exp`: 长期待摊费用
- `nca_within_1y`: 一年内到期的非流动资产
- `sett_rsrv`: 结算备付金
- `loanto_oth_bank_fi`: 拆出资金
- `premium_receiv`: 应收保费
- `reinsur_receiv`: 应收分保账款
- `reinsur_res_receiv`: 应收分保合同准备金
- `pur_resale_fa`: 买入返售金融资产
- `oth_cur_assets`: 其他流动资产
- `total_cur_assets`: 流动资产合计
- `fa_avail_for_sale`: 可供出售金融资产
- `htm_invest`: 持有至到期投资
- `lt_eqt_invest`: 长期股权投资
- `invest_real_estate`: 投资性房地产
- `time_deposits`: 定期存款
- `oth_assets`: 其他资产
- `lt_rec`: 长期应收款
- `fix_assets`: 固定资产
- `cip`: 在建工程
- `const_materials`: 工程物资
- `fixed_assets_disp`: 固定资产清理
- `produc_bio_assets`: 生产性生物资产
- `oil_and_gas_assets`: 油气资产
- `intan_assets`: 无形资产
- `r_and_d`: 研发支出
- `goodwill`: 商誉
- `lt_amor_exp`: 长期待摊费用
- `defer_tax_assets`: 递延所得税资产
- `decr_in_disbur`: 发放贷款及垫款
- `oth_nca`: 其他非流动资产
- `total_nca`: 非流动资产合计
- `cash_reser_cb`: 现金及存放中央银行款项
- `depos_in_oth_bfi`: 存放同业和其他金融机构款项
- `prec_metals`: 贵金属
- `deriv_assets`: 衍生金融资产
- `rr_reins_une_prem`: 应收分保未到期责任准备金
- `rr_reins_outstd_cla`: 应收分保未决赔款准备金
- `rr_reins_lins_liab`: 应收分保寿险责任准备金
- `rr_reins_lthins_liab`: 应收分保长期健康险责任准备金
- `refund_depos`: 存出保证金
- `ph_pledge_loans`: 保户质押贷款
- `refund_cap_depos`: 存出资本保证金
- `indep_acct_assets`: 独立账户资产
- `client_depos`: 代理买卖证券款
- `client_prov`: 代理承销证券款
- `transac_seat_fee`: 交易席位费
- `invest_as_receiv`: 应收投资款
- `total_assets`: 资产总计
- `lt_borr`: 长期借款
- `st_borr`: 短期借款
- `cb_borr`: 向中央银行借款
- `depos_ib_deposits`: 吸收存款及同业存放
- `loan_oth_bank`: 拆入资金
- `trading_fl`: 交易性金融负债
- `notes_payable`: 应付票据
- `acct_payable`: 应付账款
- `adv_receipts`: 预收款项
- `sold_for_repur_fa`: 卖出回购金融资产款
- `comm_payable`: 应付手续费及佣金
- `payroll_payable`: 应付职工薪酬
- `taxes_payable`: 应交税费
- `int_payable`: 应付利息
- `div_payable`: 应付股利
- `oth_payable`: 其他应付款
- `acc_exp`: 预提费用
- `deferred_inc`: 递延收益
- `st_bonds_payable`: 应付短期债券
- `payable_to_reinsurer`: 应付分保账款
- `rsrv_insur_cont`: 保险合同准备金
- `acting_trading_sec`: 代理买卖证券款
- `acting_uw_sec`: 代理承销证券款
- `non_cur_liab_due_1y`: 一年内到期的非流动负债
- `oth_cur_liab`: 其他流动负债
- `total_cur_liab`: 流动负债合计
- `bond_payable`: 应付债券
- `lt_payable`: 长期应付款
- `specific_payables`: 专项应付款
- `estimated_liab`: 预计负债
- `defer_tax_liab`: 递延所得税负债
- `defer_inc_non_cur_liab`: 递延收益-非流动负债
- `oth_ncl`: 其他非流动负债
- `total_ncl`: 非流动负债合计
- `depos_oth_bfi`: 同业和其他金融机构存放款项
- `deriv_liab`: 衍生金融负债
- `depos`: 吸收存款
- `agency_bus_liab`: 代理业务负债
- `oth_liab`: 其他负债
- `prem_receiv_adva`: 预收保费
- `depos_received`: 存入保证金
- `ph_invest`: 保户储金及投资款
- `reser_une_prem`: 未到期责任准备金
- `reser_outstd_claims`: 未决赔款准备金
- `reser_lins_liab`: 寿险责任准备金
- `reser_lthins_liab`: 长期健康险责任准备金
- `indept_acc_liab`: 独立账户负债
- `pledge_borr`: 其中:质押借款
- `indem_payable`: 应付赔付款
- `policy_div_payable`: 应付保单红利
- `total_liab`: 负债合计
- `treasury_share`: 库存股
- `ordin_risk_reser`: 一般风险准备
- `forex_differ`: 外币报表折算差额
- `invest_loss_unconf`: 未确认的投资损失
- `minority_int`: 少数股东权益
- `total_hldr_eqy_exc_min_int`: 归属于母公司股东权益合计
- `total_hldr_eqy_inc_min_int`: 股东权益合计
- `total_liab_hldr_eqy`: 负债及股东权益总计
- `lt_payroll_payable`: 长期应付职工薪酬
- `oth_comp_income`: 其他综合收益
- `oth_eqt_tools`: 其他权益工具
- `oth_eqt_tools_p_shr`: 其他权益工具:优先股
- `lending_funds`: 融出资金
- `acc_receivable`: 应收款项
- `st_fin_payable`: 应付短期融资款
- `payables`: 应付款项
- `hfs_assets`: 持有待售的资产
- `hfs_sales`: 持有待售的负债
- `cost_fin_assets`: 以摊余成本计量的金融资产
- `fair_value_fin_assets`: 以公允价值计量且其变动计入其他综合收益的金融资产
- `contract_assets`: 合同资产
- `contract_liab`: 合同负债
- `accounts_receiv_bill`: 应收票据及应收账款
- `accounts_pay`: 应付票据及应付账款
- `oth_rcv_total`: 其他应收款合计
- `fix_assets_total`: 固定资产合计
- `cip_total`: 在建工程合计
- `oth_pay_total`: 其他应付款合计
- `long_pay_total`: 长期应付款合计
- `debt_invest`: 债权投资
- `oth_debt_invest`: 其他债权投资
- `update_flag`: 更新标识

In [None]:
try:
    df_balance = pd.read_parquet(data_dir / "balancesheet.parquet")
    display(df_balance.head())
except Exception as e:
    print(f"加载 balancesheet.parquet 失败: {e}")

## 6. 现金流量表 (`cashflow.parquet`)

**字段说明:**
- `ts_code`: TS代码
- `ann_date`: 公告日期
- `f_ann_date`: 实际公告日期
- `end_date`: 报告期
- `comp_type`: 公司类型
- `report_type`: 报告类型
- `net_profit`: 净利润
- `finan_exp`: 财务费用
- `c_fr_sale_sg`: 销售商品、提供劳务收到的现金
- `recp_tax_rends`: 收到的税费返还
- `n_depos_incr_fi`: 客户存款和同业存放款项净增加额
- `n_incr_loans_cb`: 向中央银行借款净增加额
- `n_inc_borr_oth_fi`: 向其他金融机构拆入资金净增加额
- `prem_fr_orig_cont`: 收到原保险合同保费取得的现金
- `n_incr_insured_dep`: 保户储金及投资款净增加额
- `n_reinsur_prem`: 收到再保业务现金净额
- `n_incr_disp_tfa`: 处置交易性金融资产净增加额
- `ifc_cash_incr`: 收取利息、手续费及佣金的现金
- `n_incr_disp_faas`: 处置可供出售金融资产净增加额
- `n_incr_loans_oth_bank`: 拆入资金净增加额
- `n_cap_incr_repur`: 回购业务资金净增加额
- `c_fr_oth_operate_a`: 收到其他与经营活动有关的现金
- `c_inf_fr_operate_a`: 经营活动现金流入小计
- `c_paid_goods_s`: 购买商品、接受劳务支付的现金
- `c_paid_to_for_empl`: 支付给职工以及为职工支付的现金
- `c_paid_for_taxes`: 支付的各项税费
- `n_incr_clt_loan_adv`: 客户贷款及垫款净增加额
- `n_incr_dep_cbob`: 存放中央银行和同业款项净增加额
- `c_pay_claims_orig_inco`: 支付原保险合同赔付款项的现金
- `pay_handling_chrg`: 支付手续费的现金
- `pay_comm_insur_plcy`: 支付保单红利的现金
- `oth_cash_pay_oper_act`: 支付其他与经营活动有关的现金
- `st_cash_out_act`: 经营活动现金流出小计
- `n_cashflow_act`: 经营活动产生的现金流量净额
- `oth_recp_ral_inv_act`: 收到其他与投资活动有关的现金
- `c_disp_withdrwl_invest`: 收回投资收到的现金
- `c_recp_return_invest`: 取得投资收益收到的现金
- `n_recp_disp_fiolta`: 处置固定资产、无形资产和其他长期资产收回的现金净额
- `n_recp_disp_sobu`: 处置子公司及其他营业单位收到的现金净额
- `st_cash_in_inv_act`: 投资活动现金流入小计
- `c_pay_acq_const_fiolta`: 购建固定资产、无形资产和其他长期资产支付的现金
- `c_paid_invest`: 投资支付的现金
- `n_disp_subs_oth_biz`: 取得子公司及其他营业单位支付的现金净额
- `oth_pay_ral_inv_act`: 支付其他与投资活动有关的现金
- `n_incr_pledge_loan`: 质押贷款净增加额
- `st_cash_out_inv_act`: 投资活动现金流出小计
- `n_cashflow_inv_act`: 投资活动产生的现金流量净额
- `c_recp_cap_contrib`: 吸收投资收到的现金
- `c_recp_borrow`: 取得借款收到的现金
- `proc_issue_bonds`: 发行债券收到的现金
- `oth_cash_recp_ral_fnc_act`: 收到其他与筹资活动有关的现金
- `st_cash_in_fnc_act`: 筹资活动现金流入小计
- `free_cashflow`: 企业自由现金流量
- `c_prepay_amt_borr`: 偿还债务支付的现金
- `c_pay_dist_dpcp_int_exp`: 分配股利、利润或偿付利息支付的现金
- `incl_dvd_profit_paid_sc_ms`: 其中:子公司支付给少数股东的股利、利润
- `oth_cashpay_ral_fnc_act`: 支付其他与筹资活动有关的现金
- `st_cash_out_fnc_act`: 筹资活动现金流出小计
- `n_cashflow_fnc_act`: 筹资活动产生的现金流量净额
- `eff_fx_rate_chg`: 汇率变动对现金的影响
- `n_incr_cash_cash_equ`: 现金及现金等价物净增加额
- `c_cash_equ_beg_period`: 期初现金及现金等价物余额
- `c_cash_equ_end_period`: 期末现金及现金等价物余额
- `c_recp_cap_contrib_m_s`: 其中:子公司吸收少数股东投资收到的现金
- `update_flag`: 更新标识

In [None]:
try:
    df_cash = pd.read_parquet(data_dir / "cashflow.parquet")
    display(df_cash.head())
except Exception as e:
    print(f"加载 cashflow.parquet 失败: {e}")

## 7. 分红送股 (`dividend.parquet`)

**字段说明:**
- `ts_code`: TS代码
- `end_date`: 分红年度
- `ann_date`: 预案公告日
- `div_proc`: 实施进度
- `stk_div`: 每股送转
- `stk_bo_rate`: 每股送股比例
- `stk_co_rate`: 每股转增比例
- `cash_div`: 每股分红(税后)
- `cash_div_tax`: 每股分红(税前)
- `record_date`: 股权登记日
- `ex_date`: 除权除息日
- `pay_date`: 派息日
- `div_listdate`: 红股上市日
- `imp_ann_date`: 实施公告日

In [None]:
try:
    df_div = pd.read_parquet(data_dir / "dividend.parquet")
    display(df_div.head())
except Exception as e:
    print(f"加载 dividend.parquet 失败: {e}")

## 8. 每日指标 (`daily_basic.parquet`)

**注意:** 此文件可能由于架构不匹配或损坏而无法加载。

**字段说明 (预期):**
- `ts_code`: TS代码
- `trade_date`: 交易日期
- `close`: 当日收盘价
- `turnover_rate`: 换手率(%)
- `turnover_rate_f`: 换手率(自由流通股)
- `volume_ratio`: 量比
- `pe`: 市盈率(总市值/净利润)
- `pe_ttm`: 市盈率(TTM)
- `pb`: 市净率(总市值/净资产)
- `ps`: 市销率
- `ps_ttm`: 市销率(TTM)
- `dv_ratio`: 股息率(%)
- `dv_ttm`: 股息率(TTM)(%)
- `total_share`: 总股本
- `float_share`: 流通股本
- `free_share`: 自由流通股本
- `total_mv`: 总市值
- `circ_mv`: 流通市值

In [None]:
try:
    import sys
    print(f"Python executable: {sys.executable}")
    
    print("Attempting to read with engine='pyarrow'...")
    df_daily_basic = pd.read_parquet(data_dir / "daily_basic.parquet", engine='pyarrow')
    display(df_daily_basic.head())
except Exception as e:
    print(f"Read failed: {e}")
    
    # Try reading columns one by one to isolate
    print("\nAttempting to read columns individually...")
    import pyarrow.parquet as pq
    try:
        parquet_file = pq.ParquetFile(data_dir / "daily_basic.parquet")
        print(f"Parquet Schema: {parquet_file.schema.names}")
        for col in parquet_file.schema.names:
            try:
                pd.read_parquet(data_dir / "daily_basic.parquet", columns=[col])
                print(f"Column '{col}': OK")
            except Exception as col_e:
                print(f"Column '{col}': FAILED - {col_e}")
    except Exception as pq_e:
        print(f"Failed to inspect Parquet file directly: {pq_e}")

## 9. 数据完整性检查 (20000101 - 20251031)

我们检查日线数据是否覆盖了请求的时间段。

In [None]:
if 'df_daily' in locals():
    # 如果 trade_date 不是字符串，则转换为字符串
    df_daily['trade_date'] = df_daily['trade_date'].astype(str)
    
    min_date = df_daily['trade_date'].min()
    max_date = df_daily['trade_date'].max()
    
    print(f"日线数据范围: {min_date} 到 {max_date}")
    
    target_start = "20000101"
    target_end = "20251031"
    
    if min_date <= target_start and max_date >= target_end:
        print("✅ 数据覆盖目标时间段 (20000101 - 20251031)。")
    else:
        print("❌ 数据未完全覆盖目标时间段。")
        if min_date > target_start:
            print(f"   缺失 {min_date} 之前的数据")
        if max_date < target_end:
            print(f"   缺失 {max_date} 之后的数据")
else:
    print("日线数据未加载，无法检查完整性。")