In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取数据，假设你的数据在一个CSV文件中
data = pd.read_csv('bond_dtl_10_08.csv')

# 1. 过滤出特定债券的数据，比如 '24附息国债13'
filtered_data = data[data['bnds_nm'] == '24附息国债13']

# 2. 将 'dl_tm' 列转换为 datetime 类型以便排序
filtered_data['dl_tm'] = pd.to_datetime(filtered_data['dl_tm'])
filtered_data = filtered_data[filtered_data['dl_tm'].dt.date == pd.to_datetime('2024-10-08').date()]


# 3. 计算 'dlt_prc' 列的均值和标准差
mean_dlt_prc = filtered_data['yld_to_mrty'].mean()
std_dlt_prc = filtered_data['yld_to_mrty'].std()

# 4. 剔除偏离均值10个标准差之外的数据
filtered_data = filtered_data[np.abs(filtered_data['yld_to_mrty'] - mean_dlt_prc) <= 10 * std_dlt_prc]

# 5. 按照 'dl_tm' 列升序排序
sorted_data = filtered_data.sort_values(by='dl_tm')

# 6. 绘制时间和收益率（dlt_prc）的图表
plt.figure(figsize=(10,6))
plt.plot(sorted_data['dl_tm'], sorted_data['yld_to_mrty'], marker='o', linestyle='-', color='b')

# 设置标题和标签
plt.title('24附息国债13 收益率随时间变化（剔除10sigma之外的异常值）')
plt.xlabel('时间')
plt.ylabel('收益率')

# 显示图表
plt.xticks(rotation=45)  # 旋转X轴上的时间刻度，以便更好地显示
plt.tight_layout()  # 自动调整布局避免标签重叠
plt.show()


FileNotFoundError: [Errno 2] No such file or directory: 'broker_2024-09-09.csv'

In [11]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取数据，假设你的数据在一个CSV文件中
data = pd.read_csv('bond_dtl_10_08.csv')

# 计算缺失值比例
missing_ratio = data.isnull().mean()

# 剔除缺失值超过 95% 的列
data = data.loc[:, missing_ratio <= 0.000001]

# 缺失值统计
missing_summary = data.isnull().sum().reset_index()
missing_summary.columns = ['Column', 'MissingCount']
missing_summary['MissingPercentage'] = (missing_summary['MissingCount'] / len(data)) * 100

# 打印缺失情况
print(missing_summary.sort_values(by='MissingCount', ascending=False))


  exec(code_obj, self.user_global_ns, self.user_ns)


                     Column  MissingCount  MissingPercentage
0                Unnamed: 0             0                0.0
1                     dl_cd             0                0.0
52              slr_trdr_nm             0                0.0
51              slr_trdr_cd             0                0.0
50  byr_trd_acnt_en_full_nm             0                0.0
..                      ...           ...                ...
23               clrng_mthd             0                0.0
22           stlmnt_mthd_nm             0                0.0
21              stlmnt_amnt             0                0.0
20                  all_prc             0                0.0
71               pips_trd_f             0                0.0

[72 rows x 3 columns]


In [15]:
missing_summary["Column"].to_list()

['Unnamed: 0',
 'dl_cd',
 'txn_dt',
 'dl_tm',
 'bsns_tm',
 'prdct_cd',
 'trdng_md_cd',
 'trdng_mthd_cd',
 'chnl_tp',
 'chnl',
 'prmrkt_bond_f',
 'qt_src',
 'dl_st',
 'cntngncy_indctr',
 'bond_cd',
 'bnds_nm',
 'net_prc',
 'nmnl_vol',
 'amnt',
 'stlmnt_spd_nm',
 'all_prc',
 'stlmnt_amnt',
 'stlmnt_mthd_nm',
 'clrng_mthd',
 'stlmnt_dt',
 'splmnt_term_indctr',
 'cash_bond_f',
 'stlmnt_ccy',
 'bond_ccy',
 'mkt_scp',
 'dl_tp',
 'byr_instn_cd',
 'byr_cfets_instn_cd',
 'byr_instn_cn_full_nm',
 'byr_trdr_cd',
 'byr_trdr_nm',
 'buy_side_trdng_acnt_cd',
 'byr_trdr_sctn',
 'byr_cptl_bnk_nm',
 'byr_cptl_acnt_no',
 'byr_pymnt_sys_cd',
 'byr_dpst_acnt_nm',
 'buy_side_dpst_cd',
 'byr_cstdn',
 'byr_trd_acnt_cfets_cd',
 'byr_trd_acnt_cn_full_nm',
 'byr_trd_acnt_cn_shrt_nm',
 'byr_trd_acnt_en_shrt_nm',
 'byr_cptl_acnt_nm',
 'byr_instn_src',
 'byr_trd_acnt_en_full_nm',
 'slr_trdr_cd',
 'slr_trdr_nm',
 'sell_side_trdng_acnt_cd',
 'slr_trd_sctn',
 'slr_cptl_bnk_nm',
 'slr_cptl_acnt_no',
 'slr_pymnt_sys_cd'

In [41]:
import pandas as pd

# 读取数据，指定特定列的字符串格式类型和需要的列
feature = ['dl_tp', 'byr_trd_acnt_cn_shrt_nm', 'byr_instn_cd', 'byr_trdr_nm', 'byr_trdr_cd', 
           'slr_trd_acnt_cn_shrt_nm', 'slr_instn_cd', 'slr_trdr_nm', 'slr_trdr_cd']

# 使用 usecols 加载特定的列，可以提高读取效率，避免不必要的内存消耗
data = pd.read_csv('bond_dtl_10_08.csv', usecols=feature, dtype={col: str for col in feature})

# 打印过滤后的数据
print(data)

      dl_tp byr_instn_cd        byr_trdr_cd byr_trdr_nm  \
0         0       100002          xujingzhe         徐惊蛰   
1         0       100007         zhangyong1          张勇   
2         2       100013               YGSH          杨舸   
3         0       100160  liuchang364578936          刘畅   
4         0       100370              qlsyl         宋怡霖   
...     ...          ...                ...         ...   
71842     1       101169          jiangyisz          蒋毅   
71843     1       100375         Chenpengqi         陈芃其   
71844     0       303400          cyk123456         褚衍堃   
71845     0       300889           53540069         谢学荣   
71846     2       404990        13574676315         朱诗萍   

      byr_trd_acnt_cn_shrt_nm slr_instn_cd   slr_trdr_cd slr_trdr_nm  \
0                        中国银行       302979       xuzihan         徐子晗   
1                        中信银行       102051      lizheng3          李政   
2                        平安银行       411726  shgliuwanhui         刘万辉   
3  

In [43]:
import pandas as pd

# 读取数据，指定特定列的字符串格式类型和需要的列
feature = ['instn_cd', 'instn_cn_full_nm', "instn_tp"]

# 使用 usecols 加载特定的列，可以提高读取效率，避免不必要的内存消耗
data = pd.read_csv('rmb_hstry_actv_instn_base_info.csv', usecols=feature, dtype={col: str for col in feature})

data.to_csv("product.csv")
# 打印过滤后的数据
print(data)

      instn_cd    instn_cn_full_nm         instn_tp
0       443066        徐州工程机械集团有限公司               企业
1       406403        威海蓝创建设投资有限公司               企业
2       901489          海天建设集团有限公司               企业
3       305173        内江投资控股集团有限公司               企业
4       458884  民生期货-周周盈5号集合资产管理计划       期货公司资产管理产品
...        ...                 ...              ...
84388   410880        青岛昌阳投资开发有限公司               企业
84389   457126       太平资产如意85号资管产品  保险资产管理公司的资产管理产品
84390   300394          山东高速股份有限公司               企业
84391   901805        北京顺鑫农业股份有限公司               企业
84392   303953    苏州创元投资发展(集团)有限公司               企业

[84393 rows x 3 columns]
