In [1]:
# 财务杠杆季度数据变成年度数据
import pandas as pd

# 读取Excel文件
df = pd.read_excel('风险水平191112002(仅供西南财经大学使用)/FI_T7.xlsx')

# 筛选出Accper列末尾为12-31的数据
df_filtered = df[df['Accper'].str.endswith('12-31')]

# 保存筛选后的数据到新的Excel文件
df_filtered.to_excel('FI_T7_filtered.xlsx', index=False)

print(f"处理前数据行数: {len(df)}")
print(f"处理后数据行数: {len(df_filtered)}")

  warn("Workbook contains no default style, apply openpyxl's default")


处理前数据行数: 264559
处理后数据行数: 83133


In [10]:
# 筛选年度持股排名为1的数据
import pandas as pd

# 读取Excel文件，跳过第2行和第3行
df = pd.read_excel('十大流通股股东文件190713955(仅供西南财经大学使用)/HLD_Negshr.xlsx', skiprows=[1,2])

# 筛选12-31的数据并且排名为1的记录
df_filtered = df[
    (df['S0404a'] == 1) & 
    (df['Reptdt'].str.endswith('12-31', na=False))  # 修正na参数位置
]

# 保存结果
df_filtered.to_excel('HLD_Negshr_rank1.xlsx', index=False)

print(f"处理前数据行数: {len(df)}")
print(f"处理后数据行数: {len(df_filtered)}")

# 验证结果
print("\n处理后数据示例:")
print(df_filtered[['Stkcd', 'Reptdt', 'ShareholdingRatio']].head())

  warn("Workbook contains no default style, apply openpyxl's default")


处理前数据行数: 612896
处理后数据行数: 15581

处理后数据示例:
     Stkcd      Reptdt  ShareholdingRatio
33       1  2014-12-31            36.2960
70       1  2015-12-31            34.7800
110      1  2016-12-31            34.7775
150      1  2017-12-31            48.0958
190      1  2018-12-31            49.5649


In [14]:
# 筛选年度持股排名为1的数据part2
import pandas as pd

# 读取Excel文件
df = pd.read_excel('十大流通股股东文件190746154(仅供西南财经大学使用)/HLD_Negshr.xlsx',skiprows=[1,2])

# 筛选12-31的数据并且排名为1的记录
df_filtered = df[
    (df['S0404a'] == 1) & 
    (df['Reptdt'].str.endswith('12-31', na=False))  # 修正na参数位置
]

# 保存结果
df_filtered.to_excel('HLD_Negshr_rank1_part2.xlsx', index=False)

print(f"处理前数据行数: {len(df)}")
print(f"处理后数据行数: {len(df_filtered)}")

# 验证结果
print("\n处理后数据示例:")
print(df_filtered[['Stkcd', 'Reptdt', 'ShareholdingRatio']].head())

  warn("Workbook contains no default style, apply openpyxl's default")


处理前数据行数: 881497
处理后数据行数: 22552

处理后数据示例:
     Stkcd      Reptdt  ShareholdingRatio
30       1  2019-12-31             49.565
70       1  2020-12-31             49.565
111      1  2021-12-31             49.565
150      1  2022-12-31             49.565
190      1  2023-12-31             49.565


In [26]:
# 将两个股东文件合并
import pandas as pd

# 读取两个 Excel 文件
df1 = pd.read_excel('HLD_Negshr_rank1.xlsx')
df2 = pd.read_excel('HLD_Negshr_rank1_part2.xlsx')

# 合并两个 DataFrame
df_combined = pd.concat([df1, df2])

# 处理 Stkcd 列，使其变成六位数的文本格式
df_combined['Stkcd'] = df_combined['Stkcd'].apply(lambda x: f"{int(x):06d}")

# 改变日期的名称
df_combined.rename(columns={'Reptdt': 'Accper'}, inplace=True)

# 按照 Stkcd 和 Accper 排序
df_combined = df_combined.sort_values(by=['Stkcd', 'Accper'])

# 重置索引
df_combined.reset_index(drop=True, inplace=True)

# 保存合并后的结果到新的 Excel 文件
df_combined.to_excel('HLD_Negshr_combined.xlsx', index=False)

print(f"合并后的数据行数: {len(df_combined)}")

# 验证结果
print("\n合并后数据示例:")
print(df_combined[['Stkcd', 'Accper',  'ShareholdingRatio']].head(20))

合并后的数据行数: 38133

合并后数据示例:
     Stkcd      Accper  ShareholdingRatio
0   000001  2014-12-31            36.2960
1   000001  2015-12-31            34.7800
2   000001  2016-12-31            34.7775
3   000001  2017-12-31            48.0958
4   000001  2018-12-31            49.5649
5   000001  2019-12-31            49.5650
6   000001  2020-12-31            49.5650
7   000001  2021-12-31            49.5650
8   000001  2022-12-31            49.5650
9   000001  2023-12-31            49.5650
10  000002  2014-12-31            14.9080
11  000002  2015-12-31            15.2300
12  000002  2016-12-31            15.2436
13  000002  2017-12-31            29.3755
14  000002  2018-12-31            29.3755
15  000002  2019-12-31            28.6920
16  000002  2020-12-31            27.9126
17  000002  2021-12-31            27.8942
18  000002  2022-12-31            27.8800
19  000002  2023-12-31            27.1800


In [19]:
# 处理财务指标文件
import pandas as pd
import numpy as np

# 读取Excel文件，跳过第2行和第3行
df = pd.read_excel('财务指标文件190252307(仅供西南财经大学使用)/FAR_Finidx.xlsx', skiprows=[1,2])

# 创建新的指标
df['Rec'] = df['A110601'] / df['B110101']
df['staff'] = np.log(df['Nstaff'])
df['Ocf'] = df['D100000'] / df['A100000']
df['Tatr'] = df['B110101'] / df['A100000']

# 只保留所需列
df_filtered = df[['Stkcd', 'Accper', 'Rec', 'staff', 'Ocf', 'Tatr']]

# 保存结果
df_filtered.to_excel('FAR_Finidx_processed.xlsx', index=False)

print(f"处理前数据行数: {len(df)}")
print(f"处理后的数据行数: {len(df_filtered)}")

# 验证结果
print("\n处理后数据示例:")
print(df_filtered.head())

  warn("Workbook contains no default style, apply openpyxl's default")


处理前数据行数: 41538
处理后的数据行数: 41538

处理后数据示例:
   Stkcd      Accper       Rec      staff       Ocf      Tatr
0      1  2014-12-31  3.489899  10.465073  0.011581  0.033573
1      1  2015-12-31  3.267982  10.543682 -0.000728  0.038356
2      1  2016-12-31  3.897749  10.515560  0.003721  0.036471
3      1  2017-12-31  4.019521  10.389057 -0.036565  0.032565
4      1  2018-12-31       NaN  10.452360 -0.016768  0.034142


In [22]:
# 处理托宾Q文件
import pandas as pd

# 读取Excel文件
df = pd.read_excel('相对价值指标190331472(仅供西南财经大学使用)\FI_T10.xlsx',skiprows=[1,2])

# 创建新的指标
df['TobinQ'] = df['F100901A']

# 筛选12-31的数据并且是2014-2023的记录
df['Year'] = df['Accper'].str[:4].astype(int)

df_filtered = df[
    (df['Year'] >= 2014) & (df['Year'] <= 2023) &   
    (df['Accper'].str.endswith('12-31', na=False))  
]

# 只保留所需列
df_filtered = df_filtered[['Stkcd', 'Accper', 'TobinQ','Indcd','Indnme']]

# 保存结果
df_filtered.to_excel('FI_T10_processed.xlsx', index=False)

print(f"处理前数据行数: {len(df)}")
print(f"处理后的数据行数: {len(df_filtered)}")

# 验证结果
print("\n处理后数据示例:")
print(df_filtered.head())

  warn("Workbook contains no default style, apply openpyxl's default")


处理前数据行数: 253938
处理后的数据行数: 37991

处理后数据示例:
    Stkcd      Accper    TobinQ Indcd  Indnme
70      1  2014-12-31  1.019698   J66  货币金融服务
74      1  2015-12-31  1.003311   J66  货币金融服务
78      1  2016-12-31  0.986751   J66  货币金融服务
82      1  2017-12-31  1.001915   J66  货币金融服务
86      1  2018-12-31  0.976896   J66  货币金融服务


In [47]:
# 合并所有处理后的文件
import pandas as pd

# 读取所有处理后的 Excel 文件
df1 = pd.read_excel('FI_T10_processed.xlsx')
df2 = pd.read_excel('FAR_Finidx_processed.xlsx')
df3 = pd.read_excel('HLD_Negshr_combined.xlsx')
df4 = pd.read_excel('FI_T7_filtered.xlsx')

# 合并所有 DataFrame
dfs = [df1, df2, df3, df4]
df_merged = dfs[0]

for df in dfs[1:]:
    df_merged = pd.merge(df_merged, df, on=['Stkcd', 'Accper'], how='inner')

# 按照 Stkcd 和 Accper 排序
df_merged = df_merged.sort_values(by=['Stkcd', 'Accper'])

# 一些更改
# 删除 S0404a 列
df_merged.drop(columns=['S0404a'], inplace=True)

# 重命名 F070101B 列为 Fl
df_merged.rename(columns={'F070101B': 'Fl'}, inplace=True)

# 保存合并后的结果到新的 Excel 文件
df_merged.to_excel('merged_processed_data.xlsx', index=False)

print(f"合并后的数据行数: {len(df_merged)}")

# 验证结果
print("\n合并后数据示例:")
print(df_merged.head())

合并后的数据行数: 62145

合并后数据示例:
   Stkcd      Accper    TobinQ Indcd  Indnme       Rec      staff       Ocf  \
0      1  2014-12-31  1.019698   J66  货币金融服务  3.489899  10.465073  0.011581   
1      1  2015-12-31  1.003311   J66  货币金融服务  3.267982  10.543682 -0.000728   
2      2  2014-12-31  1.064914   K70    房地产业  0.013016  10.612680  0.082069   
3      2  2014-12-31  1.064914   K70    房地产业  0.013016  10.612680  0.082069   
4      2  2015-12-31  1.192347   K70    房地产业  0.012996  10.652424  0.026249   

       Tatr                      S0401a  ShareholdingRatio ShortName Typrep  \
0  0.033573  中国平安保险(集团)股份有限公司-集团本级-自有资金             36.296      平安银行      A   
1  0.038356  中国平安保险(集团)股份有限公司-集团本级-自有资金             34.780      平安银行      A   
2  0.286223                    华润股份有限公司             14.908       万科A      A   
3  0.286223                    华润股份有限公司             14.908       万科A      B   
4  0.316023                    华润股份有限公司             15.230       万科A      A   

         Fl  
0  1.00000

In [93]:
# 处理区块链概念股
import pandas as pd

# 读取Excel文件
df = pd.read_excel('区块链概念股.xlsx')

# 将证券代码列重命名为Stkcd
df.rename(columns={'股票代码': 'Stkcd'}, inplace=True)

# 将Stkcd列转换为六位数的文本格式
df['Stkcd'] = df['Stkcd'].apply(lambda x: f"{x.split('.')[0]:0>6}")

# 提取概念解析列中的20开头的四位数字
df['提取年份'] = df['概念解析'].str.extract(r'(20\d{2})')

# 仅保留部分列
df_filtered = df[['Stkcd', '股票简称',  '提取年份']]

# 删除最后一行
df_filtered = df_filtered.drop(df_filtered.index[-1])

# 保存结果到新的Excel文件
df_filtered.to_excel('区块链概念股_processed.xlsx', index=False)
print(f"处理后数据行数: {len(df_filtered)}")

# 验证结果
print("\n处理后数据示例:")
print(df_filtered.head())

处理后数据行数: 240

处理后数据示例:
    Stkcd  股票简称  提取年份
0  300638   广和通  2020
1  002799  环球印务  2019
2  000021   深科技   NaN
3  300603  立昂技术  2023
4  603825  华扬联众  2019


In [94]:
# 按照Stkcd降序排列
df_filtered = df_filtered.sort_values(by='Stkcd', ascending=True)
df_filtered.head()

Unnamed: 0,Stkcd,股票简称,提取年份
2,21,深科技,
144,34,神州数码,2020.0
239,40,ST旭蓝,2018.0
217,61,农产品,2020.0
220,63,中兴通讯,2024.0


In [95]:
# 查看提取年份列中有多少个缺失值
missing_years = df[df['提取年份'].isnull()]

print(f"提取年份缺失值数量: {missing_years.shape[0]}")

提取年份缺失值数量: 98


In [84]:
print(missing_years[['Stkcd', '股票简称']])

                   Stkcd       股票简称
2                 000021        深科技
5                 300469       信息发展
6                 002908       德生科技
7                 002707       众信旅游
10                600070      *ST富润
..                   ...        ...
233               300550       和仁科技
234               002123       梦网科技
236               002168       ST惠程
237               600556        天下秀
240  数据来源于：i问财网站（iwencai  undefined

[98 rows x 2 columns]


In [133]:
# 合并区块链概念股数据
import pandas as pd

# 读取两个 Excel 文件
df1 = pd.read_excel('merged_processed_data.xlsx')
df2 = pd.read_excel('区块链概念股_processed.xlsx')

# 将Stkcd列转换为六位数的文本格式
df1['Stkcd'] = df1['Stkcd'].apply(lambda x: f"{int(x):06d}")
df2['Stkcd'] = df2['Stkcd'].apply(lambda x: f"{int(x):06d}")

# 合并两个 DataFrame
df_merged = pd.merge(df1, df2, on='Stkcd', how='right')

# 按照 Stkcd 和 Accper 排序
df_merged = df_merged.sort_values(by=['Stkcd', 'Accper'])

# 删除列
df_merged.drop(columns=['现价(元)', 'a股流通市值(元)\n2025.01.20', '涨跌幅(%)', '概念资讯', '概念解析',
       '所属概念数量(个)','所属概念','S0401a'], inplace=True, errors='ignore')

# 只保留'Typrep'=A的记录
df_merged = df_merged[df_merged['Typrep'] == 'A']

# 改名
df_merged.rename(columns={'ShareholdingRatio': 'Top1'}, inplace=True)

# 提取年
df_merged['Year'] = df_merged['Accper'].str[:4].astype(int)

# 如果Year的值大于等于提取年份的值，就取值1，否则取值0
df_merged['DID'] = (df_merged['Year'] >= df_merged['提取年份']).astype(int)

# 保存合并后的结果到新的 Excel 文件
df_merged.to_excel('merged_blockchain_data.xlsx', index=False)

# 输出合并后的数据行数
print(f"合并后的数据行数: {len(df_merged)}")

# 验证结果
print("\n合并后数据示例:")
print(df_merged.head(20))

合并后的数据行数: 1676

合并后数据示例:
       Stkcd      Accper     TobinQ Indcd            Indnme       Rec  \
28    000021  2014-12-31   1.380557   C39  计算机、通信和其他电子设备制造业  0.135148   
30    000021  2015-12-31   1.873610   C39  计算机、通信和其他电子设备制造业  0.106041   
32    000021  2016-12-31   1.731243   C39  计算机、通信和其他电子设备制造业  0.149267   
34    000021  2017-12-31   1.504594   C39  计算机、通信和其他电子设备制造业  0.114749   
36    000021  2018-12-31   1.133235   C39  计算机、通信和其他电子设备制造业  0.096513   
38    000021  2019-12-31   1.585456   C39  计算机、通信和其他电子设备制造业  0.139489   
40    000021  2020-12-31   1.922159   C39  计算机、通信和其他电子设备制造业  0.198990   
41    000021  2021-12-31   1.489517   C39  计算机、通信和其他电子设备制造业  0.169427   
43    000021  2022-12-31   1.169652   C39  计算机、通信和其他电子设备制造业  0.166757   
45    000021  2023-12-31   1.456895   NaN               NaN  0.259754   
1983  000034  2014-12-31   5.697509   S90                综合  0.045391   
1985  000034  2015-12-31  21.818693   S90                综合  0.050570   
1987  000034  2016-12-31  

In [129]:
df_merged.columns

Index(['Stkcd', 'Accper', 'TobinQ', 'Indcd', 'Indnme', 'Rec', 'staff', 'Ocf',
       'Tatr', 'Top1', 'ShortName', 'Typrep', 'Fl', '股票简称', '提取年份', 'Year',
       'DID'],
      dtype='object')