In [2]:
import os
import pandas as pd

INPUT_DIR = 'B题附件'
OUTPUT_DIR = os.path.join('clean', 'txt')
os.makedirs(OUTPUT_DIR, exist_ok=True)

for root, dirs, files in os.walk(INPUT_DIR):
    for filename in files:
        if filename.lower().endswith('.xlsx'):
            input_path = os.path.join(root, filename)
            try:
                df = pd.read_excel(input_path, header=None, dtype=str)
            except Exception as e:
                print(f"无法读取文件 {input_path}: {e}")
                continue

            first_col = df.iloc[:, 0].fillna('').astype(str)
            base_name = os.path.splitext(filename)[0]
            output_path = os.path.join(OUTPUT_DIR, f"{base_name}.txt")
            try:
                with open(output_path, 'w', encoding='utf-8') as f:
                    for item in first_col:
                        f.write(item + "\n")
                print(f"已生成 {output_path}")
            except Exception as e:
                print(f"无法写入文件 {output_path}: {e}")


已生成 clean/txt/168.txt
已生成 clean/txt/769.txt
已生成 clean/txt/008.txt
已生成 clean/txt/098.txt
已生成 clean/txt/283.txt
已生成 clean/txt/187.txt
已生成 clean/txt/368.txt
已生成 clean/txt/461.txt
已生成 clean/txt/065.txt
已生成 clean/txt/199.txt
已生成 clean/txt/085.txt
已生成 clean/txt/039.txt
已生成 clean/txt/759.txt
已生成 clean/txt/158.txt
已生成 clean/txt/291.txt


In [3]:
"""
遍历clean/txt目录下的txt文件，删除其中不以【，┌，├，｜，└开始的行
"""
for root, dirs, files in os.walk(OUTPUT_DIR):
    for filename in files:
        if filename.lower().endswith('.txt'):
            file_path = os.path.join(root, filename)
            try:
                with open(file_path, 'r', encoding='utf-8') as f:
                    lines = f.readlines()
                filtered_lines = [line for line in lines if line.startswith(('【', '｜'))]
                with open(file_path, 'w', encoding='utf-8') as f:
                    f.writelines(filtered_lines)
                
                print(f"已处理文件 {file_path}")
            except Exception as e:
                print(f"无法处理文件 {file_path}: {e}")

已处理文件 clean/txt/098.txt
已处理文件 clean/txt/368.txt
已处理文件 clean/txt/085.txt
已处理文件 clean/txt/199.txt
已处理文件 clean/txt/065.txt
已处理文件 clean/txt/039.txt
已处理文件 clean/txt/283.txt
已处理文件 clean/txt/461.txt
已处理文件 clean/txt/158.txt
已处理文件 clean/txt/187.txt
已处理文件 clean/txt/759.txt
已处理文件 clean/txt/008.txt
已处理文件 clean/txt/291.txt
已处理文件 clean/txt/769.txt
已处理文件 clean/txt/168.txt
已处理文件 clean/txt/环比分析/098.txt
已处理文件 clean/txt/环比分析/368.txt
已处理文件 clean/txt/环比分析/085.txt
已处理文件 clean/txt/环比分析/199.txt
已处理文件 clean/txt/环比分析/065.txt
已处理文件 clean/txt/环比分析/039.txt
已处理文件 clean/txt/环比分析/283.txt
已处理文件 clean/txt/环比分析/461.txt
已处理文件 clean/txt/环比分析/158.txt
已处理文件 clean/txt/环比分析/187.txt
已处理文件 clean/txt/环比分析/759.txt
已处理文件 clean/txt/环比分析/008.txt
已处理文件 clean/txt/环比分析/291.txt
已处理文件 clean/txt/环比分析/769.txt
已处理文件 clean/txt/环比分析/168.txt
已处理文件 clean/txt/财务指标/098.txt
已处理文件 clean/txt/财务指标/368.txt
已处理文件 clean/txt/财务指标/085.txt
已处理文件 clean/txt/财务指标/199.txt
已处理文件 clean/txt/财务指标/065.txt
已处理文件 clean/txt/财务指标/039.txt
已处理文件 clean/txt/财务指标/283.txt
已处

In [4]:
import os
"""
遍历clean/txt文件夹下的txt文件，将文件以【1.财务指标】【2.报表摘要】【3.异动科目】【4.环比分析】这四行分割成四个文件，分别储存在clean/txt/下以财务指标，报表摘要，异动科目，环比分析命名的文件夹下，文件名还是原来的txt文件名
"""
categories = ['财务指标', '报表摘要', '异动科目', '环比分析']
for category in categories:
    category_dir = os.path.join(OUTPUT_DIR, category)
    os.makedirs(category_dir, exist_ok=True)

# 遍历txt文件并分割内容
for filename in os.listdir(OUTPUT_DIR):
    file_path = os.path.join(OUTPUT_DIR, filename)
    if os.path.isfile(file_path) and filename.lower().endswith('.txt'):
        try:
            with open(file_path, 'r', encoding='utf-8') as f:
                lines = f.readlines()

            sections = {cat: [] for cat in categories}
            current_section = None
            for line in lines:
                if line.startswith('【1.财务指标】'):
                    current_section = '财务指标'
                    flag = 0 # 0表示当前行是标题行,不写入
                elif line.startswith('【2.报表摘要】'):
                    current_section = '报表摘要'
                    flag = 0
                elif line.startswith('【3.异动科目】'):
                    current_section = '异动科目'
                    flag = 0
                elif line.startswith('【4.环比分析】'):
                    current_section = '环比分析'
                    flag = 0
                else:
                    flag = 1
                if current_section and flag == 1:
                    sections[current_section].append(line)

            # 写入各分类文件夹
            for category, content in sections.items():
                if content:
                    category_dir = os.path.join(OUTPUT_DIR, category)
                    output_file_path = os.path.join(category_dir, filename)
                    with open(output_file_path, 'w', encoding='utf-8') as fw:
                        fw.writelines(content)

            os.remove(file_path)
            print(f"已分割文件 {file_path}")
        except Exception as e:
            print(f"无法处理文件 {file_path}: {e}")


已分割文件 clean/txt/098.txt
已分割文件 clean/txt/368.txt
已分割文件 clean/txt/085.txt
已分割文件 clean/txt/199.txt
已分割文件 clean/txt/065.txt
已分割文件 clean/txt/039.txt
已分割文件 clean/txt/283.txt
已分割文件 clean/txt/461.txt
已分割文件 clean/txt/158.txt
已分割文件 clean/txt/187.txt
已分割文件 clean/txt/759.txt
已分割文件 clean/txt/008.txt
已分割文件 clean/txt/291.txt
已分割文件 clean/txt/769.txt
已分割文件 clean/txt/168.txt


In [8]:
with open(f'{OUTPUT_DIR}/报表摘要/008.txt') as file:
    for j in file.readlines():
        if '【'in j:#指标        (单位：元)' in j:
            print(j)

【资产负债表摘要】

【利润表摘要】

【现金流量表摘要】

