切割成月份

In [1]:
import pandas as pd
import os

# 目标文件夹路径
folder_path = r"D:\Code\Python\20241202合并\Input"

# 创建输出目录
output_dir = r"D:\Code\Python\20241202合并\output"
os.makedirs(output_dir, exist_ok=True)

# 遍历文件夹下的所有文件
for root, dirs, files in os.walk(folder_path):
    for file in files:
        if file.endswith('.xlsx') or file.endswith('.xls'):
            file_path = os.path.join(root, file)
            try:
                # 读取Excel文件内容
                df = pd.read_excel(file_path)

                # 检查并处理Publication Year列
                if 'Publication Year' in df.columns:
                    # 获取所有唯一的年份
                    unique_years = df['Publication Year'].unique()
                    
                    for year in unique_years:
                        # 过滤出该年份的数据
                        year_data = df[df['Publication Year'] == year]

                        # 去重
                        year_data = year_data.drop_duplicates()

                        # 如果没有数据则跳过
                        if year_data.empty:
                            continue

                        # 获取不带扩展名的原文件名
                        source_file_name = file.replace('.xlsx', '').replace('.xls', '')

                        # 将数据保存到新的Excel文件
                        output_file_path = os.path.join(output_dir, f"{year}_{source_file_name}_result.xlsx")
                        year_data.to_excel(output_file_path, index=False)
                        print(f"{year}年的数据已保存至: {output_file_path}")

                else:
                    print(f"文件 {file} 中未找到 'Publication Year' 列。")
                    
            except Exception as e:
                print(f"读取文件 {file_path} 出现错误: {e}")

print("所有年份的数据处理完成。")

2020年的数据已保存至: D:\Code\Python\20241202合并\output\2020_21-23_result.xlsx
2011年的数据已保存至: D:\Code\Python\20241202合并\output\2011_21-23_result.xlsx
2023年的数据已保存至: D:\Code\Python\20241202合并\output\2023_21-23_result.xlsx
2014年的数据已保存至: D:\Code\Python\20241202合并\output\2014_21-23_result.xlsx
2013年的数据已保存至: D:\Code\Python\20241202合并\output\2013_21-23_result.xlsx
2022年的数据已保存至: D:\Code\Python\20241202合并\output\2022_21-23_result.xlsx
2019年的数据已保存至: D:\Code\Python\20241202合并\output\2019_21-23_result.xlsx
2015年的数据已保存至: D:\Code\Python\20241202合并\output\2015_21-23_result.xlsx
2009年的数据已保存至: D:\Code\Python\20241202合并\output\2009_21-23_result.xlsx
2024年的数据已保存至: D:\Code\Python\20241202合并\output\2024_21-23_result.xlsx
2017年的数据已保存至: D:\Code\Python\20241202合并\output\2017_21-23_result.xlsx
2018年的数据已保存至: D:\Code\Python\20241202合并\output\2018_21-23_result.xlsx
2021年的数据已保存至: D:\Code\Python\20241202合并\output\2021_21-23_result.xlsx
2008年的数据已保存至: D:\Code\Python\20241202合并\output\2008_21-23_result.xlsx
2010年的数据已保存至: D:\Cod

按照年份将切割的xlsx文件合并成年份的excel文件

In [None]:
import os
import pandas as pd
import time

# 文件夹路径
folder_path = r'D:\Code\Python\20241202合并\output'

# 输出的按年份合并的文件夹的路径
output_folder_path = r'D:\Code\Python\20241202合并\FinalResult'

# 获取文件夹中的所有文件
files = os.listdir(folder_path)

# 按年份分组合并Excel文件
yearly_data = {}

for file in files:
    if file.endswith('.xlsx'):
        # 提取年份
        year = file[:4]
        file_path = os.path.join(folder_path, file)

        # 读取Excel文件
        df = pd.read_excel(file_path)

        # 合并到相应年份
        if year in yearly_data:
            yearly_data[year] = pd.concat([yearly_data[year], df])
            print(f"{year} 年合并完成{time.time()}")
        else:
            yearly_data[year] = df

# 去重并保存合并后的文件
for year, df in yearly_data.items():
    df = df.drop_duplicates()
    output_path = os.path.join(output_folder_path, f'{year}_merged.xlsx')
    df.to_excel(output_path, index=False)

print("合并并去重完成")


合并的优化

In [3]:
import os
import pandas as pd
import time
from openpyxl import load_workbook

# 文件夹路径
folder_path = r'D:\Code\Python\20241202合并\output'
# 输出的按年份合并的文件夹的路径
output_folder_path = r'D:\Code\Python\20241202合并\FinalResult'

# 获取文件夹中的所有文件
files = os.listdir(folder_path)

# 按年份分组合并Excel文件
yearly_data = {}

# 开始计时
start_time = time.time()

for file in files:
    if file.endswith('.xlsx'):
        # 提取年份
        year = file[:4]
        file_path = os.path.join(folder_path, file)

        if 2021<= int(year) <= 2025:
            # 使用openpyxl逐行读取Excel文件
            wb = load_workbook(file_path, data_only=True)
            ws = wb.active
            data = []

            for row in ws.iter_rows(values_only=True):
                data.append(row)

            df = pd.DataFrame(data[1:], columns=data[0])  # 假设第一行是列名

            if year in yearly_data:
                yearly_data[year] = pd.concat([yearly_data[year], df])
                print(f"{year} 年合并完成{time.time()}")
            else:
                yearly_data[year] = df

# 去重并保存合并后的文件
for year, df in yearly_data.items():
    df = df.drop_duplicates()
    output_path = os.path.join(output_folder_path, f'{year}_merged.xlsx')
    df.to_excel(output_path, index=False)

# 结束计时
end_time = time.time()

# 计算耗时
elapsed_time = end_time - start_time
print(f"合并并去重完成，耗时 {elapsed_time:.2f} 秒")


2021 年合并完成1733274134.3083303
2022 年合并完成1733274143.842278
2023 年合并完成1733274153.580106
2024 年合并完成1733274165.4732666
2025 年合并完成1733274165.6703677
合并并去重完成，耗时 58.92 秒
