In [6]:
import os
import pandas as pd

# 设置路径与时间范围
folder_path = './data\A股-股票日线数据\前复权'  # 你存放CSV的路径
start_date = pd.to_datetime("2023-06-01")
end_date = pd.to_datetime("2023-12-01")

# 收集每支股票的DataFrame
all_data = {}

# 遍历文件夹中的CSV文件
for filename in os.listdir(folder_path):
    if not filename.endswith('.csv'):
        continue

    file_path = os.path.join(folder_path, filename)

    try:
        # 读取CSV，默认第一列为索引，不使用 index_col
        df = pd.read_csv(file_path, encoding='utf-8')

        # 打印列名用于调试
        print(f"读取文件: {filename}，列名：{df.columns.tolist()}")

        # 判断是否有必须的列
        if '日期' not in df.columns or '收盘' not in df.columns:
            print(f"⚠️ 文件 {filename} 缺少必要列，跳过")
            continue

        # 转换日期格式
        df['日期'] = pd.to_datetime(df['日期'], errors='coerce')
        df = df.dropna(subset=['日期'])

        # 筛选目标时间段
        df = df[(df['日期'] >= start_date) & (df['日期'] <= end_date)]
        if df.empty:
            print(f"⛔ 文件 {filename} 不包含目标时间段数据，跳过")
            continue

        # 设置日期为索引，只保留收盘价
        stock_name = filename.replace('.csv', '')
        df = df.set_index('日期')[['收盘']].rename(columns={'收盘': stock_name})

        all_data[stock_name] = df
        print(f"✅ 文件 {filename} 处理成功，共 {len(df)} 行有效数据")

    except Exception as e:
        print(f"❌ 读取文件 {filename} 出错: {e}")

if all_data:
    combined_df = pd.concat(all_data.values(), axis=1)
    combined_df.sort_index(inplace=True)

    # 删除任何包含缺失值的列（即删掉不完整的股票）
    combined_df.dropna(axis=1, inplace=True)  # 删除含缺失值的日期

    # 保存最终结果
    combined_df.to_csv('A_combined_close_prices.csv', encoding='utf-8-sig')
    print("✅ 合并完成，空缺列已删除，结果保存为 combined_close_prices.csv")



读取文件: 000001-平安银行.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 000001-平安银行.csv 处理成功，共 124 行有效数据
读取文件: 000002-万  科Ａ.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 000002-万  科Ａ.csv 处理成功，共 124 行有效数据
读取文件: 000003-PT金田A.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
⛔ 文件 000003-PT金田A.csv 不包含目标时间段数据，跳过
读取文件: 000004-国华网安.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 000004-国华网安.csv 处理成功，共 123 行有效数据
读取文件: 000005-ST星源.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 000005-ST星源.csv 处理成功，共 124 行有效数据
读取文件: 000006-深振业Ａ.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 000006-深振业Ａ.csv 处理成功，共 124 行有效数据
读取文件: 000007-星ST全新.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', 

In [8]:
import os
import pandas as pd

# 设置路径与时间范围
folder_path = './data\港股-股票日线数据\前复权'  # 你存放CSV的路径
start_date = pd.to_datetime("2023-06-01")
end_date = pd.to_datetime("2023-12-01")

# 收集每支股票的DataFrame
all_data = {}

# 遍历文件夹中的CSV文件
for filename in os.listdir(folder_path):
    if not filename.endswith('.csv'):
        continue

    file_path = os.path.join(folder_path, filename)

    try:
        # 读取CSV，默认第一列为索引，不使用 index_col
        df = pd.read_csv(file_path, encoding='gbk')

        # 打印列名用于调试
        print(f"读取文件: {filename}，列名：{df.columns.tolist()}")

        # 判断是否有必须的列
        if '日期' not in df.columns or '收盘' not in df.columns:
            print(f"⚠️ 文件 {filename} 缺少必要列，跳过")
            continue

        # 转换日期格式
        df['日期'] = pd.to_datetime(df['日期'], errors='coerce')
        df = df.dropna(subset=['日期'])

        # 筛选目标时间段
        df = df[(df['日期'] >= start_date) & (df['日期'] <= end_date)]
        if df.empty:
            print(f"⛔ 文件 {filename} 不包含目标时间段数据，跳过")
            continue

        # 设置日期为索引，只保留收盘价
        stock_name = filename.replace('.csv', '')
        df = df.set_index('日期')[['收盘']].rename(columns={'收盘': stock_name})

        all_data[stock_name] = df
        print(f"✅ 文件 {filename} 处理成功，共 {len(df)} 行有效数据")

    except Exception as e:
        print(f"❌ 读取文件 {filename} 出错: {e}")

if all_data:
    combined_df = pd.concat(all_data.values(), axis=1)
    combined_df.sort_index(inplace=True)

    # 删除任何包含缺失值的列（即删掉不完整的股票）
    combined_df.dropna(axis=1, inplace=True)  # 删除含缺失值的日期

    # 保存最终结果
    combined_df.to_csv('hk_combined_close_prices.csv', encoding='utf-8-sig')
    print("✅ 合并完成，空缺列已删除，结果保存为 hk_combined_close_prices.csv")



读取文件: 00001-长和.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 00001-长和.csv 处理成功，共 126 行有效数据
读取文件: 00002-中电控股.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 00002-中电控股.csv 处理成功，共 126 行有效数据
读取文件: 00003-香港中华煤气.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 00003-香港中华煤气.csv 处理成功，共 126 行有效数据
读取文件: 00004-九龙仓集团.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 00004-九龙仓集团.csv 处理成功，共 126 行有效数据
读取文件: 00005-汇丰控股.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 00005-汇丰控股.csv 处理成功，共 126 行有效数据
读取文件: 00006-电能实业.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 00006-电能实业.csv 处理成功，共 126 行有效数据
读取文件: 00007-智富资源投资.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件

In [5]:
import os
import pandas as pd

# 设置路径与时间范围
folder_path = './data\美股-股票日线数据'  # 你存放CSV的路径
start_date = pd.to_datetime("2023-06-01")
end_date = pd.to_datetime("2023-12-01")

# 收集每支股票的DataFrame
all_data = {}

# 遍历文件夹中的CSV文件
for filename in os.listdir(folder_path):
    if not filename.endswith('.csv'):
        continue

    file_path = os.path.join(folder_path, filename)

    try:
        # 读取CSV，默认第一列为索引，不使用 index_col
        df = pd.read_csv(file_path, encoding='utf-8')

        # 打印列名用于调试
        print(f"读取文件: {filename}，列名：{df.columns.tolist()}")

        # 判断是否有必须的列
        if '日期' not in df.columns or '收盘' not in df.columns:
            print(f"⚠️ 文件 {filename} 缺少必要列，跳过")
            continue

        # 转换日期格式
        df['日期'] = pd.to_datetime(df['日期'], errors='coerce')
        df = df.dropna(subset=['日期'])

        # 筛选目标时间段
        df = df[(df['日期'] >= start_date) & (df['日期'] <= end_date)]
        if df.empty:
            print(f"⛔ 文件 {filename} 不包含目标时间段数据，跳过")
            continue

        # 设置日期为索引，只保留收盘价
        stock_name = filename.replace('.csv', '')
        df = df.set_index('日期')[['收盘']].rename(columns={'收盘': stock_name})

        all_data[stock_name] = df
        print(f"✅ 文件 {filename} 处理成功，共 {len(df)} 行有效数据")

    except Exception as e:
        print(f"❌ 读取文件 {filename} 出错: {e}")

if all_data:
    combined_df = pd.concat(all_data.values(), axis=1)
    combined_df.sort_index(inplace=True)

    # 删除任何包含缺失值的列（即删掉不完整的股票）
    combined_df.dropna(axis=1, inplace=True)  # 删除含缺失值的日期

    # 保存最终结果
    combined_df.to_csv('USA_combined_close_prices.csv', encoding='utf-8-sig')
    print("✅ 合并完成，空缺列已删除，结果保存为 combined_close_prices.csv")



读取文件: 105.AACG.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 105.AACG.csv 处理成功，共 128 行有效数据
读取文件: 105.AACI.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 105.AACI.csv 处理成功，共 116 行有效数据
读取文件: 105.AACIU.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 105.AACIU.csv 处理成功，共 29 行有效数据
读取文件: 105.AACIW.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 105.AACIW.csv 处理成功，共 99 行有效数据
读取文件: 105.AADI.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 105.AADI.csv 处理成功，共 128 行有效数据
读取文件: 105.AADR.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 105.AADR.csv 处理成功，共 128 行有效数据
读取文件: 105.AAGR.csv，列名：['Unnamed: 0', '日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率']
✅ 文件 105.AAGR.csv 处理成功，共 125 行有效