In [1]:
import akshare as ak
import pandas as pd
import os
import time

# 保存路径
save_path = "E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据"
os.makedirs(save_path, exist_ok=True)

# 股票列表（股票代码 : 股票名称）
stock_list = {
    "600519": "贵州茅台",
    "601318": "中国平安",
    "000858": "五粮液",
    "000333": "美的集团",
    "002415": "海康威视",
    "300750": "宁德时代",
    "600893": "航发动力",
    "688981": "中芯国际",
}

# 时间参数：近五年
start_date = "20200527"
end_date = "20250527"
period = "daily"
adjust = "qfq"

# 循环获取并保存每支股票的数据
for code, name in stock_list.items():
    try:
        print(f"正在获取：{name}（{code}）...")
        df = ak.stock_zh_a_hist(
            symbol=code,
            period=period,
            start_date=start_date,
            end_date=end_date,
            adjust=adjust
        )
        if not df.empty:
            filename = f"{code}_{name}.csv"
            file_path = os.path.join(save_path, filename)
            df.to_csv(file_path, index=False)
            print(f"✅ 已保存 {name} 数据至：{file_path}")
        else:
            print(f"⚠️ 数据为空：{name}（{code}）")
        time.sleep(1)  # 控制访问频率
    except Exception as e:
        print(f"❌ 获取 {name}（{code}）数据失败：{e}")




正在获取：贵州茅台（600519）...
✅ 已保存 贵州茅台 数据至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\600519_贵州茅台.csv
正在获取：中国平安（601318）...
✅ 已保存 中国平安 数据至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\601318_中国平安.csv
正在获取：五粮液（000858）...
✅ 已保存 五粮液 数据至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\000858_五粮液.csv
正在获取：美的集团（000333）...
✅ 已保存 美的集团 数据至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\000333_美的集团.csv
正在获取：海康威视（002415）...
✅ 已保存 海康威视 数据至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\002415_海康威视.csv
正在获取：宁德时代（300750）...
✅ 已保存 宁德时代 数据至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\300750_宁德时代.csv
正在获取：航发动力（600893）...
✅ 已保存 航发动力 数据至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\600893_航发动力.csv
正在获取：中芯国际（688981）...
✅ 已保存 中芯国际 数据至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\688981_中芯国际.csv


In [2]:
import pandas as pd
import os

# 你的数据文件夹路径
data_folder = "E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据"

# 遍历所有csv文件，自动处理
for filename in os.listdir(data_folder):
    if filename.endswith(".csv") and not filename.endswith("_clean.csv"):  # 排除已处理文件
        file_path = os.path.join(data_folder, filename)
        print(f"正在处理文件：{filename}")

         # 读取数据，强制股票代码列为字符串，保留前导0
        df = pd.read_csv(file_path, dtype={'股票代码': str})

        # 缺失值检测
        missing_count = df.isnull().sum().sum()
        print(f"缺失值总数：{missing_count}")

        # 缺失值处理（前向填充）
        df.fillna(method='ffill', inplace=True)

        # 异常值检测（涨跌幅绝对值大于20%）
        df['pct_change'] = df['涨跌幅'].abs()
        abnormal = df[df['pct_change'] > 20]
        print(f"检测到异常涨跌幅数据：{len(abnormal)} 条")

        # 异常值处理：剔除异常数据
        df_clean = df[df['pct_change'] <= 20].copy()
        df_clean.drop(columns=['pct_change'], inplace=True)  # 去掉辅助列

        # 保存处理后的数据
        output_path = os.path.join(data_folder, filename.replace(".csv", "_clean.csv"))
        df_clean.to_csv(output_path, index=False)
        print(f"清洗后数据已保存至：{output_path}\n")


正在处理文件：000333_美的集团.csv
缺失值总数：0
检测到异常涨跌幅数据：0 条
清洗后数据已保存至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\000333_美的集团_clean.csv

正在处理文件：000858_五粮液.csv
缺失值总数：0
检测到异常涨跌幅数据：0 条
清洗后数据已保存至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\000858_五粮液_clean.csv

正在处理文件：002415_海康威视.csv
缺失值总数：0
检测到异常涨跌幅数据：0 条
清洗后数据已保存至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\002415_海康威视_clean.csv

正在处理文件：300750_宁德时代.csv
缺失值总数：0
检测到异常涨跌幅数据：0 条
清洗后数据已保存至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\300750_宁德时代_clean.csv

正在处理文件：600519_贵州茅台.csv
缺失值总数：0
检测到异常涨跌幅数据：0 条
清洗后数据已保存至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\600519_贵州茅台_clean.csv

正在处理文件：600893_航发动力.csv
缺失值总数：0
检测到异常涨跌幅数据：0 条
清洗后数据已保存至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\600893_航发动力_clean.csv

正在处理文件：601318_中国平安.csv
缺失值总数：0
检测到异常涨跌幅数据：0 条
清洗后数据已保存至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\601318_中国平安_clean.csv

正在处理文件：688981_中芯国际.csv
缺失值总数：0
检测到异常涨跌幅数据：1 条
清洗后数据已保存至：E:/python数据处理/基于时间序列与情感分析的多因子股票价格预测研究/股票数据\688981_中芯国际_clean.csv

