# 不分公司直接处理

In [13]:
import os
import pandas as pd

# 文件夹路径
folder_path = '/home/ljh/RGEN_A/original_data/CRG/original_news'

# 读取文件夹中的所有csv文件
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

# 初始化空的DataFrame
df_2023 = pd.DataFrame()
df_2024 = pd.DataFrame()

# 遍历所有csv文件
for file in csv_files:
    file_path = os.path.join(folder_path, file)
    df = pd.read_csv(file_path)
    # 删除空值行
    df.dropna(subset=['时间', '新闻标题', '正文'], inplace=True)
    # 删除正文中的所有空白字符
    df['正文'] = df['正文'].str.replace(r'\s+', '', regex=True)
    # 将时间为2023年的行加入df_2023
    df_2023 = pd.concat([df_2023, df[df['时间'].str.contains('2023', na=False)]])
    df_2024 = pd.concat([df_2024, df[df['时间'].str.contains('2024', na=False)]])

df_2023 = df_2023[['股票代码', '时间', '新闻标题', '正文', '新闻链接', '来源']]
df_2024 = df_2024[['股票代码', '时间', '新闻标题', '正文', '新闻链接', '来源']]

# 保存df_2023和df_2024到csv文件中
df_2023.to_csv('df_2023.csv', index=False)
df_2024.to_csv('df_2024.csv', index=False)

# 按照公司分

In [1]:
import os
import pandas as pd

# 读取文件夹中的所有csv文件
folder_path = '/home/ljh/RGEN_A/original_data/CRG/original_news'
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

# 创建2023和2024文件夹
folder_2023 = os.path.join('news', '2023')
folder_2024 = os.path.join('news', '2024')
os.makedirs(folder_2023, exist_ok=True)
os.makedirs(folder_2024, exist_ok=True)

for file in csv_files:
    file_path = os.path.join(folder_path, file)
    df = pd.read_csv(file_path)
    
    # 删除正文中的所有空白字符
    df['正文'] = df['正文'].str.replace(r'\s+', '', regex=True)
    
    # 按照股票代码进行分组
    grouped = df.groupby('股票代码')
    
    for stock_code, group in grouped:
        # 按照时间从晚到早排序
        group = group.sort_values(by='时间', ascending=False)
        
        # # 提取时间中的年份信息
        # group['年份'] = pd.to_datetime(group['时间']).dt.year
        # group_2023 = group[group['年份'] == 2023]
        # group_2024 = group[group['年份'] == 2024]
        # 调整列顺序
        group = group[['股票代码', '时间', '新闻标题', '正文', '新闻链接', '来源']]
        # 提取时间中的年份信息
        group_2023 = group[group['时间'].str.contains('2023')]
        group_2024 = group[group['时间'].str.contains('2024')]
        
        if len(stock_code) == 6:
            stock_code = stock_code + '.BJ'       
        # 保存文件
        file_name = f'{stock_code}.csv'
        if group_2023.empty:
            print(f'{file_name} 2023年数据为空')
        else:
            group_2023.to_csv(os.path.join(folder_2023, file_name), index=False)
        
        if group_2024.empty:
            print(f'{file_name} 2024年数据为空')
        else:
            group_2024.to_csv(os.path.join(folder_2024, file_name), index=False)

print(f"2023年数据有{len(os.listdir(folder_2023))}个文件")
print(f"2024年数据有{len(os.listdir(folder_2024))}个文件")

300926.SZ.csv 2023年数据为空
603138.SH.csv 2024年数据为空
300709.SZ.csv 2023年数据为空
300711.SZ.csv 2023年数据为空
2023年数据有2471个文件
2024年数据有2473个文件


In [5]:
# 读取所有股票代码
with open('/home/ljh/RGEN_A/original_data/common_selected_ts_codes.txt', 'r') as f:
    all_stock_codes = f.read().splitlines()

# 获取已经处理的股票代码
processed_stock_codes_2023 = [os.path.splitext(file)[0] for file in os.listdir(folder_2023)]
processed_stock_codes_2024 = [os.path.splitext(file)[0] for file in os.listdir(folder_2024)]

# 统计缺少的股票代码
missing_stock_codes_2023 = set(all_stock_codes) - set(processed_stock_codes_2023)
missing_stock_codes_2024 = set(all_stock_codes) - set(processed_stock_codes_2024)

print(f"2023年缺少的股票代码文件数量: {len(missing_stock_codes_2023)}")
print("2023年缺少的股票代码文件:")
print(missing_stock_codes_2023)

print(f"2024年缺少的股票代码文件数量: {len(missing_stock_codes_2024)}")
print("2024年缺少的股票代码文件:")
print(missing_stock_codes_2024)

2023年缺少的股票代码文件数量: 1646
2023年缺少的股票代码文件:
{'300072.SZ', '603303.SH', '300137.SZ', '834682.BJ', '002951.SZ', '300594.SZ', '600521.SH', '603729.SH', '300323.SZ', '600809.SH', '301327.SZ', '300597.SZ', '301061.SZ', '300135.SZ', '601777.SH', '300047.SZ', '605369.SH', '301038.SZ', '300573.SZ', '301055.SZ', '835640.BJ', '836957.BJ', '300277.SZ', '300564.SZ', '836239.BJ', '300290.SZ', '300777.SZ', '300749.SZ', '300522.SZ', '600022.SH', '603803.SH', '002952.SZ', '300121.SZ', '300768.SZ', '605588.SH', '605117.SH', '605116.SH', '871970.BJ', '873001.BJ', '300607.SZ', '300727.SZ', '301000.SZ', '600749.SH', '600468.SH', '300583.SZ', '601615.SH', '002379.SZ', '600248.SH', '600779.SH', '300770.SZ', '301286.SZ', '301021.SZ', '301205.SZ', '603359.SH', '603595.SH', '300955.SZ', '301277.SZ', '601188.SH', '688681.SH', '600839.SH', '600169.SH', '300991.SZ', '300950.SZ', '600281.SH', '301234.SZ', '603351.SH', '600249.SH', '300511.SZ', '300569.SZ', '871857.BJ', '300580.SZ', '002567.SZ', '833914.BJ', '601006.SH'

In [9]:
# 过滤掉BJ后缀的代码
filtered_missing_stock_codes_2023 = [code for code in missing_stock_codes_2023 if not code.endswith('.BJ')]
filtered_missing_stock_codes_2024 = [code for code in missing_stock_codes_2024 if not code.endswith('.BJ')]

# 合并2023和2024缺少的股票代码
all_missing_stock_codes = list(set(filtered_missing_stock_codes_2023) | set(filtered_missing_stock_codes_2024))

# 生成查询网址
urls = [f"https://gu.qq.com/{code[-2:].lower()+code[:6]}/gp/news\n" for code in all_missing_stock_codes]

# 均分到4个txt文件中
chunk_size = len(urls) // 4
for i in range(4):
    chunk = urls[i * chunk_size: (i + 1) * chunk_size]
    with open(f'missing_stock_codes_part_{i + 1}.txt', 'w') as f:
        f.writelines(chunk)

# 如果有剩余的url，添加到最后一个文件中
if len(urls) % 4 != 0:
    with open('missing_stock_codes_part_4.txt', 'a') as f:
        f.writelines(urls[4 * chunk_size:])