# 用于对本月的历史数据按照板块名称进行分组统计，结果保存到result.csv文件

In [49]:
import pandas as pd
from datetime import datetime
# import sys
# sys.path.append('../utils')
# import constants
from functools import lru_cache
OPTION_DICT = {
    "all": (float('-inf'), float('inf')),
    "0-100": (0, 100),
    "100-500": (100, 500),
    "500-1000": (500, 1000),
    "1000-30000": (1000, 30000),
}

RANGE = ["跌停", "跌<-5%",  "-3%<-5%",     "-3<-1%",
         "平盘", "<3%",     "3-5%",   "5%-涨停", "涨停"]


In [50]:
def get_data() -> tuple[pd.DataFrame, list]:
    """
    获得股票历史信息，并计算总市值
    """
    # 显示结果
    df = pd.read_csv(
        f"../data/merge_{datetime.now().strftime('%Y-%m-%d')}.csv", parse_dates=['日期'], index_col=0, dtype={"股票代码": object})
    # dates = df.index.unique().sort_values().to_list()
    # print(type(dates[0]))
    # dates = [x.strftime("%Y-%m-%d") for x in dates]
    # 获得当前结果集的日期列表
    # dates_list = [date.strftime('%Y-%m-%d') for date in dates]
    value = pd.read_csv("../data/总股本_em.csv", index_col="股票代码", dtype={"股票代码": object})
    value_dict = value['总股本'].to_dict()
    df['总股本'] = df['股票代码'].apply(lambda x: value_dict.get(x))
    df['总市值'] = df['总股本']*df['收盘']
    # 把总市值为none的变成0
    df.fillna(0, inplace=True)
    return df


In [51]:
print(OPTION_DICT)

{'all': (-inf, inf), '0-100': (0, 100), '100-500': (100, 500), '500-1000': (500, 1000), '1000-30000': (1000, 30000)}


In [52]:
df = get_data()
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 170816 entries, 2023-03-01 to 2023-03-24
Data columns (total 15 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   开盘      170816 non-null  float64
 1   收盘      170816 non-null  float64
 2   最高      170816 non-null  float64
 3   最低      170816 non-null  float64
 4   成交量     170816 non-null  int64  
 5   成交额     170816 non-null  float64
 6   振幅      170816 non-null  float64
 7   涨跌幅     170816 non-null  float64
 8   涨跌额     170816 non-null  float64
 9   换手率     170816 non-null  float64
 10  股票代码    170816 non-null  object 
 11  股票名称    170816 non-null  object 
 12  板块名称    170816 non-null  object 
 13  总股本     170816 non-null  float64
 14  总市值     170816 non-null  float64
dtypes: float64(11), int64(1), object(3)
memory usage: 20.9+ MB


In [53]:
df.columns

Index(['开盘', '收盘', '最高', '最低', '成交量', '成交额', '振幅', '涨跌幅', '涨跌额', '换手率', '股票代码',
       '股票名称', '板块名称', '总股本', '总市值'],
      dtype='object')

In [54]:
df.head()

Unnamed: 0_level_0,开盘,收盘,最高,最低,成交量,成交额,振幅,涨跌幅,涨跌额,换手率,股票代码,股票名称,板块名称,总股本,总市值
日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
2023-03-01,22.55,22.42,22.83,22.18,98735,221958533.0,2.9,0.18,0.04,3.03,300119,瑞普生物,农业服务,468018786.0,10492980000.0
2023-03-01,22.55,22.42,22.83,22.18,98735,221958533.0,2.9,0.18,0.04,3.03,300119,瑞普生物,动物保健,468018786.0,10492980000.0
2023-03-02,22.44,21.73,22.54,21.64,53425,117040504.0,4.01,-3.08,-0.69,1.64,300119,瑞普生物,农业服务,468018786.0,10170050000.0
2023-03-02,22.44,21.73,22.54,21.64,53425,117040504.0,4.01,-3.08,-0.69,1.64,300119,瑞普生物,动物保健,468018786.0,10170050000.0
2023-03-03,21.89,21.27,22.18,21.12,57008,122635566.0,4.88,-2.12,-0.46,1.75,300119,瑞普生物,农业服务,468018786.0,9954760000.0


In [55]:
counts = df.groupby('板块名称')['股票名称'].count()
counts

板块名称
IT服务    2286
LED      720
专业工程     612
专业服务     496
专业连锁     144
        ... 
饮料制造     846
饰品       288
饲料       320
高速公路     360
黑色家电     198
Name: 股票名称, Length: 288, dtype: int64

In [56]:
# 计算每个板块下有多少股票
counts = df.groupby('板块名称')['股票名称'].nunique()
counts.columns=["板块名称", "股票个数"]
# 打印结果
print(counts)


板块名称
IT服务    127
LED      40
专业工程     34
专业服务     28
专业连锁      8
       ... 
饮料制造     47
饰品       16
饲料       18
高速公路     20
黑色家电     11
Name: 股票名称, Length: 288, dtype: int64


## 正式运行

In [57]:
for key,value in OPTION_DICT.items():
    start_value, end_value = value
    cur_df = df.copy()
    if key!="all":
        cur_df = cur_df[(cur_df['总市值'] >= (start_value)*100_000_000)
                        & (cur_df['总市值'] <= (end_value)*100_000_000)]
    
    # data = df.groupby("板块名称")["股票代码"].count()
    # 计算每个板块下有多少股票
    counts = cur_df.groupby('板块名称')['股票名称'].nunique()
    # counts.reset_index(inplace=True)
    counts.name = "股票个数"
    counts.to_csv(
        f"../data/股票代码个数_{key}.csv", index=True)


In [58]:
data = pd.read_csv(
    f"../data/股票代码个数_all.csv", index_col=0, )
# data.reset_index(inplace=True)
# data = df.groupby("板块名称")["股票代码"].count()
# data_dict = data.to_dict()
data["股票个数"].to_dict()


{'IT服务': 127,
 'LED': 40,
 '专业工程': 34,
 '专业服务': 28,
 '专业连锁': 8,
 '专用设备': 194,
 '个护用品': 13,
 '中药': 72,
 '乘用车': 9,
 '乳品': 18,
 '互联网电商': 19,
 '产业地产': 10,
 '人工景点': 5,
 '仪器仪表': 49,
 '休闲食品': 21,
 '传媒': 142,
 '住宅开发': 86,
 '体外诊断': 38,
 '体育': 3,
 '保险': 6,
 '保险及其他': 39,
 '光伏设备': 57,
 '光学元件': 18,
 '光学光电子': 102,
 '公交': 7,
 '公路铁路运输': 34,
 '其他专用设备': 75,
 '其他交运设备': 16,
 '其他传媒': 59,
 '其他农产品加工': 12,
 '其他化学制品': 70,
 '其他化学原料': 22,
 '其他医疗服务': 25,
 '其他塑料制品': 19,
 '其他家用轻工': 30,
 '其他小金属': 22,
 '其他建材': 23,
 '其他橡胶制品': 10,
 '其他生物制品': 32,
 '其他电子': 36,
 '其他电源设备': 25,
 '其他白色家电': 27,
 '其他社会服务': 31,
 '其他种植业': 9,
 '其他纤维': 8,
 '其他纺织': 19,
 '其他自动化设备': 23,
 '其他通信设备': 13,
 '其他通用设备': 51,
 '其他酒类': 9,
 '其他金属新材料': 13,
 '其他食品': 18,
 '其他黑色家电': 7,
 '养殖业': 25,
 '军工电子': 56,
 '农业服务': 16,
 '农业综合': 3,
 '农产品加工': 42,
 '农商行': 10,
 '农用机械': 8,
 '农药': 30,
 '冰洗': 5,
 '冶钢原料': 8,
 '出版': 28,
 '分立器件': 16,
 '制冷空调设备': 13,
 '动物保健': 13,
 '包装': 41,
 '包装印刷': 46,
 '化妆品': 12,
 '化学制剂': 105,
 '化学制品': 210,
 '化学制药': 150,
 '化学原料': 56,
 '化工合成材料': 105,
 '医疗器