In [None]:
import pandas as pd
import numpy as np

df = pd.read_parquet('~/wind_daily_2010_adj.parquet')




In [6]:
# 读取数据
import pandas as pd
import os

df = pd.read_parquet(os.path.expanduser('~/wind_daily_2010_adj.parquet'))

# 查看列名
print("列名:", df.columns.tolist())
print("数据量:", len(df))

# 找出每一天价格最低的股票（按收盘价）
# 过滤掉价格为0或NaN的数据
valid_df = df[(df['CLOSE'] > 0) & (df['CLOSE'].notna())].copy()

# 重置索引，让日期变成普通列（列名为原索引名或 'index'）
valid_df = valid_df.reset_index()
date_col = valid_df.columns[0]  # 获取日期列名（通常是 'index' 或原索引名）
print(f"日期列名: {date_col}")

# 按日期分组，找出每天收盘价最低的股票的行索引
daily_min_idx = valid_df.groupby(date_col)['CLOSE'].idxmin()

# 获取每天价格最低的股票信息
daily_lowest = valid_df.loc[daily_min_idx]

# 打印结果
print("\n每一天价格最低的股票信息:")
print(daily_lowest[[date_col, 'CODE', 'NAME', 'CLOSE', 'OPEN', 'HIGH', 'LOW']].head(20))

# 查看最常出现在每日最低价的股票
print("\n最常出现在每日最低价的股票 (前10):")
print(daily_lowest['CODE'].value_counts().head(10))

列名: ['CODE', 'OPEN', 'HIGH', 'LOW', 'CLOSE', 'VOLUME', 'AMT', 'CHG', 'PCT_CHG', 'PRE_CLOSE', 'NAME']
数据量: 21103808
日期列名: index

每一天价格最低的股票信息:
             index       CODE  NAME     CLOSE  OPEN  HIGH  LOW
1552810 2010-01-04  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552811 2010-01-05  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552812 2010-01-06  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552813 2010-01-07  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552814 2010-01-08  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552815 2010-01-11  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552816 2010-01-12  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552817 2010-01-13  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552818 2010-01-14  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552819 2010-01-15  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552820 2010-01-18  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552821 2010-01-19  000981.SZ  山子高科  0.651269   NaN   NaN  NaN
1552822 2010-01-20  000981.SZ  山子高科  0.

In [None]:
import matplotlib.pyplot as plt

# 获取前10只唯一的股票代码
unique_stocks = df['股票代码'].unique()[:10]
sampledf = df[df['股票代码'].isin(unique_stocks)].copy()

# 确保日期列是datetime类型
if '日期' in sampledf.columns:
    sampledf['日期'] = pd.to_datetime(sampledf['日期'])
    sampledf = sampledf.sort_values(['股票代码', '日期'])

# 绘制每只股票的收盘价走势
plt.figure(figsize=(15, 8))

for stock_code in unique_stocks:
    stock_data = sampledf[sampledf['股票代码'] == stock_code]
    if len(stock_data) > 0:
        plt.plot(stock_data['日期'], stock_data['收盘'], label=str(stock_code), alpha=0.7)

plt.xlabel('日期', fontsize=12)
plt.ylabel('收盘价', fontsize=12)
plt.title('股票收盘价走势图', fontsize=14)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()