In [1]:
import os
from pathlib import Path

NOTEBOOK_PATH: Path = Path(os.path.abspath(''))

# print(f'当前运行在：{NOTEBOOK_PATH} 目录下。')

PATH_FOR_RESULT: Path = NOTEBOOK_PATH.joinpath('RESULT')

if not PATH_FOR_RESULT.exists():
    PATH_FOR_RESULT.mkdir()

# 读取中国金融期货交易所（中金所）的历史数据

解压出来的中金所数据，是 csv 格式的。

读取 csv 文件，使用 Python 的 csv 模块即可。

In [2]:
from typing import Dict, List, Any
import datetime as dt
import csv

def read_cffex_data(data_file: Path) -> List[Dict[str, Any]]:
    """
    读取中国金融期货交易所（中金所，CFFEX）的历史交易数据 (csv 文件)。
    :param data_file: Path，待读取的文件。
    :return: list，每一个项都是一个以 str 为 key 的字典。
    """
    result: List[Dict[str, Any]] = []
    
    # 从文件名中获得日期。
    filename: str = data_file.name[:8]
    date: dt.date = dt.date(
        year=int(filename[:4]),
        month=int(filename[4:6]),
        day=int(filename[6:8])
    )
    
    # 打开 <data_file> 读取数据。
    with open(data_file, mode='r', encoding='gbk') as csv_file:
        reader = csv.DictReader(csv_file)
        
        # 按行循环读取。
        for row in reader:
            
            # 忽略 <合约代码> 列为 <小计>、<合计> 的行
            if row['合约代码'] == '小计' or row['合约代码'] == '合计' or '-' in row['合约代码']:
                continue
            try:
                result.append(
                    {
                        'exchange': 'CFFEX',
                        'date': date,
                        'symbol': row['合约代码'].strip(),
                        'open': float(row['今开盘']) if len(row['今开盘']) > 0 else 0.0,
                        'high': float(row['最高价']) if len(row['最高价']) > 0 else 0.0,
                        'low': float(row['最低价']) if len(row['最低价']) > 0 else 0.0,
                        'close': float(row['今收盘']) if len(row['今收盘']) > 0 else 0.0,
                        'settlement': float(row['今结算']),
                        'previous_settlement': float(row['前结算']),
                        'volume': int(row['成交量']) if len(row['成交量']) > 0 else 0,
                        'amount': float(row['成交金额']) if len(row['成交金额']) > 0 else 0.0,
                        'open_interest': int(float(row['持仓量'])),
                        'change_on_close': float(row['涨跌1']),
                        'change_on_settlement': float(row['涨跌2']),
                        'change_on_open_interest': int(float(row['持仓变化'])),
                    }
                )
            except ValueError as e:
                print(f'读取文件 {csv_file} 时发生错误。发生错误的行内容为：\n\t{row}')
    return result

# 测试
# 用前面第4轮解压的文件，选了一个离现在比较近的日期，内容比较多一些。
test_data_file: Path = PATH_FOR_RESULT.joinpath('unzipped', '20200820_1.csv')

for item in read_cffex_data(test_data_file):
    print(item)

{'exchange': 'CFFEX', 'date': datetime.date(2020, 8, 20), 'symbol': 'IC2008', 'open': 6600.0, 'high': 6663.4, 'low': 6564.6, 'close': 6587.2, 'settlement': 6589.0, 'previous_settlement': 6662.0, 'volume': 51483, 'amount': 6808092.2, 'open_interest': 28408, 'change_on_close': -74.8, 'change_on_settlement': -73.0, 'change_on_open_interest': -26567}
{'exchange': 'CFFEX', 'date': datetime.date(2020, 8, 20), 'symbol': 'IC2009', 'open': 6488.0, 'high': 6569.6, 'low': 6460.2, 'close': 6495.8, 'settlement': 6489.8, 'previous_settlement': 6560.4, 'volume': 94511, 'amount': 12303295.716, 'open_interest': 119772, 'change_on_close': -64.6, 'change_on_settlement': -70.6, 'change_on_open_interest': 26458}
{'exchange': 'CFFEX', 'date': datetime.date(2020, 8, 20), 'symbol': 'IC2012', 'open': 6287.8, 'high': 6351.4, 'low': 6250.0, 'close': 6276.4, 'settlement': 6273.8, 'previous_settlement': 6348.8, 'volume': 16775, 'amount': 2112116.892, 'open_interest': 52079, 'change_on_close': -72.4, 'change_on_set

下一步，我们着手把数据[写入数据库](save_to_database.ipynb)。