In [1]:
import os
from pathlib import Path

NOTEBOOK_PATH: Path = Path(os.path.abspath(''))

# print(f'当前运行在：{NOTEBOOK_PATH} 目录下。')

PATH_FOR_RESULT: Path = NOTEBOOK_PATH.joinpath('RESULT')

if not PATH_FOR_RESULT.exists():
    PATH_FOR_RESULT.mkdir()

# 将数据写入数据库

数据库是个很大的话题，没概念的朋友把数据库理解为图书馆（房子——用于储存的空间、书——被储存的数据、工作人员——帮你找数据的机制）。

在我学习编程的年代，放眼望去的数据库几乎都是关系型数据库，现在还比较著名的有：[SQLite](https://www.sqlite.org/index.html)、MySQL（[下载](https://www.mysql.com/cn/products/community/)）、PostgreSQL（[下载](https://www.postgresql.org/download/)）。但是现在流行 no-sql 数据库，Redis、MongoDB 什么，可惜我不会。

数据库编程还有一个注意点：ORM。就是说，程序规模打了之后，程序里到处都是 sql 语句，就很不方便。因此会再套一层来把数据库的东西转换映射成 Python 的对象。

我们选择 PeeWee 作为 ORM，他的功能没有 SqlAlchemy 强大，但是简单。

SQLite 也很简单，简单到几乎承包了手机 App 对数据库的全部需求。如果只是通过 Python 使用 SQLite，都不需要安装其它软件。

## 定义日线数据对象




In [2]:
from peewee import (
    SqliteDatabase,
    Model,
    AutoField,
    CharField,
    FixedCharField,
    DateField,
    FloatField,
    IntegerField,
)


# 定义并打开 SQLite 数据库。
db: SqliteDatabase = SqliteDatabase(PATH_FOR_RESULT.joinpath('database.sqlite'))


# 定义基本ORM对象，可以少打一些字。
class ModelBase(Model):
    """
    ORM 基对象。
    """
    class Meta:
        database = db
        legacy_table_names = False


# 定义期货数据（日线）。
class FuturesQuoteDaily(ModelBase):
    """
    期货交易数据（日线）。
    """
    
    # id 可以理解为一张表的行号。
    id = AutoField(primary_key=True)
    
    symbol = FixedCharField(verbose_name='代码', max_length=6)
    date = DateField(verbose_name='日期')
    open = FloatField(verbose_name='开盘价', null=True)
    high = FloatField(verbose_name='最高价', null=True)
    low = FloatField(verbose_name='最低价', null=True)
    close = FloatField(verbose_name='收盘价')
    volume = IntegerField(verbose_name='成交量')
    amount = FloatField(verbose_name='成交额')
    settlement = FloatField(verbose_name='结算价')
    open_interest = IntegerField(verbose_name='持仓量')
    
    def __str__(self) -> str:
        """
        为 print 提供数据。
        """
        return f'<FuturesQuoteDaily(' \
               f'symbol={self.symbol}, ' \
               f'date={self.date}, ' \
               f'open={self.open}, ' \
               f'high={self.high}, ' \
               f'low={self.low}, ' \
               f'close={self.close}, ' \
               f'volume={self.volume}, ' \
               f'amount={self.amount}, ' \
               f'settlement={self.settlement}, ' \
               f'open_interest={self.open_interest}' \
               f')>'


# 定义期权数据（日线）。
class OptionQuoteDaily(ModelBase):
    """
    期权交易数据（日线）。
    """
    
    id = AutoField(primary_key=True)
    
    symbol = FixedCharField(verbose_name='代码', max_length=6)
    date = DateField(verbose_name='日期')
    open = FloatField(verbose_name='开盘价', null=True)
    high = FloatField(verbose_name='最高价', null=True)
    low = FloatField(verbose_name='最低价', null=True)
    close = FloatField(verbose_name='收盘价')
    volume = IntegerField(verbose_name='成交量')
    amount = FloatField(verbose_name='成交额')
    settlement = FloatField(verbose_name='结算价')
    open_interest = IntegerField(verbose_name='持仓量')
    delta = FloatField(verbose_name='delta')
    
    def __str__(self) -> str:
        """
        为 print 提供数据。
        """
        return f'<OptionQuoteDaily(' \
               f'symbol={self.symbol}, ' \
               f'date={self.date}, ' \
               f'open={self.open}, ' \
               f'high={self.high}, ' \
               f'low={self.low}, ' \
               f'close={self.close}, ' \
               f'volume={self.volume}, ' \
               f'amount={self.amount}, ' \
               f'settlement={self.settlement}, ' \
               f'open_interest={self.open_interest}, ' \
               f'delta={self.delta}' \
               f')>'


# 测试，创建空的数据表。
FuturesQuoteDaily.create_table()
OptionQuoteDaily.create_table()

# 关闭数据库。
db.close()

True

可以看到在 collect_data/RESULT 目录下新生成了一个名为 <database.sqlite> 的文件。

## 写入数据库

让我们用 collect_data/RESULT/unzipped/20200820_1.csv 做例子添加一些数据看看。

In [3]:
# 在【读取中国金融期货交易所（中金所）的历史数据】章节程序的基础上进行修改。

from typing import Dict, List, Tuple, Any
import datetime as dt
import csv

def read_cffex_data(data_file: Path) -> Tuple[List[Dict[str, Any]]]:
    """
    读取中国金融期货交易所（中金所，CFFEX）的历史交易数据 (csv 文件)。
    :param data_file: Path，待读取的文件。
    :return: Tuple，共两项，每一项都是一个列表。
             前一个是期货数据，后一个是期权数据。
             每一个列表都是一个字典，字典的 key 是 str，为 key 的字典。
    """
    result_futures: List[Dict[str, Any]] = []
    result_option: List[Dict[str, Any]] = []
    
    # 从文件名中获得日期。
    filename: str = data_file.name[:8]
    date: dt.date = dt.date(
        year=int(filename[:4]),
        month=int(filename[4:6]),
        day=int(filename[6:8])
    )
    
    # 打开 <data_file> 读取数据。
    with open(data_file, mode='r', encoding='gbk') as csv_file:
        reader = csv.DictReader(csv_file)
        
        # 按行循环读取。
        for row in reader:
            # 忽略 <合约代码> 列为 <小计>、<合计> 的行。
            if row['合约代码'] == '小计' or row['合约代码'] == '合计':
                continue
            
            # 捕捉异常，打印出错的行，以便在出现我们未考虑的情况时，提供调试信息用于修改。
            try:
                # 合约代码，去除两端的空白（空格）
                symbol = row['合约代码'].strip()
                
                # 合约代码长度不超过6，期货
                if len(symbol) <= 6:
                    result_futures.append(
                        {
                            'exchange': 'CFFEX',
                            'date': date,
                            'symbol': symbol,
                            'open': float(row['今开盘']) if len(row['今开盘']) > 0 else 0.0,
                            'high': float(row['最高价']) if len(row['最高价']) > 0 else 0.0,
                            'low': float(row['最低价']) if len(row['最低价']) > 0 else 0.0,
                            'close': float(row['今收盘']) if len(row['今收盘']) > 0 else 0.0,
                            'settlement': float(row['今结算']),
                            'previous_settlement': float(row['前结算']),
                            'volume': int(row['成交量']) if len(row['成交量']) > 0 else 0,
                            'amount': float(row['成交金额']) if len(row['成交金额']) > 0 else 0.0,
                            'open_interest': int(float(row['持仓量'])),
                            'change_on_close': float(row['涨跌1']),
                            'change_on_settlement': float(row['涨跌2']),
                            'change_on_open_interest': int(float(row['持仓变化'])),
                        }
                    )
                # 合约代码长度超过6，期权
                else:
                    result_option.append(
                        {
                            'exchange': 'CFFEX',
                            'date': date,
                            'symbol': symbol,
                            'open': float(row['今开盘']) if len(row['今开盘']) > 0 else 0.0,
                            'high': float(row['最高价']) if len(row['最高价']) > 0 else 0.0,
                            'low': float(row['最低价']) if len(row['最低价']) > 0 else 0.0,
                            'close': float(row['今收盘']) if len(row['今收盘']) > 0 else 0.0,
                            'settlement': float(row['今结算']),
                            'previous_settlement': float(row['前结算']),
                            'volume': int(row['成交量']) if len(row['成交量']) > 0 else 0,
                            'amount': float(row['成交金额']) if len(row['成交金额']) > 0 else 0.0,
                            'open_interest': int(float(row['持仓量'])),
                            'change_on_close': float(row['涨跌1']),
                            'change_on_settlement': float(row['涨跌2']),
                            'change_on_open_interest': int(float(row['持仓变化'])),
                            'delta': float(row['Delta']),
                        }
                    )
            except ValueError as e:
                print(f'读取文件 {csv_file} 时发生错误。发生错误的行内容为：\n\t{row}')
    
    return result_futures, result_option


# 测试
# 用前面第4轮解压的文件，选了一个离现在比较近的日期，内容比较多一些。
test_data_file: Path = PATH_FOR_RESULT.joinpath('unzipped', '20200820_1.csv')

# 读取数据。
quote_futures, quote_option = read_cffex_data(test_data_file)

# 期货。
for item in quote_futures:
    FuturesQuoteDaily.insert(
        symbol=item['symbol'],
        date=item['date'],
        open=item['open'],
        high=item['high'],
        low=item['low'],
        close=item['close'],
        settlement=item['settlement'],
        volume=item['volume'],
        amount=item['amount'],
        open_interest=item['open_interest']
    ).execute()

# 期权。
for item in quote_option:
    OptionQuoteDaily.insert(
        symbol=item['symbol'],
        date=item['date'],
        open=item['open'],
        high=item['high'],
        low=item['low'],
        close=item['close'],
        settlement=item['settlement'],
        volume=item['volume'],
        amount=item['amount'],
        open_interest=item['open_interest'],
        delta=item['delta']
    ).execute()

# 关闭数据库。
db.close()

True

可以安装一个 [SQLite 查看工具](https://sqlitebrowser.org/)来打开 <database.sqlite> 文件查看数据库中的数据。最好使用【只读打开】，不影响我们的程序操作数据库。

![DB Browser for SQLite](attachment/screenshot_db-browser-for-sqlite.png)

上面的期货日线数据类中，只定义了最基本的数据，其它内容其实都可以通过读取后计算。如果把交易所提供的数据甚至我们自己计算的全部保存下来，好处是以后使用的时候不需要再算一次，这样用起来速度快；缺点是占用硬盘空间。这里就涉及一个取舍或者选择：计算速度或者存储空间。

或许可以这样考虑：如果使用个人计算机，CPU速度一般，但是硬盘现在很便宜了，我们可以选择保存全部数据；如果使用云主机，CPU速度一般还不错，不过储存空间还是比较贵的，可以选择只保存必需的数据。

下一步，我们完成一个[完整的流程](completed_flow.ipynb)。

## 更多数据库

如果我们不想使用 SQLite 呢？peewee 还支持 MySQL（需要第三方库 MySQLdb 或者 pymysql）、PostgreSQL（需要第三方库 psycopg2）和 CockroachDB（这个从来没听过，不会用）。