## 解析光大证券软件下载的离线数据

In [None]:
import numpy as np
import pandas as pd

In [None]:
def 读取日线数据(文件路径):
    dt = np.dtype([
        ('Date', 'u4'),
        ('Open', 'u4'),
        ('High', 'u4'),
        ('Low', 'u4'),
        ('Close', 'u4'),
        ('Amount', 'f'),
        ('Volume', 'u4'),
        ('Reserve','u4')])
    data = np.fromfile(文件路径, dtype=dt)
    #df = pd.DataFrame(data)
    # Or if you want to explicitly set the column names
    df = pd.DataFrame(data, columns=data.dtype.names)
    df.eval('''
        year=floor(Date/10000)
        month=floor((Date%10000)/100)
        day=floor(Date%10000%100)
        Open=Open/100
        High=High/100
        Low=Low/100
        Close=Close/100
    ''',inplace=True)
    df.index=pd.to_datetime(df.loc[:,['year','month','day']])
    return df.drop(['Date','year','month','day'],1)
def 读取分钟数据(文件路径):
    '''
    year=floor(m_date/2048)+2004; %提取年信息
    mon=floor(mod(m_date,2048)/100); %提取月信息
    day=mod(mod(m_date,2048),100); %提取日信息*/
    m_time/60 输出小时
    m_time%60 输出分钟
    '''
    dt = np.dtype([
        ('m_date', 'u2'),
        ('m_time', 'u2'),
        ('open', 'f4'),
        ('high', 'f4'),
        ('low', 'f4'),
        ('close', 'f4'),
        ('amount', 'f4'),
        ('volume', 'u4'),
        ('reserve','u4')])
    data = np.fromfile(文件路径, dtype=dt)
    #df = pd.DataFrame(data)
    # Or if you want to explicitly set the column names
    df = pd.DataFrame(data, columns=data.dtype.names)
    df.eval('''
        year=floor(m_date/2048)+2004
        month=floor((m_date%2048)/100)
        day=floor(m_date%2048%100)
        hour = floor(m_time/60)
        minute = m_time%60
    ''',inplace=True)
    df.index=pd.to_datetime(df.loc[:,['year','month','day','hour','minute']])
    return df.drop(['m_date','m_time','year','month','day','hour','minute'],1)
日线文件路径 = r'data/sh600068.day'
五分文件路径 = r'E:\zd_gdzq\vipdoc\sh\fzline\sh600025.lc5'
一分文件路径 = r'data/sz002123.lc1'
日线数据 = 读取日线数据(日线文件路径)
#五分数据 = 读取分钟数据(五分文件路径)
一分数据 = 读取分钟数据(一分文件路径)
print(日线数据.tail(10))
#print(五分数据.tail(10))
print(一分数据.tail(10))
print(一分数据.head(10))

日线数据.to_csv('day.csv')
一分数据.to_csv('min.csv')

### 通达信日线数据格式
```
文件名即股票代码
每32个字节为一天数据
每4个字节为一个字段，每个字段内低字节在前

00 ~ 03 字节：年月日, 整型
04 ~ 07 字节：开盘价*100， 整型
08 ~ 11 字节：最高价*100,  整型
12 ~ 15 字节：最低价*100,  整型
16 ~ 19 字节：收盘价*100,  整型
20 ~ 23 字节：成交额（元），float型
24 ~ 27 字节：成交量（股），整型
28 ~ 31 字节：上日收盘*100, 整型
```

In [None]:
def 读取日线数据(文件路径):
    dt = np.dtype([
        ('Date', 'u4'),
        ('Open', 'u4'),
        ('High', 'u4'),
        ('Low', 'u4'),
        ('Close', 'u4'),
        ('Amount', 'f'),
        ('Volume', 'u4'),
        ('Reserve','u4')])
    data = np.fromfile(文件路径, dtype=dt)
    #df = pd.DataFrame(data)
    # Or if you want to explicitly set the column names
    df = pd.DataFrame(data, columns=data.dtype.names)
    df.eval('''
        year=floor(Date/10000)
        month=floor((Date%10000)/100)
        day=floor(Date%10000%100)
        Open=Open/100
        High=High/100
        Low=Low/100
        Close=Close/100
    ''',inplace=True)
    df.index=pd.to_datetime(df.loc[:,['year','month','day']])
    return df.drop(['Date','year','month','day'],1)

### 通达信5分钟、1分钟数据格式
```
文件名即股票代码
每32个字节为一个5分钟数据，每字段内低字节在前

00 ~ 01 字节：日期，整型，设其值为num，则日期计算方法为：
              year=floor(num/2048)+2004;
              month=floor(mod(num,2048)/100);
              day=mod(mod(num,2048),100);
02 ~ 03 字节： 从0点开始至目前的分钟数，整型
04 ~ 07 字节：开盘价，float型
08 ~ 11 字节：最高价，float型
12 ~ 15 字节：最低价，float型
16 ~ 19 字节：收盘价，float型
20 ~ 23 字节：成交额，float型
24 ~ 27 字节：成交量（股），整型
28 ~ 31 字节：（保留）
```

In [None]:
def 读取分钟数据(文件路径):
    '''
    year=floor(m_date/2048)+2004; %提取年信息
    mon=floor(mod(m_date,2048)/100); %提取月信息
    day=mod(mod(m_date,2048),100); %提取日信息*/
    m_time/60 输出小时
    m_time%60 输出分钟
    '''
    dt = np.dtype([
        ('m_date', 'u2'),
        ('m_time', 'u2'),
        ('Open', 'f4'),
        ('High', 'f4'),
        ('Low', 'f4'),
        ('Close', 'f4'),
        ('Amount', 'f4'),
        ('Volume', 'u4'),
        ('Reserve','u4')])
    data = np.fromfile(文件路径, dtype=dt)
    #df = pd.DataFrame(data)
    # Or if you want to explicitly set the column names
    df = pd.DataFrame(data, columns=data.dtype.names)
    df.eval('''
        year=floor(m_date/2048)+2004
        month=floor((m_date%2048)/100)
        day=floor(m_date%2048%100)
        hour = floor(m_time/60)
        minute = m_time%60
    ''',inplace=True)
    df.index=pd.to_datetime(df.loc[:,['year','month','day','hour','minute']])
    return df.drop(['m_date','m_time','year','month','day','hour','minute'],1)

In [None]:
from sqlalchemy import create_engine
engine = create_engine('postgresql+psycopg2://lee@localhost/dev_db')

In [None]:
日线数据.to_sql('stock_day', con=engine, if_exists='replace', index_label='day')

In [None]:
一分数据.to_sql('stock_lc1', con=engine, if_exists='append', index_label='daytime')