## 数据预处理

In [1]:
import pandas as pd

txt_file = 'HSI_5分钟线.txt'

# 成功使用GBK编码读取文件后，确保再次使用相同的编码
df = pd.read_csv(txt_file, sep='\t', encoding='gbk', skiprows=1)

# 删除最后一行
df = df[:-1]

# 查看数据确保正确读取
print(df.head())

# 将数据框保存为CSV文件
csv_file = 'HSI_5分钟线.csv'
df.to_csv(csv_file, index=False)

           日期      时间        开盘        最高        最低        收盘      成交量  \
0  2019-01-02   935.0  25824.44  25824.44  25715.07  25723.08    283.0   
1  2019-01-02   940.0  25721.20  25735.39  25630.09  25637.48    185.0   
2  2019-01-02   945.0  25633.29  25639.83  25586.96  25588.28    156.0   
3  2019-01-02   950.0  25588.55  25588.55  25512.69  25551.14    189.0   
4  2019-01-02   955.0  25551.48  25551.52  25419.16  25420.79    195.0   

       成交额  
0  2833.45  
1  1855.39  
2  1563.16  
3  1896.49  
4  1950.46  


In [2]:
import pandas as pd

# 使用GBK编码读取数据
df = pd.read_csv('HSI_5分钟线.csv', encoding='utf-8')

# 删除列名中的前导和尾随空格
df.columns = df.columns.str.strip()

# 转换时间列的格式
# 将时间转换为整数，然后使用字符串格式化转换为 'HH:MM' 格式
df['时间'] = df['时间'].apply(lambda x: f"{int(x):04d}")
df['时间'] = df['时间'].str.slice(0, 2) + ':' + df['时间'].str.slice(2, 4)

# 合并日期和时间列，并转换为 datetime 类型
df['日期时间'] = pd.to_datetime(df['日期'] + ' ' + df['时间'])

# 删除原始的日期和时间列
df.drop(['日期', '时间'], axis=1, inplace=True)

# 确保数值列是数值类型
num_cols = ['开盘', '最高', '最低', '收盘', '成交量', '成交额']
df[num_cols] = df[num_cols].apply(pd.to_numeric, errors='coerce')

# 检查缺失值
print("缺失值情况：")
print(df.isnull().sum())

# 处理或填充缺失数据
df[['成交量', '成交额']] = df[['成交量', '成交额']].fillna(0)


缺失值情况：
开盘      0
最高      0
最低      0
收盘      0
成交量     0
成交额     0
日期时间    0
dtype: int64


In [3]:
df.rename(columns={'日期时间': 'Date'}, inplace=True)
df.sort_values('Date', ascending=True, inplace=True)
df.set_index('Date', inplace=True)
df.head()

Unnamed: 0_level_0,开盘,最高,最低,收盘,成交量,成交额
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-01-02 09:35:00,25824.44,25824.44,25715.07,25723.08,283.0,2833.45
2019-01-02 09:40:00,25721.2,25735.39,25630.09,25637.48,185.0,1855.39
2019-01-02 09:45:00,25633.29,25639.83,25586.96,25588.28,156.0,1563.16
2019-01-02 09:50:00,25588.55,25588.55,25512.69,25551.14,189.0,1896.49
2019-01-02 09:55:00,25551.48,25551.52,25419.16,25420.79,195.0,1950.46


In [4]:
df.rename(columns={'最高': 'High', '最低': 'Low', 
                   '开盘': 'Open', '收盘': 'Close', '成交量': 'Volume', 
                   '成交额': 'Turnover'}, inplace=True)

df.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Turnover
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-01-02 09:35:00,25824.44,25824.44,25715.07,25723.08,283.0,2833.45
2019-01-02 09:40:00,25721.2,25735.39,25630.09,25637.48,185.0,1855.39
2019-01-02 09:45:00,25633.29,25639.83,25586.96,25588.28,156.0,1563.16
2019-01-02 09:50:00,25588.55,25588.55,25512.69,25551.14,189.0,1896.49
2019-01-02 09:55:00,25551.48,25551.52,25419.16,25420.79,195.0,1950.46


In [5]:
# 重新保存处理后的数据
df.to_csv('HSI_5分钟线_处理后.csv', index=False)