In [3]:
import numpy as np
import torch
from torch.utils.data import Dataset, DataLoader

# 加载数据并查看其结构
data = np.load('./data/tang.npz', allow_pickle=True)

# 查看所有键
print("文件中的所有键:", list(data.keys()))

# 检查data部分
if 'data' in data:
    poems_data = data['data']
    print("\n===== 诗词数据 =====")
    print(f"形状: {poems_data.shape}")
    print(f"类型: {poems_data.dtype}")
    print(f"示例诗句(前3首):")
    for i in range(min(3, len(poems_data))):
        print(f"  诗 {i+1}: {poems_data[i][:20]}..." if len(poems_data[i]) > 20 else poems_data[i])

# 检查ix2word部分
if 'ix2word' in data:
    ix2word = data['ix2word'].item() if data['ix2word'].dtype == np.dtype('O') else data['ix2word']
    print("\n===== 序号到字的映射 =====")
    print(f"类型: {type(ix2word)}")
    print(f"词汇表大小: {len(ix2word)}")
    print("示例(前10个):")
    for i in range(min(10, len(ix2word))):
        print(f"  {i}: {ix2word[i]}")

# 检查word2ix部分
if 'word2ix' in data:
    word2ix = data['word2ix'].item() if data['word2ix'].dtype == np.dtype('O') else data['word2ix']
    print("\n===== 字到序号的映射 =====")
    print(f"类型: {type(word2ix)}")
    print(f"词汇表大小: {len(word2ix)}")
    print("示例(前10个):")
    counts = 0
    for word, idx in word2ix.items():
        if counts < 10:
            print(f"  '{word}': {idx}")
            counts += 1
        else:
            break

# 检查是否有填充符号
if 'word2ix' in data:
    padding_token = '</s>'
    if padding_token in word2ix:
        print(f"\n填充符号 '{padding_token}' 的索引: {word2ix[padding_token]}")
    else:
        print(f"\n未找到填充符号 '{padding_token}'")
        print("可能的填充符号:")
        for word in word2ix:
            if '<' in word or '>' in word:
                print(f"  '{word}': {word2ix[word]}")

文件中的所有键: ['ix2word', 'word2ix', 'data']

===== 诗词数据 =====
形状: (57580, 125)
类型: int32
示例诗句(前3首):
  诗 1: [8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292
 8292 8292 8292 8292 8292 8292]...
  诗 2: [8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292
 8292 8292 8292 8292 8292 8292]...
  诗 3: [8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292 8292
 8292 8292 8292 8292 8292 8292]...

===== 序号到字的映射 =====
类型: <class 'dict'>
词汇表大小: 8293
示例(前10个):
  0: 憁
  1: 耀
  2: 枅
  3: 涉
  4: 谈
  5: 伊
  6: 鈌
  7: 薙
  8: 亟
  9: 洞

===== 字到序号的映射 =====
类型: <class 'dict'>
词汇表大小: 8293
示例(前10个):
  '憁': 0
  '耀': 1
  '枅': 2
  '涉': 3
  '谈': 4
  '伊': 5
  '鈌': 6
  '薙': 7
  '亟': 8
  '洞': 9

填充符号 '</s>' 的索引: 8292
