In [2]:
import torch
import torch.nn as nn


config = {
    'train_file_path': 'dataset/train.csv',
    'test_file_path': 'dataset/test.csv',
    'train_val_ratio': 0.1,
    'vocab_size': 30000,
    'batch_size': 64,
    'num_epochs': 10,
    'learning_rate': 1e-3,
    'logging_step': 300,
    'seed': 10003
}

config['device'] = 'cuda' if torch.cuda.is_available() else 'cpu'

import random
import numpy as np

def seed_everything(seed):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    return seed

seed_everything(config['seed'])

10003

In [7]:
# train.csv 4 cols: id, label, label_desc, sentence
from collections import Counter
from tqdm import tqdm
import jieba

def get_vocab(config):
    token_counter = Counter()
    with open(config['train_file_path'], 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for line in tqdm(lines, desc='Counting tokens', total=len(lines)):
            sent = line.split(',')[-1].strip()
            sent_cut = list(jieba.cut(sent))
            token_counter.update(sent_cut)
            # token_counter {'我': 2, '是': 5, ...}
    
    vocab = set(token for token, _ in token_counter.most_common(config['vocab_size']))
    return vocab

In [8]:
vocab = get_vocab(config)
print(vocab)

Counting tokens:   0%|                                                                                                                               | 0/53361 [00:00<?, ?it/s]Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.946 seconds.
Prefix dict has been built successfully.
Counting tokens: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 53361/53361 [00:06<00:00, 8444.34it/s]

{'128', '青鸟', '交通安全', '巴蜀', '除掉', '圈粉', '凯越', '酒泉', '24', '娶', '周星驰', '影版', 'CPS', '巨大', '循环赛', '不定', '常程', '机动车', '偶数', '郑爽', '望尘莫及', '有钱人', '坡道', '高考状元', '加入', '平汤', '赛道', '邵阳', '自建房', '湘潭', '水边', '高校', '同一天', '信心', '巴拉', '气囊', 'RQFII', '罗牛山', '胜负', '发威', '一夏', '图书', '介词', '借此', '大婚', '场场', 'iPhone', '香山', '首台', '艺术展', '真谛', '和解', '马来西亚', '茶卡盐湖', 'C', '地域', '俩', '更酷', '水冷', '连续剧', '宣传画', '小奶', '头名', '唯独', '功劳', '成功率', '海湾', '鸡苗', '齐鲁', '王昭君', 'DLC', '塑料袋', '物理', '失恋', '一百多', '承包', '认可度', '岭', '用旧', '因为', '花落', '这方面', '一回', '拓本', '五台山', '补缴', '劝导', '绕开', '我会', '音箱', '禾', '业务', '一换', '惨遭', '风头', '赛事', '增势', '不上', '尊享', '租金', '录像', '格力', '一丝', '不办', '窃取', '过活', '人民币', '加速器', '响指', '个个', '永恒', '仅售', '盛产', '不已', '发明', '三百', '活跃', '海内外', '预习', '颜值', '香肩', '万丈', '服务提供商', '活活', '闫妮', '唢呐', '大约', '足', '观看', '之', '山塘', '利用', '人性', '主裁', '克', '优惠券', '炼化', '设计费', '消逝', '打的好', '入口', '搭建', '一劳永逸', '运作', '书荒', '哪条', 'TM', '人鱼', '土匪', '谷雨', '十周年', '强攻', '它们', '背水一战', '泡面', '母', '打烂', '拥抱', '王熙凤', '开


