In [5]:
import jieba
from collections import Counter
from datasets import load_dataset

# 加载训练集、验证集和测试集
data_files = {
    "train": "../train_datasets.jsonl",
    "validation": "../validation_datasets.jsonl",
    "test": "../test_datasets.jsonl"
}

# 使用 load_dataset 加载数据集
dataset = load_dataset("json", data_files=data_files)

# 查看训练集的数据
train_dataset = dataset['train']

# 初始化计数器
word_counter = Counter()

# 对每一条记录进行分词并统计词频
for sample in train_dataset:
    for question in sample['questions']:
        # 对问题进行分词
        words = jieba.lcut(question)
        # 统计所有词语的出现次数
        word_counter.update(words)

# 打印最常见的前10个词语及其出现次数
print("最常见的词语：")
for word, count in word_counter.most_common(10):
    print(f"{word}: {count}")

# 如果需要输出更多词频信息，可以调整 .most_common() 的参数


最常见的词语：
？: 786190
的: 781447
什么: 689675
有些: 525769
治疗: 214123
是: 196781
推荐: 114068
辅助: 113179
检查: 107509
药: 106661


In [7]:
for word, count in word_counter.most_common(1000):
    print(f"{word}: {count}")

？: 786190
的: 781447
什么: 689675
有些: 525769
治疗: 214123
是: 196781
推荐: 114068
辅助: 113179
检查: 107509
药: 106661
手术: 102421
临床表现: 66531
影像学: 64955
发病: 48671
病因: 34734
并发症: 30932
性: 29615
多少: 27812
部位: 27726
因素: 26336
型: 23856
急性: 22900
疾病: 22633
多发: 21572
会: 21352
感染: 20965
损伤: 20461
症状: 19754
综合征: 19597
预防措施: 19380
骨折: 18563
导致: 17359
结果: 17314
什么样: 17263
哪些: 16365
小儿: 15030
群体: 15000
慢性: 14802
病: 14546
就诊: 14367
科室: 14366
老年: 14311
高危: 14182
后: 12634
肿瘤: 12546
瘤: 11960
风险: 11023
评估: 10953
症: 10936
内窥镜: 10828
-: 10434
?: 10286
合并: 10094
细胞: 10062
病变: 9985
有: 9495
原因: 9306
方式: 8818
周期: 8817
患病: 8810
比例: 8791
简介: 8791
多长: 8772
治愈率: 8732
年龄: 8013
糖尿病: 7939
畸形: 7918
 : 7778
药有: 7620
儿童: 7565
组织学: 7537
动脉: 7515
转化成: 7469
大鼠: 7429
原发性: 7212
非: 7201
先天性: 7165
术后: 7082
狭窄: 6970
缺损: 6904
神经: 6894
出血: 6741
癌: 6704
放射治疗: 6690
组: 6657
肺: 6486
血管: 6446
可能: 5987
妊娠: 5915
倾向: 5905
性别: 5802
重度: 5800
啥: 5779
化疗: 5771
功能: 5696
肺炎: 5607
忌食: 5565
静脉: 5455
高血压: 5434
子宫: 5422
异常: 5344
内: 5207
重症: 5189
骨: 5183
肝: 

In [8]:
import nltk
from nltk.tokenize import word_tokenize
from collections import Counter
from datasets import load_dataset

# 下载 nltk 的 punkt 分词器（仅需首次运行时）
nltk.download('punkt')

# 加载数据集
dataset = load_dataset("tau/commonsense_qa")

# 获取训练集和测试集
train_dataset = dataset['train']
test_dataset = dataset['test']

# 初始化两个计数器来统计词频
train_word_counter = Counter()
test_word_counter = Counter()

# 对训练集的问题进行分词并统计词频
for question in train_dataset['question']:
    words = word_tokenize(question.lower())  # 分词并转为小写
    train_word_counter.update(words)

# 对测试集的问题进行分词并统计词频
for question in test_dataset['question']:
    words = word_tokenize(question.lower())  # 分词并转为小写
    test_word_counter.update(words)

# 找出出现在训练集中的词，并检查它们是否也出现在测试集中
train_words = set(train_word_counter.keys())
test_words = set(test_word_counter.keys())

# 找出仅在训练集中出现的词
unique_to_train = train_words - test_words
# 找出仅在测试集中出现的词
unique_to_test = test_words - train_words
# 找出同时出现在训练集和测试集的词
common_words = train_words & test_words

print(f"训练集中词汇总数: {len(train_words)}")
print(f"测试集中词汇总数: {len(test_words)}")
print(f"同时出现在训练集和测试集的词汇数: {len(common_words)}")
print(f"仅在训练集中出现的词汇数: {len(unique_to_train)}")
print(f"仅在测试集中出现的词汇数: {len(unique_to_test)}")

# 打印部分同时出现在训练集和测试集中的词
print("同时出现在训练集和测试集中的一些词：", list(common_words)[:10])


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/wangminmao/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


训练集中词汇总数: 8158
测试集中词汇总数: 2682
同时出现在训练集和测试集的词汇数: 2258
仅在训练集中出现的词汇数: 5900
仅在测试集中出现的词汇数: 424
同时出现在训练集和测试集中的一些词： ['dangerous', 'patient', 'vehicle', 'quality', 'committing', 'broadcast', 'pass', 'teach', 'inexperienced', 'consider']


In [None]:
import nltk
from nltk.tokenize import word_tokenize
from collections import Counter
from datasets import load_dataset

# 下载 nltk 的 punkt 分词器（仅需首次运行时）
nltk.download('punkt')

# 加载数据集
dataset = load_dataset("tau/commonsense_qa")

# 获取训练集和测试集
train_dataset = dataset['train']
test_dataset = dataset['test']

# 初始化两个计数器来统计词频
train_word_counter = Counter()
test_word_counter = Counter()

# 对训练集的问题进行分词并统计词频
for question in train_dataset['question']:
    words = word_tokenize(question.lower())  # 分词并转为小写
    train_word_counter.update(words)

# 对测试集的问题进行分词并统计词频
for question in test_dataset['question']:
    words = word_tokenize(question.lower())  # 分词并转为小写
    test_word_counter.update(words)

# 找出出现在训练集中的词，并检查它们是否也出现在测试集中
train_words = set(train_word_counter.keys())
test_words = set(test_word_counter.keys())

# 找出仅在训练集中出现的词
unique_to_train = train_words - test_words
# 找出仅在测试集中出现的词
unique_to_test = test_words - train_words
# 找出同时出现在训练集和测试集的词
common_words = train_words & test_words

print(f"训练集中词汇总数: {len(train_words)}")
print(f"测试集中词汇总数: {len(test_words)}")
print(f"同时出现在训练集和测试集的词汇数: {len(common_words)}")
print(f"仅在训练集中出现的词汇数: {len(unique_to_train)}")
print(f"仅在测试集中出现的词汇数: {len(unique_to_test)}")

# 打印部分同时出现在训练集和测试集中的词
print("同时出现在训练集和测试集中的一些词：", list(common_words)[:10])


In [9]:
print("同时出现在训练集和测试集中的一些词：", list(common_words)[:100])

同时出现在训练集和测试集中的一些词： ['dangerous', 'patient', 'vehicle', 'quality', 'committing', 'broadcast', 'pass', 'teach', 'inexperienced', 'consider', 'decided', 'bridge', 'collapsed', 'french', 'groups', 'dave', 'mouth', 'ink', 'pizza', 'by', 'stitches', 'articles', 'understand', 'chasing', 'is', 'remained', 'was', 'disease', 'passenger', 'crop', 'kept', 'core', 'plans', 'sun', 'thanking', 'like', 'embarrassing', 'before', 'conditioning', 'wrong', 'kitchen', 'wait', 'growing', 'attempting', 'prolonged', 'register', 'becoming', 'starting', 'bought', 'pie', 'farmer', 'air', 'suddenly', 'consume', 'grass', 'especially', 'mustard', 'from', 'conditioner', 'weasels', 'locals', 'numbers', 'state', 'interest', 'all', 'showing', 'fix', 'lot', 'jeans', 'afford', 'message', 'famous', 'boredom', 'swim', 'fun', 'occur', 'transporting', 'goes', 'rather', 'region', 'surrounded', 'instrument', 'oldest', 'gazelle', 'showed', 'she', 'case', 'lives', 'holding', 'celebrated', 'falling', 'hot', 'talked', 'head', 'put