# jieba分词实验

Day 1: 熟悉jieba中文分词工具


In [None]:
# 导入库
import jieba
from collections import Counter

print("✅ 导入成功")


  import pkg_resources


✅ 导入成功


In [None]:
# 基础分词测试
text = "我爱自然语言处理和深度学习"

# 精确模式
words = jieba.cut(text, cut_all=False)
print("精确模式:", " / ".join(words))
print(words)


精确模式: 我 / 爱 / 自然语言处理 / 和 / 深度学习
<generator object Tokenizer.cut at 0x0000023BA13A40B0>


In [None]:
# 添加自定义词典
jieba.add_word('深度学习')
jieba.add_word('自然语言处理')
jieba.add_word('机器学习')

text2 = "深度学习在自然语言处理中应用广泛"
words = jieba.cut(text2)
print("添加词典后:", " / ".join(words))


添加词典后: 深度学习 / 在 / 自然语言处理 / 中 / 应用 / 广泛


In [None]:
# 停用词过滤
stopwords = set(['的', '了', '在', '是', '我', '有', '和', '就', 
                 '不', '人', '都', '一', '一个', '上', '也', '很',
                 '到', '说', '要', '去', '你', '会', '着', '没有'])

text3 = "今天的天气很好，我们一起去看电影吧"
words = [w for w in jieba.cut(text3) if w not in stopwords and len(w) > 1]
print("去除停用词:", " / ".join(words))


去除停用词: 今天 / 天气 / 我们 / 一起 / 电影吧


In [6]:
print("\n✅ jieba分词实验完成！")
print("下一步: 安装依赖、下载THUCNews数据集")



✅ jieba分词实验完成！
下一步: 安装依赖、下载THUCNews数据集


In [11]:
# 从HuggingFace下载TNEWS（中文新闻分类）
from datasets import load_dataset

# TNEWS: 今日头条中文新闻分类
dataset = load_dataset("clue", "tnews")

print(dataset)

README.md: 0.00B [00:00, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


test-00000-of-00001.parquet:   0%|          | 0.00/655k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


train-00000-of-00001.parquet:   0%|          | 0.00/3.40M [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


validation-00000-of-00001.parquet:   0%|          | 0.00/643k [00:00<?, ?B/s]

Generating test split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Generating train split:   0%|          | 0/53360 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10000 [00:00<?, ? examples/s]

DatasetDict({
    test: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 10000
    })
    train: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 53360
    })
    validation: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 10000
    })
})


In [13]:
# 查看数据集有哪些字段
print("训练集字段:")
print(dataset['train'].column_names)

print("\n第一条数据:")
print(dataset['train'][0])

print("\n数据结构:")
print(dataset['train'].features)

训练集字段:
['sentence', 'label', 'idx']

第一条数据:
{'sentence': '上课时学生手机响个不停，老师一怒之下把手机摔了，家长拿发票让老师赔，大家怎么看待这种事？', 'label': 7, 'idx': 0}

数据结构:
{'sentence': Value('string'), 'label': ClassLabel(names=['100', '101', '102', '103', '104', '106', '107', '108', '109', '110', '112', '113', '114', '115', '116']), 'idx': Value('int32')}


In [14]:
import pandas as pd

# TNEWS的15个类别映射
label_map = {
    '100': '故事',
    '101': '文化',
    '102': '娱乐',
    '103': '体育',
    '104': '财经',
    '106': '房产',
    '107': '汽车',
    '108': '教育',
    '109': '科技',
    '110': '军事',
    '112': '旅游',
    '113': '国际',
    '114': '股票',
    '115': '农业',
    '116': '游戏'
}

# 转换训练集
train_df = pd.DataFrame({
    'text': dataset['train']['sentence'],
    'label_num': dataset['train']['label'],  # 数字标签
})

# 添加中文标签名
train_df['label'] = train_df['label_num'].astype(str).map(label_map)

# 验证集
val_df = pd.DataFrame({
    'text': dataset['validation']['sentence'],
    'label_num': dataset['validation']['label'],
})
val_df['label'] = val_df['label_num'].astype(str).map(label_map)

# 测试集
test_df = pd.DataFrame({
    'text': dataset['test']['sentence'],
    'label_num': dataset['test']['label'],
})
test_df['label'] = test_df['label_num'].astype(str).map(label_map)

print(f"✅ 数据转换完成！")
print(f"\n训练集: {len(train_df)}")
print(f"验证集: {len(val_df)}")
print(f"测试集: {len(test_df)}")

print(f"\n类别分布:")
print(train_df['label'].value_counts())

print(f"\n前3条数据:")
print(train_df[['text', 'label']].head(3))

# 保存为CSV
import os
os.makedirs('../data/processed/', exist_ok=True)

train_df[['text', 'label']].to_csv('../data/processed/train.csv', index=False)
val_df[['text', 'label']].to_csv('../data/processed/val.csv', index=False)
test_df[['text', 'label']].to_csv('../data/processed/test.csv', index=False)

print(f"\n✅ 数据已保存到: data/processed/")
print("文件:")
print("  - train.csv (训练集)")
print("  - val.csv (验证集)")
print("  - test.csv (测试集)")

✅ 数据转换完成！

训练集: 53360
验证集: 10000
测试集: 10000

类别分布:
Series([], Name: count, dtype: int64)

前3条数据:
                                             text label
0    上课时学生手机响个不停，老师一怒之下把手机摔了，家长拿发票让老师赔，大家怎么看待这种事？   NaN
1  商赢环球股份有限公司关于延期回复上海证券交易所对公司2017年年度报告的事后审核问询函的公告   NaN
2                通过中介公司买了二手房，首付都付了，现在卖家不想卖了。怎么处理？   NaN

✅ 数据已保存到: data/processed/
文件:
  - train.csv (训练集)
  - val.csv (验证集)
  - test.csv (测试集)


In [15]:
# 读取保存的CSV文件
import pandas as pd

train = pd.read_csv('../data/processed/train.csv')
val = pd.read_csv('../data/processed/val.csv')
test = pd.read_csv('../data/processed/test.csv')

print("✅ 文件读取成功！")
print(f"\n训练集: {len(train)} 条")
print(f"验证集: {len(val)} 条")
print(f"测试集: {len(test)} 条")

print(f"\n训练集前3条:")
print(train.head(3))

print(f"\n类别统计:")
print(train['label'].value_counts())

✅ 文件读取成功！

训练集: 53360 条
验证集: 10000 条
测试集: 10000 条

训练集前3条:
                                             text  label
0    上课时学生手机响个不停，老师一怒之下把手机摔了，家长拿发票让老师赔，大家怎么看待这种事？    NaN
1  商赢环球股份有限公司关于延期回复上海证券交易所对公司2017年年度报告的事后审核问询函的公告    NaN
2                通过中介公司买了二手房，首付都付了，现在卖家不想卖了。怎么处理？    NaN

类别统计:
Series([], Name: count, dtype: int64)
