# jieba分词实验

Day 1: 熟悉jieba中文分词工具


In [None]:
# 导入库
import jieba
from collections import Counter

print("✅ 导入成功")


  import pkg_resources


✅ 导入成功


In [None]:
# 基础分词测试
text = "我爱自然语言处理和深度学习"

# 精确模式
words = jieba.cut(text, cut_all=False)
print("精确模式:", " / ".join(words))
print(words)


精确模式: 我 / 爱 / 自然语言处理 / 和 / 深度学习
<generator object Tokenizer.cut at 0x0000023BA13A40B0>


In [None]:
# 添加自定义词典
jieba.add_word('深度学习')
jieba.add_word('自然语言处理')
jieba.add_word('机器学习')

text2 = "深度学习在自然语言处理中应用广泛"
words = jieba.cut(text2)
print("添加词典后:", " / ".join(words))


添加词典后: 深度学习 / 在 / 自然语言处理 / 中 / 应用 / 广泛


In [None]:
# 停用词过滤
stopwords = set(['的', '了', '在', '是', '我', '有', '和', '就', 
                 '不', '人', '都', '一', '一个', '上', '也', '很',
                 '到', '说', '要', '去', '你', '会', '着', '没有'])

text3 = "今天的天气很好，我们一起去看电影吧"
words = [w for w in jieba.cut(text3) if w not in stopwords and len(w) > 1]
print("去除停用词:", " / ".join(words))


去除停用词: 今天 / 天气 / 我们 / 一起 / 电影吧


In [6]:
print("\n✅ jieba分词实验完成！")
print("下一步: 安装依赖、下载THUCNews数据集")



✅ jieba分词实验完成！
下一步: 安装依赖、下载THUCNews数据集


In [None]:
# 读取THUCNews数据集（完整新闻正文）
import os
import pandas as pd
from tqdm import tqdm

print("读取THUCNews数据集...")

data_dir = '../data/THUCNews/THUCNews/'

# 14个类别
categories = ['体育', '娱乐', '家居', '彩票', '房产', '教育', 
              '时尚', '时政', '星座', '游戏', '社会', '科技', '股票', '财经']

print(f"类别数: {len(categories)}")

# 读取所有数据
all_data = []

for label_id, category in enumerate(tqdm(categories, desc='读取类别')):
    category_path = os.path.join(data_dir, category)
    
    if not os.path.exists(category_path):
        print(f" 跳过不存在的类别: {category}")
        continue
    
    files = os.listdir(category_path)[:5000]  # 每个类别取5000篇
    
    for file in tqdm(files, desc=category, leave=False):
        file_path = os.path.join(category_path, file)
        
        try:
            with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
                text = f.read().strip()
                # 过滤太短的文本
                if len(text) > 100:
                    all_data.append({
                        'text': text,
                        'label': label_id
                    })
        except:
            pass

df_all = pd.DataFrame(all_data)
print(f"\n 读取完成: {len(df_all):,} 篇新闻")

# 统计文本长度
df_all['length'] = df_all['text'].apply(len)
print(f"\n文本长度统计:")
print(f"平均: {df_all['length'].mean():.0f} 字")
print(f"中位数: {df_all['length'].median():.0f} 字")

print(f"\n类别分布:")
for i, cat in enumerate(categories):
    count = (df_all['label'] == i).sum()
    print(f"类别{i:2d} ({cat}): {count:,} 篇")

print(f"\n第一篇新闻示例:")
print(df_all.iloc[0]['text'][:200])
print("...")

读取THUCNews数据集...
类别数: 14


读取类别:   0%|          | 0/14 [00:00<?, ?it/s]
体育:   0%|          | 0/5000 [00:00<?, ?it/s][A
体育:   4%|▎         | 176/5000 [00:00<00:02, 1747.67it/s][A
体育:   8%|▊         | 383/5000 [00:00<00:02, 1933.13it/s][A
体育:  12%|█▏        | 577/5000 [00:00<00:03, 1220.25it/s][A
体育:  15%|█▍        | 738/5000 [00:00<00:03, 1331.45it/s][A
体育:  19%|█▉        | 943/5000 [00:00<00:02, 1541.52it/s][A
体育:  22%|██▏       | 1113/5000 [00:00<00:02, 1485.19it/s][A
体育:  25%|██▌       | 1272/5000 [00:00<00:03, 1211.99it/s][A
体育:  29%|██▉       | 1471/5000 [00:01<00:02, 1401.58it/s][A
体育:  33%|███▎      | 1663/5000 [00:01<00:02, 1533.54it/s][A
体育:  38%|███▊      | 1878/5000 [00:01<00:01, 1696.63it/s][A
体育:  41%|████      | 2059/5000 [00:01<00:01, 1674.11it/s][A
体育:  45%|████▍     | 2235/5000 [00:01<00:01, 1534.34it/s][A
体育:  48%|████▊     | 2413/5000 [00:01<00:01, 1598.63it/s][A
体育:  52%|█████▏    | 2579/5000 [00:01<00:01, 1611.17it/s][A
体育:  55%|█████▌    | 2750/5000 [00:01<00:01, 1631.45it/s]


✅ 读取完成: 64,947 篇新闻

文本长度统计:
平均: 1007 字
中位数: 769 字

类别分布:
类别 0 (体育): 4,991 篇
类别 1 (娱乐): 4,982 篇
类别 2 (家居): 3,229 篇
类别 3 (彩票): 4,612 篇
类别 4 (房产): 4,947 篇
类别 5 (教育): 4,977 篇
类别 6 (时尚): 4,667 篇
类别 7 (时政): 4,869 篇
类别 8 (星座): 3,454 篇
类别 9 (游戏): 4,898 篇
类别10 (社会): 4,966 篇
类别11 (科技): 4,964 篇
类别12 (股票): 4,466 篇
类别13 (财经): 4,925 篇

第一篇新闻示例:
马晓旭意外受伤让国奥警惕 无奈大雨格外青睐殷家军
　　记者傅亚雨沈阳报道 来到沈阳，国奥队依然没有摆脱雨水的困扰。7月31日下午6点，国奥队的日常训练再度受到大雨的干扰，无奈之下队员们只慢跑了25分钟就草草收场。
　　31日上午10点，国奥队在奥体中心外场训练的时候，天就是阴沉沉的，气象预报显示当天下午沈阳就有大雨，但幸好队伍上午的训练并没有受到任何干扰。
　　下午6点，当球队抵达训练场时，大雨已
...


In [2]:
from sklearn.model_selection import train_test_split

print("划分数据集...")

# df_all已经在Cell 7中读取完成，直接使用

# 划分数据集：训练70% + 验证15% + 测试15%
train_df, temp_df = train_test_split(
    df_all,
    test_size=0.3,
    random_state=42,
    stratify=df_all['label']  # 保持类别比例均衡
)

val_df, test_df = train_test_split(
    temp_df,
    test_size=0.5,
    random_state=42,
    stratify=temp_df['label']
)

print(f"\n重新划分后:")
print(f"训练集: {len(train_df)} ({len(train_df)/len(df_all)*100:.1f}%)")
print(f"验证集: {len(val_df)} ({len(val_df)/len(df_all)*100:.1f}%)")
print(f"测试集: {len(test_df)} ({len(test_df)/len(df_all)*100:.1f}%)")

# 添加中文label（THUCNews 14个类别）
label_map = {
    0: '体育', 1: '娱乐', 2: '家居', 3: '彩票', 4: '房产', 5: '教育',
    6: '时尚', 7: '时政', 8: '星座', 9: '游戏', 10: '社会', 11: '科技',
    12: '股票', 13: '财经'
}

train_df['label_name'] = train_df['label'].map(label_map)
val_df['label_name'] = val_df['label'].map(label_map)
test_df['label_name'] = test_df['label'].map(label_map)

print(f"\n类别分布（训练集）:")
print(train_df['label_name'].value_counts())

print(f"\n前3条数据:")
print(train_df[['text', 'label', 'label_name']].head(3))

# 保存
train_df.to_csv('../data/processed/train.csv', index=False, encoding='utf-8')
val_df.to_csv('../data/processed/val.csv', index=False, encoding='utf-8')
test_df.to_csv('../data/processed/test.csv', index=False, encoding='utf-8')

print("\n数据重新划分并保存完成！")

划分数据集...

重新划分后:
训练集: 45462 (70.0%)
验证集: 9742 (15.0%)
测试集: 9743 (15.0%)

类别分布（训练集）:
label_name
体育    3494
娱乐    3487
教育    3484
社会    3476
科技    3475
房产    3463
财经    3447
游戏    3429
时政    3408
时尚    3267
彩票    3228
股票    3126
星座    2418
家居    2260
Name: count, dtype: int64

前3条数据:
                                                    text  label label_name
64695  成长型基金猜想2009：幸福岁月能否延续\n　　实习记者 杨颖桦 本报记者 张桔 \n　　究...     13         财经
42230  《侠盗车手》将推出续作 明年亮相E3\n　　由娱乐电子分析师Jesse Divnich指出，...      9         游戏
30769  组图：6款性感丝袜最配夏季超短\n　　导读：穿丝袜的女人，总是给人们一种朦胧的美，这种美给人...      6         时尚

数据重新划分并保存完成！
