In [38]:
import pandas as pd
import re
import jieba
from collections import Counter

In [39]:
df = pd.read_csv('./未处理语料.csv', encoding='utf-8')
df.head()

Unnamed: 0,标题,日期,版次,内容
0,国民党统治区 物价飞涨民不堪命 重庆机器工厂数百家倒闭,1946-05-20,第1版,专栏：\n\n 国民党统治区\n 物价飞涨民不堪命\n 重庆机器工厂数百家倒闭...
1,执行民办公助方针后 太行小学获显著成绩。 真正做到群众自己办，领导上不自流。,1946-05-29,第2版,专栏：\n\n 执行民办公助方针后\n 太行小学获显著成绩。 \n ...
2,太行行署指示各专县 防备风雹组织抢收,1946-05-18,第2版,专栏：\n\n 太行行署指示各专县\n 防备风雹组织抢收\n 【新华社晋冀鲁豫...
3,沁县阎军特务横行 殴劫我联络组人员 我已向东沁线小组提出抗议,1946-05-15,第1版,专栏：\n\n 沁县阎军特务横行\n 殴劫我联络组人员\n 我已向东沁线小组提...
4,盟军总部竟然批准 币原捧吉田为首相 远东委员会举行会议,1946-05-19,第1版,专栏：\n\n 盟军总部竟然批准\n 币原捧吉田为首相\n 远东委员会举行会议...


In [40]:
def clean_chinese_text(text):
    # 移除特殊字符和数字
    text = re.sub("(\\d|\\W)+", " ", text)

    # 分词
    seg_list = jieba.cut(text, cut_all=False)

    # 移除停用词
    clean_seg_list = [word for word in seg_list if word not in stop_words]

    return clean_seg_list

# 查找最常见的词语的函数
def get_most_frequent_words(segmented_texts, num_words=20):
    counter = Counter()
    for text in segmented_texts:
        counter.update(text)
    return counter.most_common(num_words)

In [44]:
# 建议直接下载中文停用词表，然后再添加自定义的停用词
# 这一步骤要重复几次，直到高频词语（比如前20）中没有无意义的词语为止

# 停用词表，自行添加出现频率高但无意义的词语
stop_words = set([
    ' ', '的', '在', '了', '之', '与','为','是','有','等','并','已','和','人','我',
    '他们','于','中','上','以','及','将','后','我们','他','不','都','被','而','说','也',
    '又','着', '讯', '向', '一', '到', '由','就', '即', '来',
    '专栏','新华社','电' # 同理，根据关键词搜索的语料，也应去除关键词本身
    ])

In [45]:
# 对 'Content' 列应用清洗和分词函数
df['Segmented_Content'] = df['内容'].apply(clean_chinese_text)

# 获取最常见的词语
most_frequent_words = get_most_frequent_words(df['Segmented_Content'])

# 显示最常见的词语
print([word for word,freq in most_frequent_words])

# 将分词重新组合成句子
df['Segmented_Content'] = df['Segmented_Content'].apply(lambda x: ' '.join(x))

['国民党', '人民', '民主', '群众', '代表', '政府', '军', '生产', '对', '组织', '解放区', '问题', '延安', '进行', '内战', '要求', '工作', '美国', '进攻', '从']


In [47]:
df['版次'].value_counts()

版次
第2版    225
第1版    207
第3版     10
第4版      5
Name: count, dtype: int64

In [49]:
# 比较分词前后的内容
df.head()

Unnamed: 0,标题,日期,版次,内容,Segmented_Content
0,国民党统治区 物价飞涨民不堪命 重庆机器工厂数百家倒闭,1946-05-20,第1版,专栏：\n\n 国民党统治区\n 物价飞涨民不堪命\n 重庆机器工厂数百家倒闭...,国民党 统治区 物价飞涨 民不堪命 重庆 机器 工厂 数百家 倒闭 延安 十七日 国民党 统...
1,执行民办公助方针后 太行小学获显著成绩。 真正做到群众自己办，领导上不自流。,1946-05-29,第2版,专栏：\n\n 执行民办公助方针后\n 太行小学获显著成绩。 \n ...,执行 民办公助 方针 太行 小学 获 显著成绩 真正 做到 群众 自己 办 领导 自流 本报...
2,太行行署指示各专县 防备风雹组织抢收,1946-05-18,第2版,专栏：\n\n 太行行署指示各专县\n 防备风雹组织抢收\n 【新华社晋冀鲁豫...,太行 行署 指示 各 专县 防备 风雹 组织 抢收 晋冀鲁豫 总 分社 夏收 至 太行 行署...
3,沁县阎军特务横行 殴劫我联络组人员 我已向东沁线小组提出抗议,1946-05-15,第1版,专栏：\n\n 沁县阎军特务横行\n 殴劫我联络组人员\n 我已向东沁线小组提...,沁县 阎军 特务 横行 殴劫 联络组 人员 向东 沁线 小组 提出抗议 长治 十日 白晋 线...
4,盟军总部竟然批准 币原捧吉田为首相 远东委员会举行会议,1946-05-19,第1版,专栏：\n\n 盟军总部竟然批准\n 币原捧吉田为首相\n 远东委员会举行会议...,盟军 总部 竟然 批准 币原 捧 吉田为 首相 远东 委员会 举行 会议 延安 十六日 东京...


In [None]:
# 保存处理后的数据
df[['版次','日期','Segmented_Content']].to_csv('./corpus_segmented.csv', index=True, encoding='utf-8')