### 数据预处理
对裁判文书进行数据预处理，步骤包括：

1、（由于文件大小限制，只使用了裁判文书中的【法院意见】一栏）

2、去除标点符号、特殊字符、注释、冗余词

3、去除保险公司参与的案件

4、只保留长度适中的文书

In [1]:
import re
from random import shuffle

# 定义标点符号和特殊字母
punctuation = '''，。、:；（）ＸX×xa"“”,<《》'''

# 裁判文书原始文件路径
original_file = "original_data.txt"
processed_file = "processed_data.txt"


def data_process():
    # 对原始数据进行预处理
    f1 = open(original_file, "r", encoding='utf-8')
    processed_cases = []  # 存储处理后的案件
    for line in f1.readlines():
        try:
            location, content = line.strip().split("\t")  # 存储案件对应的地区、内容
        except ValueError:
            continue
        else:
            line1 = re.sub(u"（.*?）", "", content)  # 去除括号内注释
            line2 = re.sub("[%s]+" % punctuation, "", line1)  # 去除标点、特殊字母
            # 去除冗余词
            line3 = re.sub(
                "本院认为|违反道路交通管理法规|驾驶机动车辆|因而|违反道路交通运输管理法规|违反交通运输管理法规|缓刑考.*?计算|刑期.*?止|依照|《.*?》|第.*?条|第.*?款|的|了|其|另|已|且",
                "",
                line2)
            # 删除内容过少或过长的文书，删除包含’保险‘的文书，只保留以’被告人‘开头的文书
            if 100 < len(line3) < 400 and line3.startswith(
                    "被告人") and "保险" not in line3:
                processed_cases.append(location + '\t' + line3)
    f1.close()

    # 打乱数据
    shuffle(processed_cases)

    # 将预处理后的案件写到文本中
    f2 = open(processed_file, "w", encoding='utf-8')
    for idx, case in enumerate(processed_cases):
        f2.write(str(idx + 1) + "\t" + case + "\n")
    f2.close()
    print("数据预处理完成！")


if __name__ == '__main__':
    data_process()

数据预处理完成！


In [2]:
# 输出处理后的几条数据
with open(processed_file, "r", encoding='utf-8') as f:
    for _ in range(3):
        print(f.readline().strip())

1	浙江	被告人苏华弟发生重大事故致三人死亡一人重伤负事故全部责任行为构成交通肇事罪属于有他特别恶劣情节公诉机关指控罪名成立被告人苏华弟有自首情节可依法从轻处罚被告人苏华弟赔偿被害人部分经济损失可酌情从轻处罚辩护人金良静提出相关辩护意见合法有据予以采纳但提出缓刑建议不符合法律规定不予采纳公诉机关提出量刑建议适当予以采纳根据被告人犯罪事实性质情节和对社会危害程度及悔罪表现中华人民共和国刑法第一项之规定判决如下被告人苏华弟犯交通肇事罪判处有期徒刑四年六个月
2	河南	被告人王学中发生重大交通事故致一人死亡肇事后逃逸负此事故全责任行为构成交通肇事罪公诉机关指控罪名成立本院予以支持被告人王学中当庭认罪对被告人王学中酌定从轻处罚因被告人亲属与被害人近亲属达成协议赔偿被害方相应损失取得被害人近亲属谅解对被告人王学中酌定从轻处罚中华人民共和国刑法之规定判决如下被告人王学中犯交通肇事罪判处有期徒刑三年缓刑三年
3	安徽	被告人陈某发生重大事故致一人死亡肇事后逃逸负事故全部责任行为构成交通肇事罪公诉机关指控被告人陈某犯罪事实清楚证据确实充分定罪准确应予采纳被告人陈某主动到潜山市王河派出所投案到案后如实供述全部犯罪事实是自首可以从轻或减轻处罚被告人陈某赔偿被害人近亲属损失取得被害人近亲属谅解均可酌情从轻处罚辩护人提出辩护意见与本院查明事实和法律规定相符本院予以采纳综上根据被告人陈某犯罪事实犯罪性质情节和对于社会危害程度及认罪态度等决定对减轻处罚并依法适用缓刑中华人民共和国刑法之规定判决如下被告人陈某犯交通肇事罪判处有期徒刑二年六个月缓刑三年
