## 加载项目

In [1]:
import sys
sys.path.append("/Users/zhengwenjie/AI/work/ML_3/2017-CCF-BDCI-AIJudge")

## 导入库函数

In [2]:
import codecs
import jieba
import jieba.analyse
import jieba.posseg
import pandas as pd
from utils import LOGGER
from config.db_config import Config

## 定义函数

In [3]:
def split_word(text, stopwords):
    '''
    定义分词函数
    :param text:
    :param stopwords:
    :return:
    '''
    word_list = jieba.cut(text)
    seg = [word.strip() for word in word_list if len(word) > 1 and word not in stopwords]
    result = " ".join(seg)
    return result
def load_stop_words(stop_words_path):
    '''
    加载停用词
    :param stop_words_path:
    :return:
    '''
    stopwords = {}
    for line in codecs.open(stop_words_path, 'r', 'utf-8'):
        stopwords[line.rstrip()] = 1
    return stopwords

def load_data(data_path, stopwords):
    '''
    加载训练／测试数据
    :param data_path:
    :param stopwords:
    :return:  返回  id  content penalty  laws 的数据结构，其中： test数据仅 id content 格式的结构
    '''
    data_list = []
    for i, line in enumerate(open(data_path)):
        if i % 1000 == 1:
            LOGGER.log('iter = %d' % i)
        segs = line.split('\t')
        row = {}
        row['id'] = segs[0]
        row['content'] = split_word(segs[1].strip(), stopwords)
        row['penalty'] = segs[2] if len(segs) >= 3 else ""
        row['laws'] = segs[3].strip() if len(segs) >= 4 else ""
        data_list.append(row)
    return data_list

## 主函数调用

In [4]:
config = Config()
stopwords = load_stop_words(config.stop_words_path)
train_data_list = load_data(config.train_data_path, stopwords)
test_data_list = load_data(config.test_data_path,stopwords)
train_data_df = pd.DataFrame(train_data_list, columns=["id", "content", "laws", "penalty"])
test_data_df = pd.DataFrame(test_data_list,columns=["id", "content", "laws", "penalty"])

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/y4/m077y_dj1pd7blyvjrx9y30w0000gn/T/jieba.cache
Loading model cost 0.813 seconds.
Prefix dict has been built succesfully.


2019-03-23 12:35:07 iter = 1
2019-03-23 12:35:07 iter = 1


In [5]:
train_data_df.head()

Unnamed: 0,id,content,laws,penalty
0,16,公诉 机关 霍邱县 人民检察院 被告人 许某 1975 日生 2012 因涉嫌 危险 驾驶 ...,1337273,3
1,32,公诉 机关 海口市 龙华区 人民检察院 被告人 王某 海口市 龙华区 人民检察院 海龙 检公...,347675264,1
2,41,公诉 机关 广东省 潮州市 人民检察院 被告人 覃学彬 1980 出生 广西壮族自治区 大新...,2632552535556,5


In [6]:
test_data_df.head()

Unnamed: 0,id,content,laws,penalty
0,19,公诉 机关 仙桃市 人民检察院 被告人 王某 1971 出生 汉族 湖北省 宜昌市 高中文化...,,
1,18,公诉 机关 仙桃市 人民检察院 被告人 肖某 1988 出生 汉族 湖北省 仙桃市 日因 盗...,,
2,26,公诉 机关 潮州市 潮安 人民检察院 上诉人 原审 被告人 杨木 1972 出生 广东省 潮...,,


In [7]:
data_df = pd.concat([train_data_df,test_data_df])
data_df.head()

Unnamed: 0,id,content,laws,penalty
0,16,公诉 机关 霍邱县 人民检察院 被告人 许某 1975 日生 2012 因涉嫌 危险 驾驶 ...,1337273.0,3.0
1,32,公诉 机关 海口市 龙华区 人民检察院 被告人 王某 海口市 龙华区 人民检察院 海龙 检公...,347675264.0,1.0
2,41,公诉 机关 广东省 潮州市 人民检察院 被告人 覃学彬 1980 出生 广西壮族自治区 大新...,2632552535556.0,5.0
0,19,公诉 机关 仙桃市 人民检察院 被告人 王某 1971 出生 汉族 湖北省 宜昌市 高中文化...,,
1,18,公诉 机关 仙桃市 人民检察院 被告人 肖某 1988 出生 汉族 湖北省 仙桃市 日因 盗...,,


In [8]:
config.stop_words_path

'/Users/zhengwenjie/AI/work/ML_3/2017-CCF-BDCI-AIJudge/data/input/stopwords.txt'

In [9]:
config.data_csv_path

'/Users/zhengwenjie/AI/work/ML_3/2017-CCF-BDCI-AIJudge/data/output/corpus/data.csv'

In [16]:
data_df.to_csv(config.data_csv_path,index=None) # 不保存索引列

In [19]:
print("train_data rows={},test_data rows={}".format(train_data_df.shape[0],test_data_df.shape[0]))

train_data rows=3,test_data rows=3
