## 统计类特征提取
该文本分类任务是预测案件金额类别，因此案件文本中出现的金额是重要的。于是，我使用正则表达式匹配出案件文本中出现的所有金额，然后对同一个案件中出现的所有金额进行统计，包括：求和、最小值、最大值、最大最小差值、平均值、标准差。

这里还可以做的事情有：

统计案件文本的词的数目 <br>
利用案件中的一些关键词做特征，例如：酒驾、毒品等 <br>
案件文本中出现的日期 <br>
案件文本中出现的地点 <br>

下面我们主要提取金额类的特征

In [1]:
import sys
sys.path.append("D:/ML_Study/2017-CCF-BDCI-AIJudge")
import re
import numpy as np
import pandas as pd
from config.db_config import Config
from utils import LOGGER
import codecs
config = Config()

In [2]:
def load_data(data_path):
    df_tr = []
    LOGGER.log('For train.txt:')
    for i, line in enumerate(codecs.open(data_path, encoding='utf-8')):
        if i % 1000 == 1:
            LOGGER.log('iter = %d' % i)
        segs = line.split('\t')
        row = {}
        row['id'] = segs[0]
        row['raw_content'] = segs[1].strip()
        df_tr.append(row)
    data_df = pd.DataFrame(df_tr)
    return data_df

In [3]:
train_df = load_data(config.train_data_path)
test_df = load_data(config.test_data_path)
df = pd.concat([train_df, test_df]).reset_index(drop=True)
df.head()

2019-03-27 14:36:41 For train.txt:
2019-03-27 14:36:41 iter = 1
2019-03-27 14:36:41 For train.txt:


Unnamed: 0,id,raw_content
0,16,公诉机关霍邱县人民检察院。被告人许某甲，男，1975年9月20日生。2012年12月17日因...
1,32,公诉机关海口市龙华区人民检察院。被告人王某乙。海口市龙华区人民检察院以海龙检公刑诉（2014...
2,41,公诉机关广东省潮州市人民检察院。被告人覃学彬（自报），男，1980年1月8日出生，广西壮族自...
3,57,原公诉机关榆林市榆阳区人民检察院。上诉人（原审被告人）高某某，2012年10月22日因涉嫌犯...
4,60,原公诉机关榆阳区人民检察院。上诉人（原审被告人）刘某，男，汉族，陕西省横山县，小学文化，货车...


In [38]:
amt_list = []
for i, rows in df.iterrows():
    if i % 1000 == 1:
        LOGGER.log('iter = %d' % i)
    id = rows["id"]
    raw_document = rows['raw_content']
    # 规则1
    row_amount_list = re.findall(u'(\d*\.?\d+)[元]', raw_document)
    for amount in row_amount_list:
        amt_list.append([id,float(amount)])
     # 规则2
    row_amount_list = re.findall(u'(\d*\.?\d+)[万元]', raw_document)
    for amount in row_amount_list:
        amt_list.append([id,float(amount)*10000])

2019-03-27 14:50:10 iter = 1


In [39]:
amt_df = pd.DataFrame(amt_list,columns=["id","amt"])
amt_df.head()

Unnamed: 0,id,amt
0,32,550.0
1,32,550.0
2,32,550.0
3,32,5500000.0
4,32,5500000.0


In [40]:
feat_amt = amt_df.groupby(by="id")['amt'].agg([sum,max,min,np.ptp,np.mean,np.std]).reset_index()
feat_amt.head()

Unnamed: 0,id,sum,max,min,ptp,mean,std
0,119,24752475.0,24750000.0,2475.0,24747525.0,12376240.0,17499140.0
1,121,25002500.0,25000000.0,2500.0,24997500.0,12501250.0,17675900.0
2,123,70007000.0,70000000.0,7000.0,69993000.0,35003500.0,49492520.0
3,128,20176017.4,20174000.0,2017.4,20171982.6,10088010.0,14263750.0
4,186,74520020.0,16797320.0,30000.0,16767320.0,1552500.0,3254616.0


In [41]:
feat_amt.dtypes

id       object
sum     float64
max     float64
min     float64
ptp     float64
mean    float64
std     float64
dtype: object

In [42]:
df.dtypes

id             object
raw_content    object
dtype: object

In [43]:
df_merge = df.merge(feat_amt,left_on='id',right_on='id',how='left')
df_merge.head()

Unnamed: 0,id,raw_content,sum,max,min,ptp,mean,std
0,16,公诉机关霍邱县人民检察院。被告人许某甲，男，1975年9月20日生。2012年12月17日因...,,,,,,
1,32,公诉机关海口市龙华区人民检察院。被告人王某乙。海口市龙华区人民检察院以海龙检公刑诉（2014...,16501650.0,5500000.0,550.0,5499450.0,2750275.0,3012173.0
2,41,公诉机关广东省潮州市人民检察院。被告人覃学彬（自报），男，1980年1月8日出生，广西壮族自...,,,,,,
3,57,原公诉机关榆林市榆阳区人民检察院。上诉人（原审被告人）高某某，2012年10月22日因涉嫌犯...,456045600.0,64000000.0,3800.0,63996200.0,25335870.0,27187460.0
4,60,原公诉机关榆阳区人民检察院。上诉人（原审被告人）刘某，男，汉族，陕西省横山县，小学文化，货车...,16119630000.0,3079929000.0,50.0,3079929000.0,154996500.0,396450600.0


In [44]:
df.shape

(100, 2)

In [45]:
df_merge.shape

(100, 8)

In [66]:
feat_amt_result = df_merge.drop(columns=['id','raw_content'],axis=1)
feat_amt_result=feat_amt_result.fillna(0)
feat_amt_result.columns = ['amt_{0}'.format(col) for col in feat_amt_result.columns]
feat_amt_result.head()

Unnamed: 0,amt_sum,amt_max,amt_min,amt_ptp,amt_mean,amt_std
0,0.0,0.0,0.0,0.0,0.0,0.0
1,16501650.0,5500000.0,550.0,5499450.0,2750275.0,3012173.0
2,0.0,0.0,0.0,0.0,0.0,0.0
3,456045600.0,64000000.0,3800.0,63996200.0,25335870.0,27187460.0
4,16119630000.0,3079929000.0,50.0,3079929000.0,154996500.0,396450600.0


In [67]:
feat_amt_result.dtypes

amt_sum     float64
amt_max     float64
amt_min     float64
amt_ptp     float64
amt_mean    float64
amt_std     float64
dtype: object

In [68]:
config.feat_amt = "D:/ML_Study/2017-CCF-BDCI-AIJudge/data/output/feature/amt/amt_21w.csv"
feat_amt_result.to_csv(config.feat_amt,index=None)

In [69]:
float('%.2f' %(1561.466667))

1561.47