# 本文件说明
- 读取数据、预处理数据

# 基本设置

In [13]:
import xlrd

%matplotlib inline
import numpy as np
import pandas as pd
from toolkits.nlp import pre_cor_circ
from toolkits.nlp import pre_cor_cbrc
from toolkits.setup.specific_func import contain_ch, set_ch_pd
set_ch_pd()
from sklearn import metrics

import warnings
warnings.filterwarnings('ignore')

In [14]:
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## 一些函数

In [15]:
def predict_right(folder, file_list):
    '''预测正确数据'''
    right_data = pd.DataFrame()
    for file_name in file_list:
        currentPath  = '{0}/{1}'.format(folder, file_name)
        excel = xlrd.open_workbook(currentPath)
        sheet_names = [sheet.name for sheet in excel.sheets()]
        for sheet_name in sheet_names:    
            tmp_data = pd.read_excel(currentPath, sheet_name)
    #         tmp_data = tmp_data[tmp_data['R_W'] == 'Right']
            print('去空值前： ', tmp_data.shape, file_name, sheet_name)
#             tmp_data = tmp_data[tmp_data['备注'] != '删除']
    #         tmp_data = tmp_data.dropna(subset = ['raw_title'], axis = 0)
#             print('去空值后： ', tmp_data.shape, file_name, sheet_name)
            right_data = pd.concat([right_data, tmp_data], axis = 0)    
    return right_data

In [16]:
def correct_wrong_data(folder, file_list):
    '''预测错误修正后数据'''
    correct_wrong_data = pd.DataFrame()
    for file_name in file_list:
        currentPath  = '{0}/{1}'.format(folder, file_name)
        excel = xlrd.open_workbook(currentPath)
        sheet_names = [sheet.name for sheet in excel.sheets()]
        for sheet_name in sheet_names:    
            tmp_data = pd.read_excel(currentPath, sheet_name)
    #         tmp_data = tmp_data[tmp_data['R_W'] == 'Wrong']
            print('去删除前： ', tmp_data.shape, file_name, sheet_name)
            tmp_data = tmp_data[tmp_data['备注'] != '删除']
    #         tmp_data = tmp_data.dropna(subset = ['raw_title'], axis = 0)
            print('去删除后： ', tmp_data.shape, file_name, sheet_name)

            tmp_data['人工判断'] = tmp_data.apply(lambda x:1 if x['label'] == x['备注'] else 0, axis = 1)
            tmp_data['算法判断'] = tmp_data.apply(lambda x:1 if x['predict_label'] == x['备注'] else 0, axis = 1)
            print('人工误判率： %0.2f'%(1 - tmp_data['人工判断'].sum() / tmp_data.shape[0]),
                  '算法误判率： %0.2f'%(1 - tmp_data['算法判断'].sum() / tmp_data.shape[0]))
            print()

            correct_wrong_data = pd.concat([correct_wrong_data, tmp_data], axis = 0)
    return correct_wrong_data

In [17]:
def get_new_data(folder, file_list):
    '''新补充数据'''
    new_data = pd.DataFrame()
    for file_name in file_list:
        currentPath  = '{0}/{1}'.format(folder, file_name)
        excel = xlrd.open_workbook(currentPath)
        sheet_names = [sheet.name for sheet in excel.sheets()]
        for sheet_name in sheet_names:    
            tmp_data = pd.read_excel(currentPath, sheet_name)
            print(tmp_data.columns)
            tmp_data = tmp_data[['label', 'title', 'content']]
            print('去空值前： ', tmp_data.shape, file_name, sheet_name)
            tmp_data = tmp_data.dropna(subset = ['label'], axis = 0)
            print('去空值后： ', tmp_data.shape, file_name, sheet_name)
            new_data = pd.concat([new_data, tmp_data], axis = 0)    
    return new_data

In [18]:
def get_PR_plot_data(feedback_data, date, plot_data):
    y_pred_class = feedback_data[feedback_data['date'] == date]['predict_label'].tolist()
    y_test = feedback_data[feedback_data['date'] == date]['label'].tolist()
    print('accuracy_score: ', metrics.accuracy_score(y_test, y_pred_class)) # 指所有分类正确的百分比
    print(metrics.classification_report(y_test, y_pred_class))
    print('confusion_matrix: ')
    print( metrics.confusion_matrix(y_test, y_pred_class))
    print()       
    
    classification_report = metrics.classification_report(y_test, y_pred_class)
    lines = classification_report.split('\n')
    # plot_data = []
    for index, line in enumerate(lines[2 : len(lines)]):
        t = line.strip().split()
        if len(t) < 2: continue    
        if (index + 2) < (len(lines) - 2):
            t = [float(v) if i > 0 else v for i, v in enumerate(t)]
            plot_data.append(t + [date])
        else :
            t = [float(v) if i > 2 else v for i, v in enumerate(t) ]
            plot_data.append(['avg/total'] + t[3:] + [date])    
            
    return plot_data

In [19]:
def get_feedback_data(folder, file_list):
    '''模型预测后反馈数据'''
    feedback_data = pd.DataFrame()
    label_list = []
    sum_list = []
    right_list = []
    plot_data = []
    for file_name in file_list:
        print('  ----    ', file_name)
        date = file_name.split('_')[0]
        currentPath  = '{0}/{1}'.format(folder, file_name)
        excel = xlrd.open_workbook(currentPath)
        sheet_names = [sheet.name for sheet in excel.sheets()]
        for sheet_name in sheet_names:   
            tmp_data = pd.read_excel(currentPath, sheet_name)    
            tmp_data = tmp_data[tmp_data['label'] != '删除']
            tmp_data_1 = tmp_data[tmp_data['label'] == sheet_name]

            label_list.append(sheet_name)
            sum_list.append(tmp_data.shape[0])
            right_list.append(tmp_data_1.shape[0])
            print('类别：', sheet_name, '总数：', tmp_data.shape[0], 
                  '正确数', tmp_data_1.shape[0], 
                  '正确比例', tmp_data_1.shape[0]/tmp_data.shape[0])
            
            if 'predict_label' in tmp_data_1.columns:
                tmp_data_1 = tmp_data[['predict_label', 'label', 'title', 'content']]
            else :
                tmp_data_1 = tmp_data[['label', 'title', 'content']]
                if contain_ch(sheet_name) :
                    tmp_data_1['predict_label'] = sheet_name
                else :
                    tmp_data_1['predict_label'] = ''
                
            tmp_data_1['date'] = date
            print('去空值前： ', tmp_data_1.shape, file_name, sheet_name)
            tmp_data_1 = tmp_data_1.dropna(subset = ['label'], axis = 0)
            print('去空值后： ', tmp_data_1.shape, file_name, sheet_name)
            feedback_data = pd.concat([feedback_data, tmp_data_1], axis = 0)
            print() 
                        
        plot_data = get_PR_plot_data(feedback_data, date, plot_data) 
            
    PR_data = feedback_data[['date', 'predict_label', 'label']]
    feedback_data = feedback_data.drop('date', axis = 1)
    feedback_data = feedback_data.drop('predict_label', axis = 1)
    PR_plot_data  = pd.DataFrame(plot_data, columns = ['label', 'precision', 'recall', 
                                                    'f1-score', 'support', 'date'])     
    
    return feedback_data, PR_data, PR_plot_data

In [20]:
def pre_save(pre_func, data, save_folder):
    print(data.shape)
    print('save_folder: ', save_folder)
    
    titles = pre_func(data['title'].tolist())
    print('title num: ', len(titles))
    save_filename = save_folder + 'corpus/titles.txt'
    fid = open(save_filename, "w+", encoding='UTF-8')
    for line in titles:
        fid.write(line + '\n')
    fid.close()  
    
#     print(len(data['content'].tolist()))
    contents = pre_func(data['content'].tolist())
    print('content num: ', len(contents))
    print(contents[0])
    # contents = [re.sub(r'[a-z]*', '', x) for x in contents]
    # print(len(contents))
    # print(contents[:2])
    coprus_save_filename = save_folder + 'corpus/contents.txt'
    f = open(coprus_save_filename, "w+", encoding='UTF-8')
    for line in contents:
        f.write(line + '\n')
    f.close()    

    label = data['label'].tolist()
    print('label num: ', len(label))
    coprus_save_filename = save_folder + 'corpus/labels.txt'
    f = open(coprus_save_filename, "w+", encoding='UTF-8')
    for line in label:
        f.write(str(line) + '\n')
    f.close()

    data.to_excel(save_folder + 'corpus/title_content_label.xlsx', index = False)
    

# 西藏教育厅：1 八分类

## 读取数据

In [21]:
folder = 'cor_data/20181118'

### 预测正确数据

In [22]:
# file_list_1 = ['circ_class_sel_else_20180827.xlsx',]
# circ_raw_class_1 = predict_right(folder, file_list_1)

# circ_raw_class_1['label'] = circ_raw_class_1['label'].apply(lambda x:x.strip())    
# circ_raw_class_1 = circ_raw_class_1[['label', 'raw_title', 'raw_content']]
# circ_raw_class_1.columns = ['label', 'title', 'content']
# print('总数：', circ_raw_class_1.shape)
# circ_raw_class_1.head()

In [23]:
# circ_raw_class_1['label'].value_counts()

### 预测错误修正后数据

In [24]:
# file_list_2 = ['circ_class_sel_20180827-1.xlsx','circ_class_sel_20180827-2.xlsx']

# circ_raw_class_2 = correct_wrong_data(folder, file_list_2)
# circ_raw_class_2['label'] = circ_raw_class_2['label'].apply(lambda x:x.strip())  
# circ_raw_class_2 = circ_raw_class_2[['备注', 'raw_title', 'raw_content']]
# circ_raw_class_2.columns = ['label', 'title', 'content']
# print('总数：', circ_raw_class_2.shape)
# circ_raw_class_2.head()

In [25]:
# circ_raw_class_2['label'].value_counts()

### 新补充数据

In [28]:
file_list_3 = ['20181118西藏教育.xlsx'
               ] # 多个 sheet

circ_raw_class_3 = get_new_data(folder, file_list_3)

# circ_raw_class_3['label'] = circ_raw_class_3['label'].apply(lambda x:x.strip())    
print('总数：', circ_raw_class_3.shape)
circ_raw_class_3.head()

Index(['label', 'title', 'content'], dtype='object')
去空值前：  (938, 3) 20181118西藏教育.xlsx Sheet1
去空值后：  (938, 3) 20181118西藏教育.xlsx Sheet1
总数： (938, 3)


Unnamed: 0,label,title,content
0,0,校友焦念勇 | 医者仁心援藏路,"北京市第八批援藏医疗队员,来到我们即将工作、生活的地方-—拉萨市尼木县人民医院,机场外我们受到了北京援藏指挥部及拉萨市领导的热情迎接,我们不仅感受到了政府和医院领导对我们新一批援藏队员无微不至的关怀和重视,为期一年的援藏工作即将开始了,还有即将结束援藏任务的第二期老队员,作为北京市第八批第三期援藏医疗队队员的我们就此踏上了西藏这片神奇的土地,医者仁心援藏路 焦念勇,也见证了老一批援藏队员在这一年中做出的成绩,始终以尼木县人民医院"
1,0,5个贫困村的一抹“税务蓝”,"区国税局第七批驻谢通门县仁钦则乡工作队为5名贫困群众提供了厨师工作岗位,并由区国税局第七批驻谢通门县仁钦则乡工作队和村,区国税局第七批驻谢通门县仁钦则乡工作队和村,自治区国税局第七批驻村工作队于2018年1月3日正式入驻谢通门县仁钦则乡5个贫困村,驻村工作队自筹资金91600元对229个贫困家庭进行了慰问,区国税局第七批驻谢通门县仁钦则乡工作队开展了, 西藏自治区国税局第七批驻谢通门县仁钦则乡工作队队员们不仅把驻村工作作为重要政治任务,区国税局第七批驻谢通门县仁钦则乡工作队总队长珠加说,永不走的驻村工作队,区国税局第七批驻谢通门县仁钦则乡工作队立即成立了临时党支部"
2,0,实探鼓楼滨江丨全方位完胜！120万起网红餐饮铺将加推,"①中海桃源印巷②世茂外滩茂悦里③恒大滨江④证大阅公馆⑤中冶盛世滨江,1、全鼓楼滨江唯一能做餐饮的、目前可售的只有世茂外滩茂悦里,世茂外滩·茂悦里 鼓楼熟铺,△茂悦里商业6效果图 看点 03 鼓楼滨江唯一一家能买到、可做餐饮的商铺 核心卖点越多得分越高,世茂外滩茂悦里商业6即将加推,中冶(4-6万/㎡)＞中海(5万/㎡)＞证大、恒大(4万/㎡)＞世茂(不到4万/㎡),2、世茂外滩茂悦里、证大阅公馆及中冶盛世滨江都可以坐享校区经济,2、就总价而言最低的是世茂外滩茂悦里,有3组客户在看外滩茂悦里的商铺,世茂外滩茂悦里即将加推商业6 案场到访越多得分越高"
3,0,全球首创！这款“庐阳制造”让火灾报警变预警！,"我们便着手研发电气火灾预警探测器,可以精准预警电气火灾,是电气火灾,电气火灾到底有多可怕,67%的重特大火灾也是因为电气造成,目前国内火灾起因30%是因为电气造成,该产品传感器的精度是报警器的6-8个数量值,而目前全世界针对电气引发的火灾采取的都是安装火灾报警器,庐阳区IE果园一入驻企业成功研发了超前预警型电气火灾物联网探测器,一旦发生电气火灾 切记先断电"
4,0,文化馨香飘雅砻 ——改革开放40年山南文化事业发展成就综述,"打造雅砻文化品牌,积极打造雅砻文化品牌 乃东县民族哗叽手工编织专业合作社创建的,山南大力实施文化精品工程,为雅砻文化繁荣发展添砖加瓦 山南具有深厚的文化底蕴,山南市还积极打造特色文化活动品牌,举办中国西藏雅砻文化节、吐蕃文化旅游节,我市把文化惠民工程作为全市,全市文化类企业发展到1010户,文化品牌,山南坚持把文化基础设施建设作为健全公共文化服务体系最基础的工作"


In [29]:
circ_raw_class_3['label'].value_counts()

0    616
1    322
Name: label, dtype: int64

### 模型预测后反馈数据

In [30]:
# file_list_4 = ['20180904_circ_class_feedback.xlsx', '20180905_circ_class_feedback.xlsx',
#                '20180912_circ_class_feedback.xlsx','20180920_circ_class_feedback.xlsx',
#                '20180925_circ_class_feedback.xlsx', '20181008_circ_class_feedback.xlsx',
#                '20181019_circ_class_feedback.xlsx', '20181112_circ_class_feedback.xlsx'
#               ] # 多个 sheet

# circ_raw_class_4, PR_data, PR_plot_data = get_feedback_data(folder, file_list_4)

# circ_raw_class_4['label'] = circ_raw_class_4['label'].apply(lambda x:x.strip())    
# print('总数：', circ_raw_class_4.shape)
# circ_raw_class_4.head()

In [31]:
# circ_raw_class_4['label'].value_counts()

#### PR

In [32]:
# y_pred_class = PR_data['predict_label'].tolist()
# y_test = PR_data['label'].tolist()
# print('accuracy_score: ', metrics.accuracy_score(y_test, y_pred_class)) # 指所有分类正确的百分比
# print(metrics.classification_report(y_test, y_pred_class))
# print('confusion_matrix: ')
# print( metrics.confusion_matrix(y_test, y_pred_class))
# # PR_data.head()

In [33]:
# PR_plot_data
# PR_plot_data = PR_plot_data.reset_index('date')

In [34]:
# PR_plot_data[PR_plot_data['label'] == 'avg/total'][[ 'date', 'precision', 'recall' ,'f1-score']].plot(x = 'date')
# PR_plot_data[PR_plot_data['label'] == 'avg/total']

In [35]:
# P_data = PR_plot_data[PR_plot_data['label'] != 'avg/total'][ ['date', 'label', 'precision']]
# P_data.set_index(['date','label']).unstack('label').plot(figsize = (15,6))
# P_data.set_index(['date','label']).unstack('label')

In [36]:
# P_data = PR_plot_data[PR_plot_data['label'] != 'avg/total'][ ['date', 'label', 'recall']]
# P_data.set_index(['date','label']).unstack('label').plot(figsize = (15,6))
# P_data.set_index(['date','label']).unstack('label')

In [37]:
# P_data = PR_plot_data[PR_plot_data['label'] != 'avg/total'][ ['date', 'label', 'f1-score']]
# P_data.set_index(['date','label']).unstack('label').plot(figsize = (15,6))
# P_data.set_index(['date','label']).unstack('label')

### 补录与预警数据

In [38]:
# file_list_5 = ['20180917_circ_class_feedback.xlsx'
#               ] 
# add_warn_data = pd.DataFrame()
# for file_name in file_list_5:
#     currentPath  = '{0}/{1}'.format(folder, file_name)
#     excel = xlrd.open_workbook(currentPath)
#     sheet_names = [sheet.name for sheet in excel.sheets()]
#     for sheet_name in sheet_names:   
#         tmp_data = pd.read_excel(currentPath, sheet_name)    
#         tmp_data = tmp_data[tmp_data['label'] != '删除']
#         add_warn_data = pd.concat([add_warn_data, tmp_data], axis = 0)

# circ_raw_class_5 = add_warn_data[['label', 'title', 'content']]

In [39]:
# from sklearn import metrics

# y_pred_class = add_warn_data['predict_label']
# y_test = add_warn_data['label']
# print('accuracy_score: ', metrics.accuracy_score(y_test, y_pred_class)) # 指所有分类正确的百分比
# print(metrics.classification_report(y_test, y_pred_class))
# print('confusion_matrix: ')
# print( metrics.confusion_matrix(y_test, y_pred_class))

In [40]:
# circ_raw_class_5['label'].value_counts()

## 合并数据

In [77]:
# file_list_4 = ['20181019_circ_class_feedback.xlsx'] # 多个 sheet
# circ_raw_class_4, PR_data, PR_plot_data = get_feedback_data(folder, file_list_4)
# circ_raw_class_4['label'] = circ_raw_class_4['label'].apply(lambda x:x.strip())    
# print('总数：', circ_raw_class_4.shape)
# circ_raw_class_4.head()

In [42]:
# circ_raw_class = pd.concat([circ_raw_class_1, circ_raw_class_2,
#                           circ_raw_class_3, circ_raw_class_4,
#                            circ_raw_class_5], 
#                          axis = 0)

circ_raw_class = circ_raw_class_3
circ_raw_class['title_content'] = circ_raw_class['title'].astype(str) + '。' + circ_raw_class['content'].astype(str)
# circ_raw_class['label'] = circ_raw_class['label'].apply(lambda x:x.strip())
circ_raw_class['index'] = range(circ_raw_class.shape[0])
print('去重前： ', circ_raw_class.shape)
circ_raw_class = circ_raw_class.drop_duplicates(subset = 'title_content')
print('去重后： ', circ_raw_class.shape)
circ_raw_class.head()

去重前：  (938, 5)
去重后：  (938, 5)


Unnamed: 0,label,title,content,title_content,index
0,0,校友焦念勇 | 医者仁心援藏路,"北京市第八批援藏医疗队员,来到我们即将工作、生活的地方-—拉萨市尼木县人民医院,机场外我们受到了北京援藏指挥部及拉萨市领导的热情迎接,我们不仅感受到了政府和医院领导对我们新一批援藏队员无微不至的关怀和重视,为期一年的援藏工作即将开始了,还有即将结束援藏任务的第二期老队员,作为北京市第八批第三期援藏医疗队队员的我们就此踏上了西藏这片神奇的土地,医者仁心援藏路 焦念勇,也见证了老一批援藏队员在这一年中做出的成绩,始终以尼木县人民医院","校友焦念勇 | 医者仁心援藏路。北京市第八批援藏医疗队员,来到我们即将工作、生活的地方-—拉萨市尼木县人民医院,机场外我们受到了北京援藏指挥部及拉萨市领导的热情迎接,我们不仅感受到了政府和医院领导对我们新一批援藏队员无微不至的关怀和重视,为期一年的援藏工作即将开始了,还有即将结束援藏任务的第二期老队员,作为北京市第八批第三期援藏医疗队队员的我们就此踏上了西藏这片神奇的土地,医者仁心援藏路 焦念勇,也见证了老一批援藏队员在这一年中做出的成绩,始终以尼木县人民医院",0
1,0,5个贫困村的一抹“税务蓝”,"区国税局第七批驻谢通门县仁钦则乡工作队为5名贫困群众提供了厨师工作岗位,并由区国税局第七批驻谢通门县仁钦则乡工作队和村,区国税局第七批驻谢通门县仁钦则乡工作队和村,自治区国税局第七批驻村工作队于2018年1月3日正式入驻谢通门县仁钦则乡5个贫困村,驻村工作队自筹资金91600元对229个贫困家庭进行了慰问,区国税局第七批驻谢通门县仁钦则乡工作队开展了, 西藏自治区国税局第七批驻谢通门县仁钦则乡工作队队员们不仅把驻村工作作为重要政治任务,区国税局第七批驻谢通门县仁钦则乡工作队总队长珠加说,永不走的驻村工作队,区国税局第七批驻谢通门县仁钦则乡工作队立即成立了临时党支部","5个贫困村的一抹“税务蓝”。区国税局第七批驻谢通门县仁钦则乡工作队为5名贫困群众提供了厨师工作岗位,并由区国税局第七批驻谢通门县仁钦则乡工作队和村,区国税局第七批驻谢通门县仁钦则乡工作队和村,自治区国税局第七批驻村工作队于2018年1月3日正式入驻谢通门县仁钦则乡5个贫困村,驻村工作队自筹资金91600元对229个贫困家庭进行了慰问,区国税局第七批驻谢通门县仁钦则乡工作队开展了, 西藏自治区国税局第七批驻谢通门县仁钦则乡工作队队员们不仅把驻村工作作为重要政治任务,区国税局第七批驻谢通门县仁钦则乡工作队总队长珠加说,永不走的驻村工作队,区国税局第七批驻谢通门县仁钦则乡工作队立即成立了临时党支部",1
2,0,实探鼓楼滨江丨全方位完胜！120万起网红餐饮铺将加推,"①中海桃源印巷②世茂外滩茂悦里③恒大滨江④证大阅公馆⑤中冶盛世滨江,1、全鼓楼滨江唯一能做餐饮的、目前可售的只有世茂外滩茂悦里,世茂外滩·茂悦里 鼓楼熟铺,△茂悦里商业6效果图 看点 03 鼓楼滨江唯一一家能买到、可做餐饮的商铺 核心卖点越多得分越高,世茂外滩茂悦里商业6即将加推,中冶(4-6万/㎡)＞中海(5万/㎡)＞证大、恒大(4万/㎡)＞世茂(不到4万/㎡),2、世茂外滩茂悦里、证大阅公馆及中冶盛世滨江都可以坐享校区经济,2、就总价而言最低的是世茂外滩茂悦里,有3组客户在看外滩茂悦里的商铺,世茂外滩茂悦里即将加推商业6 案场到访越多得分越高","实探鼓楼滨江丨全方位完胜！120万起网红餐饮铺将加推。①中海桃源印巷②世茂外滩茂悦里③恒大滨江④证大阅公馆⑤中冶盛世滨江,1、全鼓楼滨江唯一能做餐饮的、目前可售的只有世茂外滩茂悦里,世茂外滩·茂悦里 鼓楼熟铺,△茂悦里商业6效果图 看点 03 鼓楼滨江唯一一家能买到、可做餐饮的商铺 核心卖点越多得分越高,世茂外滩茂悦里商业6即将加推,中冶(4-6万/㎡)＞中海(5万/㎡)＞证大、恒大(4万/㎡)＞世茂(不到4万/㎡),2、世茂外滩茂悦里、证大阅公馆及中冶盛世滨江都可以坐享校区经济,2、就总价而言最低的是世茂外滩茂悦里,有3组客户在看外滩茂悦里的商铺,世茂外滩茂悦里即将加推商业6 案场到访越多得分越高",2
3,0,全球首创！这款“庐阳制造”让火灾报警变预警！,"我们便着手研发电气火灾预警探测器,可以精准预警电气火灾,是电气火灾,电气火灾到底有多可怕,67%的重特大火灾也是因为电气造成,目前国内火灾起因30%是因为电气造成,该产品传感器的精度是报警器的6-8个数量值,而目前全世界针对电气引发的火灾采取的都是安装火灾报警器,庐阳区IE果园一入驻企业成功研发了超前预警型电气火灾物联网探测器,一旦发生电气火灾 切记先断电","全球首创！这款“庐阳制造”让火灾报警变预警！。我们便着手研发电气火灾预警探测器,可以精准预警电气火灾,是电气火灾,电气火灾到底有多可怕,67%的重特大火灾也是因为电气造成,目前国内火灾起因30%是因为电气造成,该产品传感器的精度是报警器的6-8个数量值,而目前全世界针对电气引发的火灾采取的都是安装火灾报警器,庐阳区IE果园一入驻企业成功研发了超前预警型电气火灾物联网探测器,一旦发生电气火灾 切记先断电",3
4,0,文化馨香飘雅砻 ——改革开放40年山南文化事业发展成就综述,"打造雅砻文化品牌,积极打造雅砻文化品牌 乃东县民族哗叽手工编织专业合作社创建的,山南大力实施文化精品工程,为雅砻文化繁荣发展添砖加瓦 山南具有深厚的文化底蕴,山南市还积极打造特色文化活动品牌,举办中国西藏雅砻文化节、吐蕃文化旅游节,我市把文化惠民工程作为全市,全市文化类企业发展到1010户,文化品牌,山南坚持把文化基础设施建设作为健全公共文化服务体系最基础的工作","文化馨香飘雅砻 ——改革开放40年山南文化事业发展成就综述。打造雅砻文化品牌,积极打造雅砻文化品牌 乃东县民族哗叽手工编织专业合作社创建的,山南大力实施文化精品工程,为雅砻文化繁荣发展添砖加瓦 山南具有深厚的文化底蕴,山南市还积极打造特色文化活动品牌,举办中国西藏雅砻文化节、吐蕃文化旅游节,我市把文化惠民工程作为全市,全市文化类企业发展到1010户,文化品牌,山南坚持把文化基础设施建设作为健全公共文化服务体系最基础的工作",4


In [43]:
print(circ_raw_class.shape)
circ_raw_class.groupby('label')['title'].count()

(938, 5)


label
0    616
1    322
Name: title, dtype: int64

## 预处理

In [45]:
save_folder = 'cor_result/'
pre_save(pre_cor_circ.handle_contents, circ_raw_class, save_folder)

(938, 5)
save_folder:  cor_result/
title num:  938
content num:  938
北京市 第八 批 援藏 医疗 队员 来到 工作 生活 地方 拉萨市 尼木县 医院 机场 外 北京 援藏 指挥部 拉萨市 领导 热情 迎接 感受 政府 医院 领导 新 一批 援藏 队员 无微不至 
label num:  938
