In [1]:
import sys
sys.path.append('..')

import pandas as pd
import numpy as np
from utils import *
import nlpcda
import os

from typing import List, Dict

Simbert不能正常使用，除非你安装：bert4keras、tensorflow ，为了安装快捷，没有默认安装.... No module named 'bert4keras'


In [7]:
class DataAugmentation:
    def __init__(self, configs:Dict[str, dict]) -> None:
        self.entity_swap, self.random_del, self.random_swap = None, None, None

        if 'random_entity' in configs.keys():
            self.entity_swap_p = configs['random_entity'].pop('prop')
            self.entity_swap = nlpcda.Similarword(**(configs['random_entity']))
        if 'random_delete_char' in configs.keys():
            self.random_del_p = configs['random_delete_char'].pop('prop')
            self.random_del = nlpcda.RandomDeleteChar(**(configs['random_delete_char']))
        if 'random_swap' in configs.keys():
            self.random_swap_p = configs['random_swap'].pop('prop')
            self.random_swap = nlpcda.Similarword(**(configs['random_swap']))

    def aug(self, df_full:pd.DataFrame, permute=True, seed=1024) -> pd.DataFrame:
        df = df_full[df_full.label == 1]
        df_neg = df_full[df_full.label == 0]

        L = len(df)
        if self.entity_swap:
            augmented_df = self.aug_single(df, L, self.entity_swap_p, self.entity_swap)
        if self.random_del:
            augmented_df = self.aug_single(augmented_df, L, self.random_del_p, self.random_del)
        if self.random_swap:
            augmented_df = self.aug_single(augmented_df, L, self.random_swap_p, self.random_swap)

        augmented_df = pd.concat((df_neg, augmented_df))
        # ----------------------------------------------
        with pd.option_context('display.max_rows', None, 'display.max_columns', None, ):
            pd.options.display.max_colwidth = 100
            display(augmented_df[-200:])
        # ----------------------------------------------
        if permute:
            augmented_df = augmented_df.sample(frac=1, random_state=seed).reset_index(drop=True)
        return augmented_df

    def aug_single(self, df:pd.DataFrame, L:int, p:float, tool) -> pd.DataFrame:
        """input L: original df length. Avoid augmentation on newly constructed data. """
        idx = np.random.choice(range(L), size=int(L*p))
        slice_df = df.iloc[idx]
        label, text = slice_df[['label', 'text']].values.T
        transformed_slice_df = self.get_transformed_df(slice_df, tool)
        augmented_df = pd.concat((df, transformed_slice_df))
        return augmented_df

    def text_seq_transform(self, tool, texts:List[str]) -> List[str]:
        out = []
        for text in texts:
            transformed_text = tool.replace(text)[-1]
            out.append(transformed_text)
        return np.array(out)
    
    def get_transformed_df(self, slice_df:pd.DataFrame, tool) -> pd.DataFrame:
        label, text = slice_df[['label', 'text']].values.T
        transformed_text = self.text_seq_transform(tool, text)
        # display(text[:10])
        # display(transformed_text[:10])
        transformed_slice_df = slice_df.drop(columns=['text']).copy(deep=True)
        transformed_slice_df['text'] = transformed_text
        return transformed_slice_df
        

In [3]:
np.random.seed(1024)
rnd_idx = np.random.choice(range(1, 43001), size=10000)

train_df = pd.read_csv('../data-org/train.csv', sep='\t')
train_df_slice = pd.read_csv('../data-org/train.csv', sep='\t').iloc[rnd_idx]

train_df.drop(columns=['id'], inplace=True)
train_df_slice.drop(columns=['id'], inplace=True)

In [8]:
entities_file = os.path.join("D:\Apps\Anaconda3\envs\general-torch\Lib\site-packages", "nlpcda\data\entities.txt")

da_configs = {
    'random_entity':{
        'base_file':entities_file, 
        'create_num':2, 
        'change_rate':0.75, 
        'seed':1024, 
        'prop':0.5,  
    }, 
    'random_delete_char':{
        'create_num':2, 
        'change_rate':0.05, 
        'seed':1024, 
        'prop':0.3, 
    }, 
    'random_swap':{
        'create_num':2, 
        'change_rate':0.75, 
        'seed':1024, 
        'prop':0.5, 
    }
}

da = DataAugmentation(da_configs)
train_df_aug = da.aug(train_df)
train_df_slice_aug = da.aug(train_df_slice)

ntf()


load :D:\Apps\Anaconda3\envs\general-torch\Lib\site-packages\nlpcda\data\entities.txt done
load :d:\Apps\Anaconda3\envs\general-torch\lib\site-packages\nlpcda\data\同义词.txt done


Unnamed: 0,label,text
122,1,校园跳蚤市场开张时，操场上平均距离一米左右就有一个摊档。
32581,1,赤潮已成为世界性的一种公害，很多地区和国家发生都很累次。
31336,1,人教版《语文》白话诗单元摘记了毛泽东的《沁园春?长沙》是一首旧诗词。
25142,1,水下滑翔机这种行时的水下机器人可以对特定溟开展精确大范围的水体观，能够有效扩展海洋环境的空间和时间测量密度．
17721,1,迈克尔•肯纳经心地操纵相机，他非徒设想争呈现风月，更思量如何捕捉风物；他不仅仅追寻历史的源，更聚焦今昔的天人关系。
33202,1,一个强国的鼓鼓过程，必然是雄国民发觉休息的过程，是中华民族信心百倍、自豪感、内聚力都空前有所增强的时日。
12660,1,吴健雄的敬业精神博得了应当的回报：她被誉为美国物理学界的女中豪杰和美国物理学会主席。
13688,1,是因为传经授道的作品是一脉相传广、震慑大的神品，加上教授者声情并茂、旁征博引的私魅力，《百家讲坛》受了广大观众的好评如潮，并捧红了数以十万计师。
36299,1,由冯小刚执导的《唐山大地震》在短短几周时间里就得到了5个亿的票房获益，其中标的必不可缺原因是出于叙说了一个修复被撕碎的亲情的振奋人心故事所致。
30198,1,丁俊晖入读上海交通大学，将使他的交锋水平和思意志有较大增进，我们亲信他的前程更加明朗。


Unnamed: 0,label,text
31504,1,经过两天的心事重重工作，长征七号火箭所有构件16日下午安如泰山运抵海南文昌航天发射场。本国新建成的航天发射场发出职分头条进全面实施阶段。
34166,1,现时片段几童读物盈盈鼓吹不廉、急功近利甚至是淫秽暴力，唯独没一个机关明确地表示对于负起监管事，实际上堪忧。
17415,1,教育在综合国力的朝秦暮楚中地处幼功地位，国力的强弱一发多地在于生产者素质的提高，有赖各类人才培养的质量和数目。
37650,1,在通往学校的这条道上，是一条煞陡的路。
32885,1,圣彼得堡恍若北极圈，是因为每天晚上十二点钟日光还在上苍，使我们每天在那里的登临时间都能增加好几个钟头。
32585,1,关于《摔跤吧，爸》，恍如简单的励志故事，实际深地映现出印度社会的切实题目。
28683,1,成都市规划局、市发改委等部门提出了恒河沙数设计新举措，前进了“东进”、“西控”、“南拓”、“北改”、“中优”差异化开拓进取的新蓝图。
32396,1,树懒是一种哺乳动物，外形略像猴，头小而圆，毛粗而长，耳朵小，漏子短，灰褐色，毛上常下绿藻，很像树皮。
3836,1,此地的漫无止境村民，在实践了规模经营随后，经了一年的酣战，食粮和草棉的产量，都逾越了历史峨品位。
28321,1,近几年，易中天因做客中央电视台“百家讲坛”，在民间的影响本固枝荣，因此常被履约到好些高等学校刊登演讲，受学生迎接。


In [6]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None, ):
    pd.options.display.max_colwidth = 100
    display(train_df_slice_aug)

Unnamed: 0,label,text
0,1,近年来，我国在异域开展了形式多样的华语教学、华语放大等文化交流活动，力促了国文国际扩散，在社会风气重在国家和市越受欢迎。
1,1,消费者建议，对一次性餐具要采取措施，从流通、生产到消费各个环节进行全程监管，从而保证其质量合格，使用安全。
2,1,大学自主招生制度是对现有高考制度的一个有益补充，也为一些有创新潜质与学科特长的考生创设了一个绿色通道，通过让他们自主招生的方式进入心仪的大学。
3,1,课堂发言是否流利，还取决于可以熟练运用即席讲话的技巧。
4,1,教育部表示，各地要力争经过3到5年的努力，使义务教育阶段择校乱收费不再成为群众反映强烈的问题。这是官方首次明确解决义务教育阶段择校乱收费的时间表。
5,1,《金陵十三钗》随着上映票房的攀升，出品人张伟平在底气越来越足的同时，说话也越来越谨慎。
6,1,各地要联合教育部门，要求中小学校重视食品安全，加强中小学生的食品安全教育和健康饮食教育，增强食品安全食品辨识能力。
7,1,英国制订严密的安保卫措施，升级安全警戒级别，并掀腾大大方方警察沾手有惊无险保卫工作的原因，是出于担心布什访英里头发生恐怖袭击。
8,1,每个人都在自己的生命中，孤独地过冬。这个贫寒一生的人，对我的一小炉火来说，显然是杯水车薪。
9,1,为了查寻、搜集当年日本鬼子野蛮残害中国人生命的证据，他踏遍了北国的山川河流，走访了数以千计的见证人。


In [11]:
for path in ['../data-aug-large', '../data-aug-mini']:
    if not os.path.exists(path):
        os.makedirs(path)
train_df_aug.to_csv('../data-aug-large/train.csv', sep='\t')
train_df_slice_aug.to_csv('../data-aug-mini/train.csv', sep='\t')

In [12]:
i = 37223
train_df_aug.iloc[i:i+50]

Unnamed: 0,label,text
37223,1,咱们约定在明天上半晌或午后缓的流年里去新华书店买几本参考书。
37224,1,作为目前国内尺度最大的反腐剧，《人民的名义》大量采用商业局的叙事手法，主要包括美剧式情节结构、英剧式的故事节奏、日式悬疑剧的悬念推理方法等构成。
37225,1,吸烟产生的烟雾中含有几百种对人体有害的化学物质，这些物质使机体发生病变，会引发心血管、肺癌等严重疾病。
37226,1,当嫦娥一号顺利度过地月转移变轨之后，11月5日能否成功实施首次近月制动，降低飞行速度，以使卫星能被月球引力捕获，成为决定嫦娥一号飞行任务成功的最大关键。
37227,1,茅于轼强调，我们虽然一直以来受都劳动创造财富，但在市场经济下，交换才是财富产生的途径，每一次交换都把一个物品从低提升到高价格，交换使其物尽其用。
37228,1,前瞻到2022年，我国的博物院总量将超过八千座以上。
37229,1,2010年春晚人气最旺的当属解散多年又重聚的小虎队。“小虎队”这个演唱组合的名字，对80后的年轻人，是再熟悉不过的了，那是他们青春岁月所无法抹去的集体记忆。
37230,1,毋庸置疑，原生态的东西有精华也有糟粕，必须具体分析，辩证看待，因此，王冰认为赵亮关于原生态艺术的那篇文章有错误的观点是值得商榷的。
37231,0,“十一”黄金周，不但让人无法闲适出游，而且让人身心疲惫，一些群众戏称黄金周俨然已经成为“黄金粥”。
37232,1,我们得把课本上的习题要全部彻底地做完弄懂。


In [34]:
len(train_df_aug[train_df_aug.label == 0]) / len(train_df_aug[train_df_aug.label == 1])

0.24324095620901207

# Generate entity vocab

In [None]:
def postprocess_ds(outputs:List[List[dict]]):
    entity_vocab = {}
    for output in outputs:
        if output:
            sentence_vocab = postprocess_sentence(output)
            for k, v in sentence_vocab.items():
                if k in entity_vocab.keys():
                    entity_vocab[k].extend(v)
                else:
                    entity_vocab[k] = v
    return entity_vocab


def postprocess_sentence(ner_outputs:List[dict]):
    entity_vocab = {}
    if ner_outputs == []:
        return

    current = ''
    for out in ner_outputs:
        if out['entity'][0] == 'B':
            if current:
                if category in entity_vocab.keys() and current not in entity_vocab[category]:
                    entity_vocab[category].append(current)
                else:
                    entity_vocab[category] = [current]
                current = ''
            category = out['entity'][2:]
            current += out['word']
        if out['entity'][0] == 'I':
            if not current:
                continue
            current += out['word']
    if current:
        if category in entity_vocab.keys() and current not in entity_vocab[category]:
            entity_vocab[category].append(current)
        else:
            entity_vocab[category] = [current]
    return entity_vocab