# (1) use sed -r '/^\s*$/d' sv.txt > nonempty_sv.txt

# (2) use split4parts to split nonempty_sv.txt to 4 parts for processing due to PC host mem constraint

# (3) run thru the following SVfilter.py 4 times to process the data to the cleaned folder 
#### example syntax 
#### python SVfilter.py --input_dir SV_CC100_part_aaad --output_dir ./cleaned/SV_CC100_Part4.txt --num_cpu 8

In [None]:
%%writefile SVfilter.py
import sys
import multiprocessing
import os
from multiprocessing import Pool,cpu_count
import nltk
sent_tokenizer = nltk.tokenize.PunktSentenceTokenizer()
import argparse

def cut(sentence):
    sents=sent_tokenizer.tokenize(sentence)
    sents=[s for s in sents if len(s)>1]
    if len(sents)>2: # we filter only more than 2 sentences in each doc
        return ''.join(sents)
    else:
        return ''

def main(args):
    num_cpus_to_use=int(args.num_cpu)
    lines=[]
    with open(args.input_dir, 'r', errors='ignore') as f:
        for k, line in enumerate(f, 1):
            line=line.replace('~','')
            line=line.replace('…','')
            line=line.strip()
            if not line:
                continue
            else:
                if len(line)>0 and line not in ['\n','','\r\n','\t',' ']:
                    lines.append(line)
                    k+=1
    print("Finish reading the file with number of non_empty lines ", str(k))
    # 创建进程池
    pool = Pool(num_cpus_to_use)
    data = pool.imap(cut,lines, 512)
    i=0
    outfile = open(args.output_dir, 'a')
    for i,dat in enumerate(data):
        if len(dat) >0:
            #print(i,dat,type(dat))
            outfile.write(dat+'\n')
        if i%1000000==0:
            print("processed {} million lines ...\n".format(str(i/1000000)))
            print("sample dat at i",i, dat)
    print("processing finished !")
    f.close()
    outfile.close()
    
if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--input_dir', default=None, type=str,  help='input file path')
    parser.add_argument('--output_dir', default=None, type=str, 
                        help='output file path')
    parser.add_argument('--num_cpu', default=48, type=int, 
                        help='number of cpus used for multiprocesing')
    args = parser.parse_args()
    main(args)






In [14]:
import nltk
from nltk.tokenize import sent_tokenize
text="Efter en intensiv helg med ridlektionsjobb och sånguppträdande, mycket intryck och människor tar jag en lugn dag hemma idag. Blir ju alltid lite dagen-efter efter sånt här, huvudvärk, kan typ sova ett dygn, yr och muskelvärk.Helgen har trots sin intensitet varit väldigt väldigt fin.\nFått umgås med familjen och min älskade sambo.En fin vistelse på hotell osv.Milla har fått vara hos våra vänner Malin och Theo och levt livet - där bor nämligen också hennes bästishund Twix.Min hjärna blir ju extremt trött av intryck så tycker lite synd om stackars Martin när det blir såna här intensiva helger.Jag blir liksom helt slut efteråt mentalt och fysiskt.Som ett skal,\n och grubblig och ledsen.Hjärnan kokar över.Men känns skönt att det blir bättre och bättre hela tiden."
i=0
print("original text : \n ")
print(text)
print("---"*20)
sents=sent_tokenize(text)
print("split into sentence : \n")
for sent in sents:
    print("sentence {} : {} \n".format(str(i), sent))
    i+=1

original text : 
 
Efter en intensiv helg med ridlektionsjobb och sånguppträdande, mycket intryck och människor tar jag en lugn dag hemma idag. Blir ju alltid lite dagen-efter efter sånt här, huvudvärk, kan typ sova ett dygn, yr och muskelvärk.Helgen har trots sin intensitet varit väldigt väldigt fin.
Fått umgås med familjen och min älskade sambo.En fin vistelse på hotell osv.Milla har fått vara hos våra vänner Malin och Theo och levt livet - där bor nämligen också hennes bästishund Twix.Min hjärna blir ju extremt trött av intryck så tycker lite synd om stackars Martin när det blir såna här intensiva helger.Jag blir liksom helt slut efteråt mentalt och fysiskt.Som ett skal,
 och grubblig och ledsen.Hjärnan kokar över.Men känns skönt att det blir bättre och bättre hela tiden.
------------------------------------------------------------
split into sentence : 

sentence 0 : Efter en intensiv helg med ridlektionsjobb och sånguppträdande, mycket intryck och människor tar jag en lugn dag hem

# (4) run the train tokenizer script for the following pretrained tokenizer
### BPE with vocab size 16k/32k and 48k, 
#### note the 16k BPE does not do a good job, seperting the tokenize into individual characters ... 
### WordPiece with vocab size 16k/32k/48k 


# (5) run preprocessing script for both GPT ( original ) and Bert ( preprocessSVdata.py ) and use 32k to start with 
### do NOT use the multiprocessing, it will blow up the system mem and kill job or has broken pipe error 

In [1]:
from megatron.tokenizer.tokenizer import build_debug
vocab_f='/workspace/SVdata/bpe/32k/vocab.json'
merge_f='/workspace/SVdata/bpe/32k/merges.txt'
sv_tokenizer=build_debug(vocab_f,merge_f, tokenizer_type='bpe')


In [9]:
for sent in sents:
    ids=sv_tokenizer.tokenize(sent)
    toks=sv_tokenizer.decode_token_ids(toks)
    print("sentence :{} \n ".format(sent))
    for tok, idx in zip(toks,ids):
        print("id : {} , tok:{} \n".format(idx, tok))
    print("---"*10)

sentence :Efter en intensiv helg med ridlektionsjobb och sånguppträdande, mycket intryck och människor tar jag en lugn dag hemma idag. 
 
id : 17371 , tok:Min 

id : 16439 , tok:hjärna 

id : 25936 , tok:blir 

id : 18870 , tok:ju 

id : 16475 , tok:extrem 

id : 19897 , tok:tt 

id : 16540 , tok:rött 

id : 21782 , tok:av 

id : 17100 , tok:intryck 

id : 16455 , tok:så 

id : 19745 , tok:tycker 

id : 16531 , tok:lite 

id : 25729 , tok:syn 

id : 46 , tok:dom 

id : 16719 , tok:stackars 

id : 23500 , tok:Mart 

id : 16455 , tok:inn 

id : 17072 , tok:är 

id : 18481 , tok:det 

id : 16440 , tok:blir 

id : 16506 , tok:såna 

id : 16439 , tok:här 

id : 18902 , tok:intensiva 

id : 16549 , tok:helger 

id : 17558 , tok:. 

id : 17113 , tok:Jag 

id : 48 , tok:blir 

------------------------------
sentence :Blir ju alltid lite dagen-efter efter sånt här, huvudvärk, kan typ sova ett dygn, yr och muskelvärk.Helgen har trots sin intensitet varit väldigt väldigt fin. 
 
id : 22323 , tok: