In [1]:
from multiprocessing import Pool
import os

def safe_readline(f):
    pos = f.tell()  # 
    while True:
        try:
            return f.readline()
        except UnicodeDecodeError:
            pos -= 1
            f.seek(pos) 


def async_tokenizer(filename, worker_id, num_workers):
#     print(f'worker_id = {worker_id}')
    with open(filename, 'r') as f:
        size = os.fstat(f.fileno()).st_size
        chunk_size = size // num_workers
        offset = worker_id * chunk_size
        end = offset + chunk_size
        f.seek(offset)
        if offset > 0:
            safe_readline(f)  # drop first incomplete line
        encoded = []
        line = f.readline()
        while line:
            print(f'word id {worker_id} line = {line}')
            encoded.append(line)
            if f.tell() > end:
                break
            line = f.readline()
        return encoded

    
def read_file(path, workers=4):
        encoded = []
        workers_thread = []
        pool = Pool(processes=workers)
        for i in range(workers):
            w = pool.apply_async(
                    async_tokenizer,
                    (
                        path,
                        i,
                        workers,
                    ),
                )
            workers_thread.append(w)
        pool.close()
        pool.join()
        for w in workers_thread:
            result = w.get()
            encoded += result
        return encoded
    
    
path = '../test_data/small.valid.txt'
results = read_file(path, 4)

word id 0 line = 2	标题	：	 0	[unused41]
word id 1 line = 6	夏沫歌闺蜜【万琳】	：	咳咳，都在啊？	[unused41]
word id 2 line = 6	夏沫歌闺蜜【万琳】	：	为什么不行	[unused41]
word id 3 line = 16	乔南辰	：	宝贝儿变成什么样都是我的心头肉	[unused41]




word id 0 line = 1	旁白	：	唐志承来了……	[unused41]
word id 2 line = 16	乔南辰	：	够了	[unused41]
word id 1 line = 3	乔逸晨哥们【唐志承】	：	吴梁，你打电话是什么情况啊	[unused41]
word id 3 line = 4	夏沫歌闺蜜【莫芸汐】	：	(翻白眼)乔南辰，你够了行不行？	[SEP]	我都想吐了	[unused41]



word id 0 line = 3	乔逸晨哥们【唐志承】	：	咳咳	[SEP]	晚上你们要干嘛去	[unused41]

word id 2 line = 17	夏玖晞	：	你们平静下	[unused41]
word id 1 line = 4	夏沫歌闺蜜【莫芸汐】	：	哈喽	[unused41]

word id 3 line = 16	乔南辰	：	吐呗！这些天你天天在微博跟鹿迪秀恩爱，这次该我们了	[unused41]


word id 0 line = 4	夏沫歌闺蜜【莫芸汐】	：	鹿迪没和你说？	[unused41]
word id 2 line = 3	乔逸晨哥们【唐志承】	：	鹿迪，你刚才说的是真的吗？	[unused41]

word id 1 line = 14	乔逸晨哥们【鹿迪】	：	抱歉来晚了	[unused41]

word id 3 line = 17	夏玖晞	：	哈哈哈	[unused41]


word id 0 line = 3	乔逸晨哥们【唐志承】	：	他和老大说了，没和我们说	[unused41]

word id 1 line = 6	夏沫歌闺蜜【万琳】	：	我们也刚到	[unused41]
word id 2 line = 14	乔逸晨哥们【鹿迪】	：	嗯？	[unused41]



word id 3 line = 7	

word id 3 line = 13	乔逸晨哥们【吴梁】	：	是啊	[unused41]

word id 1 line = 16	乔南辰	：	媳妇，你什么时候走？	[unused41]

word id 2 line = 16	乔南辰	：	五月二十	[unused41]


word id 1 line = 14	乔逸晨哥们【鹿迪】	：	走？	[SEP]	是什么意思？	[unused41]

word id 3 line = 1	旁白	：	在场的人目光转向林倩倩，就是想知道林倩倩是什么反应	[unused41]
word id 0 line = 5	【学姐】夏沫歌	：	[惊呆]……	[unused41]
word id 2 line = 6	夏沫歌闺蜜【万琳】	：	不如在墨墨的生日那天办婚礼吧？	[SEP]	也当是给他的生日礼物	[unused41]



word id 0 line = 7	夏沫歌闺蜜【林倩倩】	：	[惊呆]……	[unused41]

word id 3 line = 7	夏沫歌闺蜜【林倩倩】	：	你们看我干什么？	[SEP]	我脸上写着字？	[unused41]
word id 1 line = 17	夏玖晞	：	我去美国参加三年的设计师培训	[unused41]

word id 2 line = 17	夏玖晞	：	，这个礼物太重了	[unused41]



word id 0 line = 4	夏沫歌闺蜜【莫芸汐】	：	[惊呆]……	[unused41]
word id 2 line = 16	乔南辰	：	不重挺好	[unused41]
word id 1 line = 14	乔逸晨哥们【鹿迪】	：	哦哦	[unused41]



word id 0 line = 6	夏沫歌闺蜜【万琳】	：	你……你在胡说什么	[unused41]
word id 2 line = 14	乔逸晨哥们【鹿迪】	：	我也觉得挺好	[unused41]
word id 3 line = 6	夏沫歌闺蜜【万琳】	：	没……没有	[unused41]
word id 1 line = 6	夏沫歌闺蜜【万琳】	：	三年太长了吧？	[unused41]




word id 2 line = 4	夏沫歌闺蜜【莫芸汐】	：	就这样呗	[unused41]
wo



word id 0 line = 3	乔逸晨哥们【唐志承】	：	老师好	[unused41]
word id 2 line = 1	旁白	：	他们来到点心区，看见有个女孩红着脸向他们跑来了	[unused41]
word id 1 line = 13	乔逸晨哥们【吴梁】	：	切，你看着吧	[unused41]



word id 0 line = 4	夏沫歌闺蜜【莫芸汐】	：	老师好	[unused41]
word id 1 line = 7	夏沫歌闺蜜【林倩倩】	：	好，是你让我看的，你要是在三年以后没有成为大明星我第一个打死你	[unused41]


word id 0 line = 11	【同学段甜忻	：	老师好	[unused41]
word id 2 line = 19	苏诗梦	：	你脸好红哦	[unused41]
word id 1 line = 13	乔逸晨哥们【吴梁】	：	🙄	[SEP]	绝不会让你们失望的	[unused41]



word id 0 line = 4	夏沫歌闺蜜【莫芸汐】	：	老师好	[unused41]
word id 1 line = 6	夏沫歌闺蜜【万琳】	：	我们很期待哦	[unused41]


word id 0 line = 3	乔逸晨哥们【唐志承】	：	老师好	[unused41]
word id 2 line = 20	乔沐雨[南辰妹妹]	：	没有……那有	[unused41]

word id 1 line = 17	夏玖晞	：	那我们的孩子的干爹还是个明星呢	[unused41]


word id 2 line = 16	乔南辰	：	乔沐雨，这是怎么回事？	[unused41]
word id 0 line = 6	夏沫歌闺蜜【万琳】	：	老师好	[unused41]
word id 1 line = 16	乔南辰	：	说的也是	[unused41]


word id 1 line = 13	乔逸晨哥们【吴梁】	：	对对，如果我干儿子出世我一定要好好宠他	[unused41]

word id 0 line = 12	【许雅婷】	：	老师好	[unused41]

word id 2 line = 17	夏玖晞	：	沐雨，你怎么红成这样	[unused41]


word id 1 line =



word id 2 line = 21	凌夜轩	：	沐雨，我们去喝杯酒吧	[unused41]
word id 3 line = 13	慕尘哓	：	真的啊？	[unused41]
word id 1 line = 3	乔逸晨哥们【唐志承】	：	怎么了？叫我们什么事	[unused41]

word id 0 line = 16	乔南辰	：	咳，万琳	[unused41]

word id 2 line = 20	乔沐雨[南辰妹妹]	：	好	[unused41]
word id 1 line = 7	夏沫歌闺蜜【林倩倩】	：	什么事啊	[unused41]




word id 2 line = 16	乔南辰	：	你们少喝点	[unused41]
word id 0 line = 6	夏沫歌闺蜜【万琳】	：	学长你叫我？	[unused41]
word id 1 line = 6	夏沫歌闺蜜【万琳】	：	玖晞呢？	[unused41]


word id 2 line = 21	凌夜轩	：	你放心吧	[unused41]
word id 0 line = 16	乔南辰	：	出来一下	[unused41]

word id 1 line = 13	乔逸晨哥们【吴梁】	：	是啊，怎么不见大嫂	[unused41]



word id 0 line = 6	夏沫歌闺蜜【万琳】	：	哦好	[unused41]
word id 2 line = 16	乔南辰	：	就因为你，我才不放心	[unused41]
word id 3 line = 14	冷莫寒	：	就说嘛，我们家玖晞怎么会……	[unused41]
word id 1 line = 18	乔梓墨	：	妈咪走了。	[unused41]



word id 0 line = 1	旁白	：	乔逸晨和万琳走出了教室	[unused41]
word id 1 line = 14	乔逸晨哥们【鹿迪】	：	咳咳	[unused41]
word id 2 line = 3	乔逸晨哥们【唐志承】	：	老父亲的心情，你得理解一下凌兄	[unused41]




word id 1 line = 6	夏沫歌闺蜜【万琳】	：	什么意思？	[unused41]
word id 0 line = 6	夏沫歌闺蜜【万琳】	：	你们怎么在


word id 2 line = 17	夏玖晞	：	我给你示范一下好了	[unused41]

word id 0 line = 4	夏沫歌闺蜜【莫芸汐】	：	鹿迪什么事啊？	[unused41]


word id 1 line = 14	乔逸晨哥们【鹿迪】	：	那你的意思？	[unused41]

word id 2 line = 14	乔逸晨哥们【鹿迪】	：	嗯	[SEP]	那不如，你抱着孩子吧	[unused41]

word id 3 line = 18	乔梓墨	：	[看向乔南辰]嗯？	[unused41]
word id 0 line = 14	乔逸晨哥们【鹿迪】	：	问乔逸晨	[unused41]

word id 1 line = 7	夏沫歌闺蜜【林倩倩】	：	绝症咋样？	[unused41]


word id 2 line = 17	夏玖晞	：	[看向乔南辰]老公，要不你抱吧！	[unused41]
word id 1 line = 14	乔逸晨哥们【鹿迪】	：	噗	[SEP]	你想咒乔南辰啊？	[unused41]
word id 0 line = 17	夏玖晞	：	逸晨？	[unused41]




word id 2 line = 16	乔南辰	：	我？	[unused41]
word id 1 line = 7	夏沫歌闺蜜【林倩倩】	：	额	[unused41]

word id 0 line = 16	乔南辰	：	咳咳，我…不是一个普通的家庭，我的家庭很富有所以我一直在骗你们	[unused41]

word id 3 line = 3	乔南辰	：	奶奶她很喜欢你的，你妈妈说的是她就是很意外，毕竟三年了突然冒出个你自然多想了。慢慢的就会接受你的	[unused41]
word id 2 line = 6	夏沫歌闺蜜【万琳】	：	咳，我觉得也是 乔总不如你抱吧	[unused41]
word id 1 line = 4	夏沫歌闺蜜【莫芸汐】	：	那不如……车祸？	[unused41]




word id 0 line = 14	乔逸晨哥们【鹿迪】	：	乔逸晨是海城风都云公司董事长儿子……	[unused41]
word id 1 line = 3	乔逸晨哥们【唐志承】	：	呃呃呃	[unused41]
word id 2 line

word id 2 line = 17	夏玖晞	：	墨墨，你也跟你爸爸出去吧	[unused41]


word id 0 line = 6	夏沫歌闺蜜【万琳】	：	哈哈	[unused41]

word id 1 line = 17	夏玖晞	：	唐志承，其实我觉得一起办挺好啊！	[unused41]
word id 3 line = 1	旁白	：	慕黎城跟着他爸爸很快走进了医院，来到了病房门口	[unused41]
word id 2 line = 18	乔梓墨	：	哦	[unused41]



word id 1 line = 3	乔逸晨哥们【唐志承】	：	如果我们和鹿迪一起的话，那吴梁也加进来吗？	[unused41]
word id 3 line = 12	夏玖晞爸爸	：	哥	[unused41]


word id 1 line = 6	夏沫歌闺蜜【万琳】	：	……	[unused41]

word id 0 line = 4	夏沫歌闺蜜【莫芸汐】	：	我都看不下去了	[unused41]

word id 3 line = 22	慕炫昊	：	爸	[unused41]

word id 1 line = 16	乔南辰	：	不是，唐志承你怎么越说越离谱	[unused41]

word id 2 line = 6	夏沫歌闺蜜【万琳】	：	墨墨，走	[unused41]

word id 3 line = 13	慕尘哓	：	爸	[unused41]


word id 1 line = 17	夏玖晞	：	你放心吧！倩倩不会和你们一起结婚	[SEP]	人家有自己的决定	[unused41]
word id 0 line = 7	夏沫歌闺蜜【林倩倩】	：	老天爷始终不舍把这两人拆开	[unused41]
word id 2 line = 18	乔梓墨	：	嗯嗯	[unused41]

word id 3 line = 17	慕晴幻	：	爸爸	[unused41]

word id 1 line = 6	夏沫歌闺蜜【万琳】	：	再说了，和鹿迪芸汐一起办婚礼你会死啊？	[unused41]


word id 3 line = 4	慕熠凤	：	玖晞怎么样了？	[unused41]

word id 2 line = 1	旁白	：	···	[unused41]

wo

word id 0 line = 7	夏沫歌闺蜜【林倩倩】	：	吴梁，你叫我出来做什么？	[unused41]



word id 2 line = 16	乔南辰	：	嗯，我已经通知了，今天啊在家吃饭	[unused41]
word id 3 line = 22	慕炫昊	：	爸，我和我大哥一起	[unused41]


word id 3 line = 17	慕晴幻	：	我也想去	[unused41]
word id 2 line = 17	夏玖晞	：	行，听你的	[SEP]	老公，你觉得肚子里是两个男孩还是两个女孩？	[unused41]
word id 0 line = 13	乔逸晨哥们【吴梁】	：	我有事要宣布	[unused41]



word id 3 line = 4	慕熠凤	：	晴幻，你留下	[unused41]
word id 2 line = 16	乔南辰	：	两个女孩吧！	[SEP]	可别给我来儿子了，有墨墨就足够了	[unused41]

word id 0 line = 7	夏沫歌闺蜜【林倩倩】	：	您能有什么事？	[unused41]


word id 0 line = 13	乔逸晨哥们【吴梁】	：	咳咳，等大家来了再说	[unused41]
word id 2 line = 17	夏玖晞	：	儿子不好嘛	[unused41]


word id 0 line = 16	乔南辰	：	我们来了	[unused41]

word id 2 line = 16	乔南辰	：	不是不好，男孩太皮了	[unused41]
word id 0 line = 17	夏玖晞	：	倩倩，吴梁好久不见	[unused41]

word id 0 line = 7	夏沫歌闺蜜【林倩倩】	：	玖晞啊！好久不见	[unused41]


word id 0 line = 17	夏玖晞	：	嗯嗯	[unused41]
word id 2 line = 17	夏玖晞	：	噗	[unused41]

word id 3 line = 17	慕晴幻	：	我……	[unused41]
word id 0 line = 16	乔南辰	：	吴梁，你叫我们有事吗？	[unused41]



word id 2 line = 1	旁白	：	就在这个时候门铃响了。	[unused