In [43]:
from __future__ import unicode_literals, print_function, division
from io import open
import unicodedata
import string
import re
import random
import numpy as np
import pandas as pd

import pickle
import jieba
import h5py

SOS_token = 0
EOS_token = 1
class Lang:
    def __init__(self, name):
        self.name = name
        self.word2index = {}
        self.word2count = {}
        self.index2word = {0: "SOS", 1: "EOS"}
        self.n_words = 2  # Count SOS and EOS

    #通过不断输入sentence（字符串的格式），构建词与下标的对应（词典），方便制作one-hot。
    def addSentence(self, sentence):
        for word in sentence.split(' '):
            self.addWord(word)

    def addWord(self, word):
        if word not in self.word2index:
            self.word2index[word] = self.n_words
            self.word2count[word] = 1
            self.index2word[self.n_words] = word
            self.n_words += 1
        else:
            self.word2count[word] += 1
            
    def save(self, path):
        with open(path,'wb') as f:
            pickle.dump([self.name,self.word2index, self.word2count, self.index2word, self.n_words],f)
    
    def load(self,path):
        with open(path,'rb') as f:
            name, self.word2index, self.word2count, self.index2word, self.n_words = pickle.load(f)
        if self.name != name:
            print('error: Name error------------------------------!')
##################################################################

def unicodeToAscii(s):
    return ''.join(
        c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn'
    )
def normalizeString(s):
    s = unicodeToAscii(s.lower().strip())
    s = re.sub(r"([.!?])", r" \1", s)
    s = re.sub(r"[^a-zA-Z.!?]+", r" ", s)
    return s

#lang1 = 'zh'  lang2 = 'en'
#默认英文到中文
def readTrainLangs(lang1, lang2, reverse=True,fenci = False):
    print("Reading lines...")

    zh_lines = open('../data/train.%s'% lang1, encoding='utf-8').read().strip().split('\n')
    zh_lines = zh_lines[0:20]  #for test
    zh_data_list = []
    if fenci:
        #jieba 分词
        for line in zh_lines:
            seg_line = jieba.cut(line,cut_all=False)
            #dic = [seg for seg in seg_line]
            dic = ' '.join(seg_line)
            zh_data_list.append(dic)
    else: #用空格按字分开
        for line in zh_lines:
            dic = ' '.join(line)
            zh_data_list.append(dic)

    en_lines = open('../data/train.%s'% lang2, encoding='utf-8').read().strip().split('\n')
    en_lines = en_lines[0:20]  #for test
    
    # Split every line into pairs and normalize
    #去掉一些标点符号
    en_data_list = [[normalizeString(s) for s in l.split('\t')] for l in en_lines]

    pairs = []
    if reverse:
        input_lang = Lang(lang2)
        output_lang = Lang(lang1)
        for en,zh in zip(en_data_list,zh_data_list):
            print(zh)
            pairs.append([en[0],zh])
    else:
        input_lang = Lang(lang1)
        output_lang = Lang(lang2)
        for en,zh in zip(en_data_list,zh_data_list):
            pairs.append([zh, en[0]])
            
    return input_lang, output_lang, pairs
##################################################

#这部分就是对数据进行处理的函数了，上面写的函数都会在这里被调用
#最后得到三个变量input_lang，output_lang分别是源语言和目标语言的类，包含它们各自的词典。
#pairs是一个列表，列表的元素是一个二元tuple，tuple里面的内容是一句源语言字符串，一句目标语言字符串。
def prepareData(lang1, lang2, reverse=True, fenci=False):
    input_lang, output_lang, pairs = readTrainLangs(lang1, lang2, reverse, fenci)
    print("Read %s sentence pairs" % len(pairs))
    print(pairs[0])
    #pairs = filterPairs(pairs)
    #print("Trimmed to %s sentence pairs" % len(pairs))
    print("Counting words...")
    for pair in pairs:
        input_lang.addSentence(pair[0])
        output_lang.addSentence(pair[1])
    print("Counted words:")
    print(input_lang.name, input_lang.n_words)
    print(output_lang.name, output_lang.n_words)
    return input_lang, output_lang, pairs


In [44]:
inputLang, outputLang, pairs = prepareData('zh','en')

Reading lines...
一 对 丹 顶 鹤 正 监 视 着 它 们 的 筑 巢 领 地
一 对 乌 鸦 飞 到 我 们 屋 顶 上 的 巢 里 ， 它 们 好 像 专 门 为 拉 木 而 来 的 。
一 对 乖 乖 仔 开 着 老 爸 的 车 子 。
一 对 九 ？ 一 对 九 你 就 全 下 注 了 ？
一 对 二 总 不 是 好 事 ，
一 对 二 ， 沃 克 传 给 波 顿 。
一 对 二 胜 。
一 对 五 。 一 对 五 。 胜 算 不 大 啊 。
一 对 五 年 没 见 过 的 姐 妹 一 场 激 烈 的 争 吵 ？
一 对 五 百 诶 。
一 对 五 胜 。
一 对 亲 密 的 美 国 兄 妹 ，
一 对 人 用 致 命 的 春 药 满 足 欲 望 。
一 对 什 么 ？
一 对 什 么 ？ 哥 们 儿 是 谁 ？
一 对 什 么 ， 我 并 不 知 道 ！
一 对 ？ 他 妈 的 什 么 意 思 ？
一 对 令 人 信 服 的 已 婚 夫 妇 。
一 对 伙 计 们 坐 在 战 场 上 。
一 对 住 在 别 墅 里 的 有 钱 夫 妇 ，
Read 20 sentence pairs
['a pair of red crowned cranes have staked out their nesting territory', b'\xe4\xb8\x80 \xe5\xaf\xb9 \xe4\xb8\xb9 \xe9\xa1\xb6 \xe9\xb9\xa4 \xe6\xad\xa3 \xe7\x9b\x91 \xe8\xa7\x86 \xe7\x9d\x80 \xe5\xae\x83 \xe4\xbb\xac \xe7\x9a\x84 \xe7\xad\x91 \xe5\xb7\xa2 \xe9\xa2\x86 \xe5\x9c\xb0']
Counting words...


TypeError: a bytes-like object is required, not 'str'

In [39]:
import numpy as np
tt = ['thishi sadif dsaf '.encode('utf-8'),'sdfeow dsf df dsf '.encode('utf-8')]
testpairs = np.array(pairs)
arr  = np.arange(100)
h5 = h5py.File('../data/test1.h5py','w')
t = h5.create_dataset('pairs',data=tt,dtype = 'S400')
h5.close()

In [40]:
h5.close()

ValueError: Not a file id (Not a file id)

In [21]:
import h5py
h5File=h5py.File('xxx.h5','w')
strList=['asas','asas','asas']  
h5File.create_dataset('xxx',(len(strList),1),'S10',strList)
 
h5File.close()  

TypeError: No conversion path for dtype: dtype('<U4')

In [20]:
h5File.close() 

In [26]:
inputLang.save('../data/test.pkl')

lang = Lang('en')
lang.load('../data/test.pkl')

print(lang.word2count)

print(outputLang.word2count)

In [21]:

pairs1 = {'我':1,'人':2}
pairs2 = [1,2,3,4]
pairs3 = 90

In [22]:
pickle_file = open('../data/test.pkl','wb')
pickle.dump([pairs1,pairs2,pairs3], pickle_file)
pickle_file.close()

In [23]:
f = open('../data/test.pkl','rb')
a1,a2,a3 = pickle.load(f)
print(a1,a2,a3)


{'人': 2, '我': 1} [1, 2, 3, 4] 90


In [None]:
import dataProcess as dp
pairs =  dp.readTrainLangs('zh','en')

Reading lines...


Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Dumping model to file cache /tmp/jieba.cache
Dump cache file failed.
Traceback (most recent call last):
  File "/data/liwb/anaconda3/lib/python3.5/site-packages/jieba/__init__.py", line 152, in initialize
    _replace_file(fpath, cache_file)
PermissionError: [Errno 1] Operation not permitted: '/tmp/tmpoz_v2tcn' -> '/tmp/jieba.cache'
Loading model cost 1.016 seconds.
Prefix dict has been built succesfully.


In [10]:
pickle_file = open('../data/train_pairs.pkl','rb')
pairs_pkl = pickle.load(pickle_file)

print(pairs_pkl['a'])

1


In [11]:
pairs_pkl[:10]

[[['一对', '丹顶鹤', '正', '监视', '着', '它们', '的', '筑巢', '领地'],
  'a pair of red crowned cranes have staked out their nesting territory'],
 [['一对',
   '乌鸦',
   '飞',
   '到',
   '我们',
   '屋顶',
   '上',
   '的',
   '巢里',
   '，',
   '它们',
   '好像',
   '专门',
   '为拉木',
   '而',
   '来',
   '的',
   '。'],
  'a pair of crows had come to nest on our roof as if they had come for lhamo .'],
 [['一对', '乖乖仔', '开着', '老爸', '的', '车子', '。'],
  'a couple of boys driving around in daddy s car .'],
 [['一对', '九', '？', '一对', '九', '你', '就', '全', '下注', '了', '？'],
  'a pair of nines ? you pushed in with a pair of nines ?'],
 [['一对二', '总', '不是', '好事', '，'], 'fighting two against one is never ideal '],
 [['一对二', '，', '沃克', '传给', '波顿', '。'],
  'it s a neat one two . walker to burton .'],
 [['一对二', '胜', '。'], 'deuces the winner .'],
 [['一对', '五', '。', '一对', '五', '。', '胜算', '不大', '啊', '。'],
  'five on one . five on one . yeah not the greatest odds .'],
 [['一对', '五年', '没见', '过', '的', '姐妹', '一场', '激烈', '的', '争吵', '？'],
  'an incred

In [1]:
import h5py