In [5]:
def generateInputWordFile(filename='/local-scratch/asa224/input'):
    """
    The function generates the word file, similar to the count_1w.txt file provided by Prof. Anoop
    
    The output of the file can be used to parse the characters, and is an input to the 
    generateTupleList() function as well. 
    
    INPUT: Input to this function is the training text file. 
    
    """
    with(open(filename, 'rb')) as f:
        word_file_1M = open('/local-scratch/input_word_file', 'wb')
        for line in f:
            line = unicode(line, 'utf-8')
            line = line.replace('\n', '')
            for word in line:
                word_file_1M.write(word.encode('utf-8') + '\t'.encode('utf-8') + str(0).encode('utf-8') +\
                                           '\n'.encode('utf-8'))
        f.close()
    word_file_1M.close()
    
    
def generateTupleList(filename='/local-scratch/asa224/word_file_1M'):
    """
    This function is similar to the above function in the sense that it assigns labels to each
    character in the training set. The function returns a list of tuples, in which each tuple
    contains a single character and its corresponding label. 
    
    INPUT: Input to this function is a WORD FILE generated by generateWordFile(filename) function. 
    
    Use this function in conjunction with nGramSequenceGenerator(labelledlist, n) to create a
    training set with constant sequence size, which does not require paddings. 
    """
    with(open(filename, 'rb')) as f:
        label = []
        for line in f:
            word, count = line.split('\t')

            # making sure the parsing is going fine
            assert int(count) == 0

            word = unicode(word, 'utf-8')
            if len(word) == 1:
                label.append((word[0], 3))
            else:
                for i, character in enumerate(word):
                    if i == 0: # this is the first letter
                        label.append((character, 0))
                    elif i == (len(word) - 1): # this is the last letter
                        label.append((character, 2))
                    else: # this is somewhere in the middle
                        label.append((character, 1))

        f.close()
        return label
    
def nGramSequenceGenerator(labelledlist, n):
    """
    Takes as input the label list of tuples generated by the code above. 
    The function generates sequence of size "n" from the given list. 
    """
    count = len(labelledlist)/n
    ngrammedlist = []
    for i in range(count):
        ngrammedlist.append( labelledlist[i*n : (i+1)*n])
    return ngrammedlist

In [4]:
generateInputWordFile(filename='/local-scratch/asa224/input')

In [6]:
tuples = generateTupleList(filename='/local-scratch/input_word_file')

In [8]:
final_input = nGramSequenceGenerator(tuples, n=10)

In [36]:
final_input

[[(u'\u6cd5', 3),
  (u'\u6b63', 3),
  (u'\u7814', 3),
  (u'\u7a76', 3),
  (u'\u4ece', 3),
  (u'\u6ce2', 3),
  (u'\u9ed1', 3),
  (u'\u64a4', 3),
  (u'\u519b', 3),
  (u'\u8ba1', 3)],
 [(u'\u5212', 3),
  (u'\u65b0', 3),
  (u'\u534e', 3),
  (u'\u793e', 3),
  (u'\u5df4', 3),
  (u'\u9ece', 3),
  (u'\uff19', 3),
  (u'\u6708', 3),
  (u'\uff11', 3),
  (u'\u65e5', 3)],
 [(u'\u7535', 3),
  (u'\uff08', 3),
  (u'\u8bb0', 3),
  (u'\u8005', 3),
  (u'\u5f20', 3),
  (u'\u6709', 3),
  (u'\u6d69', 3),
  (u'\uff09', 3),
  (u'\u6cd5', 3),
  (u'\u56fd', 3)],
 [(u'\u56fd', 3),
  (u'\u9632', 3),
  (u'\u90e8', 3),
  (u'\u957f', 3),
  (u'\u83b1', 3),
  (u'\u5965', 3),
  (u'\u5854', 3),
  (u'\u5c14', 3),
  (u'\uff11', 3),
  (u'\u65e5', 3)],
 [(u'\u8bf4', 3),
  (u'\uff0c', 3),
  (u'\u6cd5', 3),
  (u'\u56fd', 3),
  (u'\u6b63', 3),
  (u'\u5728', 3),
  (u'\u7814', 3),
  (u'\u7a76', 3),
  (u'\u4ece', 3),
  (u'\u6ce2', 3)],
 [(u'\u9ed1', 3),
  (u'\u64a4', 3),
  (u'\u519b', 3),
  (u'\u7684', 3),
  (u'\u8ba1', 3),
  (u'

Load the dictionaries

In [11]:
import cPickle as pickle
orig_dict = pickle.load( open( "orig_dict.p", "rb" ) )
ret_dict = pickle.load( open( "ret_dict.p", "rb" ) )

In [13]:
import numpy as np

In [14]:
x = [[]]
count = 0
for i in range(0, len(final_input)): # iterate over the whole dataset
    for j in range(0, len(final_input[i])): # iterate over the current sentence
        try:
            x[i].append(orig_dict[final_input[i][j][0]])
        except KeyError:
            x[i].append(np.random.choice(orig_dict.values()))
            count += 1
    x.append([])

[[19, 128, 353, 322, 320, 1300, 1065, 1016, 953, 116],
 [145, 180, 537, 211, 623, 2016, 2825, 217, 2304, 203],
 [339, 99, 551, 222, 612, 3, 1742, 104, 19, 83],
 [83, 633, 188, 120, 2256, 1452, 2045, 1189, 2304, 203],
 [114, 0, 19, 83, 128, 10, 353, 322, 320, 1300]]

4

In [17]:
from keras.models import load_model
model = load_model('/home/asa224/Desktop/students_less_asa224/Test Folder on Less/model_epoch3.h5')

In [32]:
out_file = open('./output_rnn', 'wb')
for seq in x[:-1]:
    pred_labels = model.predict_classes(np.array(seq).reshape(1,len(seq)))
    # get the class label
    
    for num in range(0, len(pred_labels)):
        char = seq[num]
        if pred_labels[0][num] >= 2:
            print('writing {}'.format(ret_dict[char].encode('utf-8')))
            out_file.write(ret_dict[char].encode('utf-8') + ' '.encode('utf-8'))
        else:
            out_file.write(ret_dict[char].encode('utf-8'))
    
#     out_file.write('\n'.encode('utf-8'))
    
out_file.close()

writing 法
writing 划
writing 国
writing 说
writing 尔
writing 记
writing 话
writing 的
writing ，
writing 莱
writing 国
writing 到
writing 是
writing 以
writing 队
writing 年
writing 来
writing 。
writing 盔
writing 。
writing 塞
writing 他
writing ）
writing 理
writing 军
writing 在
writing 国
writing 瓦
writing ，
writing 泰
writing 国
writing 华
writing 有
writing 关
writing ，
writing 来
writing 利
writing 一
writing 的
writing ，
writing 国
writing 国
writing 式
writing 人
writing 行
writing ：
writing 还
writing 国
writing ·
writing 友
writing 理
writing 将
writing 对
writing （
writing 二
writing 路
writing 共
writing 边
writing 约
writing 察
writing 约
writing ，
writing 口
writing 和
writing 月
writing 边
writing 三
writing ）
writing 华
writing 日
writing 晓
writing 两
writing 天
writing 件
writing 斯
writing 是
writing 府
writing 赠
writing 国
writing 两
writing 仪
writing 示
writing 平
writing 为
writing 件
writing 关
writing 这
writing 的
writing 两
writing 人
writing 。
writing 闻
writing （
writing 记
writing 届
writing 在
writing 的
writing 时
writing ，
writing 意


writing 据
writing 的
writing 、
writing 。
writing 有
writing 、
writing 名
writing 说
writing 而
writing 共
writing 赛
writing 名
writing ，
writing 他
writing 分
writing 期
writing 肥
writing 国
writing 三
writing 队
writing 日
writing 湖
writing 家
writing 。
writing 他
writing 一
writing 有
writing 去
writing 组
writing 占
writing 在
writing 定
writing 次
writing 二
writing 到
writing 月
writing 定
writing 队
writing 训
writing 战
writing 验
writing ，
writing 能
writing 心
writing 第
writing 在
writing 这
writing 好
writing 实
writing 华
writing 一
writing 届
writing 富
writing 》
writing 是
writing ·
writing 托
writing 。
writing 了
writing 曲
writing 们
writing 人
writing 又
writing 来
writing 赛
writing 种
writing 个
writing 是
writing 物
writing 。
writing 意
writing 泉
writing 的
writing 生
writing 头
writing 祥
writing 的
writing 卡
writing 图
writing 天
writing 上
writing 一
writing ”
writing 会
writing 加
writing 新
writing 国
writing 业
writing 新
writing 。
writing 洋
writing 的
writing 业
writing 。
writing 会
writing 人
writing 人
writing 人
writing 国
writing 赛


writing 的
writing 几
writing 由
writing 国
writing 人
writing 的
writing 体
writing 人
writing 的
writing 。
writing （
writing 国
writing 。
writing 智
writing 也
writing 有
writing 、
writing ，
writing 的
writing 力
writing 关
writing 体
writing 年
writing 人
writing 与
writing 系
writing 会
writing 与
writing ，
writing 了
writing 共
writing 活
writing 障
writing 国
writing 南
writing 步
writing 业
writing 助
writing 而
writing 业
writing 响
writing 体
writing 厚
writing 与
writing 有
writing 远
writing 击
writing 明
writing 金
writing 班
writing 夺
writing 。
writing 以
writing 赛
writing 、
writing 各
writing 人
writing 赛
writing 出
writing 颖
writing ，
writing 观
writing 下
writing 以
writing 了
writing 斯
writing 一
writing 洒
writing ８
writing 出
writing 名
writing 和
writing 人
writing 决
writing 金
writing 白
writing 金
writing 两
writing 在
writing 年
writing 手
writing 为
writing 赛
writing 赛
writing 腊
writing 名
writing 军
writing 分
writing 的
writing 。
writing 届
writing 得
writing 子
writing 的
writing 的
writing 排
writing 和
writing 以
writing 三
writing 了


writing 摘
writing 得
writing 个
writing 国
writing 为
writing 。
writing ）
writing 第
writing 国
writing 日
writing 多
writing 斯
writing 手
writing 旬
writing 场
writing 出
writing 个
writing 三
writing 汰
writing 二
writing 兰
writing 以
writing ：
writing 二
writing 庆
writing 号
writing 斯
writing 斯
writing 的
writing 的
writing 均
writing 另
writing 手
writing （
writing 二
writing 员
writing 和
writing 在
writing 育
writing ：
writing 和
writing 围
writing ，
writing 界
writing 使
writing 。
writing 体
writing 员
writing 了
writing 三
writing ”
writing 体
writing 对
writing 的
writing 是
writing 论
writing 会
writing 系
writing 。
writing 、
writing 国
writing 口
writing （
writing 请
writing 雅
writing 记
writing 的
writing 在
writing 师
writing 多
writing ，
writing 战
writing 前
writing 俊
writing 让
writing 别
writing 了
writing 律
writing 尼
writing 天
writing 球
writing 华
writing 据
writing 年
writing 赛
writing ，
writing 第
writing 国
writing 赛
writing 埃
writing 以
writing ：
writing ·
writing 的
writing 第
writing 国
writing 届
writing 种
writing 廷
writing 来


writing 球
writing 行
writing 金
writing 。
writing 赛
writing 柏
writing 者
writing 赛
writing 。
writing 名
writing 赛
writing 牌
writing ”
writing 。
writing 赛
writing 栏
writing 米
writing 金
writing 了
writing 斯
writing 尔
writing 赛
writing 的
writing 名
writing 。
writing 军
writing 约
writing 出
writing 界
writing 子
writing 绩
writing 在
writing 德
writing 以
writing 得
writing 埃
writing 手
writing 米
writing ，
writing 烈
writing ８
writing 一
writing 加
writing 默
writing 名
writing ·
writing 军
writing ·
writing 金
writing 为
writing 赛
writing 布
writing 绩
writing ，
writing 秒
writing 子
writing 次
writing 军
writing ８
writing 队
writing 金
writing 夺
writing 。
writing 第
writing 上
writing 洪
writing ，
writing 子
writing 麟
writing 、
writing ，
writing 分
writing ８
writing ，
writing 行
writing ，
writing 于
writing 国
writing 家
writing 远
writing ，
writing 也
writing 队
writing 平
writing ，
writing 子
writing ．
writing 得
writing 为
writing 国
writing 人
writing 日
writing 区
writing 会
writing 会
writing 向
writing 会
writing 。
writing 是


writing 体
writing 谊
writing ，
writing 和
writing ；
writing 闻
writing 有
writing 届
writing ，
writing 国
writing 会
writing 长
writing 国
writing 会
writing 多
writing 天
writing 新
writing ８
writing 村
writing 。
writing 各
writing 的
writing 富
writing 个
writing 氛
writing ，
writing 南
writing 会
writing 师
writing 平
writing 的
writing 午
writing 师
writing 日
writing 练
writing 下
writing 狩
writing 赛
writing 的
writing 员
writing 起
writing 为
writing 各
writing 展
writing ，
writing ，
writing 的
writing 的
writing 长
writing 体
writing 记
writing 序
writing 日
writing 的
writing 。
writing 飞
writing 后
writing 观
writing 日
writing ）
writing 育
writing ”
writing 太
writing 国
writing 京
writing 是
writing 、
writing 国
writing 业
writing 和
writing 和
writing 准
writing 生
writing ”
writing 穷
writing ，
writing 昌
writing 车
writing 的
writing 这
writing 上
writing 、
writing 个
writing 金
writing 、
writing 华
writing 对
writing 新
writing “
writing 国
writing 的
writing 赛
writing 手
writing 段
writing 日
writing 段
writing 取
writing 的
writing 段
writing 、


writing ，
writing 的
writing 但
writing ，
writing 国
writing 了
writing 次
writing 与
writing 棋
writing 两
writing 么
writing 的
writing 。
writing 万
writing 到
writing 队
writing 的
writing 京
writing 平
writing 组
writing 止
writing 会
writing 的
writing 并
writing 国
writing 度
writing 来
writing 甸
writing 所
writing 、
writing 斯
writing 、
writing 萨
writing 育
writing 日
writing 人
writing ，
writing 村
writing 赛
writing 第
writing 上
writing 得
writing 以
writing 分
writing 的
writing 。
writing 德
writing 分
writing 第
writing 斯
writing 明
writing 还
writing 对
writing 练
writing 赛
writing 。
writing 的
writing 米
writing 午
writing 军
writing 曾
writing （
writing 伏
writing 在
writing 日
writing 国
writing 伏
writing 在
writing 界
writing 米
writing 赛
writing 赛
writing 别
writing 和
writing 。
writing 第
writing 查
writing 午
writing 的
writing 是
writing 以
writing 队
writing 斯
writing 赛
writing （
writing 者
writing 字
writing 行
writing 是
writing 术
writing 作
writing 分
writing 所
writing 国
writing 订
writing 他
writing 证
writing 得
writing 务
writing 持


writing 化
writing 于
writing ”
writing 体
writing 业
writing 。
writing 族
writing 系
writing 弘
writing 国
writing 示
writing 术
writing 各
writing 。
writing 在
writing 术
writing 族
writing 馆
writing 和
writing 术
writing 术
writing 及
writing 光
writing 由
writing 合
writing 视
writing 。
writing 唁
writing 京
writing 民
writing 国
writing ·
writing 文
writing 尼
writing 略
writing 治
writing 起
writing 门
writing 新
writing 松
writing 系
writing 关
writing 我
writing 的
writing 关
writing 松
writing 的
writing 被
writing （
writing 名
writing 常
writing 博
writing 赛
writing 心
writing 式
writing 赛
writing 。
writing 说
writing 要
writing 刻
writing 人
writing 类
writing 会
writing 律
writing 为
writing 府
writing 区
writing 际
writing 个
writing 。
writing 前
writing 月
writing 、
writing 上
writing ，
writing 占
writing 台
writing 额
writing 。
writing 术
writing 利
writing 钱
writing 据
writing 对
writing 求
writing 快
writing 会
writing 上
writing ，
writing 和
writing 融
writing 了
writing 天
writing 台
writing ”
writing （
writing 华
writing 理


writing 识
writing 关
writing 的
writing 要
writing 民
writing 逝
writing 家
writing （
writing 笔
writing 月
writing 了
writing 于
writing 。
writing 外
writing 图
writing 与
writing 局
writing 为
writing 束
writing 还
writing 款
writing 、
writing 午
writing 由
writing 济
writing 会
writing 了
writing 钱
writing 天
writing 了
writing 尔
writing 加
writing 客
writing ，
writing 的
writing 展
writing 出
writing 国
writing 的
writing 等
writing 。
writing 够
writing 己
writing 与
writing 时
writing 京
writing 人
writing 国
writing 步
writing 早
writing 易
writing 国
writing 的
writing 务
writing 示
writing 示
writing 一
writing 近
writing 定
writing 国
writing 圭
writing 国
writing 友
writing 国
writing 的
writing 国
writing 合
writing 别
writing 济
writing 作
writing 信
writing 组
writing 。
writing 织
writing 为
writing 这
writing 作
writing 心
writing 入
writing 了
writing 一
writing 和
writing 治
writing 民
writing 记
writing 国
writing 会
writing 向
writing 员
writing 江
writing 会
writing 体
writing ，
writing 展
writing 实


writing 众
writing 民
writing 项
writing 和
writing 来
writing 新
writing 作
writing 泛
writing 了
writing 、
writing 云
writing 见
writing 务
writing 来
writing 一
writing 组
writing 是
writing 往
writing 他
writing 业
writing 望
writing 来
writing 的
writing 、
writing 展
writing 面
writing 三
writing 迎
writing 会
writing 为
writing 题
writing 实
writing 是
writing 的
writing ，
writing 展
writing 际
writing 到
writing ，
writing 。
writing 派
writing 口
writing 入
writing 的
writing 和
writing 与
writing 国
writing 定
writing 为
writing 了
writing 了
writing 权
writing ，
writing 生
writing 续
writing 济
writing 善
writing 的
writing 、
writing 、
writing 应
writing 况
writing 的
writing 的
writing 在
writing 济
writing 人
writing 约
writing ，
writing 国
writing 划
writing 口
writing 民
writing 后
writing 为
writing 与
writing 心
writing 来
writing 度
writing 在
writing 国
writing ，
writing 国
writing 制
writing 制
writing 导
writing 步
writing 制
writing 治
writing 长
writing 属
writing 人
writing 了
writing 年
writing 行
writing 说
writing 人
writing 国
writing 。
writing 员


writing 三
writing 瓦
writing 前
writing 天
writing 。
writing 赵
writing 见
writing 。
writing 席
writing 浦
writing （
writing 督
writing 月
writing 贯
writing 将
writing 合
writing 和
writing 再
writing 说
writing 在
writing 关
writing 层
writing 席
writing 说
writing 利
writing 题
writing 。
writing 是
writing 个
writing 两
writing 有
writing 和
writing 来
writing 合
writing 合
writing 来
writing 下
writing 过
writing 员
writing 取
writing 。
writing 门
writing 了
writing 此
writing 很
writing 门
writing 过
writing 利
writing 。
writing ，
writing 合
writing 能
writing 和
writing 国
writing 为
writing 门
writing 要
writing 和
writing 理
writing 行
writing 和
writing 平
writing 与
writing 定
writing 关
writing 出
writing 对
writing 行
writing 内
writing 的
writing 要
writing 施
writing 求
writing 新
writing 战
writing 治
writing 心
writing 对
writing 击
writing 业
writing 华
writing 伐
writing 化
writing 年
writing 额
writing 口
writing 的
writing 。
writing 口
writing 后
writing ，
writing 万
writing 术
writing 。
writing 的
writing 来
writing 变
writing 项
writing 国
writing 肥


writing 要
writing 界
writing 切
writing 日
writing 家
writing 持
writing 京
writing 为
writing 文
writing 。
writing 有
writing 观
writing 、
writing 外
writing 。
writing 、
writing 米
writing 的
writing 。
writing 行
writing 该
writing ，
writing 始
writing 多
writing 行
writing 国
writing ）
writing 束
writing 二
writing 人
writing 字
writing 行
writing 至
writing 步
writing 实
writing 会
writing 一
writing 实
writing 关
writing 权
writing 京
writing 据
writing 定
writing 步
writing 作
writing 一
writing 起
writing 知
writing 识
writing 权
writing 的
writing 口
writing 嫌
writing 物
writing 使
writing 法
writing 识
writing 合
writing 有
writing 以
writing 光
writing 版
writing 像
writing ；
writing 对
writing 由
writing 理
writing 所
writing 义
writing 法
writing 有
writing 权
writing ，
writing 利
writing 作
writing 有
writing 在
writing 以
writing 人
writing 物
writing 构
writing 责
writing 的
writing 民
writing 役
writing 一
writing 见
writing 兵
writing 要
writing 局
writing 视
writing 作
writing 国
writing ，
writing 党
writing ，
writing 和
writing 极
writing 要
writing ，


writing 要
writing ，
writing 后
writing 、
writing 的
writing 生
writing 示
writing 的
writing 国
writing 域
writing 示
writing 染
writing 快
writing 得
writing 三
writing 。
writing 的
writing 都
writing 宋
writing 徽
writing 人
writing 国
writing 、
writing 染
writing ，
writing 山
writing 民
writing 众
writing 。
writing 止
writing ，
writing 化
writing ，
writing 迟
writing 向
writing 。
writing 任
writing 别
writing 法
writing 要
writing 治
writing 、
writing ，
writing 义
writing 知
writing 炼
writing 和
writing 央
writing 括
writing 究
writing 。
writing 略
writing 度
writing 切
writing 实
writing 涛
writing 习
writing 的
writing ，
writing 场
writing ，
writing 识
writing 党
writing 在
writing 的
writing 和
writing ；
writing 党
writing 意
writing 三
writing 是
writing 分
writing 用
writing 系
writing ，
writing 标
writing 校
writing 去
writing 典
writing 宾
writing 。
writing 鲜
writing 理
writing 天
writing 朝
writing 国
writing 导
writing 。
writing 密
writing 的
writing ，
writing 的
writing 久
writing 果
writing 能
writing 断
writing 朝
writing 示
writing 半
writing 在


writing ，
writing 革
writing 新
writing 在
writing 括
writing 个
writing 在
writing 等
writing 。
writing 是
writing 力
writing 取
writing 是
writing 。
writing 断
writing 两
writing 为
writing 次
writing 业
writing 触
writing 持
writing 利
writing 斯
writing 理
writing 谢
writing 请
writing 对
writing 华
writing 一
writing 在
writing 的
writing 到
writing 华
writing 在
writing 就
writing 区
writing 说
writing 作
writing 将
writing ，
writing 、
writing 合
writing 油
writing 朗
writing 平
writing 会
writing 一
writing 行
writing 法
writing 定
writing 人
writing 定
writing 对
writing 天
writing 得
writing 会
writing 致
writing 度
writing 天
writing 定
writing 定
writing 国
writing 要
writing ，
writing 第
writing 织
writing 国
writing 决
writing 翁
writing 务
writing 治
writing 还
writing 在
writing 治
writing 常
writing 们
writing 《
writing 止
writing 意
writing 常
writing 港
writing 搞
writing 的
writing ，
writing 人
writing 力
writing 平
writing 心
writing 第
writing 会
writing 示
writing 决
writing 助
writing （
writing 营
writing 上
writing 员
writing 训
writing 才
writing 在


writing 三
writing 斯
writing 者
writing 队
writing 此
writing 用
writing 有
writing ８
writing ，
writing 的
writing 名
writing 心
writing 群
writing 的
writing 力
writing 多
writing 苏
writing 群
writing 别
writing 州
writing 国
writing 一
writing 长
writing 上
writing 速
writing 界
writing 关
writing 示
writing 业
writing 合
writing 从
writing 天
writing 著
writing —
writing 合
writing 瓦
writing 作
writing 万
writing 内
writing 气
writing 气
writing 午
writing 上
writing 区
writing 司
writing 限
writing 并
writing 邦
writing 朗
writing 放
writing 布
writing 到
writing 。
writing 会
writing 一
writing 京
writing 会
writing 岛
writing 会
writing 国
writing 字
writing 年
writing 所
writing 满
writing 前
writing 鲜
writing 在
writing 障
writing 于
writing 和
writing 案
writing 会
writing 朝
writing ，
writing 制
writing 的
writing 半
writing 家
writing 洲
writing 。
writing 各
writing 朝
writing ，
writing 军
writing 以
writing 止
writing 府
writing 。
writing 缓


In [33]:
out_file = open('./output_rnn', 'rb')

In [34]:
out_file.read()

'\xe6\xb3\x95 \xe5\x88\x92 \xe7\x94\xb5\xe5\x9b\xbd \xe8\xaf\xb4 \xe9\xbb\x91\xe5\xb0\x94 \xe8\xae\xb0 \xe8\xaf\x9d \xe8\xae\xae\xe8\xbf\x90\xe5\x8f\xaf\xe7\x9a\x84 \xef\xbc\x8c \xe5\xa4\xa7\xe8\x8e\xb1 \xe5\x9b\xbd \xe5\x88\xb0 \xe4\xb8\x8d\xe6\xad\xa6\xe6\x9c\xb1\xe8\xa7\xa3\xe6\x98\xaf \xe4\xbb\xa5 \xe9\x98\x9f \xe5\xb9\xb4 \xe6\x9d\xa5 \xe9\xa9\xbb\xe3\x80\x82 \xe7\x9b\x94 \xe3\x80\x82 \xef\xbc\x91\xe5\xa1\x9e \xe4\xb8\x8d\xe4\xbb\x96 \xe8\xae\xae\xe7\xa6\x81\xe9\x80\x9a\xe8\xb0\x8b\xe6\xb3\xa2\xef\xbc\x89 \xe7\x90\x86 \xe7\x94\xb5\xe5\x86\x9b \xe5\x9c\xa8 \xe5\x9b\xbd \xe7\x93\xa6 \xef\xbc\x8c \xe6\xb3\xb0 \xe4\xb9\x8b\xe5\x9b\xbd \xe5\x8d\x8e \xe6\x9c\x89 \xe5\x85\xb3 \xef\xbc\x8c \xe6\x9d\xa5 \xe9\xab\x98\xe5\x88\xa9 \xe4\xb8\x80 \xe7\x9a\x84 \xef\xbc\x8c \xe4\xb8\xbb\xe4\xb8\xad\xe5\x9b\xbd \xe9\xab\x98\xe6\xb8\x85\xe5\x9b\xbd \xe5\xbc\x8f \xe5\x8c\x88\xe9\xa6\x96\xe4\xb9\x9d\xe4\xba\xba \xe8\xa1\x8c \xef\xbc\x9a \xe9\x82\x80\xe7\xbb\x9f\xe4\xb9\x9d\xe4\xb8\xad\xe8\xbf\x98 \xe6

In [4]:
import numpy as np
def pad_sequences(sequences, maxlen=10, dtype='int32',
                  padding='pre', truncating='post', value=-1):
    
    if not hasattr(sequences, '__len__'):
        raise ValueError('`sequences` must be iterable.')
    lengths = []
    for x in sequences:
        if not hasattr(x, '__len__'):
            raise ValueError('`sequences` must be a list of iterables. '
                             'Found non-iterable: ' + str(x))
        lengths.append(len(x))

    num_samples = len(sequences)
    if maxlen is None:
        maxlen = np.max(lengths)

    # take the sample shape from the first non empty sequence
    # checking for consistency in the main loop below.
    sample_shape = tuple()
    for s in sequences:
        if len(s) > 0:
            sample_shape = np.asarray(s).shape[1:]
            break

    x = (np.ones((num_samples, maxlen) + sample_shape) * value).astype(dtype)
    for idx, s in enumerate(sequences):
        if not len(s):
            continue  # empty list/array was found
        if truncating == 'pre':
            trunc = s[-maxlen:]
        elif truncating == 'post':
            trunc = s[:maxlen]
        else:
            raise ValueError('Truncating type "%s" not understood' % truncating)

        # check `trunc` has expected shape
        trunc = np.asarray(trunc, dtype=dtype)
        if trunc.shape[1:] != sample_shape:
            raise ValueError('Shape of sample %s of sequence at position %s is different from expected shape %s' %
                             (trunc.shape[1:], idx, sample_shape))

        if padding == 'post':
            x[idx, :len(trunc)] = trunc
        elif padding == 'pre':
            x[idx, -len(trunc):] = trunc
        else:
            raise ValueError('Padding type "%s" not understood' % padding)
    return x


In [5]:
X = [[0,1,0,1,2], [1,2,4,0,0,1,2], [0,1,2]]
y = [[0,1],[0,0],[0,1],[0,1],[0,0]], [[0,1],[1,1],[0,0],[1,1],[0,0],[1,0],[0,1]], [[0,1],[1,1],[0,0]]

In [9]:
pad_sequences(X, maxlen=2, value=-1, truncating='pre')

array([[1, 2],
       [1, 2],
       [1, 2]], dtype=int32)

In [38]:
x = 'this is anmol sharma and ben'

y = [['this'], [' is '], ['anmo']]

splits = []
dlength = 4
# count = len(x) / 4
# for i in range(count):
#     splits.append(x[i*dlength : (i+1)*dlength])
q = x.split()

def label(word):
    wlen = len(word)
    assert(wlen)
    labels = []
    labels = [(word[0], 'B')]
    if len(word) > 1:
        for i in range(1, wlen-1):
            labels.append((word[i], 'M'))
        labels.append((word[wlen-1], 'E'))
    else:
        labels = [(word[0], 'S')]
    return labels
        
def labelsentence(wordlist):
    return [label(word) for word in wordlist]

def ngramlabel(labelledlist, n):
    # list of letter, label
    merged = []
    for l in labelledlist:
        merged += l
    count = len(merged)/n
    ngrammedlist = []
    for i in range(count):
        ngrammedlist.append( merged[i*n : (i+1)*n])
    return ngrammedlist    
    
    


In [39]:
q=labelsentence(x.split())
ngramlabel(q,2)



[[('t', 'B'), ('h', 'M')],
 [('i', 'M'), ('s', 'E')],
 [('i', 'B'), ('s', 'E')],
 [('a', 'B'), ('n', 'M')],
 [('m', 'M'), ('o', 'M')],
 [('l', 'E'), ('s', 'B')],
 [('h', 'M'), ('a', 'M')],
 [('r', 'M'), ('m', 'M')],
 [('a', 'E'), ('a', 'B')],
 [('n', 'M'), ('d', 'E')],
 [('b', 'B'), ('e', 'M')]]

In [40]:
q

[[('t', 'B'), ('h', 'M'), ('i', 'M'), ('s', 'E')],
 [('i', 'B'), ('s', 'E')],
 [('a', 'B'), ('n', 'M'), ('m', 'M'), ('o', 'M'), ('l', 'E')],
 [('s', 'B'), ('h', 'M'), ('a', 'M'), ('r', 'M'), ('m', 'M'), ('a', 'E')],
 [('a', 'B'), ('n', 'M'), ('d', 'E')],
 [('b', 'B'), ('e', 'M'), ('n', 'E')]]

In [55]:
# we open the count file, get the word and assign labels to each character
# cannot use dictionaries, since the same character may appear again and overwrites the value at its place in dict.
def generateTupleList(filename='/local-scratch/asa224/word_file_1M'):
    with(open(filename, 'rb')) as f:
        label = []
        for line in f:
            word, count = line.split('\t')

            # making sure the parsing is going fine
            assert int(count) == 0

            word = unicode(word, 'utf-8')
            if len(word) == 1:
                label.append((word[0], 3))
            else:
                for i, character in enumerate(word):
                    if i == 0: # this is the first letter
                        label.append((character, 0))
                    elif i == (len(word) - 1): # this is the last letter
                        label.append((character, 2))
                    else: # this is somewhere in the middle
                        label.append((character, 1))

        f.close()
        return label
    
def nGramSequenceGenerator(labelledlist, n):
    """
    Takes as input the label list of tuples generated by the code above. 
    The function generates sequence of size "n" from the given list. 
    """
    count = len(labelledlist)/n
    ngrammedlist = []
    for i in range(count):
        ngrammedlist.append( labelledlist[i*n : (i+1)*n])
    return ngrammedlist   

In [56]:
label

[(u'\u7531', 0),
 (u'\u4e8e', 2),
 (u'\u5927', 0),
 (u'\u9646', 2),
 (u'\u8d74', 3),
 (u'\u53f0', 3),
 (u'\u65c5', 0),
 (u'\u6e38', 2),
 (u'\u8003', 0),
 (u'\u5bdf', 2),
 (u'\u56e2', 3),
 (u'\u7684', 3),
 (u'\u884c', 0),
 (u'\u7a0b', 1),
 (u'\u5b89', 1),
 (u'\u6392', 2),
 (u'\u5341', 0),
 (u'\u5206', 2),
 (u'\u7d27', 0),
 (u'\u51d1', 2),
 (u'\uff0c', 3),
 (u'\u56e2', 0),
 (u'\u5458', 1),
 (u'\u4eec', 2),
 (u'\u66f4', 0),
 (u'\u591a', 1),
 (u'\u7684', 2),
 (u'\u65f6', 0),
 (u'\u5019', 2),
 (u'\u53ea', 3),
 (u'\u80fd', 3),
 (u'\u662f', 3),
 (u'\u5728', 3),
 (u'\u65c5', 0),
 (u'\u884c', 2),
 (u'\u8f66', 3),
 (u'\u4e0a', 3),
 (u'\u8d70', 0),
 (u'\u9a6c', 1),
 (u'\u89c2', 1),
 (u'\u82b1', 1),
 (u'\u5730', 2),
 (u'\u8003', 0),
 (u'\u5bdf', 2),
 (u'\u53f0', 0),
 (u'\u5317', 2),
 (u'\u5e02', 3),
 (u'\u5bb9', 3),
 (u'\uff0c', 3),
 (u'\u6240', 0),
 (u'\u4ee5', 2),
 (u'\u4eba', 0),
 (u'\u6c11', 1),
 (u'\u5e01', 2),
 (u'\u4e0a', 3),
 (u'\u5468', 0),
 (u'\u7684', 2),
 (u'\u8d2c', 0),
 (u'\u503c', 2

In [87]:
def nGramSequenceGenerator(labelledlist, n):
    count = len(labelledlist)/n
    ngrammedlist = []
    for i in range(count):
        ngrammedlist.append( labelledlist[i*n : (i+1)*n])
    return ngrammedlist   

In [88]:
nGramSequenceGenerator(label[0:10], n=2)

[[(u'\u7531', 0), (u'\u4e8e', 2)],
 [(u'\u5927', 0), (u'\u9646', 2)],
 [(u'\u8d74', 3), (u'\u53f0', 3)],
 [(u'\u65c5', 0), (u'\u6e38', 2)],
 [(u'\u8003', 0), (u'\u5bdf', 2)]]

In [89]:
nGramSequenceGenerator(label[0:12], n=3)

[[(u'\u7531', 0), (u'\u4e8e', 2), (u'\u5927', 0)],
 [(u'\u9646', 2), (u'\u8d74', 3), (u'\u53f0', 3)],
 [(u'\u65c5', 0), (u'\u6e38', 2), (u'\u8003', 0)],
 [(u'\u5bdf', 2), (u'\u56e2', 3), (u'\u7684', 3)]]