## 新发现的各种好用API

### collections包中的defaultdict和Counter
* defaultdict: 构建较为复杂的dict的时候，传递一个value类型的参数，后面就不用通过判断key是否在dict中来决定是否需要初始化value了
* Counter:构造一个dict对象，可以直接传递要计数的类型的list调用update API，更新Counter
* 比如要计数一个iterable中各元素的出现频率，可以先构建一个Counter对象，然后直接把iterable对象传递给Counter即可

In [10]:
from collections import defaultdict, Counter
x = defaultdict(list)
for i in range(10):
    x[i].append(i)
print x
l = [i for i in range(10)]
l += [i for i in range(5)]
c = Counter()
c.update(l)
print c

defaultdict(<type 'list'>, {0: [0], 1: [1], 2: [2], 3: [3], 4: [4], 5: [5], 6: [6], 7: [7], 8: [8], 9: [9]})
Counter({0: 2, 1: 2, 2: 2, 3: 2, 4: 2, 5: 1, 6: 1, 7: 1, 8: 1, 9: 1})


### list的count函数和index函数
    
    * count可以计数指定元素x的出现次数
    * index可以直接得到指定元素第一次出现的index

In [11]:
l = [1, 2, 1]
print l.count(1)
print l.index(1)

2
0


---
### numpy的相关API
#### numpy的argxxx与xxx API的区别
* xxx(如`max`)：返回操作之后的元素（数组）
* argxxx(如`argmax`): 返回相同操作后元素的index

In [21]:
a = np.array([[2, 3, 4], [5, 6, 7]])
print np.max(a)
print np.argmax(a)

7
5


#### numpy访问二维数组

In [12]:
import numpy as np
x = np.random.randn(2, 3)
print x
print x[0, 1]

[[-1.63098092  0.76165386 -1.3502081 ]
 [-0.61473232 -1.5517797  -0.81745985]]
0.761653860978


---
### filter的应用
1. 定义一个过滤函数f，返回一个bool值，表示元素是否被保留
2. filter函数返回一个迭代器

In [13]:
a = [10, 10, 5]
def f(x):
    return x == 10
b = [x for x in filter(f, a)]
print b

[10, 10]


---
### random中用于抽样的关键API的应用

In [14]:
import random
l = [1, 2, 3, 5, 9]
res = random.choice(l)
print res
sample = random.sample(l, 5)
# 不放回抽样！这个API真是太好用了！
# 之前写的很臭的专门用于抽样的代码可以重构了！
print sample

1
[3, 5, 9, 1, 2]


In [15]:
import numpy as np
a = 26.0 ** 6
l = [25 ** 6 / a, 6 * 25 ** 5 / a, 15 * 25 ** 4 / a, 20 * 25 ** 3 / a, 15 * 25 ** 2 / a, 6 * 25 / a, 1 / a]
print l
print np.array(l).sum()
print l[0] ** 10
print 24 ** 6 / 25.0 ** 6 
print 16 ** 6 / 26.0 ** 6
p = 1.0
for x in range(17, 27):
    p *= x / 26.0
print p
print p ** 6

[0.7903145257301459, 0.18967548617523503, 0.018967548617523502, 0.0010116025929345867, 3.0348077788037603e-05, 4.855692446086016e-07, 3.2371282973906776e-09]
1.0
0.0950604010209
0.782757789696
0.054310000665
0.136541903613
6.48030907641e-06


---
### Theano用法示例

In [2]:
import numpy as np
import theano
import theano.tensor as T
from theano import function as F
x = T.dscalar("x")
y = T.dscalar("y")
z = x + y
fc = F([x, y], z)
print(fc(2, 3))
l = T.fmatrix("l")
n = T.fmatrix("m")
m = T.sum(l, axis = 1)
func1 = F([l], m)
print(func1([[1.0, 1.0, 1.0], [2.0, 2.0, 2.0]]))

5.0
[ 3.  6.]


---
### numpy的相关API

In [19]:
a = np.array([[2, 3, 4], [5, 6, 7]])
print np.argmax(a)

5


### 列表相关操作

In [5]:
def has_same_attribute(l):
    if all([i == 1 for i in l]):
        print("all elements in {} is 1".format(l))
    else:
        print("some elements in {} is not 1".format(l))
    if any([i == 1 for i in l]):
        print("some elements in {} is 1".format(l))
    else:
        print("all elements in {} is not 1".format(l))
has_same_attribute([i for i in range(3)])
has_same_attribute([1, 1, 1])

some elements in [0, 1, 2] is not 1
some elements in [0, 1, 2] is 1
all elements in [1, 1, 1] is 1
some elements in [1, 1, 1] is 1


---
## numpy骚操作 

In [14]:
import numpy as np
l = np.array([[1, 2],[3, 4],[1, 5]])
dc = l[:,0]
print(dc)
print(np.where(dc == 1))
print(np.mgrid[:2][:3] == dc)[0]

[1 3 1]
(array([0, 2]),)




TypeError: 'bool' object has no attribute '__getitem__'

----
## KB-infoBot关键信息

1. agent的行为存储在`params['act_set']`中，共计四种:
    * request
    * inform
    * thanks
    * deny
2. dict_path中保存的是数据集上每个槽到槽中值的list的映射，是一个2进制文件，必须通过2进制读取
3. movie_kb（很多参数名为`movie_dict`）实际包含了
    * dict: 数据集上每个槽到槽值set的映射
    * length: 每个槽到槽中值set长度的映射(每个槽的槽值ID的上限，也可以用来表示UNK，也就是misssing value)
    * 每个slot下不同的token(不含停止词的单词)到槽值的index的映射
4. database的各种属性和函数
    1. 属性
        * labels: 每条记录的电影名
        * tuples: 每条记录出去电影名之外的6个slot的值
        * slots: 所有的slot（7个）
        * table: 将数据库转换为二维的纯数字表格，`table[i,j]`表示第i条记录的第j个slot的值在该slot的所有值组成的set中的index(槽值的id)
        * inv_index: 记录每个slot下每个槽值到其出现的行号列表的映射
        * 二维表格中每个元素的出现次数，和`table`的shape相同，表示的意义是count
        * inv_counts: 记录每个slot下每个槽值的id到其在该列出现次数的映射
        * priors: 记录每个slot下的每个slot value的先验分布，频率表示概率，不包括UNK
        * unks: table的每个column下的Missing_Value出现的行号
        * ids: 
    2. 函数
        * lookup:查找一个用户的query(按照database的属性顺序排序槽值list)，返回行号list和和对应得到行
    
5. agent的各种细节：
    * feature_extractor是干嘛的？怎么提取特征的？
    * agent和evaluate版本分别用于训练和测试
    * 继承了三个类：
        * E2ERLAgent: 初始化使用init model构造计算流图, 模型并不复杂
        * SoftDB
        * BeliefTracker: 
6. usersim的细节：
    * 用户模拟器，模拟用户的行为
        * 在在每轮对话开始时选随机抽样得到一个用户感兴趣的record并随机选择一个action，生成用户的提问
        * 在对话过程中，根据dialog state，运行next_turn函数，继续对话或者选择终止对话
7. dialog manager
    * initialize_episode：
        1. 调用user模拟器的initialize_episode：
            * 通过sample goal随机选择一个用户感兴趣的record
            * goal的形式:
               * 'request_slots': {'movie': 'UNK'}
               * 'target': 30
               * 'inform_slots' : {u'release_year': u'2009', u'critic_rating': None, u'actor': None, u'director': u'daniel henr\xedquez', u'mpaa_rating': None, u'genre': u'romance'}}
            * 通过sample action生成用户提问，向用户已知数据中加入噪音
            * corrupt会将已知的slot给搞混，因为用户的记忆是不可靠的，生成inform_slots_noisy，对inform_slots加入了噪音
            * 返回用户的action，其实就是对话的状态,action的形式是：
                * 'request_slots': {'movie': 'UNK'}, 用户想知道的东西
                * 'reward': 0, 该episode进行到该turn的reword
                * 'nl_sentence': u'I am looking for a movie with critic_rating 8.1 and genre drama.', NLG生成的NL回答
                * 'turn': 0
                * 'diaact': 'request', user的对话行为
                * 'inform_slots': {u'genre': u'drama', u'critic_rating': u'7.9'}, 用户已知的slots
                * 'inform_slots_noisy': {u'genre': u'drama', u'critic_rating': '8.1'}, 'prev_diaact': 'UNK', 'episode_over': False}，加入噪声之后的用户已知的slots表示
        2. 确保用户提出的问题，在数据库中能匹配到的记录`<=`5，~~这太bug了~~！！！
        
        3. 调用agent的initialize_episode 
            * ~~这里会发生什么呢？是我的话会怎么做呢？？~~
8. dialog config模块：
    * 主要包括可以查询的slot名称的列表，inform slot缺少了movie name
    * start_dia_acts在**哪用的？**
9. theano搭建神经网络的思维模式：
    * 使用T模块设置Variable
    * 使用L模块堆叠层
    * 使用get_output类似的函数获取输出
    * 设置function，指定由初始变量计算出loss
    * 运行该function