-
Notifications
You must be signed in to change notification settings - Fork 12
/
ch1_课后习题.txt
41 lines (37 loc) · 2.11 KB
/
ch1_课后习题.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
1.1:
只包含样本1和4,样本空间变为
1 青绿 蜷缩 浊响 是
2 乌黑 稍蜷 沉闷 否
只取是好瓜的看,包括(色泽=青绿;根蒂=蜷缩;敲声=浊响)
进行拓展:
1 (色泽=青绿;根蒂=蜷缩;敲声=浊响)
2 (色泽=*;根蒂=蜷缩;敲声=浊响)
3 (色泽=青绿;根蒂=*;敲声=浊响)
4 (色泽=青绿;根蒂=蜷缩;敲声=*)
5 (色泽=*;根蒂=*;敲声=浊响)
6 (色泽=*;根蒂=蜷缩;敲声=*)
7 (色泽=青绿;根蒂=*;敲声=*)
8 (色泽=*;根蒂=*;敲声=*)
由于8包含了坏瓜样本,故去掉,只取1-7作为版本空间:
1 (色泽=青绿;根蒂=蜷缩;敲声=浊响)
2 (色泽=*;根蒂=蜷缩;敲声=浊响)
3 (色泽=青绿;根蒂=*;敲声=浊响)
4 (色泽=青绿;根蒂=蜷缩;敲声=*)
5 (色泽=*;根蒂=*;敲声=浊响)
6 (色泽=*;根蒂=蜷缩;敲声=*)
7 (色泽=青绿;根蒂=*;敲声=*)
1.2:
样本空间: 3*4*4+1 = 49 k最大取2*3*3=18,即所有具体属性假设的析取式
k=1时,49种
k=18时,1种
k取中间值,暂未解
1.3:
可以同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据
1.4:
还是考虑二分类问题,NFL首先要保证真是目标函数f均匀分布,对于有X个样本的二分类问题,显然f共有2X种情况。其中一半是与假设一致的,也就 P(f(x)=h(x))=0.5。
此时, ∑fl(h(x),f(x))=0.5∗2X∗(l(h(x)=f(x))+l(h(x)≠f(x)))
l(h(x)=f(x))+l(h(x)≠f(x))应该是个常数,如果性能度量为错误率,二者各为0.5,则该值为1,如果为其他性能度量,隐含的条件就该是(一个比较合理的充分条件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不满足, NFL 应该就不成立了(或者不那么容易证明)。
1.5:
1.最常见的,消息推送,比如某东经常说某些商品我可能会感兴趣,然而并没有。
2.网站相关度排行,通过点击量,网页内容进行综合分析。
3.图片搜索,现在大部分还是通过标签来搜索,不过基于像素的搜索也总会有的吧。