ch1_课后习题.txt

1.1:
只包含样本1和4，样本空间变为
    1 青绿 蜷缩 浊响 是
    2 乌黑 稍蜷 沉闷 否
只取是好瓜的看，包括(色泽=青绿；根蒂=蜷缩；敲声=浊响)
进行拓展：
    1 (色泽=青绿；根蒂=蜷缩；敲声=浊响)
    2 (色泽=*；根蒂=蜷缩；敲声=浊响)
    3 (色泽=青绿；根蒂=*；敲声=浊响)
    4 (色泽=青绿；根蒂=蜷缩；敲声=*)
    5 (色泽=*；根蒂=*；敲声=浊响)
    6 (色泽=*；根蒂=蜷缩；敲声=*)
    7 (色泽=青绿；根蒂=*；敲声=*)
    8 (色泽=*；根蒂=*；敲声=*)
由于8包含了坏瓜样本，故去掉，只取1-7作为版本空间：
    1 (色泽=青绿；根蒂=蜷缩；敲声=浊响)
    2 (色泽=*；根蒂=蜷缩；敲声=浊响)
    3 (色泽=青绿；根蒂=*；敲声=浊响)
    4 (色泽=青绿；根蒂=蜷缩；敲声=*)
    5 (色泽=*；根蒂=*；敲声=浊响)
    6 (色泽=*；根蒂=蜷缩；敲声=*)
    7 (色泽=青绿；根蒂=*；敲声=*)

1.2:
样本空间： 3*4*4+1 = 49 k最大取2*3*3=18，即所有具体属性假设的析取式
k=1时，49种
k=18时，1种
k取中间值，暂未解

1.3:
可以同时去掉所有具有相同属性而不同分类的数据，留下的数据就是没误差的数据

1.4:
还是考虑二分类问题，NFL首先要保证真是目标函数f均匀分布，对于有X个样本的二分类问题，显然f共有2X种情况。其中一半是与假设一致的，也就 P(f(x)=h(x))=0.5。 
此时， ∑fl(h(x),f(x))=0.5∗2X∗(l(h(x)=f(x))+l(h(x)≠f(x))) 
l(h(x)=f(x))+l(h(x)≠f(x))应该是个常数，如果性能度量为错误率，二者各为0.5，则该值为1，如果为其他性能度量，隐含的条件就该是(一个比较合理的充分条件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不满足， NFL 应该就不成立了(或者不那么容易证明)。

1.5:
    1.最常见的，消息推送，比如某东经常说某些商品我可能会感兴趣，然而并没有。 
    2.网站相关度排行，通过点击量，网页内容进行综合分析。 
    3.图片搜索，现在大部分还是通过标签来搜索，不过基于像素的搜索也总会有的吧。