Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【第1章绪论】待推导或待解析公式征集+答疑专区 #60

Open
Sm1les opened this issue Jul 25, 2019 · 24 comments
Open

【第1章绪论】待推导或待解析公式征集+答疑专区 #60

Sm1les opened this issue Jul 25, 2019 · 24 comments

Comments

@Sm1les
Copy link
Contributor

Sm1les commented Jul 25, 2019

在这里,你可以:
1.评论留下西瓜书第1章你觉得需要补充推导细节或者解析的公式编号,我们看到后会尽快进行补充;
2.评论留下你对南瓜书第1章里相关内容的疑问,我们看到后会尽快进行答疑。

@SkyGra
Copy link

SkyGra commented Aug 27, 2019

你好,
公式1.1,训练集外误差怎么理解呢?那个公式是怎么来的,有这样的一个现成的公式吗,还是作者自己给出的?尤其是那两个求和符号如何理解呢
谢谢

@Sm1les
Copy link
Contributor Author

Sm1les commented Aug 28, 2019

@SkyGra 同学你好,公式1.1计算的实际是误差的期望值,也就是在计算某个算法能学习出来的所有可能模型在训练集之外的所有样本上的误差的期望,第一个求和符号相当于在遍历这个算法能学习出来的所有可能模型,第二个求和符号就是在遍历训练集之外的所有样本,两个求和符号后面的式子表示的就是具体的模型在具体的样本上所产生的误差期望值。这个公式具体是作者提出的还是现有的这个我没有深究过,如果你有查到相关资料的话可以反馈一下 :)

@kevinlemon
Copy link

你好, 有一个计算过程不太理解:
书第5页,图1.1上方,为什么“色泽、根蒂、敲声分别有3,3,3种可能“ 可以推导出”面临的假设空间规模大小为4x4x4+1=65”?

@Sm1les
Copy link
Contributor Author

Sm1les commented Sep 3, 2019

@kevinlemon 同学你好,我的理解是这样的,对于每个假设来说,色泽、根蒂、敲声这三个特征的取值是有3种确定值+任意值(*)共4种可能取值,所以假设空间的规模大小为4x4x4+1(空集)=65

@kevinlemon
Copy link

@Sm1les 好的,谢谢。最后的加1是空集啊,明白了

@yuruotong1
Copy link

谢谢您的解答,我也存在一个问题

计算真实目标函数的总量时,为什么用样本空间(\chi),难道不是训练集外的样本空间(\chi-X)吗

@Sm1les
Copy link
Contributor Author

Sm1les commented Oct 28, 2019

@yuruotong1 同学你好,能具体标注一下你说的是西瓜书的哪一页的哪一部分内容吗?

@yuruotong1
Copy link

@Sm1les 谢谢您,我貌似懂了,是绪论中的那个推导公式,样本空间的所有样本都应该有目标函数和假设,所以范围是|\chi|而不是\chi-X!

@hehuakun hehuakun mentioned this issue Nov 25, 2019
@hehuakun
Copy link

请教大家一下,公式1.1中的P(x)代表什么呢?

@zezhishao
Copy link

请教大家一下,公式1.1中的P(x)代表什么呢?

就是指样本空间X(那个长得奇奇怪怪的X)中该样本(粗体x)出现的概率呀。

@hehuakun
Copy link

能否举例说明下1.1这个公式的意义,概率论没学好,感觉很难理解啊。比如为啥P(x)*h出现的概率就是误差呢?

@zezhishao
Copy link

能否举例说明下1.1这个公式的意义,概率论没学好,感觉很难理解啊。比如为啥P(x)*h出现的概率就是误差呢?

不知你说的是不是这个公式:
image
并不是P(x)*h呀?

@hehuakun
Copy link

就是这个公式,加和符号后面的三部分乘积为啥是误差呢?

@zezhishao
Copy link

能否举例说明下1.1这个公式的意义,概率论没学好,感觉很难理解啊。比如为啥P(x)*h出现的概率就是误差呢?

对于一个训练集,他可能会生出不同的模型h,每个模型都有自己的被“生出来”概率(最后一个P)。在该模型下,去测试一下不在训练集内的数据x(前面要乘以每一个x的出现概率P)。假如判准了,中间那一项就是0,否则就是1,会产生误差。

最坏的情况,假设所有的训练集外的数据都判错了,那么这个概率就是“1”,也就是100%错误(泛化能力为0)。

@hehuakun
Copy link

感谢,看了后面习题,此处的性能度量是错误率而非误差,这是一个分类问题而不是回归问题,我一直当做了回归问题来处理,再次感谢耐心的指导!

@dengxinglin
Copy link

谢谢您的解答

@JIANFANGLIU
Copy link

大家好,为什么书里面说表1.1训练集所对应的版本空间是图1.2所示,

@yang9832
Copy link

大家好,为什么书里面说表1.1训练集所对应的版本空间是图1.2所示,

1.1的示例中有两个好瓜,分别是1.(色泽:青绿; 根蒂:蜷缩; 敲声:浊响);2.(色泽:乌黑; 根蒂:蜷缩; 敲声:浊响)。根据假设空间,图1.2下面的假设符合上述两个好瓜,然后将敲声改为通配符(但仍包含浊响)或将根蒂改为通配符(仍包含蜷缩),就得到图1.2上面两个假设。最后三个假设都能符合表1.1里的好瓜,但如果三个特征都是通配符,那就包含了表1.1里的两个“坏瓜”。

@Aikoin
Copy link

Aikoin commented Sep 6, 2022

您好^^!请问公式(1.2)中第二步到第三步,既是计算训练集外(X-X)误差,为何为2^|X|而不是2^|X-X|呢?
image

@bghfcd19900
Copy link

bghfcd19900 commented Sep 6, 2022 via email

@Aikoin
Copy link

Aikoin commented Sep 6, 2022

您好!请问本书课后习题有没有较为官方的解答呢?想请教一下习题1.2的思路,有点想不出来T^T

@Sm1les
Copy link
Contributor Author

Sm1les commented Sep 13, 2022

@Aikoin 同学你好,暂时还没有,但是在我们的计划中,但是可能还得鸽一段时间,目前正在加紧赶2.0版本的南瓜书•﹏•

@Aikoin
Copy link

Aikoin commented Sep 17, 2022

@Aikoin 同学你好,暂时还没有,但是在我们的计划中,但是可能还得鸽一段时间,目前正在加紧赶2.0版本的南瓜书•﹏•

耶!感谢~辛苦啦!(๑˙ー˙๑)/♡

@Burgerd4sh
Copy link

#60 (comment)

对于这个式子我也有同样的疑问,该式子是南瓜书第一章第4页“没有免费午餐定理”的简单证明里面的。
对于前面的评论中所解释的“样本空间的所有样本都应该有目标函数和假设”我有些疑惑,$f$ 难道不需要在数据集上是正确的吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests